Scalable Pre-training of Large Autoregressive Image Models (AIM)

[arXiv](2024/01/16 version v1)

Abstract

Autoregressive objective를 통해 ViT를 크게 확장하여 downstream task에서 강력한 성능을 보여주는 대규모 비전 모델인 AIM(Autoregressive Image Model) 구축

Common Crawl에서 Data Filtering Nework로 필터링된 12.8B text-image pair가 있는 DFN dataset에서 alignment score가 상위 15%인 DFN-2B dataset이 있다.

LLM 사전 훈련의 일반적인 관행에서 착안하여 p = 0.8로 DFN-2B에서 샘플링하고 p = 0.2로 ImageNet-1K에서 이미지를 샘플링한다. 이러한 데이터셋을 DFN-2B+라고 한다.

일반적인 자기회귀 목표를 따르며,

손실은 negative log-likelihood로 정의된다.

Prediction loss

피라미터 θ에 대한 normalized pixel-level regression loss:

Backbone은 ViT이다.

깊이보다는 너비 확장을 우선시한다.

Prefix Transformer

자기회귀 모델에서 현재 생성 중인 패치 이후의 패치를 보지 못하도록 하는 causal mask는 그 작동 방식이 ViT와 달라 다운스트림 작업에서 성능이 저하된다.

이 문제를 해결하기 위해 PrefixLM과 같이 초기 패치 일부를 prefix로 지정하여 모든 패치에서 볼 수 있도록 mask를 제거한다. 이를 통해 causal mask가 없는 다운스트림 작업에 적응할 수 있다.

MLP prediction heads

사전 훈련 목표에 너무 특화되는 것을 막기 위해 훈련에만 특정한 head를 사용하는 것은 일반적인 관행이다.

본문에서는 최종 레이어 위에 N개의 MLP를 추가하여 각 패치를 독립적으로 처리하는 단순한 설계를 채택했다.

Straightforward implementation

Downstream adaptation

대규모 모델은 fine-tuning 하기 까다롭기 때문에 다운스트림 작업에서는 classification head만 훈련한다.

손실은 패치마다 각각 계산되어 image-level의 토큰이 없기 때문에 global avg pooling 대신 선형 분류기에 입력하기 전 multihead attention pooling을 사용한다.

Multihead attention pooling은 각 attention head 별로 학습 가능한 쿼리 q와 각 패치에 대한 cross-attention을 수행하여 global descriptor p̂을 얻는 것이다.

각 패치 p_i, 학습 가능한 쿼리 벡터 q, attention head h, projection weight W에 대해:

Multihead attention pooling의 장점은 패치 수준의 손실을 사용할 때, 다운스트림 작업에서 적은 수의 피라미터를 추가하면서도 global feature를 집계할 수 있다는 것이다.

LLM과 같이 모델 크기, 반복 횟수, 데이터셋 크기가 증가함에 따라 성능이 포화되지 않고 꾸준히 증가함을 볼 수 있다.

Downstream evaluation

Ablation

EVA-CLIP-18B: Scaling CLIP to 18 Billion Parameters (1)	2024.02.20
Rethinking Patch Dependence for Masked Autoencoders (CrossMAE) (1)	2024.01.30
Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data (6)	2024.01.26
PIXART-δ: Fast and Controllable Image Generation with Latent Consistency Models (0)	2024.01.17
Denoising Vision Transformers (DVT) (0)	2024.01.10
Alternating Gradient Descent and Mixture-of-Experts for Integrated Multimodal Perception (IMP) (0)	2023.12.28