ViTAR: Vision Transformer with Any Resolution

Abstract

Grid Attention, Fuzzy PE를 통해 낮은 비용으로 다양한 해상도의 이미지를 처리하는 Vision Transformer with Any Resolution (ViTAR) 제안

[arXiv](2024/03/28 version v2)

입력을 일정한 크기의 grid로 나누고 그리드 내 평균 토큰을 Q, 나머지를 K, V로 attention을 수행한 뒤 FFN을 통과한다.

동일한 가중치를 가진 ATM block을 여러 번 반복하여 목표 해상도 G_h × G_w 까지 줄인다.

가장자리의 grid에 패딩 토큰만 존재하는 경우를 방지하기 위해 가장자리 근처의 각 grid에 패딩을 적절하게 배치하는 grid padding을 사용.

기존의 위치 인코딩 방법들은 입력 해상도의 변화에 취약하다.

Fuzzy PE는 훈련 시 토큰의 위치 정보에 무작위 offset을 추가한 임베딩을 사용.

Offset 크기가 0.5 이하라 Grid attention에 속하는 토큰의 수는 변하지 않을 듯?

추론 시에는 정확한 PE를 사용하며, 입력 해상도가 변경될 경우 PE에 대한 보간을 수행한다.

훈련에서 Fuzzy PE에 대해 적응했기 때문에 보간 된 위치에 대해서도 적응할 수 있다.

다른 처리 없이 기본적인 cross-entropy loss에만 의존하여 다양한 해상도에서 훈련한다.

Classification

Detection

Segmentation

Grounding DINO 1.5: Advance the "Edge" of Open-Set Object Detection (0)	2024.05.22
CatLIP: CLIP-level Visual Recognition Accuracy with 2.7x Faster Pre-training on Web-scale Image-Text Data (0)	2024.04.26
Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction (VAR) (0)	2024.04.08
Fast High-Resolution Image Synthesis with Latent Adversarial Diffusion Distillation (SD3-Turbo, LADD) (0)	2024.03.21
Scaling Rectified Flow Transformers for High-Resolution Image Synthesis (Stable Diffusion 3) (2)	2024.03.15
PixArt-Σ: Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation (0)	2024.03.14