EVA-02: A Visual Representation for Neon Genesis

Architecture 개선, EVA-01의 visual feature space 계승

[arXiv](Current version v2)

Abstract

MIM(Masked Image Modeling)을 통해 language-aligned vision feature를 재구성하도록 사전 훈련된 차세대 Transformer 기반 시각적 표현인 EVA-02 출시.

MIM pre-training을 통해 CLIP의 시각적 표현과 적당한 모델 크기를 갖춘 강력하게 최적화된 ViT 시리즈인 EVA-02 제시.

EVA-02 시리즈는 6M부터 304M까지 다양한 모델 크기가 포함되어 있으며 다운스트림 작업에 탁월한 성능을 보여줌.

각 모델을 MIM 교사로 사용했을 때의 정확도:

EVA-01 교사는 오히려 성능이 떨어졌다. (a)

연구진은 EVA-01의 많은 피라미터로 인해 더 많은 pre-training이 필요하다고 가정하여 실험했다. (b)

(근데 다른 모델을 교사로 TrV를 교육한 결과는 왜 없음? 통계조작 아님?)

더 큰 데이터셋에 대해 학습하면 더 성능 좋아짐 (c)

Label이 있는 데이터로 추가 fine-tuning을 하면 성능을 더 향상할 수 있다.

Model variants

Pre-training objective

학습 과정은 목표 모델이 CLIP에서 EVA-01로 바뀐 거 말고는 EVA-01과 똑같음.

PixArt-α: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis (0)	2023.12.17
Language Model Beats Diffusion -- Tokenizer is Key to Visual Generation (MAGVIT-v2) (1)	2023.12.15
EVA-CLIP: Improved Training Techniques for CLIP at Scale (0)	2023.10.19
EVA: Exploring the Limits of Masked Visual Representation Learning at Scale (1)	2023.10.18
Semantic-SAM: Segment and Recognize Anything at Any Granularity (1)	2023.10.18
ProPainter: Improving Propagation and Transformer for Video Inpainting (3)	2023.10.12