CLIP의 시각적 표현을 10억 개의 피라미터를 가진 ViT 모델로 scale-up 하는 MIM pre-training 작업
[Github]
[arXiv](Current version v2)
Abstract
EVA는 마스크 된 vision feature를 재구성하도록 사전 훈련된 바닐라 ViT 모델이다. EVA는 다양한 다운스트림 작업에 적용할 수 있다.
Introduction
수천만 개의 non-label 데이터와 10억 개의 매개변수 규모에서 대규모 비전 표현 학습에 적합한 MIM(Masked Image Modeling) pretext 작업을 탐색한다.
연구진은 경험적으로 단순히 이미지-텍스트 정렬된 vision feature(CLIP)를 예측 대상으로 사용하는 것이 다운스트림 작업에서 좋은 성능을 달성한다는 것을 발견했다.
이 MIM pretext 작업을 통해 CLIP의 시각적 표현을 10억 개의 피라미터를 가진 ViT 모델로 scale-up 할 수 있다.
Fly EVA to the Moon
The Feature Instrumentality Project
Pre-training의 2가지 유망한 후보:
- 마스크 된 vision token 재구성
- Feature distillation
연구진은 일련의 실험을 통해 다음을 발견함:
추가적인 CLIP feature 토큰화나 증류나 다 필요 없음.
그냥 단순히 마스크 된 CLIP vision feature를 재구성하면 좋은 성능이 나온다.
Pre-training
Architecture
Vanilla ViT이다.
Pre-training objective
EVA는 Block-wise Masking 된 이미지를 재구성하도록 훈련됨.
재구성된 이미지는 정규화 후 CLIP feature와 동일한 차원으로 투영되고 손실은 Ground Truth와의 음의 코사인 유사성으로 계산된다.
'논문 리뷰 > Vision Transformer' 카테고리의 다른 글
Language Model Beats Diffusion -- Tokenizer is Key to Visual Generation (MAGVIT-v2) (1) | 2023.12.15 |
---|---|
EVA-CLIP: Improved Training Techniques for CLIP at Scale (0) | 2023.10.19 |
EVA-02: A Visual Representation for Neon Genesis (1) | 2023.10.19 |
Semantic-SAM: Segment and Recognize Anything at Any Granularity (1) | 2023.10.18 |
ProPainter: Improving Propagation and Transformer for Video Inpainting (3) | 2023.10.12 |
Flow-Guided Transformer for Video Inpainting (FGT) (0) | 2023.10.12 |