본문 바로가기

논문 리뷰/Vision Transformer

EVA: Exploring the Limits of Masked Visual Representation Learning at Scale

CLIP의 시각적 표현을 10억 개의 피라미터를 가진 ViT 모델로 scale-up 하는 MIM pre-training 작업

 

[Github]

[arXiv](Current version v2)

 

Abstract

EVA는 마스크 된 vision feature를 재구성하도록 사전 훈련된 바닐라 ViT 모델이다. EVA는 다양한 다운스트림 작업에 적용할 수 있다.

 

 

Introduction

수천만 개의 non-label 데이터와 10억 개의 매개변수 규모에서 대규모 비전 표현 학습에 적합한 MIM(Masked Image Modeling) pretext 작업을 탐색한다.

 

연구진은 경험적으로 단순히 이미지-텍스트 정렬된 vision feature(CLIP)를 예측 대상으로 사용하는 것이 다운스트림 작업에서 좋은 성능을 달성한다는 것을 발견했다.

 

이 MIM pretext 작업을 통해 CLIP의 시각적 표현을 10억 개의 피라미터를 가진 ViT 모델로 scale-up 할 수 있다.

 

 

 

Fly EVA to the Moon

The Feature Instrumentality Project

Pre-training의 2가지 유망한 후보:

  • 마스크 된 vision token 재구성
  • Feature distillation

 

연구진은 일련의 실험을 통해 다음을 발견함:

추가적인 CLIP feature 토큰화나 증류나 다 필요 없음.

그냥 단순히 마스크 된 CLIP vision feature를 재구성하면 좋은 성능이 나온다.

 

Pre-training

Architecture

Vanilla ViT이다.

 

Pre-training objective

EVA는 Block-wise Masking 된 이미지를 재구성하도록 훈련됨.

출처:https://jhtobigs.oopy.io/beit

재구성된 이미지는 정규화 후 CLIP feature와 동일한 차원으로 투영되고 손실은 Ground Truth와의 음의 코사인 유사성으로 계산된다.