본문 바로가기

논문 리뷰/Vision Transformer

CatLIP: CLIP-level Visual Recognition Accuracy with 2.7x Faster Pre-training on Web-scale Image-Text Data

 

Abstract

Image-text pretraining을 분류 작업으로 재구성하여 성능을 유지하면서도 빠르게 훈련할 수 있는 CatLIP 제안

 

[Github]

[arXiv](2024/04/24 version v1)

 

 

 

CatLIP: Contrastive to Categorical Learning

대조 학습을 통한 image-text pretraining을 분류 작업으로 casting 한다.

Global pair와의 유사성을 계산해야 하는 대조 학습보다 훨씬 빠르다.

 

Caption-derived classification labels

아래와 같은 과정을 통해 웹에서 image-text 데이터를 수집하여 기존의 CC3M dataset을 증강한다.

이 과정에서 WordNet이 사용되므로 class 대신 synset이라는 단어를 쓴다.

 

다양성과 샘플 수가 크게 증가하였다.

 


CatLIP pre-training

샘플이 적은 synset을 제거하고 분류 작업으로 훈련한다.

훨씬 빠르게 최적화되면서 성능 저하는 없는 수준이다.

 

Linear probing 결과: (Linear probing: 사전 훈련된 모델을 head만 바꿔서 downstream task에 사용함)

Linear probing 결과