본문 바로가기

논문 리뷰/Vision Transformer

Tag2Text: Guiding Vision-Language Model via Image Tagging

Detector가 아닌 tagging을 이용한 vision-language pretraining framework

 

Github

arXiv

 

 

Abstract

Vision-language model 모델에 이미지 태깅을 도입하는 vision-language pretraining(VLP) 프레임워크인 Tag2Text 제안

 

 

Introduction

(1) Detector 기반 기존의 vision-language (V+L) task framework

(2) Image tagging을 이용한 새로운 방식

  • 자동적인 text semantic parsing을 통해 대규모 데이터 사용 가능
  • 태그 카테고리가 단순 객체를 넘어 장면, 속성, 동작과 같이 다양하기 때문에 image-text의 더 나은 연결을 제공
  • Detector보다 가벼움

 

위와 같은 이유로 Tag2Text 제안.

 

 

 

Approach

Mining Tags from Texts

Text Semantic Parser는 입력 문장에서 entity(head+modifier)와 관계를 식별하여 이미지의 태그를 얻음.

 

Tag Category System의 구성은 빈도가 높은 태그가 이미지 설명의 공통 요소를 반영하기 때문에 더 중요하게 간주된다는 원칙을 기반으로 400만 개의 오픈소스 image-text 쌍 약 3000개의 태그 선택.


Overview Framework


Tag2Text Pre-training

Image Tagging

이미지의 feature를 해당 태그와 연결하는 것을 목표로 하는 image-tag recognition decoder 사용.

Asymmetric Loss로 훈련.

 

Image-Tag-Text Generation

자기회귀 방식의 단방향 언어 모델을 통해 태그와 이미지의 feature를 입력으로 텍스트를 생성하도록 함.

본 논문의 방식은 (c)

 

Image-Text Alignment

Image-Text Contrastive Loss(ITC), Image-Text Matching Loss(ITM)를 통해 image-text 정렬