본문 바로가기

논문 리뷰/Vision Transformer

Recognize Anything: A Strong Image Tagging Model (RAM)

이미지 태깅을 위한 foundation model

 

Project Page

 

 

Abstract

이미지 태깅을 위한 강력한 foundation model인 RAM(Recognize Anything Model) 제안

 

 

Introduction

  • Label System : 보편적이고 통합된 label system 구축
  • Dataset : Label system으로 대규모 이미지에 자동으로 주석 추가
  • Data Engine : 모델을 활용하여 주성을 생성, 필터링하는 데이터 엔진 구축
  • Model : Tag2Text와 달리 zero-shot 일반화 가능

 

훈련 과정

  • 대규모 데이터셋에서 pretrain
  • RAM 훈련
  • 데이터 엔진을 통해 데이터셋 보강, 필터링
  • RAM fine-tuning

 

RAM의 장점

  • 강력한 zero-shot 일반화, 태깅 능력
  • 고품질 데이터를 직접 수집하지 않아도 됨
  • 가벼움
  • 유연함

 

 

 

Recognize Anything Model

Model Architecture

Tag2Text와 유사한 아키텍처.

Text Semantic Parser를 통해 수동 주석 없이 대규모 태그 제공.

Tag2Text와의 주요 차이점은 훈련 중에 보지 못한 카테고리를 인식할 수 있다는 것.


Open-Vocabulary Recognition

일반화를 위해 기성 텍스트 인코더로 recognition decoder에 query 제공.


Model Efficiency

대규모 데이터에서 pretrain 후 소규모 고품질 데이터에서 fine-tuning

 

추론 단계에서는 recognition decoder의 self attention 계층을 제거하여 계산 효율성을 높이고 label query 간의 잠재적 간섭을 피함.

결과적으로 고정된 카테고리 및 수량 대신 사용자가 지정한 모든 카테고리 및 수량에 대한 label query 활용 가능.

 

 

 

Data

Label System

Label system의 기본 원칙

  • Image-text 쌍에 자주 나타나는 태그일수록 더 가치있다.
  • scene, attribute, action 등 다양한 context가 표현되어야 한다.
  • 너무 많지 않은 적당한 양의 태그

 

SceneGraphParser와 약간의 수작업으로 태그를 수집, 필터링하여 label system 구축.

RAM은 약 6000개의 고정 태그를 인식 가능.


Datasets

대규모 오픈소스 데이터셋에서 RAM 사전 훈련.


Data Engine

Pretrained RAM으로 데이터 보완.

RAM, Grounding DINO, K-Means++ 등의 모델을 통해 이상치 필터링

 

 

 

Experiment