본문 바로가기

논문 리뷰/Vision Transformer

Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection

DINO를 open-set detector로 개조






Transformer 기반 detector인 DINO와 grounded pre-training을 결합한 Grounding DINO 제안.




인간이 지정한 임의의 객체를 감지하는 것을 open-set object detection이라고 명명.


언어와 이미지를 모두 처리할 수 있고 대규모 데이터를 활용할 수 있는 transformer인 DINO 채택.


기본적인 open-set detector:

Closed-set detector를 세 부분으로 나누고 neck, head의 출력에 대조 손실을, 세 번의 feature fusion을 통해 open-set detection을 달성.


  • 더 나은 feature fusion이 모델 성능을 향상할 수 있다고 가정하고 feature enhancer 설계
  • Head에 대한 쿼리를 초기화하는 language-guided query selection method 개발
  • 쿼리 표현을 향상하기 위해 head에 대한 cross-modality decoder 설계




Grounding DINO

Grounding DINO는 주어진 (image, text) 쌍에 대해 object box와 명사구를 출력.

REC(refrring expression comprehension) : 각 텍스트 입력에 대한 경계상자 중 점수가 높은 object를 출력.


Feature Extraction and Enhancer

백본 모델을 통해 multi-scale image, text feature를 추출하고 self attention, cross attention.

Language-Guided Query Selection

위 과정으로 뽑은 쿼리를 DINO의 혼합 쿼리 선택의 위치 쿼리로 초기화.

Cross-Modality Decoder

DINO의 디코더에서 text cross attention 레이어 추가.

Sub-Sentence Level Text Feature

(a) : 단어 사이의 영향이 제거되고 세밀한 정보를 잃음

(b) : 관련 없는 단어들 간의 불필요한 종속성이 생김

따라서 (c)와 같은 attention mask 도입.

Loss Function

DETR-like 모델과 같이 L1 loss, GIOU loss,

GLIP과 같이 대조 손실 사용.

(따로 수식으로 정리되어 있지 않고 간략하게만 언급됨.)




