본문 바로가기

논문 리뷰/Vision Transformer

DINO: DETR with Improved DeNoising AnchorBoxes for End-to-End Object Detection 논문 리뷰

DAB-DETR, DN-DETR, Deformable DETR에서 아이디어를 가져와 개선하여 큰 성능 향상을 이끌어낸 DETR 유사 모델이다.

 

Facebookresearch의 DINO가 아닙니다... 2022년 3월에 나온, DN-DETR의 후속작이자 Mask DINO의 발판이 된 논문입니다.

 

Github

Arxiv

 

 

 

 

Abstract

최첨단 end-to-end 객체 탐지기인 DINO(DETR with Improved deNoising anchOr boxes)를 소개한다. DINO는 denoising training을 위한 contrastive way, 앵커 초기화를 위한 mixed query selection method, 박스 예측을 위한 look forward twice scheme를 사용하여 이전의 DETR 유사 모델에 비해 성능과 효율성을 향상시킨다.

 

 

 

Introduction

DETR의 개선 모델들인 DAB-DETR, DN-DETR, Deformable DETR을 기반으로 DINO라는 새로운 DETR 유사 모델을 설계한다. DINO는 다음 그림과 같이 매우 우수한 성능을 보여준다.

 

DINO는 DETR을 기본으로 DAB-DETR의 동적 앵커 박스, DN-DETR의 노이즈 제거 훈련, 그리고 deformable attention을 채택하며 또한 3가지 새로운 방법을 제안한다.

  • 일대일 매칭을 개선하기 위해 ground truth 양성 샘플과 음성 샘플을 동시에 추가하여 대조적인 노이즈 제거 훈련을 제안한다. 동일한 GT 박스에 두 가지 다른 노이즈를 추가한 후 더 작은 노이즈가 있는 상자를 양으로 표시하고 다른 노이즈를 음으로 표시한다.
  • 인코더 출력에서 초기 앵커 박스를 위치 쿼리로 선택하여 쿼리를 더 잘 초기화하는 데 도움이 되는 혼합 쿼리 선택 방법을 제안한다.
  • 뒷 레이어에서 정제된 박스 정보를 활용하여 인접 앞 레이어의 피라미터를 최적화하는 데 도움이 되도록 하기 위해, 뒷 레이어에서 gradient로 업데이트된 매개 변수를 수정하는 새로운 look forward twice 방식을 제안한다.

 

 

 

 

Related Work

DETR

Deformable DETR

DAB-DETR

DN-DETR

 

 

 

DINO: DETR with Improved DeNoising Anchor Boxes

Preliminaries

DAB-DETR에서 쿼리는 위치 파트(훈련 가능한 쿼리)와 content 파트(디코더 임베딩)로 구성되며, 4D 앵커 박스(x,y,w,h)를 사용한다. 앵커박스는 계층별로 동적으로 업데이트된다.

 

DN-DETR은 훈련 초기의 모호한 이분 매칭이 느린 수렴을 야기한다는 것을 발견하고 노이즈를 섞은 GT 박스를 추가로 훈련시켜 훈련을 가속화하는 노이즈 제거 훈련을 도입했다.

 

Deformable DETR은 수렴 속도를 높이기 위해 기준점 주변의 키 샘플링 포인트 세트에 집중하는 deformable attention을 도입했다. 이 기준점 개념은 인코더 출력과 참조 상자를 직접 디코더에 대한 입력으로 선택하는 쿼리 선택과 두 디코더 계층 사이의 gradient 분리 설계를 통한 반복적인 경계 상자 개선을 가능하게 한다.

 

Model Overview

인코더까지는 특별할 것은 없다. 새로운 혼합 쿼리 선택에 의해 앵커를 초기화하고 인코더와 디코더가 결합되는 부분에서 deformable attention을 사용한다. 또한 동적 앵커 박스와 노이즈 제거 훈련, look forward twice 전략을 사용한다.

 

Contrastive DeNoising Training

노이즈 제거 훈련은 근처에 물체가 없는 앵커에 대해서는 "물체가 없다"고 예측하는 기능이 부족하다. 따라서 contrastive denoising(CDN)을 제안한다.

 

같은 GT 박스에 대해 양성 샘플에는 적은 노이즈 λ1을, 음성 샘플에는 큰 노이즈 λ2를 추가한다. 음성 샘플은 "객체 없음"을 예측하도록 훈련된다. GT와 가까운 hard negative 샘플이 성능 향상에 더 도움이 되기 때문에 λ2는 λ1보다 크면서 최대한 작게 한다.

 

CDN은 본래 노이즈 제거 훈련의 목적인 '좋은 앵커' 예측을 향상하고 중복 예측 문제를 개선한다.

 

Mixed Query Selection

디코더의 쿼리는 다음 그림의 (a)와 같이 인코더 feature를 가져오지 않는 정적 임베딩이다.

Deformable DETR에는 쿼리 선택 변형이 있는데, (b)처럼 선택된 인코더 feature에 의해 content 쿼리와 위치 쿼리가 모두 생성된다.

 

DINO에서도 쿼리 선택을 채택하지만 다른 점은 위치 쿼리만 초기화하고 content 쿼리(디코더 임베딩)는 학습할 수 있도록 유지한다.

 

Look Forward Twice

Deformable DETR에서는 optical flow estimation에서 영감을 얻어 훈련 안정화를 위해 gradient 역전파를 차단하고 각 디코더 계층에서의 보조 손실만을 기준으로 업데이트 하는 반복 경계 상자 개선 메커니즘을 사용한다.

연구진은 이를 look forward once로 명명하고 새로운 look forward twice를 제안했다.

 

이는 뒷 레이어에서 개선된 박스 정보가 앞 레이어에서의 박스 예측을 수정하는 데도 도움이 될 수 있기 때문이다.

 

 

 

Experiments

Detection on COCO 2017 val with 12 epochs

 

High epochs

 

Training convergence curve

 

Comparison with SOTA models

 

Ablation

 

Person detection

왼쪽은 DN-DETR, 오른쪽은 DINO

휜색 화살표의 소년은 DN-DETR에서 여러 개의 중복 상자를 가지고 있지만 DINO에서는 그렇지 않다.

 

 

 

Conclusion

Contrastive denoising training, mixed query selection, look forward twice를 사용하는 DINO를 제안하여 성능을 크게 향상시켰다.