본문 바로가기

논문 리뷰/etc.

TOOD: Task-aligned One-stage Object Detection

[Project Page]

[Github]

[arXiv](2021/08/28 version v3)

 

 

 

Abstract

One-stage object detection에서 classification과 localization을 명시적으로 정렬하는 새로운 정렬 헤드 T-Head와 학습 방법인 Task Alignment Learning 제안

 

 

Task-aligned One-stage Object Detection

TOOD는 1-stage dectection에 보편적인 backbone-FPN-head의 구조를 가진다.

 

  • Task-aligned Head
  • Task Alignment Learning

정렬된 앵커를 통해 offset과 prob를 조정

 

Task-aligned Head

T-Head는 2개의 Task-aligned predictor가 있는 간단한 feature extractor이다.

 

Xinter는 conv와 relu로 구성됨.

 

Task-aligned Predictor (TAP)

두 head는 다른 작업을 하지만 같은 feature를 사용함으로써 필연적으로 feature 충돌이 발생하는데, 이를 피하기 위해 TAP를 도입했다.

 

각 작업과 Xinter의 각 레이어에 대해 서로 다른 가중치 w를 적용하는 layer attention을 도입한다.

 

Prediction alignment

추가적으로 두 head의 공간 분포를 조정하여 두 작업을 명시적으로 정렬한다.

 

Interactive feature로부터 학습된 spatial probability map M을 class prediction P에 곱하고,

 

똑같이 interactive feature로부터 학습된 spatial offset map O를 location prediction B에 적용한다.

 

Task Alignment Learning

Task-aligned Sample Assignment

정렬의 정도는 classification score s, 예측된 bounding box와 ground truth 간의 IoU인 u의 결합으로 측정한다.

 

Training sample assignment

t 값이 가장 큰 m개의 앵커를 positive sample, 나머지를 negative sample로 간주한다. TOOD에서는 위치 당 단일 앵커를 사용하므로 anchor-free, anchor-based에 상관없이 '앵커'는 특정 패치를 의미한다고 생각하면 된다.

 

정렬된 앵커를 통해 offset과 prob를 조정

 

Classification objective

t를 정규화한 t̂에 대해 positive sample의 binary label을 t̂으로, negative sample을 0으로 만든다.

정규화의 이점:

  • 모든 positive sample의 t가 작은 hard instance의 경우에 효과적인 학습 보장
  • Instance 간의 순위 유지

 

Localization objective

Bounding box regression 중 잘 정렬된 앵커에 초점을 맞추도록 GIoU loss를 t̂에 대해 재가중한다.

b = predicted box, b̄ = GT box