[Github]
[arXiv](2021/08/28 version v3)
Abstract
One-stage object detection에서 classification과 localization을 명시적으로 정렬하는 새로운 정렬 헤드 T-Head와 학습 방법인 Task Alignment Learning 제안
Task-aligned One-stage Object Detection
TOOD는 1-stage dectection에 보편적인 backbone-FPN-head의 구조를 가진다.
- Task-aligned Head
- Task Alignment Learning
Task-aligned Head
T-Head는 2개의 Task-aligned predictor가 있는 간단한 feature extractor이다.
Xinter는 conv와 relu로 구성됨.
Task-aligned Predictor (TAP)
두 head는 다른 작업을 하지만 같은 feature를 사용함으로써 필연적으로 feature 충돌이 발생하는데, 이를 피하기 위해 TAP를 도입했다.
각 작업과 Xinter의 각 레이어에 대해 서로 다른 가중치 w를 적용하는 layer attention을 도입한다.
Prediction alignment
추가적으로 두 head의 공간 분포를 조정하여 두 작업을 명시적으로 정렬한다.
Interactive feature로부터 학습된 spatial probability map M을 class prediction P에 곱하고,
똑같이 interactive feature로부터 학습된 spatial offset map O를 location prediction B에 적용한다.
Task Alignment Learning
Task-aligned Sample Assignment
정렬의 정도는 classification score s, 예측된 bounding box와 ground truth 간의 IoU인 u의 결합으로 측정한다.
Training sample assignment
t 값이 가장 큰 m개의 앵커를 positive sample, 나머지를 negative sample로 간주한다. TOOD에서는 위치 당 단일 앵커를 사용하므로 anchor-free, anchor-based에 상관없이 '앵커'는 특정 패치를 의미한다고 생각하면 된다.
Classification objective
t를 정규화한 t̂에 대해 positive sample의 binary label을 t̂으로, negative sample을 0으로 만든다.
정규화의 이점:
- 모든 positive sample의 t가 작은 hard instance의 경우에 효과적인 학습 보장
- Instance 간의 순위 유지
Localization objective
Bounding box regression 중 잘 정렬된 앵커에 초점을 맞추도록 GIoU loss를 t̂에 대해 재가중한다.
b = predicted box, b̄ = GT box