Abstract
Depth Anything V1의 업그레이드 버전
[Github]
[arXiv](2024/06/13 version v1)
Revisiting the Labeled Data Design of Depth Anything V1
Real labeled depth map의 단점:
- 여러 요인으로 인해 label이 부정확하다.
- 세부사항이 간과되는 경우가 많다.
그에 비해 합성 이미지는 detail과 label이 모두 정확하다.
Challenges in Using Synthetic Data
그럼에도 불구하고 여전히 MDE(Monocular depth estimation)에서 real depth map이 활용되고 있는 이유:
- 합성 이미지와 실제 이미지 사이의 차이: 합성 이미지는 너무 '깨끗'하고 '정렬'되어있는 반면, 실제 이미지에는 임의성이 있다.
- 그래픽 엔진에서 샘플링할 수 있는 장면의 종류에는 한계가 있다.
인기 있는 사전 훈련된 image encoder를 합성 데이터만을 사용해 MDE로 학습시키는 실험:
DINOv2-Giant만이 만족스러운 예측을 생성했다.
Depth Anything V2
- 합성 이미지를 통해 DINOv2-G 기반의 교사 모델 훈련
- 교사 모델을 통해 실제 이미지의 pseudo label 생성
- Pseudo labeled image를 통해 학생 모델 훈련
V1에 따라 상위 10%의 손실 구간을 noised label로 간주하여 무시하고 MiDaS의 손실함수를 사용한다.
학생 모델의 구현은 V1과 똑같이 DINOv2 encoder, DPT decoder를 사용한다.
A New Evaluation Benchmark: DA-2K
기존 벤치마크들은 사실 noise가 많다.
정확한 깊이, 고해상도 이미지, 광범위한 장면을 포괄하는 새로운 벤치마크 DA-2K를 구축했다.
Experiment