본문 바로가기

논문 리뷰/Vision Transformer

Depth Anything V2

 

Abstract

Depth Anything V1의 업그레이드 버전

 

[Project Page]

[Github]

[arXiv](2024/06/13 version v1)

 

 

 

Revisiting the Labeled Data Design of Depth Anything V1

Real labeled depth map의 단점:

  • 여러 요인으로 인해 label이 부정확하다.
  • 세부사항이 간과되는 경우가 많다.

 

그에 비해 합성 이미지는 detail과 label이 모두 정확하다.

 

 

 

Challenges in Using Synthetic Data

그럼에도 불구하고 여전히 MDE(Monocular depth estimation)에서 real depth map이 활용되고 있는 이유:

  • 합성 이미지와 실제 이미지 사이의 차이: 합성 이미지는 너무 '깨끗'하고 '정렬'되어있는 반면, 실제 이미지에는 임의성이 있다.
  • 그래픽 엔진에서 샘플링할 수 있는 장면의 종류에는 한계가 있다.

 

인기 있는 사전 훈련된 image encoder를 합성 데이터만을 사용해 MDE로 학습시키는 실험:

DINOv2-Giant만이 만족스러운 예측을 생성했다.

 

 

 

Depth Anything V2

  • 합성 이미지를 통해 DINOv2-G 기반의 교사 모델 훈련
  • 교사 모델을 통해 실제 이미지의 pseudo label 생성
  • Pseudo labeled image를 통해 학생 모델 훈련

 

V1에 따라 상위 10%의 손실 구간을 noised label로 간주하여 무시하고 MiDaS의 손실함수를 사용한다.

학생 모델의 구현은 V1과 똑같이 DINOv2 encoder, DPT decoder를 사용한다.

 

 

 

A New Evaluation Benchmark: DA-2K

기존 벤치마크들은 사실 noise가 많다.

정확한 깊이, 고해상도 이미지, 광범위한 장면을 포괄하는 새로운 벤치마크 DA-2K를 구축했다.

 

 

 

Experiment

 

Depth Anything V2

This work presents Depth Anything V2. Without pursuing fancy techniques, we aim to reveal crucial findings to pave the way towards building a powerful monocular depth estimation model. Notably, compared with V1, this version produces much finer and more ro

depth-anything-v2.github.io