이미지 간의 대응 관계를 찾을 수 있는 확산 과정의 중간 feature
Abstract
이미지 간의 대응 관계를 찾는 것은 컴퓨터 비전의 근본적인 문제임.
확산 네트워크에서 이 암시적 지식을 DIFfusion FeaTures(DIFT)로 추출하고 실제 이미지 간의 대응 관계를 설정.
Introduction
확산 모델은 포즈를 바꾸지 않고 개를 고양이로 바꾸는 등의 작업을 잘하므로 대응을 학습할 수 있다고 볼 수 있음.
UNet은 이미지 대응에 사용되는 feature를 이미 추출할 수 있지만, 노이즈가 많은 데이터에서 훈련되었다.
따라서 이미지에 노이즈를 추가하고, 이러한 이미지를 diffusion feature(DIFT)라고 부르며, DIFT에서 코사인 거리를 사용하여 두 이미지 간의 일치하는 픽셀 위치를 놀라울 정도로 정확하게 찾을 수 있다.
Problem Setup
이미지 I1, I2,
이미지 I1에서의 픽셀 위치 p1이 있을 때, I2에서의 대응 픽셀 p2를 찾는 것이 목표.
간단한 방법은 Ii의 feature map Fi에서 각 위치에 대한 코사인 유사도를 이용하는 것.
Diffusion Features (DIFT)
Extract Diffusion Features on Real Images
Stable diffusion의 특정 시간 단계 t에 해당하는 노이즈를 이미지에 주입한 다음 UNet에 공급하여 중간 레이어의 activation을 추출.
실제 이미지에 대해 놀랍도록 좋은 대응을 찾을 수 있음.
시간 단계 t가 클수록 의미론적인 feature에 집중하고 작을수록 세부 정보에 집중하는 경향이 있음.
Semantic Correspondence