본문 바로가기

논문 리뷰/Diffusion Model

EmerDiff: Emerging Pixel-level Semantic Knowledge in Diffusion Models

[Project Page]

[arXiv](2024/01/22 version v1)

 

 

Abstract

Stable Diffusion의 의미론적 지식을 활용하여 추가 학습 없이 segmentation map을 생성할 수 있는 EmerDiff 제안

 

 

 

Methods

Constructing Low-Resolution Segmentation Maps

이후 언급되는 모든 과정 동안 완벽한 재구성을 위하여 DDPM Inversion을 사용한다.

 

U-Net Upward blocks의 첫 번째 attention layer에서 query vector를 추출한다. 이 feature는 텍스트와 직접 상호작용하며 의미론적으로 인식되어야 한다. K-평균을 적용하여 low-resolution segmentation mask를 얻는다.

 

Building Image-Resolution Segmentation Maps

다음과 같이 저 차원 feature의 attention output에 offset c를 더한다. (f = fully-connected layer)

 

 

두 개의 offset c = −λ, +λ에 대해 개별적으로 실행한 뒤 유클리드 거리를 취하여 차이를 계산한다.

 

다음 그림과 같이 변조된 영역과 의미론적으로 관련된 픽셀만 눈에 띄게 변경되었다.

 

저 차원 feature mask Mi와 difference map di, 픽셀 (x, y)에 대해 다음과 같이 label을 지정한다.

 

추가 개선: 구조 보존을 위해 denoising process 동안 attention map을 고정하고 아티팩트 제거를 위해 d를 계산한 후 가우시안 필터링을 수행한다.

 

 

 

Experiments

Implementation details

Stable Diffusion.

모양 제어를 담당하는 16x16 upward block의 세 번째 cross-attention layer에 offset을 적용. 또한 중간 timestep(t=281)의 15 step 동안만 offset을 적용한다.