What the DAAM: Interpreting Stable Diffusion Using Cross Attention

단어가 생성된 이미지에 미친 영향을 hitmap으로 표시

Abstract

Stable diffusion에 대한 text-image 속성 분석.

모델에서 cross attention map을 결합하여 각 단어에 대한 2차원 속성 map을 생성한다. 이것을 Diffusion Attentive Attribution Maps(DAAM) 라고 함.

예를 들어, '기린과 얼룩말'은 기린이나 얼룩말을 생성하지만 둘 다 생성하지는 못한다. 또, 서술형 형용사는 개체를 넘어 이미지 전반에 과도하게 관여한다.

(기호 통일용)

본 논문에서는 Stable diffusion 2.0 모델 사용.

U-Net 다운샘플링 계층은 l_t를 입력으로 받고 일련의 벡터 {h^↓_i,t}_i=1^K(i는 다운샘플 횟수)를 출력한다. 업샘플링은 반대로 {h^↑_i,t}_i=K-1⁰.

텍스트 임베딩을 조건화하기 위한 multi-head cross attention.

밑으로는 F_t^(i)↓ 및 F_t^(i)↑로 표기.

Spatiotemporal aggregation

F_t^(i)↓[x,y,l,k]는 k번째 단어를 i번째 다운샘플링 블록과 l번째 head에 대한 중간 좌표 (x,y)에 연결하고 [0,1]로 정규화된다.

컨볼루션의 특성으로 인해 해당 좌표의 주변 사각형 영역에 매핑되고 각 단어는 각 영역에 관련된다.

각 다운샘플, 업샘플 계층의 다양한 크기의 hitmap을 bicubic 보간으로 이미지의 원래 크기로 통일한 다음 head, layer, timestep에 걸쳐 합계한다.

임계값을 넘는 픽셀만 표시되도록 함.

위 방법을 DAAM라고 한다.

이 파트에 대해서는 따로 글을 쓰던가 해야겠음.

좀 길고 기술을 소개하는 취지랑 별로 맞지 않아서... 프롬프트 특집으로 하던가... 안 할 수도?

InstructPix2Pix: Learning to Follow Image Editing Instructions (0)	2023.01.23
GLIGEN: Open-Set Grounded Text-to-Image Generation (0)	2023.01.19
DiffStyler: Controllable Dual Diffusion for Text-Driven Image Stylization (1)	2023.01.16
DPM-Solver++: Fast Solver for Guided Sampling of Diffusion Probabilistic Models (0)	2023.01.07
DPM-Solver : A Fast ODE Solver for Diffusion Probabilistic Model Sampling in Around 10 Steps (0)	2023.01.07
Null-text Inversion for Editing Real Images using Guided Diffusion Models (0)	2022.12.30