Attend-and-Excite: Attention-Based Semantic Guidance for Text-to-Image Diffusion Models

Text-to-image에서 여러 개체를 생성할 때 생기는 문제와 잘못된 속성 바인딩 개선

Abstract

확산 모델이 여러 주제를 동시에 생성하지 못하거나 속성을 올바르게 바인딩하지 못하는 실패 사례를 완화하는 데 도움이 되는 Generative Semantic Nursing(GSN) 개념 소개

최근 확산 기반 text-to-image 생성 모델의 문제

GSN의 개념 도입, Attend-and-Excite(A&E)라는 GSN의 형태 제안.

Attention 과정에서 텍스트와 이미지 간의 상호작용이 무시되기 쉽다는 관찰을 바탕으로 denoising 과정에서 각 주제 토큰이 일부 패치에서 지배적일 것을 요구한다.

추가적인 훈련이나 finetuning이 필요하지 않음.

A&E는 위에 명시된 극단적인 사례 뿐만 아니라 속성과 대상 사이의 올바른 바인딩 자체를 장려한다.

GSN은 각 시간 단계 t에서 잠재 코드를 보다 의미론적으로 충실한 영역으로 이동시키는 것을 말함.

A&E는 프롬프트 P에서 대상 토큰의 attention map을 고려하여 attention value를 최대화하는 방향으로 잠재 코드 업데이트.

P에 있는 각 주제 토큰 집합 S에 대한 attention map A_t를 집계.

사전 훈련 CLIP 인코더 맨 앞의 <sot> 토큰을 떼고 softmax 적용 후 각 s에 대한 A_t 추출.

A_t^s는 이미지에 실제로 개체가 생성되었는지의 여부를 반영하지 않을 수도 있다.

따라서 가우시안 필터를 적용.

이는 각 패치의 attention value를 인접한 패치와의 선형 조합으로 만든다.

직관적으로 대상이 올바르게 생성 되었다면 해당 토큰에 주의를 크게 기울이는 패치가 있어야 하고, 이것을 구현한다.

각 주제에 대해 활성화 값이 높은 패치가 하나 이상 존재하도록 하는 동작을 정량화하는 손실 정의 :

이 손실은 t 단계에서 가장 소외된 주제 토큰을 강화하도록 장려함.

Denoising의 후반 단계에서는 객체의 위치나 구조가 바뀌지 않기 때문에 특정 단계 t_end까지만 수행.

초기 단계에서 attention value가 일정 값에 도달하지 못하면 객체가 생성되지 않는다.

따라서 목표한 값이 달성될 때 까지 z_t를 반복적으로 업데이트하는데, 많은 반복 업데이트로 잠재 코드가 out-of-distribution이 될 수 있기 때문에 점진적으로 수행한다.

구체적으로 t₁에서는 T₁ 만큼의 value를, t₂에서는 T₂ 만큼의 value를 요구하는 식.

MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation (0)	2023.02.26
Adding Conditional Control to Text-to-Image Diffusion Models (ControlNet) (0)	2023.02.25
Mixture of Diffusers for scene composition and high resolution image generation (0)	2023.02.11
Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation (0)	2023.01.24
InstructPix2Pix: Learning to Follow Image Editing Instructions (0)	2023.01.23
GLIGEN: Open-Set Grounded Text-to-Image Generation (0)	2023.01.19