본문 바로가기

논문 리뷰/Diffusion Model

Attend-and-Excite: Attention-Based Semantic Guidance for Text-to-Image Diffusion Models

Text-to-image에서 여러 개체를 생성할 때 생기는 문제와 잘못된 속성 바인딩 개선

 

Github

arXiv

 

 

 

 

Abstract

확산 모델이 여러 주제를 동시에 생성하지 못하거나 속성을 올바르게 바인딩하지 못하는 실패 사례를 완화하는 데 도움이 되는 Generative Semantic Nursing(GSN) 개념 소개

 

 

 

Introduction

최근 확산 기반 text-to-image 생성 모델의 문제

  • 여러 주제를 동시에 생성하지 못함
  • 잘못된 개체에 속성 바인딩

 

GSN의 개념 도입, Attend-and-Excite(A&E)라는 GSN의 형태 제안.

 

Attention 과정에서 텍스트와 이미지 간의 상호작용이 무시되기 쉽다는 관찰을 바탕으로 denoising 과정에서 각 주제 토큰이 일부 패치에서 지배적일 것을 요구한다.

 

추가적인 훈련이나 finetuning이 필요하지 않음.

 

A&E는 위에 명시된 극단적인 사례 뿐만 아니라 속성과 대상 사이의 올바른 바인딩 자체를 장려한다.

 

 

 

Attend-and-Excite

GSN은 각 시간 단계 t에서 잠재 코드를 보다 의미론적으로 충실한 영역으로 이동시키는 것을 말함.

 

A&E는 프롬프트 P에서 대상 토큰의 attention map을 고려하여 attention value를 최대화하는 방향으로 잠재 코드 업데이트.


Extracting the Cross-Attention Maps

P에 있는 각 주제 토큰 집합 S에 대한 attention map At를 집계.

사전 훈련 CLIP 인코더 맨 앞의 <sot> 토큰을 떼고 softmax 적용 후 각 s에 대한 At 추출.


Obtaining Smooth Attention Maps

Ats는 이미지에 실제로 개체가 생성되었는지의 여부를 반영하지 않을 수도 있다.

 

따라서 가우시안 필터를 적용.

 

이는 각 패치의 attention value를 인접한 패치와의 선형 조합으로 만든다.


Performing On the Fly Optimization

직관적으로 대상이 올바르게 생성 되었다면 해당 토큰에 주의를 크게 기울이는 패치가 있어야 하고, 이것을 구현한다.

 

각 주제에 대해 활성화 값이 높은 패치가 하나 이상 존재하도록 하는 동작을 정량화하는 손실 정의 :

 

이 손실은 t 단계에서 가장 소외된 주제 토큰을 강화하도록 장려함.

 

Denoising의 후반 단계에서는 객체의 위치나 구조가 바뀌지 않기 때문에 특정 단계 tend까지만 수행.


Iterative Latent Refinement

초기 단계에서 attention value가 일정 값에 도달하지 못하면 객체가 생성되지 않는다.

따라서 목표한 값이 달성될 때 까지 zt를 반복적으로 업데이트하는데, 많은 반복 업데이트로 잠재 코드가 out-of-distribution이 될 수 있기 때문에 점진적으로 수행한다.

 

구체적으로 t1에서는 T1 만큼의 value를, t2에서는 T2 만큼의 value를 요구하는 식.


Obtaining Explainable Image Generators


 

 

Results