본문 바로가기

논문 리뷰/Diffusion Model

LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image Diffusion Models with Large Language Models (LMD)

[Project Page]

[Github]

[arXiv](2023/10/10 version v2)

 

 

Abstract

LLM이 layout을 생성하여 diffusion model을 안내하는 LLM-grounded Diffusion (LMD) 제안

 

 

LLM-grounded Diffusion

LLM-based Layout Generation

Layout representation

레이아웃 표현은 bounding box와 caption으로 구성된다.

 

Prompting

 

In-context learning

레이아웃 표현을 명확히 하기 위해 작업 설명 후 수동으로 선별한 예제를 제공한다.

Example

2가지 원칙:

  • 각 인스턴스는 단일 bbox로 표시된다. E.g. '사과 4개'의 경우 각 사과가 각기 다른 bbox를 가진다.
  • Foreground object는 background caption에 포함되지 않는다.

 

Layout-grounded Stable Diffusion

LMD는 먼저 개별 bbox에 대해 masked latent를 생성한 다음 전체 이미지를 구성함으로써 인스턴스 수준의 grounding이 가능.

 

Per-box masked latents

Prompt “[background prompt] with [box caption]”으로 각 개체 i에 대한 이미지를 생성하며, 초기 잠재 xTi는 스타일 일관성을 위해 모든 개체에 공유된다. (잠재 공간이라 z인데 이미지에는 x라고 표기돼 있어서 대충 z = x라고 생각하셈)

 

개체와 bbox의 정렬을 위해 bbox 영역 u의 마스크 m, 개체의 prompt token index v, 영역 내의 Topk 평균에 대해 각 denoising step 전에 다음과 같은 에너지 함수로 cross-attention map 업데이트를 수행한다.

 

 

생성 후 Segment Anything Model을 통해 각 step에서 개체의 영역을 얻는다.

 

Composed image generation

Background 또한 같은 잠재 노이즈에서 시작하며 각 개체의 영역은 이전에 생성한 노이즈로 대체된다.

또한 cross-attention map 업데이트 수행:

 

각 개체의 배치는 denoising step의 초기에 이루어지기 때문에 이 모든 과정은 rT step까지만 사용한다.