본문 바로가기

논문 리뷰/Diffusion Model

ELLA: Equip Diffusion Models with LLM for Enhanced Semantic Alignment

[Project Page]

[Github]

[arXiv](2024/03/08 version v1)

 

 

Abstract

Timestep-Aware Semantic Connector를 통해 LLM과 확산 모델을 연결하여 텍스트 정렬을 향상시키는 ELLA (Efficient Large Language Model Adapter) 제안

 

 

 

Method

Architecture Design

 

Timestep-Aware Semantic Connector (TSC)

Flamingo에서 Perceiver Resampler의 설계를 가져와 learnable query를 사용하고 cross-attention을 통해 LLM과 상호작용한다.

 

또한 확산 모델은 timestep에 따라 각각 다른 수준의 feature에 집중하므로 AdaLN (Adaptive LayerNorm)을 통해 timestep을 조건화하여 더 유연한 텍스트 조건화를 촉진한다.

 

Dataset Construction

확산 모델 훈련에서 주로 사용되는 LAION, COYO 데이터셋은 지나치게 짧거나 관련 없는 문장이 많이 포함되어 있다.

따라서 최첨단 MLLM인 CogVLM을 통해 캡션을 생성한다.

 

추가로 JourneyDB dataset을 사용했다.

 

 

Benchmark

더 많은 정보가 있는 더 긴 prompt로 구성된 benchmark인 Dense Prompt Graph Benchmark (DPG-Bench) 제작.

 

 

Experiments

T5-XL 텍스트 인코더와 SD v1.5를 사용하였다.

 

 

ELLA: Equip Diffusion Models with LLM for Enhanced Semantic Alignment

Diffusion models have demonstrated remarkable performance in the domain of text-to-image generation. However, the majority of these models still employ CLIP as their text encoder, which constrains their ability to comprehend dense prompts, which encompass

ella-diffusion.github.io