본문 바로가기

논문 리뷰/Diffusion Model

Emu: Enhancing Image Generation Models Using Photogenic Needles in a Haystack

[arXiv](2023/09/27 version v1)

 

 

Abstract

수천 개의 고품질 이미지만으로 Quality-Tuning을 수행하여 매력적인 이미지를 생성할 수 있는 Emu 제안

 

 

 

Approach

  • Latent Diffusion Architecture
  • Pre-training
  • High-Quality Alignment Data
  • Quality-Tuning

 

Latent Diffusion Architecture

Latent Diffusion autoencoder의 채널을 확장하면 품질이 크게 향상된다. 또한 전처리로 fourier feature transformation을 적용하고 적대적 손실을 추가하면 더욱 향상된다.

 

또한 피라미터 수가 2.8B인 대규모 U-Net을 사용하고 CLIP ViT-L, T5-XXL를 텍스트 조건으로 사용한다.

 

Pre-training

1.1B의 내부 이미지 데이터셋.

 

SDXL과 마찬가지로 작은 해상도의 이미지부터 큰 해상도의 이미지까지 점진적으로 학습하고 사전 훈련의 마지막 단계에서 0.02 offset noise를 사용.

 

High-Quality Alignment Data

수십억 개의 이미지에서 시작하여 자동 필터링 후 전문가가 매우 엄격하게 이미지를 선별하여 최고의 품질을 가진 2000개의 이미지를 얻었다.

 

Quality-Tuning

0.1 offset noise, 64의 작은 batch size로 15K iteration 동안 훈련한다. 작은 데이터셋은 많이 훈련하면 과적합되므로 손실이 여전히 줄어듦에도 불구하고 중지하였다.