Emu: Enhancing Image Generation Models Using Photogenic Needles in a Haystack

[arXiv](2023/09/27 version v1)

Abstract

수천 개의 고품질 이미지만으로 Quality-Tuning을 수행하여 매력적인 이미지를 생성할 수 있는 Emu 제안

Latent Diffusion autoencoder의 채널을 확장하면 품질이 크게 향상된다. 또한 전처리로 fourier feature transformation을 적용하고 적대적 손실을 추가하면 더욱 향상된다.

또한 피라미터 수가 2.8B인 대규모 U-Net을 사용하고 CLIP ViT-L, T5-XXL를 텍스트 조건으로 사용한다.

1.1B의 내부 이미지 데이터셋.

SDXL과 마찬가지로 작은 해상도의 이미지부터 큰 해상도의 이미지까지 점진적으로 학습하고 사전 훈련의 마지막 단계에서 0.02 offset noise를 사용.

수십억 개의 이미지에서 시작하여 자동 필터링 후 전문가가 매우 엄격하게 이미지를 선별하여 최고의 품질을 가진 2000개의 이미지를 얻었다.

0.1 offset noise, 64의 작은 batch size로 15K iteration 동안 훈련한다. 작은 데이터셋은 많이 훈련하면 과적합되므로 손실이 여전히 줄어듦에도 불구하고 중지하였다.

Training-Free Consistent Text-to-Image Generation (ConsiStory) (0)	2024.02.19
Boximator: Generating Rich and Controllable Motions for Video Synthesis (2)	2024.02.14
Emu Edit: Precise Image Editing via Recognition and Generation Tasks (0)	2024.02.14
AnimateLCM: Accelerating the Animation of Personalized Diffusion Models and Adapters with Decoupled Consistency Learning (0)	2024.02.14
Improved Techniques for Training Consistency Models (1)	2024.02.13
Weak-to-Strong Jailbreaking on Large Language Models (0)	2024.02.02