[arXiv](2023/09/27 version v1)
Abstract
수천 개의 고품질 이미지만으로 Quality-Tuning을 수행하여 매력적인 이미지를 생성할 수 있는 Emu 제안
Approach
- Latent Diffusion Architecture
- Pre-training
- High-Quality Alignment Data
- Quality-Tuning
Latent Diffusion Architecture
Latent Diffusion autoencoder의 채널을 확장하면 품질이 크게 향상된다. 또한 전처리로 fourier feature transformation을 적용하고 적대적 손실을 추가하면 더욱 향상된다.
또한 피라미터 수가 2.8B인 대규모 U-Net을 사용하고 CLIP ViT-L, T5-XXL를 텍스트 조건으로 사용한다.
Pre-training
1.1B의 내부 이미지 데이터셋.
SDXL과 마찬가지로 작은 해상도의 이미지부터 큰 해상도의 이미지까지 점진적으로 학습하고 사전 훈련의 마지막 단계에서 0.02 offset noise를 사용.
High-Quality Alignment Data
수십억 개의 이미지에서 시작하여 자동 필터링 후 전문가가 매우 엄격하게 이미지를 선별하여 최고의 품질을 가진 2000개의 이미지를 얻었다.
Quality-Tuning
0.1 offset noise, 64의 작은 batch size로 15K iteration 동안 훈련한다. 작은 데이터셋은 많이 훈련하면 과적합되므로 손실이 여전히 줄어듦에도 불구하고 중지하였다.