High-Resolution Image Synthesis with Latent Diffusion Models (LDM)

Diffusion Model + Autoencoder + Cross Attention

GitHub - CompVis/latent-diffusion: High-Resolution Image Synthesis with Latent Diffusion Models

High-Resolution Image Synthesis with Latent Diffusion Models - GitHub - CompVis/latent-diffusion: High-Resolution Image Synthesis with Latent Diffusion Models

github.com

Abstract

품질과 유연성을 유지하면서 제한된 계산 리소스에 대한 확산 모델 훈련을 가능하게 하기 위해 사전 훈련된 autoencoder 사용 + cross attention을 도입한 latent diffusion models (LDMs) 제안.

다양한 조건과 인페인팅, 초해상도 등 다양한 작업 가능.

Introduction

확산 모델의 문제점

막대한 계산 비용 필요
많은 순차적 단계 때문에 훈련된 모델을 평가하는 데도 많은 시간이 소모됨

데이터 공간과 지각적으로 동일한 저차원 표현 공간(더 낮은 차원의 매니폴드에서도 충분히 이미지의 정보를 담을 수 있음)을 제공하는 autoencoder를 훈련하여 더 나은 학습된 잠재 공간에서 확산 모델을 훈련하며 이를 통한 결과 모델 클래스를 LDM(Latent Diffusion Models)이라고 부른다.

이 접근 방식은 장점은 인코딩 단계를 한 번만 훈련하면 여러 다른 확산 모델 훈련에 재사용하거나 완전히 다른 작업에도 사용할 수 있다는 것이다.

본 논문의 기여

압축 공간에서 작업하기 때문에 메가픽셀 이미지와 같은 고해상도 합성 가능
계산 비용을 크게 낮추며 다양한 작업에서 경쟁력 있는 성능 달성
충실한 재구성을 보장하고 잠재 공간의 정규화를 거의 필요로 하지 않음
Cross attention 기반 범용 컨디셔닝 메커니즘을 설계하여 multi-modal 교육 가능

Method

훈련 단계에서 손실 항을 언더샘플링하여 지각적으로 관련 없는 세부 사항을 무시할 수 있지만 여전히 평가 단계에서 많은 비용이 드므로 생성 학습 단계에서 압축을 명시적으로 분리하여 이러한 단점을 피한다.

이를 위해 autoencoder를 사용하고 이 접근 방식의 장점 :

저차원 공간에서 작업하므로 효율적임
확산 모델의 귀납적 편향을 여전히 이용
학습된 인코더 잠재공간을 다른 작업에 사용할 수 있음

Perceptual Image Compression

지각 압축 모델은 지각 손실, 패치 기반, 적대적 목표의 조합으로 훈련된 autoencoder로 구성된다. 이렇게 하면 L1, L2와 같은 픽셀 기반 손실로 인해 발생하는 흐릿함을 피할 수 있음.

패치 기반 판별자 D_ψ가 재구성 이미지 D(E(x))와 원본 이미지를 구별하도록 적대적 방식으로 훈련하고 지각 손실항과 정규화항 추가.

잠재공간 정규화 방법으로는 정규 분포와 비교하여 KL 페널티를 부여하는 KL-reg와 VQGAN과 같이 벡터 양자화를 이용하는 VG-reg 둘 중 하나를 사용함. 재구성 품질을 위해 정규화는 매우 작은 가중치를 적용.

Latent Diffusion Models

일반적인 확산 모델의 목적 함수 :

효율적인 저차원 인코딩 잠재 공간에 접근할 수 있도록 변경 :

신경 백본은 time-conditional UNet(?)으로 구현.

Conditioning Mechanisms

조건 y를 사전 처리하는 도메인 특정 인코더 τ_θ 도입.

다양한 입력 조건을 반영하기 위해 cross attention 사용.

(ϕ_i(z_t)는 U-Net의 flattened 중간 표현)

목적 함수 :

Experiments

텍스트 조건

레이아웃 조건

Semantic map 조건

초해상도

인페인팅

저작자표시 (새창열림)

'논문 리뷰 > Diffusion Model' 카테고리의 다른 글

Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding (Imagen) (0)	2022.09.08
An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion (1)	2022.09.07
Text-Guided Synthesis of Artistic Images with Retrieval-Augmented Diffusion Models (0)	2022.09.06
Retrieval-Augmented Diffusion Models 논문 리뷰 (1)	2022.09.02
Cascaded Diffusion Models for High Fidelity Image Generation 논문 리뷰 (0)	2022.08.18
Pretraining is All You Need for Image-to-Image Translation (PITI) 논문 리뷰 (0)	2022.08.18

Ostin X

High-Resolution Image Synthesis with Latent Diffusion Models (LDM)

Abstract

Introduction