MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation

여러 확산 과정을 최적화를 통해 한 장의 이미지로 통합

Abstract

추가 훈련 없이 사전 훈련된 text-to-image 확산 모델을 사용하여 다재다능하고 제어 가능한 이미지 생성을 가능하게 하는 통합 프레임워크인 MultiDiffusion 제안

사전 훈련된 참조 확산 모델은 이미지의 서로 다른 영역에 적용되고 MultiDiffusion은 최소 제곱 최적화를 통해 global denoising sampling step을 수행한다.

또한 계산 오버헤드 적음.

점진적으로 이미지를 I_T → I₀으로 denoising 하는 사전 훈련된 참조 확산 모델

MultiDiffusion은 image space J와 condition space z에 대해 다음을 수행

핵심 아이디어는 Ψ를 Φ와 가능한 한 일치하도록 정의하는 것이다.

구체적으로 두 매핑 세트를 정의하고

다음과 같이 J_t를 최적화

(W는 픽셀별 가중치)

영역이 겹친 부분은 가중 평균을 구하여 최적화

다음과 같은 확률 분포 P_J를 선택하고

J를 최적화하여 L_FTD = 0에 도달하면 다음과 같고

결국에 모든 단계(T ~ 0)에서 최적화되면 F_i(J₀)은 참조 확산 모델의 단일 역확산 결과인 I₀ⁱ와 완전히 동일하게 된다.

이 명제는 매우 중요한데, 단일 참조 확산 과정을 다양한 이미지 생성 시나리오에 유연하게 적응시킬 수 있다는 말이 된다.

W_i = 1.

y = z 이기 때문에

영역 마스크 세트 {M_i}, 프롬프트 세트 {y_i}가 주어지면

Fidelity to tight masks

Tight mask에 대한 추가 지원으로 매핑 F_i에 시간 종속성을 통합하여 bootstrapping 단계 도입.

(S_t는 배경으로 사용될 단일 색상 이미지)

생성 이미지의 레이아웃은 초기에 대부분 결정되므로 확산 과정의 초기에 마스크에 해당하는 픽셀만 최적화되도록 함.

Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators (0)	2023.04.11
Token Merging for Fast Stable Diffusion (0)	2023.04.06
Composer: Creative and Controllable Image Synthesis with Composable Conditions (0)	2023.02.28
Adding Conditional Control to Text-to-Image Diffusion Models (ControlNet) (0)	2023.02.25
Mixture of Diffusers for scene composition and high resolution image generation (0)	2023.02.11
Attend-and-Excite: Attention-Based Semantic Guidance for Text-to-Image Diffusion Models (0)	2023.02.07