본문 바로가기

논문 리뷰/Diffusion Model

MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation

여러 확산 과정을 최적화를 통해 한 장의 이미지로 통합

 

Project Page 

 

 

 

Abstract

추가 훈련 없이 사전 훈련된 text-to-image 확산 모델을 사용하여 다재다능하고 제어 가능한 이미지 생성을 가능하게 하는 통합 프레임워크인 MultiDiffusion 제안

 

 

 

Introduction

사전 훈련된 참조 확산 모델은 이미지의 서로 다른 영역에 적용되고 MultiDiffusion은 최소 제곱 최적화를 통해 global denoising sampling step을 수행한다.

 

또한 계산 오버헤드 적음.

 

 

 

Method

점진적으로 이미지를 IT → I0으로 denoising 하는 사전 훈련된 참조 확산 모델


MultiDiffusion

MultiDiffusion은 image space J와 condition space z에 대해 다음을 수행

 

핵심 아이디어는 Ψ를 Φ와 가능한 한 일치하도록 정의하는 것이다.

 

구체적으로 두 매핑 세트를 정의하고

 

다음과 같이 Jt를 최적화

(W는 픽셀별 가중치)


Closed-form formula

영역이 겹친 부분은 가중 평균을 구하여 최적화


Properties of MultiDiffusion

다음과 같은 확률 분포 PJ를 선택하고

 

J를 최적화하여 LFTD = 0에 도달하면 다음과 같고

 

결국에 모든 단계(T ~ 0)에서 최적화되면 Fi(J0)은 참조 확산 모델의 단일 역확산 결과인 I0i와 완전히 동일하게 된다.

 

이 명제는 매우 중요한데, 단일 참조 확산 과정을 다양한 이미지 생성 시나리오에 유연하게 적응시킬 수 있다는 말이 된다.



 

Applications

Panorama

Wi = 1.

y = z 이기 때문에


Region-based text-to-image-generation

영역 마스크 세트 {Mi}, 프롬프트 세트 {yi}가 주어지면

 

Fidelity to tight masks

Tight mask에 대한 추가 지원으로 매핑 Fi에 시간 종속성을 통합하여 bootstrapping 단계 도입.

(St는 배경으로 사용될 단일 색상 이미지)

 

생성 이미지의 레이아웃은 초기에 대부분 결정되므로 확산 과정의 초기에 마스크에 해당하는 픽셀만 최적화되도록 함.


 

 

Results