본문 바로가기

논문 리뷰/Diffusion Model

Composer: Creative and Controllable Image Synthesis with Composable Conditions

분해-재구성 단계를 통해 다양한 컨디셔닝에 적응

 

Project Page

 

 

 

Abstract

먼저 이미지를 대표 요소로 분해한 다음 이 모든 요소를 조건으로 하여 입력을 재구성하는 확산 모델을 훈련하여 출력 이미지를 유연하게 제어할 수 있는 차세대 패러다임인 Composer 제안

 

 

 

Introduction

연구진은 제어 가능한 이미지 생성의 핵심이 컨디셔닝뿐만 아니라 compositionality에 더 의존한다고 주장한다. (잠재적으로 무한한 수의 새로운 조합을 인식하고 생성)

 

Compositional generative model이란 시각적 구성 요소를 매끄럽게 재결합하여 새로운 이미지를 생성할 수 있는 생성 모델을 말한다.

 

Composer는 U-Net 백본의 확산 모델로 구현되며 학습에는 decomposition, composition 두 단계가 있고 잠재적으로 서로 호환되지 않을 수 있는 보이지 않는 표현 조합에서 새로운 이미지를 디코딩할 수 있다.

 

Composer는 개념적으로 간단하고 구현하기 쉬우며 다양한 이미지 작업에서 강력한 성능을 보여준다.

 

 

 

Method

Diffusion Models

Composer는 여러 조건을 수용하는 확산 모델로써 classifier-free guidance와 유사한 방식으로 안내된다.

 

c1과 c2는 각각 다른 조건인데, c1을 이용하여 x0을 xT로 뒤집은 다음 c2를 사용하여 xT에서 샘플링함으로써 이미지를 disentangle한 방식으로 조작할 수 있다.

 

조작 방향은 c1과 c2의 차이로 정의된다.

 

Decomposition

각각의 사전 훈련 모델을 통해 이미지를 훈련 중에 즉석으로 분해한다.

  • Sematics and style

  • Depth map

  • Masking

  • Sketch

  • Intensity

  • Instances

  • Color

  • Caption

 

Composition

이미지를 재구성하기 위해 GLIDE 아키텍처를 사용하며 두 가지의 컨디셔닝 매커니즘을 탐색:

 

Global conditioning

문장 임베딩, 색상 팔레트 등 글로벌 표현의 경우 cross attention을 위한 context로 사용

 

Localized conditioning

Sketch, mask, depth map 등 지역화된 표현의 경우 xt와 동일한 크기로 투영하고 U-Net에 공급하기 전에 연결

 

훈련 중에 각 조건에 대해 드롭아웃 0.5, 모든 조건 삭제 0.1, 모든 조건 유지 0.1 적용

 

출력 이미지는 64x64고 업스케일링을 위해 추가적으로 무조건 확산 모델을 훈련한다.

(Stable Diffusion 시대에 이게 맞나...)

 

 

 

Experiments