본문 바로가기

논문 리뷰/Diffusion Model

InstaFlow: One Step is Enough for High-Quality Diffusion-Based Text-to-Image Generation

Reflow, 증류를 통한 초고속 1단계 생성

 

Github

arXiv

 

 

Abstract

Rectified flow를 통해 확산 모델을 초고속 1단계 모델로 전환하기 위한 text-conditioned pipeline인 InstaFlow 제안.

0.1초 이내에 이미지 생성 ㄷㄷ

 

 

Methods

Rectified Flow and Reflow

Rectified flow(RF)는 두 분포 사이의 전송 매핑을 학습하기 위한 접근 방식을 제공한다.

신경망을 통해 v를 매개변수화 한다.

 

일반적인 확률 흐름 ODE는 다음과 같은 형태인데,

RF의 저자는 더 간단한 형태를 제안했다.


Straight Flows Yield Fast Generation

ODE의 궤적을 직선화하는 것은 추론 비용을 줄이기 위한 필수적인 방법임.

 

Straightening via Reflow

Reflow는 동일한 rectified flow objective를 갖지만

이전 ODE가 만든 각 데이터 쌍(X0, X1)의 선형 보간을 사용하여 학습된다.

 

즉, marginal distribution은 바뀌지 않고 보간의 궤적만 바뀌는 것이다.

 

Reflow의 특성:

  • ODE[vk+1](X0), ODE[vk](X0)의 분포가 일치
  • ODE[vk+1](X0)의 궤적은 ODE[vk](X0)의 궤적보다 더 직선적임
  • ODE[vk+1](X0)는 ODE[vk](X0)보다 더 적은 전송 비용을 가짐

 

Text-Conditioned Reflow


Distillation

각 이미지의 유사성 손실(본 논문에서는 LPIPS) D를 최소화하여 단일 Euler step을 가지는 1단계 모델로 증류.

 

증류를 적용하기 전에 매핑을 매끄럽게 만드는 reflow는 필수적임.


Classifier-Free Guidance

 

 

 

Preliminary Observations on Stable Diffusion 1.4