본문 바로가기

논문 리뷰/Diffusion Model

FreeInit: Bridging Initialization Gap in Video Diffusion Models

문제점을 오히려 역이용하여 시간적 일관성 개선에 사용함 지렸다;

 

[Project Page]

[Github]

[arXiv](Current version v1)

 

 

Abstract

비디오 확산 모델의 노이즈 초기화에 대해 탐구하고 시간적 일관성을 크게 개선하는 FreeInit 제안

 

 

Introduction

사실 확산 모델의 forward process에서 저주파 요소를 완전히 지우지 못하는 문제는 이미 유명한 문제이다. 이 논문에서는 noise re-initialize를 통해 이 문제를 해결함과 동시에 시간적 일관성을 향상했다.

 

 

 

FreeInit

 

먼저 DDIM sampling을 통해 z0을 얻은 다음 샘플링에서 사용된 노이즈와 동일한 ϵ를 다시 추가하여 zT를 얻는다.

 

zT의 저주파 성분과 무작위 가우스 노이즈 η의 고주파 성분을 결합하여 재초기화한다.

(FFT3D = spatiotemporal Fast Fourier Transformation, 참고: 설명1, 설명2)

참고 - 주파수 필터링

 

재초기화된 노이즈는 다시 denoising의 시작점이 된다.

또한 이러한 작업을 반복하여 시간적 일관성을 더욱 향상할 수 있다.

 

 

 

Experiments

Project Page

 

FreeInit: Bridging Initialization Gap in Video Diffusion Models

Though diffusion-based video generation has witnessed rapid progress, the inference results of existing models still exhibit unsatisfactory temporal consistency and unnatural dynamics. In this paper, we delve deep into the noise initialization of video dif

tianxingwu.github.io