본문 바로가기

논문 리뷰/Diffusion Model

AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning

Text-to-image 모델에 모듈을 추가하여 비디오 생성

 

Project Page

Github

arXiv

 

 

Abstract

Motion modeling module을 통해 T2I 모델에서 애니메이션을 생성하는 AnimateDiff 제안

 

 

 

Personalized Animation

다음 그림과 같이 개인화된 T2I 모델에 바로 삽입하여 사용할 수 있는 모듈을 목표로 한다. 

 

 

 

Motion Modeling Module

 

Network Inflation

프레임 시간축이 추가된 5D(b*c*f*h*w) 텐서를 처리하기 위해 video diffusion model과 같이 원본 U-Net의 2D convolution과 attention layer를 Pseudo-3D layer로 교체하고 공간축을 따라 작동하도록 한다.

 

MMM에서는 시간축을 따라 self-attention 수행.


Module Design

MMM의 설계로 시간축 attention block이 있는 vanilla temporal transformer 채택.

 

시간 위치를 알 수 있도록 self-attention block에 위치 인코딩 추가.

 

모든 해상도에 MMM 삽입.

 

ControlNet과 같이 출력 계층의 모든 가중치와 편향을 0으로 초기화.


Training Objective

훈련은 LDM(stable diffusion)과 똑같음.

샘플링된 비디오에서 각 프레임에 대해 다음 손실함수를 최적화(MMM만 훈련됨):

 

 

 

Experiments

Project Page