본문 바로가기

논문 리뷰/Diffusion Model

MagicAnimate: Temporally Consistent Human Image Animation using Diffusion Model

[Project Page]


[arXiv](Current version v1)




모션 시퀀스에 따른 비디오를 생성할 수 있는 MagicAnimate 제안





참조 이미지 Iref, K 프레임의 모션 시퀀스 p1:K이 주어질 때 비디오 I1:K을 생성하는 것이 목표이다.


Temporal Consistency Modeling

Temporal attention layer가 추가된 U-Net FT.


Appearance Encoder

Iref의 feature를 추출하는 encoder.


추출된 feature는 zt에 concat 하여 spatial self-attention에 사용됨.


Animation Pipeline

Motion transfer

OpenPose 대신 특정 모션에 더 강건한 DensePose ControlNet 사용.


Denoising process


Long video animation

프레임 장거리 일관성을 개선하기 위해 시퀀스를 일부가 겹치는 K 길이의 여러 segment로 나눈다.

Timestep t에 대해 각 segment에서 노이즈를 예측하고 겹치는 프레임은 평균화하여 병합한다.


모든 segment에 동일한 초기 노이즈 z1:K를 공유하면 비디오 품질이 향상되었다.



Learning objectives

1-stage에서는 temporal attention layer 없이 appearance encoder와 ControlNet만 훈련.


2-stage에서는 temporal attention layer만 훈련.


Image-video joint training

Video dataset은 image dataset에 비해 규모가 작고 포즈가 다양하지 않으므로 video-image 공동 훈련 전략 사용.


1-stage에서 일정 확률로 비디오 프레임 대신 이미지와 해당 이미지에서 추정된 포즈를 입력으로 사용하고 모델은 해당 이미지를 재구성하도록 훈련된다.


2-stage에서 temporal attention에 의해 공간적 품질이 저하된다.

임계값 τ1, τ2를 지정하고 r의 값에 따라 각각 다른 조건에서 훈련됨.







MagicAnimate: Temporally Consistent Human Image Animation using Diffusion Model

TL;DR: We propose MagicAnimate, a diffusion-based human image animation framework that aims at enhancing temporal consistency, preserving reference image faithfully, and improving animation fidelity.
