본문 바로가기

논문 리뷰/Diffusion Model

PIA: Your Personalized Image Animator via Plug-and-Play Modules in Text-to-Image Models

이미지에 affinity score를 더하여 각 프레임에 조건화

 

[Project Page]

[Github]

[arXiv](Current version v1)

 

 

Abstract

주어진 이미지로 정렬하고 텍스트를 통해 모션을 제어하는 PIA(Personalized Image Animator)  제안

 

 

 

PIA: Your Personalized Image Animator

 

Plug-and-Play Modules for Animation

조건부 이미지 I를 잠재 공간으로 인코딩  E(I) = zI.

 

움직임의 정도를 정량화하기 위해 affinity score s 도입. 훈련 중에 s는 각 프레임에서 첫 번째 프레임과의 L1 거리를 통해 계산되고 [0,1]로 정규화된다. 

zI와 정렬하기 위해 si를 1×h×w로 확장하고 concat 한다. 이는 Wcond로 인코딩되어 첫 번째 conv layer 출력에 추가된다.

(Zero-initialization)

 

Training and inference

AnimateDiff에 따라 사전 훈련된 확산 모델에서 비디오를 통해 Temporal Alignment layer를 사전 훈련한다. 

그리고 Wcond를 도입하고 첫 번째 프레임의 조건 이미지로 하여 Wcond, TA layer를 fine-tuning 한다. 

훈련 중 20% 확률로 이미지를 드랍하고 T2V 작업으로 변환한다.

 

훈련은 고정된 16 frame과 s = [0.2, 1]로 설정하고 추론 시 T2I 모델을 개인화된 모델로 대체하고 s를 조정할 수 있음.

 

 

 

Experiments

Project Page

 

PIA: Personalized Image Animator

1-minute Video PIA is a Personalized Image Animator that excels in aligning with condition images, achieving motion controllability by text, and the compatibility with various personalized T2I models without specific tuning. Abstract Given an elaborated im

pi-animator.github.io