이미지에 affinity score를 더하여 각 프레임에 조건화
[Github]
[arXiv](Current version v1)
Abstract
주어진 이미지로 정렬하고 텍스트를 통해 모션을 제어하는 PIA(Personalized Image Animator) 제안
PIA: Your Personalized Image Animator
Plug-and-Play Modules for Animation
조건부 이미지 I를 잠재 공간으로 인코딩 E(I) = zI.
움직임의 정도를 정량화하기 위해 affinity score s 도입. 훈련 중에 s는 각 프레임에서 첫 번째 프레임과의 L1 거리를 통해 계산되고 [0,1]로 정규화된다.
zI와 정렬하기 위해 si를 1×h×w로 확장하고 concat 한다. 이는 Wcond로 인코딩되어 첫 번째 conv layer 출력에 추가된다.
(Zero-initialization)
Training and inference
AnimateDiff에 따라 사전 훈련된 확산 모델에서 비디오를 통해 Temporal Alignment layer를 사전 훈련한다.
그리고 Wcond를 도입하고 첫 번째 프레임의 조건 이미지로 하여 Wcond, TA layer를 fine-tuning 한다.
훈련 중 20% 확률로 이미지를 드랍하고 T2V 작업으로 변환한다.
훈련은 고정된 16 frame과 s = [0.2, 1]로 설정하고 추론 시 T2I 모델을 개인화된 모델로 대체하고 s를 조정할 수 있음.
Experiments