IP-Adapter에 temporal attention을 더하여 비디오 생성
[arXiv](2024/01/03 version v1)
Robotic eagle, 8k unreal engine render, wires and gears | |
A disoriented astronaut, lost in a galaxy of swirling colors, floating in zero gravity |
Abstract
Multimodal Video Block (MVB)을 통해 이미지, 텍스트 조건을 처리할 수 있는 비디오 생성 모델인 Moonshot 소개
Architecture and Adaptations
Multimodal Video Block
MVB의 목표:
- 고품질의 비디오 프레임을 지속적으로 생성
- 사전 훈련된 ControlNet을 즉각적으로 통합 가능
- Multi-modal 입력을 수용 가능
Spatialtemporal U-Net Layers
(b)와 같은 이전 연구는 temporal conv와 temporal attention을 삽입하여 비디오를 생성하였다. 하지만 이는 spatial feature의 분포를 변경하여 T2I 생성 능력을 잃을 뿐만 아니라 ControlNet과 같은 adapter와 호환되지 않는다.
AnimateDiff로 대표되는 (c)와 같은 방법은 사전 훈련 모델을 보존하고 ControlNet과도 통합 가능하지만 text prompt에만 의존하고 temporal attention layer에만 너무 많은 부담을 주기 때문에 비디오의 품질이 좋지 않다.
Decoupled Multimodal Cross-attention Layers
(d): MVB의 cross-attention layer
Adapting for Video Generation Applications
Masked Condition for Image Animation
VDM과 마찬가지로 위 그림과 같이 기존 잠재 채널에 5개의 채널을 추가한다.
첫 번째 프레임의 잠재 채널 4 + condition channel 1 = 5
Video Editing with Video Diffusion Models
잠재 인코딩된 비디오에 노이즈를 추가하고 text, image condition을 입력 후 denoising을 수행하면 fine-tuning 없이 비디오 편집이 가능하다.
Geometry Controlled Generation
사전 훈련된 ControlNet을 바로 사용할 수 있다.
Experiments
Baseline: SDXL
SDXL의 가중치를 동결하고 IP-Adapter를 훈련한 뒤 temporal attention layer 훈련.
워터마크 제거를 위해 InternVideo의 1000개 video set에 대한 fine-tuning 수행.