본문 바로가기

논문 리뷰/Diffusion Model

Moonshot: Towards Controllable Video Generation and Editing with Multimodal Conditions

IP-Adapter에 temporal attention을 더하여 비디오 생성

 

[Project Page]

[arXiv](2024/01/03 version v1)

 

Robotic eagle, 8k unreal engine render, wires and gears
A disoriented astronaut, lost in a galaxy of swirling colors, floating in zero gravity

 

Abstract

Multimodal Video Block (MVB)을 통해 이미지, 텍스트 조건을 처리할 수 있는 비디오 생성 모델인 Moonshot 소개

 

 

Architecture and Adaptations

Multimodal Video Block

MVB의 목표:

  1. 고품질의 비디오 프레임을 지속적으로 생성
  2. 사전 훈련된 ControlNet을 즉각적으로 통합 가능
  3. Multi-modal 입력을 수용 가능

 

Spatialtemporal U-Net Layers

(b)와 같은 이전 연구는 temporal conv와 temporal attention을 삽입하여 비디오를 생성하였다. 하지만 이는 spatial feature의 분포를 변경하여 T2I 생성 능력을 잃을 뿐만 아니라 ControlNet과 같은 adapter와 호환되지 않는다.

 

AnimateDiff로 대표되는 (c)와 같은 방법은 사전 훈련 모델을 보존하고 ControlNet과도 통합 가능하지만 text prompt에만 의존하고 temporal attention layer에만 너무 많은 부담을 주기 때문에 비디오의 품질이 좋지 않다.

 

Decoupled Multimodal Cross-attention Layers

(d): MVB의 cross-attention layer

 

Adapting for Video Generation Applications

Masked Condition for Image Animation

VDM과 마찬가지로 위 그림과 같이 기존 잠재 채널에 5개의 채널을 추가한다.

첫 번째 프레임의 잠재 채널 4 + condition channel 1 = 5

 

Video Editing with Video Diffusion Models

잠재 인코딩된 비디오에 노이즈를 추가하고 text, image condition을 입력 후 denoising을 수행하면 fine-tuning 없이 비디오 편집이 가능하다.

 

Geometry Controlled Generation

사전 훈련된 ControlNet을 바로 사용할 수 있다.

 

 

 

Experiments

Baseline: SDXL

SDXL의 가중치를 동결하고 IP-Adapter를 훈련한 뒤 temporal attention layer 훈련.

워터마크 제거를 위해 InternVideo의 1000개 video set에 대한 fine-tuning 수행.

 

Project Page

 

MoonShot

Abstract Most existing video diffusion models (VDMs) are limited to mere text conditions. Thereby, they are usually lacking in control over visual appearance and geometry structure of the generated videos. This work presents MoonShot, a new video generatio

showlab.github.io