본문 바로가기

논문 리뷰/Diffusion Model

UniVG: Towards UNIfied-modal Video Generation

[Project Page]

[arXiv](2024/01/17 version v1)

 

 

Abstract

저자유도 작업에서 효과적으로 분포를 전환할 수 있는 Unified-modal Video Genearation system (UniVG) 제안

 

 

Introduction

자유도가 높은 작업 - 약하게 제한되는 입력 조건(text, image)을 반영하는 생성 작업

자유도가 낮은 작업 - 애니메이션, 편집, 초해상도 등 픽셀 단위 작업

 

편집과 같은 저자유도 작업은 주로 일정한 노이즈를 추가한 다음 텍스트를 사용하여 분포를 조정하는 방식(e.g. SDEdit)을 사용한다. 하지만 이러한 편집 패러다임은 학습과 추론이 불일치하는 한계가 있다. 이때 고자유도 작업인 생성을 위해 훈련된 모델을 사용하기 때문이다. 

 

이러한 모델은 목표 분포로의 전환이 아닌 근사화만 하도록 훈련되며, 노이즈가 적을수록 편집 능력이 약해지고, 노이즈가 많을수록 입력 보존 능력이 떨어진다. 

 

 

Method

  1. UniVG
  2. Multi-condition Cross Attention
  3. Biased Gaussian Noise

 

UniVG

Base model FB : VideoCrafter1

 

Animation model FA : base model에서 첫 번째 프레임을 조건으로 받을 수 있도록 하고 fine-tuning

 

Super-resolution model FSR : base model을 초해상도 전용 모델로 fine-tuning

 

Multi-condition Cross Attention

일정 확률로 image dropout을 적용. 나머지는 VideoCrafter1과 같음.

 

Biased Gaussian Noise

 

Introduction에서 언급했듯이, 고자유도 생성을 위해 훈련된 모델은 조건 분포로의 근사만을 수행할 수 있다(왼쪽). 따라서 분포 전환을 학습하기 위해 tn ~ tm에 해당하는 process를 잘 설계하는 것이 중요하다.

 

본문에서는 다음과 같이 설정했다.

추가된 노이즈와 함께 두 분포의 차이를 예측하도록 함.

 

 

 

Experiments

Project Page

 

UniVG

UniVG: Towards UNIfied-modal Video Generation Ludan RUAN, Lei TIAN, Chuanwei HUANG, Xu ZHANG, Xinyan XIAO, Baidu Inc. *Best viewed in the highest resolution and with the sound on Diffusion based video generation has received extensive attention and achieve

univg-baidu.github.io