[arXiv](2024/01/17 version v1)
Abstract
저자유도 작업에서 효과적으로 분포를 전환할 수 있는 Unified-modal Video Genearation system (UniVG) 제안
Introduction
자유도가 높은 작업 - 약하게 제한되는 입력 조건(text, image)을 반영하는 생성 작업
자유도가 낮은 작업 - 애니메이션, 편집, 초해상도 등 픽셀 단위 작업
편집과 같은 저자유도 작업은 주로 일정한 노이즈를 추가한 다음 텍스트를 사용하여 분포를 조정하는 방식(e.g. SDEdit)을 사용한다. 하지만 이러한 편집 패러다임은 학습과 추론이 불일치하는 한계가 있다. 이때 고자유도 작업인 생성을 위해 훈련된 모델을 사용하기 때문이다.
이러한 모델은 목표 분포로의 전환이 아닌 근사화만 하도록 훈련되며, 노이즈가 적을수록 편집 능력이 약해지고, 노이즈가 많을수록 입력 보존 능력이 떨어진다.
Method
- UniVG
- Multi-condition Cross Attention
- Biased Gaussian Noise
UniVG
Base model FB : VideoCrafter1
Animation model FA : base model에서 첫 번째 프레임을 조건으로 받을 수 있도록 하고 fine-tuning
Super-resolution model FSR : base model을 초해상도 전용 모델로 fine-tuning
Multi-condition Cross Attention
일정 확률로 image dropout을 적용. 나머지는 VideoCrafter1과 같음.
Biased Gaussian Noise
Introduction에서 언급했듯이, 고자유도 생성을 위해 훈련된 모델은 조건 분포로의 근사만을 수행할 수 있다(왼쪽). 따라서 분포 전환을 학습하기 위해 tn ~ tm에 해당하는 process를 잘 설계하는 것이 중요하다.
본문에서는 다음과 같이 설정했다.
추가된 노이즈와 함께 두 분포의 차이를 예측하도록 함.
Experiments
'논문 리뷰 > Diffusion Model' 카테고리의 다른 글
EmerDiff: Emerging Pixel-level Semantic Knowledge in Diffusion Models (0) | 2024.01.29 |
---|---|
An Edit Friendly DDPM Noise Space: Inversion and Manipulations (DDPM Inversion) (0) | 2024.01.29 |
VideoCrafter2: Overcoming Data Limitations for High-Quality Video Diffusion Models (0) | 2024.01.22 |
InstantID: Zero-shot Identity-Preserving Generation in Seconds (0) | 2024.01.20 |
PALP: Prompt Aligned Personalization of Text-to-Image Models (0) | 2024.01.19 |
Delta Denoising Score (DDS) (1) | 2024.01.19 |