본문 바로가기

논문 리뷰/Vision Transformer

Photorealistic Video Generation with Diffusion Models (W.A.L.T)

[Project Page]

[arXiv](Current version v1)

 

 

Abstract

확산 모델링을 통해 photo-realistic 비디오를 생성할 수 있는 Window Attention Latent Transformer(W.A.L.T) 제안

 

Transformer를 기반으로 한 확산 모델링의 기본 사항에 대해서는 DiT 참고

 

 

 

W.A.L.T

Learning Visual Tokens

Labeled video data의 부족 때문에 최근 image-video joint training이 선호되는 추세이다. 

 

비디오 시퀀스 x ∈ R(1+T)×H×W×C를 저차원 표현 z ∈ R(1+t)×h×w×c로 압축하길 원한다.

1+t인 이유는 이미지 입력을 처리하기 위함이다.

 

Tokenizer로 MAGVIT-v2의 causal 3D CNN architecture를 채택.

Causal 3D CNN은 이전 프레임에만 의존하여 이미지와 비디오를 처리할 수 있다.

양자화는 안 씀.

 

Learning to Generate Images and Videos

Patchify

각 잠재 프레임을 패치화한다.

공간 및 시간 임베딩이 포함된 learnable positional embedding 추가.

 

Window attention

Spatial window는 프레임 내의 모든 토큰 포함: 1×hp×wp

Spatiotemporal window는 각 프레임의 일부 토큰 포함: (1+t)×h'p×w'p

 

Conditional Generation

Overview

 

Cross-attention

각 window에서 cross-attention 사용.

Joint training의 경우 spatial window cross-attention만 사용. Spatiotemporal window는 비디오에 대해서만 훈련할 때 사용된다.

Cross-attention에서 query를 key, value에 연결했을 때 결과가 좋았다고 한다.

 

AdaLN-LoRA

DiT에서 적응형 레이어 정규화(AdaLN) 피라미터는 다음과 같이 구해지는데,

 

학습하는 피라미터 수를 줄이기 위해 LoRA 사용.

 

Self-conditioning

Self-conditiningv-prediction(마지막 챕터 참고)을 함께 사용한다.

 

Autoregressive Generation

긴 비디오 생성을 위해 훈련 중 일정 확률로 프레임 예측 작업에 대해 훈련한다.

 

2개 이하의 이전 프레임을 조건화하여 latent의 채널 차원에 연결. (m = mask)

Classifier-free guidance와 cfp를 조건 신호로 다음 프레임을 예측하도록 한다.

 

Video Super Resolution

고해상도 비디오 생성을 위해 noise conditioning augmentation이 있는 두 번의 super resolution stage를 거친다. 

 

저해상도 모델의 출력은 depth-to-space convolution 작업을 통해 업스케일링하여 고해상도 모델에 입력된다.

 

Aspect-ratio finetuning

정사각형 종횡비로 모델을 훈련한 뒤 위치 임베딩을 보간하여 종횡비가 9:16인 비디오를 생성하기 위한 fine-tuning 수행.

 

 

 

Experiments

신기한 건 매우 낮은 rank, 패치 크기 1?을 쓴다?

 

Project Page

 

Photorealistic Video Generation with Diffusion Models

We present W.A.L.T, a transformer-based approach for photorealistic video generation via diffusion modeling. Our approach has two key design decisions. First, we use a causal encoder to jointly compress images and videos within a unified latent space, enab

walt-video-diffusion.github.io