[arXiv](Current version v1)
Abstract
확산 모델링을 통해 photo-realistic 비디오를 생성할 수 있는 Window Attention Latent Transformer(W.A.L.T) 제안
Transformer를 기반으로 한 확산 모델링의 기본 사항에 대해서는 DiT 참고
W.A.L.T
Learning Visual Tokens
Labeled video data의 부족 때문에 최근 image-video joint training이 선호되는 추세이다.
비디오 시퀀스 x ∈ R(1+T)×H×W×C를 저차원 표현 z ∈ R(1+t)×h×w×c로 압축하길 원한다.
1+t인 이유는 이미지 입력을 처리하기 위함이다.
Tokenizer로 MAGVIT-v2의 causal 3D CNN architecture를 채택.
Causal 3D CNN은 이전 프레임에만 의존하여 이미지와 비디오를 처리할 수 있다.
양자화는 안 씀.
Learning to Generate Images and Videos
Patchify
각 잠재 프레임을 패치화한다.
공간 및 시간 임베딩이 포함된 learnable positional embedding 추가.
Window attention
Spatial window는 프레임 내의 모든 토큰 포함: 1×hp×wp
Spatiotemporal window는 각 프레임의 일부 토큰 포함: (1+t)×h'p×w'p
Conditional Generation
Cross-attention
각 window에서 cross-attention 사용.
Joint training의 경우 spatial window cross-attention만 사용. Spatiotemporal window는 비디오에 대해서만 훈련할 때 사용된다.
Cross-attention에서 query를 key, value에 연결했을 때 결과가 좋았다고 한다.
AdaLN-LoRA
DiT에서 적응형 레이어 정규화(AdaLN) 피라미터는 다음과 같이 구해지는데,
학습하는 피라미터 수를 줄이기 위해 LoRA 사용.
Self-conditioning
Self-conditining과 v-prediction(마지막 챕터 참고)을 함께 사용한다.
Autoregressive Generation
긴 비디오 생성을 위해 훈련 중 일정 확률로 프레임 예측 작업에 대해 훈련한다.
2개 이하의 이전 프레임을 조건화하여 latent의 채널 차원에 연결. (m = mask)
Classifier-free guidance와 cfp를 조건 신호로 다음 프레임을 예측하도록 한다.
Video Super Resolution
고해상도 비디오 생성을 위해 noise conditioning augmentation이 있는 두 번의 super resolution stage를 거친다.
저해상도 모델의 출력은 depth-to-space convolution 작업을 통해 업스케일링하여 고해상도 모델에 입력된다.
Aspect-ratio finetuning
정사각형 종횡비로 모델을 훈련한 뒤 위치 임베딩을 보간하여 종횡비가 9:16인 비디오를 생성하기 위한 fine-tuning 수행.
Experiments
신기한 건 매우 낮은 rank, 패치 크기 1?을 쓴다?