본문 바로가기

논문 리뷰/Diffusion Model

StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation

 

Abstract

Consistent self-attention을 통해 일관된 이미지, motion predictor를 통해 부드러운 비디오 생성

 

[Project Page]

[Github]

[arXiv](2024/05/02 version v1)

 

 

 

Method

Training-free Consistent images generation

 

Consistent Self-Attention (CSA)은 기존의 SA를 대체하고 원래의 가중치를 재사용하여 훈련 없이 사용할 수 있다.

CSA의 방법은 간단하다. 배치 내의 다른 토큰을 self-attention에 참여시키는 것이다.

 

구체적으로, 배치 내의 다른 이미지에서 토큰을 샘플링하고 K, V에 추가하여 SA를 수행한다.

 Pi = Si + Ii


Semantic motion predictor for video generation

인접한 이미지 쌍 사이에 프레임을 삽입하여 비디오로 정제할 수 있다. 

이를 위해 semantic space motion predictor를 제안한다.

 

먼저 CLIP image encoder를 통해 시작과 끝 프레임을 인코딩하고

 

선형 보간으로 프레임을 확장한 후 transformer를 통해 프레임을 예측한다.

 

 

IP-Adapter에서 영감을 받아 텍스트 임베딩, 프레임 임베딩을 비디오 확산 모델에 cross-attention으로 주입한다.

 

최종 예측된 비디오 O와 ground truth G의 MSE loss로 모델을 최적화한다.

 

이러한 방식으로 큰 동작이 포함된 부드러운 비디오를 생성할 수 있다.

 

 

 

Experiments

SDXL or SD-1.5를 사용하고 비디오 모델을 위해 사전 훈련된 temporal module을 통합했다.

 

 

 

StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation

Demo Video StoryDiffusion can create Magic Story, achieving Long-Range Image and Video Generation! Comics Generation StoryDiffusion creates comics in various styles through the proposed consistent self-attention, maintaining consistent character styles and

storydiffusion.github.io