본문 바로가기

논문 리뷰/Diffusion Model

InstructVideo: Instructing Video Diffusion Models with Human Feedback

[Project Page]

[arXiv](Current version v1)

 

 

Abstract

Human feedback을 통해 text-to-video 확산 모델을 fine-tuning 하는 InstructVideo 제안

 

 

 

InstructVideo

Reward Fine-tuning as Editing

우리의 목표는 출력을 크게 변경하는 것이 아니라 인간의 선호에 따라 미묘하게 조정하는 것이다.

 

입력 video-text pair (x, c)에 대해 x를 잠재 latent z로 추출하고 적당한 노이즈를 더한 다음(SDEdit) DDIM sampling step D의 일부(τ) 만큼 denoising 하여 z0을 얻은 후 x0g로 디코딩한다.

 

Reward Fine-tuning with Image Reward Models

인간 선호도 데이터셋을 제작하는 것은 매우 비용이 높기 때문에 기성 이미지 보상 모델을 활용한다.

 

생성된 비디오 x0g를 각 segment로 나누고 프레임을 균일하게 샘플링하여 보상 r을 집계한다.

 

하지만 평균 집계는 artifact를 유발한다. 따라서 중심 프레임에서 멀어질수록 보상을 감소시키는 계수를 도입한다.

 

보상과 최적화 목표 정의:

 

Reward Fine-tuning and Inferenc

Reward fine-tuning

Baseline: ModelScopeT2V

Reward model: HPSv2

LoRA 사용

Classifier-free guidance

Gradient checkpointing을 통해 마지막 DDIM step만 역전파하여 훈련을 가속화함.

 

 

 

Experiments

Comparison with the base model ModelScopeT2V

 

Generalization to unseen text prompts

Fine-tuning dataset에 존재하지 않는 prompt에 대한 결과도 좋아졌다.

 

The evolution of generated videos during fine-tuning