LLM, Img model, Vid model을 활용하여 일관성 있는 multi-scene video 생성
[arXiv](2024/01/02 version v1)
Abstract
LLM을 활용하여 content 일관성이 있는 multi-scene video를 생성할 수 있는 VideoDrafter 제안
VideoDrafter
1. Multi-Scene Video Script Generation
2. Entity Reference Image Generation
3. Video Scene Generation
- VideoDrafter-Img
- VideoDrafter-Vid
Multi-Scene Video Script Generation
LLM은 배포 유연성과 추론 효율성을 고려하여 ChatGLM3-6B 채택. (중국어-영어 이중언어 모델)
LLM은 다음과 같은 형식으로 스크립트를 생성하도록 요청받는다.
N은 LLM이 결정하며 각 scene에 등장하는 같은 개체의 이름을 엄격하게 일치시키도록 한다.
그다음 multi-round 대화를 통해 각 개체를 자세히 설명하도록 요청한다.
ChatGPT-4는 돈 들어서 안 썼다고 함; LLM의 스크립트 안정성을 강화하기 위한 추가 사항:
- 추가 요구사항, 스크립트 형식, 예상 출력 예제 등 포괄적인 지침 전달
- Multi-round 대화의 과거 context 5개를 수동으로 선택하여 예제로 전달
- 출력 형식을 확인하고 부적절하면 재생성
Entity Reference Image Generation
사전 훈련된 확산 모델을 통해 각 개체에 대한 참조 이미지를 명시적으로 생성하고 U2-Net을 통해 전경과 배경을 분할한다.
Video Scene Generation
VideoDrafter-Img
Stable Diffusion의 기존 attention module을 텍스트, 전경, 배경 조건을 처리할 수 있도록 개조한다. 전경 개체가 여러 개인 경우 채널 차원으로 연결한다.
VideoDrafter-Vid
Stable Diffusion을 시공간 형태로 확장하고 attention module을 다음과 같이 개조한다.
Kinetics의 400개 action category에 대해 [0,1]400 vector로 표시하고 임베딩을 통해 feature space로 변환한다.
또한 시간적 종속성을 더 잘 포착하기 위해 spatial conv 뒤에 여러 개의 temporal conv를 추가한다.
그리고 카메라 움직임을 생성된 비디오에 반영하기 위해 몇 번의 DDIM 샘플링 후에 직접 프레임을 수정한다고 하는데 해당 방법은 보충 자료에서 설명해준다고 한다. 아직 안 나옴.
Experiments
VideoDrafter-Img는 SD-2.1, VideoDrafter-Vid는 SDXL를 기반으로 Diffusers codebase를 사용하여 구현되었다.