본문 바로가기

논문 리뷰/Language Model

ShareGPT4Video: Improving Video Understanding and Generation with Better Captions

 

Abstract

신중하게 설계된 filtering, captioning 전략을 통해 생성된 고품질 데이터셋으로 비디오 이해 능력 향상

 

[Project Page]

[Github]

[arXiv](2024/06/06 version v1)

 

 

 

ShareGPT4Video Dataset

  1. 데이터 소스에서 2분을 초과하는 비디오를 필터링
  2. 캡션 모델을 통해 비디오에 대한 짧은 캡션을 생성한 다음, 언어 모델을 통해 비디오의 캡션을 인코딩하고 CLS 토큰을 가져와 후보 비디오 풀에 넣음
  3. 새로운 비디오에 대해 후보 풀의 CLS 토큰들과 비교하고 기존 비디오들과 의미적 유사도가 낮은 경우에만 후보 풀에 추가
  4. 비디오에서 균일한 시간 간격으로 키프레임을 추출하고 CLIP image encoder의 CLS 토큰을 비교하여 중복성이 높은 인접 프레임을 제거

 

5. Differential Sliding-Window Captioning

 

Differential caption은 각 프레임 간의 차이를 설명하며 GPT4V가 이전 프레임과 현재 프레임, 이전 프레임의 differential caption을 입력으로 현재 프레임에 대한 differential caption을 생성하도록 한다.

 

마지막으로 GPT4-Turbo에 모든 differential caption을 timestamp와 함께 제공하여 전체 비디오에 대한 고품질 캡션을 생성하도록 한다.

 

 

 

ShareCaptioner-Video

ShareGPT4Video dataset을 증강하기 위해 ShareCaptioner-Video 모델을 훈련한다.

InternLM-XComposer2-4KHD를 end-to-end로 fine-tuning.

  • Differential caption 생성
  • 짧은 비디오에 대한 직접 캡션 생성
  • Differential caption들을 요약
  • ShareGPT4Video dataset의 dense caption을 GPT-4를 통해 다른 스타일의 프롬프트로 변환하고 다시 원래 dense caption으로 복원하는 re-captioning 작업 등을 할 수 있다.

 

 

 

Experiments

증강된 ShareGPT4Video dataset으로 LLaVA-Next-8B를 fine-tuning하여 ShareGPT4Video-8B를 얻는다.