Abstract
신중하게 설계된 filtering, captioning 전략을 통해 생성된 고품질 데이터셋으로 비디오 이해 능력 향상
[Github]
[arXiv](2024/06/06 version v1)
ShareGPT4Video Dataset
- 데이터 소스에서 2분을 초과하는 비디오를 필터링
- 캡션 모델을 통해 비디오에 대한 짧은 캡션을 생성한 다음, 언어 모델을 통해 비디오의 캡션을 인코딩하고 CLS 토큰을 가져와 후보 비디오 풀에 넣음
- 새로운 비디오에 대해 후보 풀의 CLS 토큰들과 비교하고 기존 비디오들과 의미적 유사도가 낮은 경우에만 후보 풀에 추가
- 비디오에서 균일한 시간 간격으로 키프레임을 추출하고 CLIP image encoder의 CLS 토큰을 비교하여 중복성이 높은 인접 프레임을 제거
5. Differential Sliding-Window Captioning
Differential caption은 각 프레임 간의 차이를 설명하며 GPT4V가 이전 프레임과 현재 프레임, 이전 프레임의 differential caption을 입력으로 현재 프레임에 대한 differential caption을 생성하도록 한다.
마지막으로 GPT4-Turbo에 모든 differential caption을 timestamp와 함께 제공하여 전체 비디오에 대한 고품질 캡션을 생성하도록 한다.
ShareCaptioner-Video
ShareGPT4Video dataset을 증강하기 위해 ShareCaptioner-Video 모델을 훈련한다.
InternLM-XComposer2-4KHD를 end-to-end로 fine-tuning.
- Differential caption 생성
- 짧은 비디오에 대한 직접 캡션 생성
- Differential caption들을 요약
- ShareGPT4Video dataset의 dense caption을 GPT-4를 통해 다른 스타일의 프롬프트로 변환하고 다시 원래 dense caption으로 복원하는 re-captioning 작업 등을 할 수 있다.
Experiments
증강된 ShareGPT4Video dataset으로 LLaVA-Next-8B를 fine-tuning하여 ShareGPT4Video-8B를 얻는다.