본문 바로가기

논문 리뷰/Language Model

How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites (InternVL-1.5)

 

Abstract

동적 고해상도 처리, 고품질 이중언어 데이터셋으로 훈련

 

[Github]

[arXiv](2024/04/25 version v1)

 

 

 

InternVL 1.5

 

Strong Vision Encoder

기존 MLLM의 ViT는 고정된 저해상도(224×224), 인터넷에서 크롤링한 이미지로 훈련된다.

 

InternViT-6B-448px-V1.2

뒤에서 4번째 레이어의 feature가 multi-modal task에 가장 적합하다고 한다.

따라서 InternViT-6B의 마지막 3개 레이어 제거, 해상도 향상(448), Nous Hermes 2 - Yi-34B와 통합.

 

InternViT-6B-448px-V1.5

해상도를 동적으로 입력받을 수 있도록 확장하고 규모, 품질, 다양성이 향상된 데이터에 대해 훈련을 계속한다.

LLM을 InternLM2-20B로 변경.


Dynamic High-Resolution

입력 이미지를 미리 정의된 종횡비 중 하나로 일치시킨다. 35가지 조합이 있다고 한다.

 

종횡비가 정해지면 이미지의 전체적인 맥락을 포착하기 위한 썸네일과 함께 448×448 크기의 타일로 분해하여 처리한다.

최대 40개의 타일을 처리할 수 있다고 한다.

UReader에서 영감을 받았다.

UReader


High-Quality Bilingual Dataset

영어, 중국어 데이터에 대해 pretraining, fine-tuning 되었으며 GPT-3.5를 통해 이중 언어 데이터를 증강하였다.

 

 

 

Experiments

 

시각 인식 능력은 좋으나 작은 LLM의 한계인지 multi-turn 대화인 ConvBench는 GPT-4V에 많이 밀리는 모습?