본문 바로가기

논문 리뷰/Language Model

InternLM-XComposer: A Vision-Language Large Model for Advanced Text-image Comprehension and Composition

[arXiv](2023/12/14 version v5)

 

 

Abstract

자연스러운 Interleaved Text-Image Composition이 가능한 InternLM-XComposer 제안

 

 

 

Method

Model Architecture

Visual Encoder

EVA-CLIP 사용

 

Perceive Sampler

인식 샘플러는 이미지 임베딩을 LLM의 표현에 정렬하는 역할을 하며 BLIP2와 같이 visual encoder와의 cross-attention이 있는 BERT를 사용한다.

 

Large Language Model

InternLM

 

Training

Pre-training

Interleaved, paired multi-modal data와 LLM의 성능을 유지하기 위해 InternLM의 사전 훈련에 사용된 텍스트 데이터 일부를 포함한 dataset에서 다음 토큰을 예측하도록 훈련.

 

Supervised Fine-tuning

다음과 같은 대화형 상호 작용을 통해 장면 이해, 위치 이해 등을 훈련함.

end of user, end of bot

 

LLM의 효율적인 학습을 위해 LoRA 사용.

 

Interleaved Image-Text Composition

 

인터넷에서 수집한 interleaved image-text composition을 포함하는 데이터셋과 GPT-4를 통해 생성한 지침을 활용하여 모델이 article의 초안을 생성하고, 적절한 위치에 이미지 캡션을 생성하고, article 내 이전 텍스트와 이미지를 고려하여 적절한 이미지를 선택할 수 있게 훈련되어 최종적으로 다음과 같은 article을 생성할 수 있게 된다.

 

 

 

Experiments