[arXiv](2023/12/14 version v5)
Abstract
자연스러운 Interleaved Text-Image Composition이 가능한 InternLM-XComposer 제안
Method
Model Architecture
Visual Encoder
EVA-CLIP 사용
Perceive Sampler
인식 샘플러는 이미지 임베딩을 LLM의 표현에 정렬하는 역할을 하며 BLIP2와 같이 visual encoder와의 cross-attention이 있는 BERT를 사용한다.
Large Language Model
Training
Pre-training
Interleaved, paired multi-modal data와 LLM의 성능을 유지하기 위해 InternLM의 사전 훈련에 사용된 텍스트 데이터 일부를 포함한 dataset에서 다음 토큰을 예측하도록 훈련.
Supervised Fine-tuning
다음과 같은 대화형 상호 작용을 통해 장면 이해, 위치 이해 등을 훈련함.
LLM의 효율적인 학습을 위해 LoRA 사용.
Interleaved Image-Text Composition
인터넷에서 수집한 interleaved image-text composition을 포함하는 데이터셋과 GPT-4를 통해 생성한 지침을 활용하여 모델이 article의 초안을 생성하고, 적절한 위치에 이미지 캡션을 생성하고, article 내 이전 텍스트와 이미지를 고려하여 적절한 이미지를 선택할 수 있게 훈련되어 최종적으로 다음과 같은 article을 생성할 수 있게 된다.
Experiments