본문 바로가기

논문 리뷰/Language Model

TextSquare: Scaling up Text-Centric Visual Instruction Tuning

 

Abstract

대규모 고품질 VQA 데이터셋을 통해 MLLM의 성능, 특히 텍스트 인식을 크게 향상.

 

[arXiv](2024/04/19 version v1)

 

 

 

Square-10M: A Massive and High-quality Text-Centric VQA Instruction Tuning Dataset

 

Data Generation: Self-Questioning, Answering, and Reasoning

Stage 1: Self-Questioning

Gemini Pro를 통해 질문 생성.

추가로 요즘 MLLM은 텍스트 이해 능력이 약하기 때문에 OCR 모델을 통해 추출된 텍스트를 프롬프트 앞에 추가.

 

Stage 2: Answering

답변 생성.

 

Stage 3: Reasoning

답변의 이유를 설명하도록 요구.

 

Data Filtering: Self-Evaluation and Answering Consistency

Self-Evaluation of MLLMs

생성된 질문이 의미가 있는지, 답변이 질문을 해결하기에 충분한 지 판단하도록 한다.

 

Multi-Prompt Consistency, Multi-Context Consistency

Prompt와 context를 수동으로 증강하여 유사한 프롬프트에 대해 다양한 유형의 답변을 생성한다.

의미론적으로 일관적인 답변을 생성하는지 확인하고 그렇지 않으면 VQA 쌍을 삭제.

 

 

 

TextSquare: A Text-Centric Multimodal Large Language Model

Architecture는 InternLM-XComposer2를 따른다.

Vision encoder, LLM, projector가 있다.

 

Square-10M으로 3-stage SFT를 수행.

  • 490의 해상도로 모든 구성 요소를 훈련
  • 증가한 700의 해상도에서 vision encoder만 훈련
  • 700의 해상도로 모든 구성 요소 훈련

 

 

 

Experiment

현재까지 사용 가능한 대부분의 MLLM을 능가한다고 함.

 

 

텍스트 감지 잘 함.