본문 바로가기

논문 리뷰/Language Model

DocLLM: A layout-aware generative language model for multimodal document understanding

[arXiv](2023/12/31 version v1)

 

Abstract

LLM이 layout을 고려하여 시각적 문서를 추론하도록 경량으로 확장한 DocLLM 소개

 

 

 

DocLLM Framework

Model Architecture

Baseline: LLaMA2

OCR을 사용하여 얻은 text token과 공간 정보를 별개의 양식으로 취급하여 별개의 벡터를 사용한다.

 

Disentangled Spatial Attention

Text token t의 hidden vector H에 대한 일반적인 self-attention:

 

DocLLM에서는 입력 {(x, b)}에 대해 bbox를 hidden vector S로 임베딩하고 text-to-text, text-to-spatial, spatial-to-text, spatial-to-spatial attention을 수행한다.

 

xi에서 xj로의 attention map은 다음과 같이 계산된다.

 

여기서 주의할 점은 S가 여러 레이어에 걸쳐 재사용된다는 점이다.

또한 추가 피라미터는 레이아웃 임베딩과 projection layers로 이미지 모델을 사용하는 것에 비하면 현저히 적다.

 

이전 연구에서와 같이 단순하게 H에 S를 더하는 방법보다 attention score에서 양식을 분리하여 표현함으로써 선택적 집중을 가능하게 한다. (인접한 텍스트가 서로 관련이 없을 수도 있으므로)

 

Pretraining

시각적 문서는 '이름', '직업'과 같이 단절되고 불규칙한 텍스트 조각으로 구성된 경우가 많다. 따라서 OCR이 식별한 입력 시퀀스 x에 대해 text infilling 목표를 사용한다.

 

Text infilling에 대한 자세한 설명은 GLM - autoregressive blank filling 참고

 

DocLLM에서의 text infilling:

 

Text infilling에 대한 Cross-Entropy Loss:

 

이 목표는 pretraining step에서만 모델의 모든 피라미터에 대해 사용된다.

 

Instruction Tuning

각 작업에 따라 적절한 Instruction Tuning 수행. 그냥 나열이므로 생략.

 

 

 

Experiments