본문 바로가기

논문 리뷰/Language Model

LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models

LLM의 context 크기를 확장하는 효율적인 fine-tuning 방법

 

Github

arXiv

 

 

Abstract

제한된 계산 비용으로 LLM의 context 크기를 확장하는 효율적인 fine-tuning 방식인 LongLoRA 제안

 

 

Introduction

LoRA는 row-rank update를 사용하여 전체 fine-tuning을 근사화한다.

이와 비슷하게 연구진은 short attention으로 long context에 근사할 수 있다는 것을 발견했고,

이 통찰에 따라 효율적인 shift short attention(S2-Attn) 제안.

 

그리고 S2 attn을 통해 긴 context를 효율적으로 fine-tuning 할 수 있는 LongLoRA까지.

 

 

 

LongLoRA

Shift Short Attention

Pattern 1 : 그룹 간 정보 교환이 없어 잘 작동하지 않음.

정보 교환을 위해 pattern 2를 추가.

 

Attention head의 절반씩에 각각의 패턴을 사용함으로써 계산 비용을 늘리지 않음.

(좌하단 네모는 시작 토큰들과 끝 토큰들이 같이 묶임으로써 생김.)

 

Context 길이를 3만 이상으로 늘렸을 때, 다른 효율적인 attention 방법들과 비교한 위의 표를 보면 cross-head S2-attn으로 fine-tuning 한 모델을 full-attention 환경에서 테스트했을 때(하단) 결과가 가장 좋다.

 

이는 shifting이 특정 attention 패턴에 과적합 되는 것을 방지해 준다고 볼 수 있다.


Improved LoRA for Long Context

Context 길이를 크게 늘릴수록 full-attention과 LoRA fine-tuning의 격차가 커지는데, 이는 LoRA의 rank를 올린다고 해서 극복할 수 있는 것이 아니다. 

 

격차를 줄이기 위해 임베딩 및 정규화 레이어를 학습 가능하도록 연다.