본문 바로가기

논문 리뷰/Language Model

TransformerFAM: Feedback attention is working memory

Abstract

Global information을 제공하는 feedback attention memory를 통해 무한 시퀀스를 처리할 수 있다.

요즘 비슷한 논문 엄청 많이 나옴;;

 

[arXiv](2024/04/14 version v1)

 

 

 

TransformerFAM

Block Sliding Window Attention (BSWA)

 

BSWA는 sliding window attention에서 이전 memory segment의 토큰까지 추가한 것이다. Attention을 블록으로 나누고 각 블록을 독립적으로 계산하면 최대 메모리는 늘어나지 않는다.

 

무한히 긴 시퀀스를 생성할 수 있지만 수용 필드 외부의 토큰을 볼 수 없다는 단점이 있다.


Feedback Attention Memory

전역 정보를 제공하는 FAM (Feedback Attention Memory) 이라는 가상 활성화를 추가한다.

 

현재 K, V에 FAM의 K, V를 추가하여 self-attention을 수행하고, 현재 K, V를 통해 FAM을 업데이트한다.

 

위치 인코딩은 RoPE를 사용하며, FAM token은 매번 활성 segment의 마지막에 추가된다.

실험 결과 가장 성능이 좋은 위치였다.

 

FAM이 없다면 BSWA의 context widnow 최대 크기는 일정하므로 추론 시 위치를 보간할 필요가 없다.

 

하지만 FAM은 과거부터 현재까지의 절대 위치가 재귀적으로 내장되어 있기 때문에 모델이 큰 절대 위치 값을 추정해야 하는 상황이 생긴다. 따라서 훈련 단계에서 절대 위치에 무작위 위치 offset을 추가하여 모든 보간 된 위치에 적응할 수 있도록 한다.

 

 

 

Experiments

Flan-PaLM 모델에 LoRA를 추가하여 실험했다.

 

PassKey Retrieval

M@는 BSWA segment의 갯수 @개

 

Long Context Tasks