Abstract
가중치 대신 표현을 수정하는 Representation Fine-Tuning (ReFT)의 개념과 low-rank를 활용하여 효율적으로 표현에 개입할 수 있는 LoReFT 제안
[Github]
[arXiv](2024/04/08 version v2)
ReFT
용어 정의:
입력 시퀀스 x = (x1, ..., xn)는 layer l에서 hidden state hn(l)로 임베딩된다.
m layer transformer에서 다음 토큰 xn+1의 확률은 다음과 같이 표현될 수 있다. 여기서 W는 logits으로 매핑하는 행렬
Low-rank Linear Subspace ReFT (LoReFT)
공식은 다음과 같다. h를 low-rank로 투영하여 표현을 수정한다.
피라미터는 다음과 같고
R은 low-rank 투영 행렬, 그리고 h를 선형 변환하기 위한 Weight & bias.
언어 모델링, 분류 등 목적에 따라 ϕ의 피라미터를 훈련하면 된다.
The ReFT family of methods
다음과 같이 개입 위치를 지정할 수 있으며
모든 개입 함수 (ϕ1, ..., ϕf)의 피라미터는 독립적이다.
Experiments
Setup
보통 prefix + suffix에, 모든 레이어 또는 일부 레이어에 적용하는 듯하다.