본문 바로가기

논문 리뷰/Language Model

ReFT: Representation Finetuning for Language Models

Abstract

가중치 대신 표현을 수정하는 Representation Fine-Tuning (ReFT)의 개념과 low-rank를 활용하여 효율적으로 표현에 개입할 수 있는 LoReFT 제안

 

[Github]

[arXiv](2024/04/08 version v2)

 

 

 

ReFT

용어 정의:

입력 시퀀스 x = (x1, ..., xn)는 layer l에서 hidden state hn(l)로 임베딩된다.

m layer transformer에서 다음 토큰 xn+1의 확률은 다음과 같이 표현될 수 있다. 여기서 W는 logits으로 매핑하는 행렬


Low-rank Linear Subspace ReFT (LoReFT)

공식은 다음과 같다. h를 low-rank로 투영하여 표현을 수정한다.

 

피라미터는 다음과 같고

R은 low-rank 투영 행렬, 그리고 h를 선형 변환하기 위한 Weight & bias.

 

언어 모델링, 분류 등 목적에 따라 ϕ의 피라미터를 훈련하면 된다.

언어 모델링 목표


The ReFT family of methods

다음과 같이 개입 위치를 지정할 수 있으며 

모든 개입 함수 (ϕ1, ..., ϕf)의 피라미터는 독립적이다.

 

 

 

Experiments

Setup

보통 prefix + suffix에, 모든 레이어 또는 일부 레이어에 적용하는 듯하다.