본문 바로가기

논문 리뷰/Language Model

Learn Your Reference Model for Real Good Alignment (TR-DPO)

Abstract

학습 중에 참조 정책을 업데이트하는 TR-DPO (Trust Region DPO) 제안

 

[arXiv](2024/04/15 version v1)

 

 

 

Method

 

Vanilla DPO는 고정된 참조 정책을 사용하지만 본문에서는 참조 정책을 업데이트할 것을 제안한다.

 

Soft update의 정도는 α의 값에 따라 결정되며 hard update는 𝜏 training step 후에 정책을 직접 대체한다.

 

 

 

Experiments

실험에는 Pythia 모델을 사용한다. 

 

제안하는 방법론은 엄청나게 간단하고, 이후 다방면의 분석을 내놓고 있지만 결론적으로  𝛼 = 0.5 ~ 0.7, 𝜏 = 256 ~ 512의 값이 제일 적절하다고 말하고 있다.