본문 바로가기

논문 리뷰/Language Model

Self-Rewarding Language Models

[Github]

[arXiv](2024/01/18 version v1)

 

 

Abstract

언어 모델이 학습 중에 스스로 보상을 제공하도록 유도하는 LLM-as-a-Judge prompt를 통해 Self-Rewarding Language Model을 연구한다.

 

 

 

Self-Rewarding Language Models

Initialization

훈련 중에 사용되는 2가지 seed dataset:

  • 사전 훈련된 모델에서 SFT(Supervised Fine-Tuning)를 수행하는 데 필요한, 인간이 작성한 IFT(Instruction Fine-Tuning) data
  • 아래 그림과 같이 모델에게 응답의 품질을 평가하도록 요청하여 얻은 EFT(Evaluation Fine-Tuning) data

LLM-as-a-Judge prompt

 

Self-Instruction Creation

  1. 이전 연구의 접근 방식에 따라, seed IFT에서 몇 개의 prompt를 샘플링하고 few-shot prompting을 통해 새로운 prompt를 생성
  2. N개의 후보 반응 생성
  3. LLM-as-a-Judge prompt를 사용하여 응답을 평가

이렇게 생성된 데이터를 AIFT(AI Feedback Training) data라고 한다.

 

Instruction Following Training

AIFT의 각 prompt에서 가장 점수가 높은 응답과 낮은 응답을 취하여 DPO(Direct Preference Optimization)에 사용한다.

 

Overall Self-Alignment Algorithm

모델과 훈련 데이터를 다음과 같이 지속적으로 업데이트한다.

 

 

 

Experiments

Basemodel : LLaMA2-70B