[Github]
[arXiv](2024/01/18 version v1)
Abstract
언어 모델이 학습 중에 스스로 보상을 제공하도록 유도하는 LLM-as-a-Judge prompt를 통해 Self-Rewarding Language Model을 연구한다.
Self-Rewarding Language Models
Initialization
훈련 중에 사용되는 2가지 seed dataset:
- 사전 훈련된 모델에서 SFT(Supervised Fine-Tuning)를 수행하는 데 필요한, 인간이 작성한 IFT(Instruction Fine-Tuning) data
- 아래 그림과 같이 모델에게 응답의 품질을 평가하도록 요청하여 얻은 EFT(Evaluation Fine-Tuning) data
Self-Instruction Creation
- 이전 연구의 접근 방식에 따라, seed IFT에서 몇 개의 prompt를 샘플링하고 few-shot prompting을 통해 새로운 prompt를 생성
- N개의 후보 반응 생성
- LLM-as-a-Judge prompt를 사용하여 응답을 평가
이렇게 생성된 데이터를 AIFT(AI Feedback Training) data라고 한다.
Instruction Following Training
AIFT의 각 prompt에서 가장 점수가 높은 응답과 낮은 응답을 취하여 DPO(Direct Preference Optimization)에 사용한다.
Overall Self-Alignment Algorithm
모델과 훈련 데이터를 다음과 같이 지속적으로 업데이트한다.
Experiments
Basemodel : LLaMA2-70B
'논문 리뷰 > Language Model' 카테고리의 다른 글
Medusa: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads (0) | 2024.01.25 |
---|---|
Fast Inference from Transformers via Speculative Decoding (0) | 2024.01.25 |
Truncation Sampling as Language Model Desmoothing (η-sampling) (0) | 2024.01.25 |
DiffusionGPT: LLM-Driven Text-to-Image Generation System (0) | 2024.01.24 |
Towards Conversational Diagnostic AI (AMIE) (0) | 2024.01.18 |
Mixtral of Experts (Mixtral 8x7B) (0) | 2024.01.11 |