Abstract
Evaluator LM을 훈련하기 위해 설계된 feedback collection dataset과 평가에 특화된 모델인 Prometheus 제안
[arXiv](2024/03/09 version v2, 2023/10/12 v1)
The Feedback Collection Dataset
- Prometheus의 입력: 지시, 지시에 대한 응답, 사용자가 제공한 평가 기준, 참조 답변
- 출력: 점수, 점수에 대한 이론적 근거를 알려주는 피드백
Dataset Construction Process
- 인간이 평가 기준 작성
- GPT-4를 통해 초기 평가 기준 세분화
- GPT-4를 통해 각 평가 기준과 관련된 새로운 지시 생성
- GPT-4를 통해 각 구성요소 생성
Fine-Tuning an Evaluator LM
Feedback collection을 이용해 Llama-2-chat을 fine-tuning 하여 Prometheus를 얻는다.
'논문 리뷰 > Language Model' 카테고리의 다른 글
Lory: Fully Differentiable Mixture-of-Experts for Autoregressive Language Model Pre-training (0) | 2024.05.10 |
---|---|
Soft Merging of Experts with Adaptive Routing (SMEAR) (0) | 2024.05.08 |
Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models (0) | 2024.05.08 |
Iterative Reasoning Preference Optimization (0) | 2024.05.03 |
Better & Faster Large Language Models via Multi-token Prediction (0) | 2024.05.03 |
Octopus v4: Graph of language models (0) | 2024.05.03 |