논문 리뷰/Language Model
Prometheus: Inducing Fine-grained Evaluation Capability in Language Models
Ostin
2024. 5. 7. 17:03
Abstract
Evaluator LM을 훈련하기 위해 설계된 feedback collection dataset과 평가에 특화된 모델인 Prometheus 제안
[arXiv](2024/03/09 version v2, 2023/10/12 v1)
The Feedback Collection Dataset
- Prometheus의 입력: 지시, 지시에 대한 응답, 사용자가 제공한 평가 기준, 참조 답변
- 출력: 점수, 점수에 대한 이론적 근거를 알려주는 피드백
Dataset Construction Process
- 인간이 평가 기준 작성
- GPT-4를 통해 초기 평가 기준 세분화
- GPT-4를 통해 각 평가 기준과 관련된 새로운 지시 생성
- GPT-4를 통해 각 구성요소 생성
Fine-Tuning an Evaluator LM
Feedback collection을 이용해 Llama-2-chat을 fine-tuning 하여 Prometheus를 얻는다.