Prometheus: Inducing Fine-grained Evaluation Capability in Language Models

논문 리뷰/Language Model

Prometheus: Inducing Fine-grained Evaluation Capability in Language Models

Ostin 2024. 5. 7. 17:03

Abstract

Evaluator LM을 훈련하기 위해 설계된 feedback collection dataset과 평가에 특화된 모델인 Prometheus 제안

[arXiv](2024/03/09 version v2, 2023/10/12 v1)

The Feedback Collection Dataset

Prometheus의 입력: 지시, 지시에 대한 응답, 사용자가 제공한 평가 기준, 참조 답변
출력: 점수, 점수에 대한 이론적 근거를 알려주는 피드백

Dataset Construction Process

인간이 평가 기준 작성
GPT-4를 통해 초기 평가 기준 세분화
GPT-4를 통해 각 평가 기준과 관련된 새로운 지시 생성
GPT-4를 통해 각 구성요소 생성

Fine-Tuning an Evaluator LM

Feedback collection을 이용해 Llama-2-chat을 fine-tuning 하여 Prometheus를 얻는다.

저작자표시 (새창열림)