본문 바로가기

논문 리뷰/Language Model

Prometheus: Inducing Fine-grained Evaluation Capability in Language Models

Abstract

Evaluator LM을 훈련하기 위해 설계된 feedback collection dataset과 평가에 특화된 모델인 Prometheus 제안

 

[arXiv](2024/03/09 version v2, 2023/10/12 v1)

 

 

 

The Feedback Collection Dataset

  • Prometheus의 입력: 지시, 지시에 대한 응답, 사용자가 제공한 평가 기준, 참조 답변
  • 출력: 점수, 점수에 대한 이론적 근거를 알려주는 피드백


Dataset Construction Process

  1. 인간이 평가 기준 작성
  2. GPT-4를 통해 초기 평가 기준 세분화
  3. GPT-4를 통해 각 평가 기준과 관련된 새로운 지시 생성
  4. GPT-4를 통해 각 구성요소 생성


Fine-Tuning an Evaluator LM

Feedback collection을 이용해 Llama-2-chat을 fine-tuning 하여 Prometheus를 얻는다.