Iterative Reasoning Preference Optimization

논문 리뷰/Language Model

Iterative Reasoning Preference Optimization

Ostin 2024. 5. 3. 16:13

Abstract

CoT를 DPO에 사용하여 모델을 반복적으로 개선하는 Iterative RPO 제안

[arXiv](2024/04/30 version v1)

Iterative Reasoning Preference Optimization

CoT와 답변을 생성하고 순위를 매기고

DPO + NLL의 조합으로

반복적으로 개선한다.

Experiments

저작자표시 (새창열림)