본문 바로가기

논문 리뷰/Language Model

Iterative Reasoning Preference Optimization

Abstract

CoT를 DPO에 사용하여 모델을 반복적으로 개선하는 Iterative RPO 제안

 

[arXiv](2024/04/30 version v1)

 

 

 

Iterative Reasoning Preference Optimization

 

CoT와 답변을 생성하고 순위를 매기고

 

DPO + NLL의 조합으로

 

반복적으로 개선한다.

 

 

 

Experiments