Iterative Reasoning Preference Optimization

Abstract

CoT를 DPO에 사용하여 모델을 반복적으로 개선하는 Iterative RPO 제안

[arXiv](2024/04/30 version v1)

CoT와 답변을 생성하고 순위를 매기고

DPO + NLL의 조합으로

반복적으로 개선한다.

Soft Merging of Experts with Adaptive Routing (SMEAR) (0)	2024.05.08
Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models (0)	2024.05.08
Prometheus: Inducing Fine-grained Evaluation Capability in Language Models (0)	2024.05.07
Better & Faster Large Language Models via Multi-token Prediction (2)	2024.05.03
Octopus v4: Graph of language models (0)	2024.05.03
Octopus v3: Technical Report for On-device Sub-billion Multimodal AI Agent (1)	2024.05.01