SimPO: Simple Preference Optimization with a Reference-Free Reward

Abstract

DPO보다 간단하면서도 더 효과적인 SimPO 제안

[arXiv](2024/05/23 version v1)

SimPO의 장점:

DPO는 명시적인 보상 모델을 학습하는 대신 암묵적으로 보상을 reparameterize 하여

다음과 같은 목표를 사용한다.

Discrepancy between reward and generation for DPO

DPO는 다음과 같은 단점이 있다.

구체적으로, DPO에서 암묵적인 보상은 어떤 절댓값이 아닌 이전 정책에서 얼마나 벗어났는지에 대해 더 높은 보상을 매기기 때문에 어떤 삼중항 (x, y_w, y_l)에 대해 다음을 항상 만족하지 않으며

실제로 DPO로 훈련된 세트의 약 50%만이 이를 만족했다.

Length-normalized reward formulation

당연하게도 암묵적 보상의 training, generation metric을 일치시키는 방법이 채택되었고 길이 정규화를 추가하였다.

참조 모델이 필요 없고, 길이 정규화 덕분에 더 길지만 품질이 낮은 시퀀스가 생성되는 경향이 줄어들었다.

추가로 승리 응답과 패배 응답의 차이의 최솟값을 보장하기 위해 마진 항을 도입했다.

최종 SimPO 목표는 다음과 같다.

종합 비교:

NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models (1)	2024.05.29
Meteor: Mamba-based Traversal of Rationale for Large Language and Vision Models (0)	2024.05.28
ConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Models (0)	2024.05.28
RLHF Workflow: From Reward Modeling to Online RLHF (1)	2024.05.27
MoRA: High-Rank Updating for Parameter-Efficient Fine-Tuning (0)	2024.05.24
Reducing Transformer Key-Value Cache Size with Cross-Layer Attention (0)	2024.05.24