본문 바로가기

논문 리뷰/Language Model

SimPO: Simple Preference Optimization with a Reference-Free Reward

 

Abstract

DPO보다 간단하면서도 더 효과적인 SimPO 제안

 

[Github]

[arXiv](2024/05/23 version v1)

 

 

 

Introduction

SimPO의 장점:

  • Simplicity: DPO 및 다른 접근 방식에 비해 가볍고 구현하기 쉬움
  • Significant performance advantage: 단순함에도 불구하고 최신 방법들보다 뛰어난 성능을 보여줌
  • Minimal length exploitation: 응답 길이를 크게 늘리지 않음. (RLHF는 출력이 길어지는 편향이 있다.)

 

 

 

SimPO: Simple Preference Optimization

DPO는 명시적인 보상 모델을 학습하는 대신 암묵적으로 보상을 reparameterize 하여 

다음과 같은 목표를 사용한다.


A Simple Reference-Free Reward Aligned with Generation

Discrepancy between reward and generation for DPO

DPO는 다음과 같은 단점이 있다.

  • 참조 모델이 필요하여 훈련 중 추가 메모리와 계산이 발생한다.
  • 훈련 중 최적화되는 training metric과 추론에 사용되는 generation metric 간에 불일치가 있다.

구체적으로, DPO에서 암묵적인 보상은 어떤 절댓값이 아닌 이전 정책에서 얼마나 벗어났는지에 대해 더 높은 보상을 매기기 때문에 어떤 삼중항 (x, yw, yl)에 대해 다음을 항상 만족하지 않으며

 

실제로 DPO로 훈련된 세트의 약 50%만이 이를 만족했다.

 

 

Length-normalized reward formulation

당연하게도 암묵적 보상의 training, generation metric을 일치시키는 방법이 채택되었고 길이 정규화를 추가하였다.

참조 모델이 필요 없고, 길이 정규화 덕분에 더 길지만 품질이 낮은 시퀀스가 생성되는 경향이 줄어들었다.


The SimPO Objective

추가로 승리 응답과 패배 응답의 차이의 최솟값을 보장하기 위해 마진 항을 도입했다.

 

최종 SimPO 목표는 다음과 같다.

 

종합 비교:

 

 

 

Experimental Results