sDPO: Don't Use Your Data All at Once

논문 리뷰/Language Model

Ostin 2024. 4. 1. 16:02

Abstract

Dataset을 분할하여 단계적으로 DPO 수행

[arXiv](2024/03/28 version v1)

sDPO의 아이디어는 매우 단순하다. 데이터셋을 하위 집합으로 분할하여 단계적으로 DPO를 수행한다.

참조 모델의 로그 확률 계산은 DPO를 수행하기 위해 필요하다.

참조 모델은 목표 모델의 하한으로 작용하며, 이 하한을 점점 높임으로써 최종 모델의 성능을 향상할 수 있다는 것이다.

동일한 데이터셋으로 여러 번 학습하는 것과 뭐가 다르지? 라고 생각할 수 있지만 논문에 언급되어 있는 것처럼 쉬운 작업부터 시작해서 어려운 작업까지 단계적인 커리큘럼을 사용하면 복잡한 문제에 더 잘 적응할 수 있을 것 같긴 하다. 실험에서도 정량적으로 증명했다.

OpenOrca → Ultrafeedback dataset을 사용했다.

Claude 피셜 Ultrafeedback이 더 어렵다고 함.

sDPO Strat. 모델은 OpenOrca + Ultrafeedback 통합 데이터셋을 두 부분으로 나눈 것으로 기본 sDPO가 더 성능이 좋은 것으로 미루어 보아 단계적인 커리큘럼이 유효했다는 것을 알 수 있다.