본문 바로가기

논문 리뷰/Language Model

Advancing LLM Reasoning Generalists with Preference Trees (Eurus)

 

Abstract

Multi-turn interaction 궤적을 수집하여 SFT, Preference Learning에 사용

 

[Github]

[arXiv](2024/04/02 version v1)

 

 

 

UltraInteract: Tree-structured Alignment Data for Reasoning

Instruction은 root고 action은 node이다.

Correct action의 모든 node와 correct action으로 끝나는 모든 궤적이 SFT에 사용될 수 있다.

Node pair와 궤적 쌍을 선호도 학습에 사용할 수 있다.

오른쪽이 UltraInteract


Instruction Selection Emphasizing Complexity, Quality, and Diversity

수학 문제 해결, 코드 생성, 논리적 추론 작업을 목표로 한다.

GPT-3.5-Turbo가 해결하지 못하는 어려운 문제, 실제 솔루션이 있는 데이터로 데이터셋을 구성한다.

솔루션은 critique model에 대한 참조 역할을 한다.


Decomposition and Interaction at Each Turn

Actor model(= GPT-3.5-Turbo)이 CoT 등의 기술을 활용해 문제를 최대한 해결하고, critique model(= GPT-4)은 observation(e.g. Python interpreter) 고려하여 오류를 찾고 개선을 위한 방법을 제안한다.


Preference Trees Facilitates Preference Learning Across Multiple Turns

Sampling Paired Correct and Incorrect Actions at Each Turn

각 턴마다 correct-incorrect pair를 샘플링한다.

 

GPT-4와 같은 강력한 actor를 사용해도 해결하지 못하는 문제들은 다음과 같은 조치를 취한다.

더 많은 action을 샘플링 → 더 강력한 모델(e.g. GPT-4-Turbo) 사용 → actor에게 GT 솔루션을 제공하여 올바른 조치를 유도

 

Tree-structured Action Pairs Across Multiple Turns

Incorrect action을 다음 턴으로 확장.

 

Additional Instruction-action Pairs for Challenging Problems

마지막 조치를 취할 만한 어려운 문제들은 귀중한 훈련 신호라는 직관으로 correct-incorrect pair를 추가로 샘플링한다.

 

 

 

Eurus: State-of-the-art Open LLMs in Reasoning

Mistral-7B에서 UltraInteract data를 통해 SFTPreference Learning 수행. 

 

Reward Modeling

Eurus-7B-SFT에 선형 레이어를 추가하여 보상 모델링.

Chosen, rejected action에 대해:

 

 

 

Evaluation of EURUS-7B and EURUS-70B

 

DPO는 오히려 성능이 저하되었는데, 연구진은 DPO가 chosen action의 절댓값이 아니라 rejected action과의 상대적인 차이에만 집중하기 때문에 chosen action의 확률이 증가하지 않을 수도 있다고 추정했다.

DPO