본문 바로가기

논문 리뷰/Concept

Constitutional DPO

Constitutional DPO in Weaver: Foundation Models for Creative Writing


Instruction Backtranslation

사람이 쓴 고품질의 stylish한 text에 weaver를 조정하기 위해 self-instruction 대신 instruction backtranslation을 수행.

 

각 subdomain-task 쌍에 대해 instruction-response 쌍을 작성하는 방법에 대한 5가지 사례에 주석을 단다. (다듬기의 경우 범위를 선택하고 문구나 구조를 수정하여 나쁘게 만들기)

 

GPT-4에 few-shot으로 각 사례와 주석, 주석 처리의 근거를 제공하고 Chain-of-thought (CoT) 추론을 통해 주석 프로세스와 instruction-response 쌍을 생성하도록 요청.

 

50만 개의 instruction-response 쌍을 생성하고 GPT-3.5-Turbo로 점수를 매긴 다음, 최고 순위의 데이터를 통해 SFT를 수행한다.

 

Constitutional DPO: Learning From Principled Negative Examples

실제로 전문가가 다양한 원칙을 작성하고 각 원칙에 대한 준수 사례와 위반 사례 수집, 위반 이유까지 수집한다.

 

Backtranslation 단계에서 가장 높은 점수를 받은 instruction data를 샘플링한 뒤, task에 대한 원칙을 제시하고 어떤 원칙이 품질이 좋은 이유를 가장 잘 설명할 수 있는지 GPT에 분석을 요청한다. 또한 최소한의 수정을 추가하여 원칙을 위반하는 응답을 생성하도록 한다.

 

해당 응답 쌍을 통해 DPO 학습을 진행한다.

'논문 리뷰 > Concept' 카테고리의 다른 글

Rotary Position Embedding (RoPE)  (0) 2024.03.04
Self-Conditioning  (1) 2023.12.17
R1 Gradient Penalty  (1) 2023.12.01
Score Distillation Sampling  (1) 2023.11.30