본문 바로가기

논문 리뷰/Language Model

Jailbroken: How Does LLM Safety Training Fail?

[arXiv](2023/07/05 version v1)

 

Abstract

Jail-breaking에 대해 조사하고 2가지 실패 모드 가설을 세움

 

 

Failure Modes: Competing Objectives and Generalization Mismatch

 

Competing Objectives

언어 모델은 언어 모델링, 지시 준수, 안전 교육 등 다양한 목표에 대해 훈련되며 이 목표들을 충돌시키는 prompt를 활용한다.

 

Example: Prefix Injection

다음과 같이 무해해 보이는 접두사를 출력하도록 요청한다.

 

연구진이 생각한 이러한 방법이 유효한 이유:

  • 훈련 과정에서 모델이 무해한 지시를 거부하면 페널티를 받는다.
  • 사전 훈련 분포에서 접두사 이후 거부하는 경우가 없기 때문에 응답을 계속한다.

 

Example: Refusal Suppression

유해한 prompt에 모델이 보이는 일반적인 반응을 금지한다.

이는 거부를 시작하는 토큰의 가중치를 낮추며, 이전과 같이 모델은 일단 응답을 시작할 경우 계속해서 응답하는 경향이 있다.

 

Mismatched Generalization

사전 훈련은 안전 훈련보다 훨씬 크고 다양한 데이터셋에서 훈련되며 안전 훈련에서 다루지 못한 많은 capability가 있다.

 

Example: Base64

 

GPT-3.5 Turbo는 base64를 이해할 수 없었지만 훨씬 큰 데이터셋에서 훈련된 GPT-4는 유해한 응답을 생성했다.