본문 바로가기

논문 리뷰/Language Model

Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To!

[Project Page]

[Github]

[arXiv](2023/10/05 version v1)

 

 

Abstract

10개의 유해한 예제에 대한 fine-tuning 만으로도 LLM의 안전성을 크게 손상시킬 수 있다.

 

 

Practical Risks of Fine-tuning Aligned LLMs

Setup of Our Studies

Model: Llama-2-7b-Chat, GPT-3.5 Turbo, the 0613 version.

 

OpenAI fine-tuning API 표준에 따른다.

 

Harmful Examples Demonstration Attack

 

데이터셋은 N = 10, 50, 100개의 유해한 예제.

다음과 같은 system prompt를 추가한다.

 

5 epochs 동안 fine-tuning 한 결과: 0.2 달러 미만의 비용과 10개의 예제만으로도 안전 가드레일을 크게 약화시켰다.

 

Identity Shifting Attack

DAN과 같은 Identity shifting을 이용한 공격.

 

단 10개의 예제로 유해성이 크게 상승하였다.

 

Benign Fine-tuning

또한 유해한 예제가 아니더라도 안전 정렬 없이 외부 데이터셋에 대한 fine-tuning 시에 유해성이 상승하였다.