본문 바로가기

논문 리뷰/Diffusion Model

Weak-to-Strong Jailbreaking on Large Language Models

[Github]

[arXiv](2024/01/30 version v1)

 

Abstract

작은 규모의 unsafe model을 통해 큰 모델의 출력 분포를 조정하여 Jail-Breaking을 유도

 

 

Weak-to-Strong Jailbreaking

작은 safe model을 유해한 예제에 대해 fine-tuning 하여 unsafe model을 얻는다.

 

 

위와 같이 strong safe model의 출력 분포를 조정하여 유해한 응답을 생성하도록 할 수 있다.

유일한 조건은 weak model과 strong model이 동일한 vocabulary를 공유해야 한다는 것이다.

 

본 논문의 핵심은 큰 모델의 직접적인 fine-tuning을 피하고 작은 모델을 fine-tuning 하여 간접적으로 큰 모델이 유해한 토큰을 생성하도록 유도하는 것이다. 근데 일단 vocabulary가 같아야 하고, token logit을 제공하지 않는 비공개 모델에는 사용할 수 없어서 실용성은 잘 모르겠다. 애초에 쓰면 안 되는 거잖아...?

 

 

 

Experiments