[Github]
[arXiv](2024/01/30 version v1)
Abstract
작은 규모의 unsafe model을 통해 큰 모델의 출력 분포를 조정하여 Jail-Breaking을 유도
Weak-to-Strong Jailbreaking
작은 safe model을 유해한 예제에 대해 fine-tuning 하여 unsafe model을 얻는다.
위와 같이 strong safe model의 출력 분포를 조정하여 유해한 응답을 생성하도록 할 수 있다.
유일한 조건은 weak model과 strong model이 동일한 vocabulary를 공유해야 한다는 것이다.
본 논문의 핵심은 큰 모델의 직접적인 fine-tuning을 피하고 작은 모델을 fine-tuning 하여 간접적으로 큰 모델이 유해한 토큰을 생성하도록 유도하는 것이다. 근데 일단 vocabulary가 같아야 하고, token logit을 제공하지 않는 비공개 모델에는 사용할 수 없어서 실용성은 잘 모르겠다. 애초에 쓰면 안 되는 거잖아...?
Experiments