Weak-to-Strong Jailbreaking on Large Language Models

[Github]

[arXiv](2024/01/30 version v1)

Abstract

작은 규모의 unsafe model을 통해 큰 모델의 출력 분포를 조정하여 Jail-Breaking을 유도

Weak-to-Strong Jailbreaking

작은 safe model을 유해한 예제에 대해 fine-tuning 하여 unsafe model을 얻는다.

위와 같이 strong safe model의 출력 분포를 조정하여 유해한 응답을 생성하도록 할 수 있다.

유일한 조건은 weak model과 strong model이 동일한 vocabulary를 공유해야 한다는 것이다.

본 논문의 핵심은 큰 모델의 직접적인 fine-tuning을 피하고 작은 모델을 fine-tuning 하여 간접적으로 큰 모델이 유해한 토큰을 생성하도록 유도하는 것이다. 근데 일단 vocabulary가 같아야 하고, token logit을 제공하지 않는 비공개 모델에는 사용할 수 없어서 실용성은 잘 모르겠다. ~~애초에 쓰면 안 되는 거잖아...?~~

Experiments

저작자표시 비영리 (새창열림)

'논문 리뷰 > Diffusion Model' 카테고리의 다른 글

Emu: Enhancing Image Generation Models Using Photogenic Needles in a Haystack (0)	2024.02.14
AnimateLCM: Accelerating the Animation of Personalized Diffusion Models and Adapters with Decoupled Consistency Learning (0)	2024.02.14
Improved Techniques for Training Consistency Models (1)	2024.02.13
Motion-I2V: Consistent and Controllable Image-to-Video Generation with Explicit Motion Modeling (0)	2024.02.02
Diffuse to Choose: Enriching Image Conditioned Inpainting in Latent Diffusion Models for Virtual Try-All (DTC) (0)	2024.01.30
Scaling Up to Excellence: Practicing Model Scaling for Photo-Realistic Image Restoration In the Wild (SUPIR) (1)	2024.01.30

Ostin X

Weak-to-Strong Jailbreaking on Large Language Models

Abstract

Weak-to-Strong Jailbreaking

Experiments

'논문 리뷰 > Diffusion Model' 카테고리의 다른 글

티스토리툴바

Weak-to-Strong Jailbreaking on Large Language Models

Abstract

Weak-to-Strong Jailbreaking

Experiments

'논문 리뷰 > Diffusion Model' 카테고리의 다른 글

'논문 리뷰/Diffusion Model' Related Articles

티스토리툴바