본문 바로가기

논문 리뷰/Language Model

Refusal in Language Models Is Mediated by a Single Direction (Daredevil-8B)

 

Abstract

유해한 명령을 거부하는 단일 방향을 찾아 제거

 

[논문 설명]

[Colab + 코드 분석]

[HuggingFace Model Weight]

[arXiv](2024/06/17 version v1)

 

 

 

Methodology

연구진의 가설은 모델의 각각의 거부 반응에 공통적인 refusal feature가 있고,

 

이를 제거하면 거부 기능이 중단된다는 것이다.


Extracting a refusal direction

유해 프롬프트에 대한 평균 활성화 μ, 무해 프롬프트에 대한 평균 활성화 ν를 구하고 차이를 구한다.

 

벡터 r은 토큰 위치 i와 레이어 l에 대해 I × L개 생성되며

  • r을 제거했을 때 명령을 거부하지 않는지
  • 무해 프롬프트에 대해 r을 추가하면 명령을 거부하는지
  • r이 모델 동작에 얼마나 영향을 미치는지 

를 측정하여 최적의 r을 찾는다. r의 단위 벡터는 r̂으로 표기.


Model interventions

Activation addition

l의 모든 토큰 위치에서 수행

 

Directional ablation

모든 레이어, 모든 토큰 위치에서 수행

 

 

 

Refusal is mediated by a single direction

거부 우회:

 

거부 유도:

 

 

 

A white-box jailbreak via weight orthogonalization

Weight orthogonalization

추론 시간 개입 대신 가중치 행렬과 바이어스에 직교화를 적용하여 모델을 수정할 수도 있다.


Measuring model coherence

모델 성능은 원본 모델과 크게 차이 나지 않는다고 한다. TruthfulQA 항목은 거부 방향에 가까운 질문들이 포함되어 있어 차이가 큼.