본문 바로가기

논문 리뷰/Language Model

The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions

Abstract

LLM에 명령어 계층을 도입하여 악의적 prompt를 선택적으로 무시할 수 있도록 한다.

 

[arXiv](2024/04/19 version v1)

 

 

 

The Instruction Hierarchy

LLM에 명령어 계층을 만들어 명령어 충돌 시 상위의 명령을 따르도록 할 것을 제안.

 

Training Data Generation for Different Attacks

  • 명령을 조각으로 분해하고 분해된 각 명령을 계층 구조의 각 level에 배치하고 모델을 교육한다. (예: '스페인어로 20줄 시 쓰기'라는 명령의 경우 시 쓰기, 스페인어 사용, 20줄 작성으로 분해)
  • 잘못 정렬된 명령(상위 계층의 명령에 반함)의 경우 명령을 본 적이 없는 것처럼 답변을 생성하도록 한다.

 

훈련 데이터로는 LLM을 이용해 합성 데이터를 생성한다.

 

 

 

Main Results

견고성이 향상되었다.