본문 바로가기

논문 리뷰/Language Model

Spotting LLMs With Binoculars: Zero-Shot Detection of Machine-Generated Text

[Github]

[arXiv](2024/01/22 version v1)

 

 

Abstract

한 쌍의 LLM을 대조하여 간단하게 LLM이 생성한 글을 탐지할 수 있는 Binoculars 제안

 

 

Binoculars: How it Works

Background & Notation

모델 M은 입력 문자열 s를 tokenization 후 확률 분포를 출력하여 어휘집 V 내에서 다음 토큰을 예측한다.

 

문자열이 얼마나 놀라운지 측정하는 log-perplexity:

 

한 모델의 결과가 다른 모델에 얼마나 놀라운지 측정하는 cross-perplexity. Cross-entropy와 비슷하다.

 

What makes detection hard? A primer on the capybara problem.

왜 cross-perplexity를 사용해야 하는가? 보통 인간이 쓴 글은 ppl이 높고 LLM이 쓴 글은 ppl이 낮다. 하지만 prompt가 포함되면 이야기가 달라진다.

 

"천체 물리학자인 카피바라에 대해 몇 문장을 쓸 수 있나요?"라는 혼란스러운 prompt가 있을 때, LLM과 인간이 쓴 글 모두 높은 ppl을 가지며, log-ppl의 경우 탐지에 실패한다.

GPT-4가 생성한 글

 

Our detection score

 

위의 공식은 문자열 s가 같은 prompt에 대해 "M1이 생성한 문자열에 비해 얼마나 놀라운지"를 측정하기 때문에 prompt에 대해 견고하다.

 

 

 

Accurate Zero-Shot Detection

좋다고 합니다.