본문 바로가기

논문 리뷰/etc.

Hard Prompts Made Easy: Gradient-Based Discrete Optimization for Prompt Tuning and Discovery

Hard prompt 최적화

 

Github

arXiv

 

 

 

Abstract

Hard prompt 최적화 및 자동 생성

 

 

 

Introduction

Hard prompt는 다른 모델에도 적용 가능하다는 이식성에서 장점이 있다.

 

Hard prompt의 최적화를 통해 hard prompt의 장점과 soft prompt의 장점인 용이성과 자동화를 결합한다.

  • 텍스트 최적화를 위해 기존에 사용되던 gradient reprojection 체계를 기반으로 하여 hard prompt를 학습하기 위한 간단한 체계 제안
  • 위 최적화 방법을 hard prompt 학습에 사용하여 prompt를 생성하는 일반적인 도구를 제공
  • 학습된 prompt 체계가 해석 가능성을 향상하며 다른 텍스트 최적화 체계를 능가한다는 것을 보임

 

Prompt 최적화란 다음과 같은 작업을 의미함. (더 적은 임베딩 토큰으로 같은 의미론을 가진 텍스트 만들기)

 

 

 

Methodology

Learning Hard Prompts

사전 훈련되고 고정된 모델 θ,

일련의 학습 가능한 임베딩 P(=[ei, ..., eM]) (M은 최적화할 벡터의 토큰 수),

배치 차원에서 prompt 임베딩을 반복하는 broadcast 함수 B 

 

토큰 공간의 이산성은 prompt에서 ei를 가져와 Eㅣvㅣ에서 가장 가까운 이웃에 투영하는 함수 ProjE를 사용하여 실현됨.

(Eㅣvㅣ = 모델의 어휘 크기, P' = ProjE(P))

 

Hard prompt를 학습하기 위해서 다음을 최소화:

(P를 X에 근사하도록 투영하여 더 적은 텍스트로 같은 의미론을 가진 Y로 만드는 게 목적)


Our Method

P를 P'에 투영하고 P'의 gradient를 이용하여 P를 반복적으로 업데이트하는 PEZ라고 부르는 체계 제안.

 

 

 

Prompt Inversion with CLIP

CLIP에는 자체 이미지 인코더가 있으므로 이를 손실 함수로 사용할 수 있다.

Gradient를 CLIP 이미지 인코더와의 코사인 유사성으로 대체한다.

 

텍스트 인코더 f, 이미지 인코더 g에 대해:

 

Experimental Setting

Dataset : LAION, MS COCO, Celeb-A, Lexica.art

Model : Stable Diffusion-v2(Guiding - s=9,t=25), OpenCLIP-ViT/H

 

원본 이미지와 학습된 hard prompt를 사용하여 생성된 이미지와의 유사성을 통해 품질 측정

CLIP Interrogator와의 CLIP score 비교

 

Results

실제 존재하는 단어가 아닌 토큰 시퀀스도 있고 이모티콘도 사용하는 것을 볼 수 있다.

 

정량적 평가 : 이식성이 낮은 soft prompt는 잘 최적화되지 않음.

 

긴 prompt는 과적합됨.

 

Style Transfer

동일한 스타일 이미지 몇 장으로 hard prompt를 추출하고 새로운 개념에 적용 가능.

 

Prompt Concatenation

 

Prompt Distillation

 

 

 

Discrete Prompt Tuning with Language Models

NLP 모델끼리의 prompt 공유를 위한 text-to-text 상황에서의 실험.