Hard Prompts Made Easy: Gradient-Based Discrete Optimization for Prompt Tuning and Discovery

Hard prompt 최적화

Abstract

Hard prompt 최적화 및 자동 생성

Hard prompt는 다른 모델에도 적용 가능하다는 이식성에서 장점이 있다.

Hard prompt의 최적화를 통해 hard prompt의 장점과 soft prompt의 장점인 용이성과 자동화를 결합한다.

텍스트 최적화를 위해 기존에 사용되던 gradient reprojection 체계를 기반으로 하여 hard prompt를 학습하기 위한 간단한 체계 제안
위 최적화 방법을 hard prompt 학습에 사용하여 prompt를 생성하는 일반적인 도구를 제공
학습된 prompt 체계가 해석 가능성을 향상하며 다른 텍스트 최적화 체계를 능가한다는 것을 보임

Prompt 최적화란 다음과 같은 작업을 의미함. (더 적은 임베딩 토큰으로 같은 의미론을 가진 텍스트 만들기)

사전 훈련되고 고정된 모델 θ,

일련의 학습 가능한 임베딩 P(=[e_i, ..., e_M]) (M은 최적화할 벡터의 토큰 수),

배치 차원에서 prompt 임베딩을 반복하는 broadcast 함수 B

토큰 공간의 이산성은 prompt에서 e_i를 가져와 E^ㅣvㅣ에서 가장 가까운 이웃에 투영하는 함수 Proj_E를 사용하여 실현됨.

(E^ㅣvㅣ = 모델의 어휘 크기, P' = Proj_E(P))

Hard prompt를 학습하기 위해서 다음을 최소화:

(P를 X에 근사하도록 투영하여 더 적은 텍스트로 같은 의미론을 가진 Y로 만드는 게 목적)

P를 P'에 투영하고 P'의 gradient를 이용하여 P를 반복적으로 업데이트하는 PEZ라고 부르는 체계 제안.

CLIP에는 자체 이미지 인코더가 있으므로 이를 손실 함수로 사용할 수 있다.

Gradient를 CLIP 이미지 인코더와의 코사인 유사성으로 대체한다.

텍스트 인코더 f, 이미지 인코더 g에 대해:

Dataset : LAION, MS COCO, Celeb-A, Lexica.art

Model : Stable Diffusion-v2(Guiding - s=9,t=25), OpenCLIP-ViT/H

원본 이미지와 학습된 hard prompt를 사용하여 생성된 이미지와의 유사성을 통해 품질 측정

CLIP Interrogator와의 CLIP score 비교

실제 존재하는 단어가 아닌 토큰 시퀀스도 있고 이모티콘도 사용하는 것을 볼 수 있다.

정량적 평가 : 이식성이 낮은 soft prompt는 잘 최적화되지 않음.

긴 prompt는 과적합됨.

동일한 스타일 이미지 몇 장으로 hard prompt를 추출하고 새로운 개념에 적용 가능.

NLP 모델끼리의 prompt 공유를 위한 text-to-text 상황에서의 실험.

A Method for Animating Children's Drawings of the Human Figure (1)	2023.04.19
Reviving Iterative Training with Mask Guidance for Interactive Segmentation (0)	2023.04.09
Iteratively Trained Interactive Segmentation (1)	2023.04.09
Measuring the Intrinsic Dimension of Objective Landscapes (2)	2023.01.30
ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders (0)	2023.01.11
Towards Robust Monocular Depth Estimation: Mixing Datasets for Zero-shot Cross-dataset Transfer (MiDaS) (0)	2023.01.10