본문 바로가기

논문 리뷰/Diffusion Model

PALP: Prompt Aligned Personalization of Text-to-Image Models

본문에서 제안하는 prompt personalization 방법은 일일이 개인화해야 하기 때문에 별로 실용성 있는 기술은 아니다. 

 

[Project Page]

[arXiv](2024/01/11 version v1)

 

 

Abstract

단일 prompt에 대한 개인화를 통해 복잡한 prompt로부터 정확한 이미지를 생성할 수 있는 Prompt-Aligned Personalization (PALP) 제안

 

 

 

Prompt Alignment Method

Diffusion model G:

 

Overview:

Personalization

모델 G의 self, cross-attention 계층을 LoRA를 통해 업데이트한다.

 

Prompt-Aligned Score Sampling

모델에 의해 단일 step에서 추정된 표본 x̂0 :

의 시각화:

A sketch of [V]

  • 기본 모델 (b) : [V]를 표현하지 못함
  • 과적합된 개인화 모델 (c) : 개인화된 이미지를 과도하게 맞추려는 경향이 보임
  • PALP (d) : [V]의 고양이 외형과 스케치 표현까지 잘 나타냄

 

개인화 모델 (c)의 분포를 조정하기 위해 [V]를 뺀 prompt yc, cfg를 적용한 Gα에 대해

 

Score Distillation Sampling을 고려한다.

SDS는 ϕ를 조절하여 Gα의 생성 분포로 x를 밀어낸다.

 

Avoiding Over-saturation and Mode Collapse

하지만 SDS는 [V]를 반영하지 않으므로 대신 Delta Denoising Score (DDS)의 변형을 사용한다.

위 손실에서 LoRA는 최대한 base model의 x̂0과 비슷하면서도 yP를 준수하는 이미지를 생성하도록 훈련된다.

 

두 branch에서 동일한 노이즈를 사용하고 불균형한 guidance scale(α > β)을 사용할 때 성능이 더 좋았다고 한다.

 

On the Computational Complexity of PALP

다음과 같이 gradient scaling을 수행한다.

 

노이즈와 비슷한 비율로 scaling 하는 것으로 보이는데, 수렴에 도움이 되는 듯하다.

 

높은 t에서는 scaling term이 너무 크므로 다음과 같이 조정하여 균일한 gradient update를 보장한다.

 

 

 

Results