PALP: Prompt Aligned Personalization of Text-to-Image Models

본문에서 제안하는 prompt personalization 방법은 일일이 개인화해야 하기 때문에 별로 실용성 있는 기술은 아니다.

[arXiv](2024/01/11 version v1)

Abstract

단일 prompt에 대한 개인화를 통해 복잡한 prompt로부터 정확한 이미지를 생성할 수 있는 Prompt-Aligned Personalization (PALP) 제안

Diffusion model G:

Overview:

모델 G의 self, cross-attention 계층을 LoRA를 통해 업데이트한다.

모델에 의해 단일 step에서 추정된 표본 x̂₀:

의 시각화:

개인화 모델 (c)의 분포를 조정하기 위해 [V]를 뺀 prompt y^c, cfg를 적용한 G^α에 대해

SDS는 ϕ를 조절하여 G^α의 생성 분포로 x를 밀어낸다.

하지만 SDS는 [V]를 반영하지 않으므로 대신 Delta Denoising Score (DDS)의 변형을 사용한다.

위 손실에서 LoRA는 최대한 base model의 x̂₀과 비슷하면서도 y^P를 준수하는 이미지를 생성하도록 훈련된다.

두 branch에서 동일한 노이즈를 사용하고 불균형한 guidance scale(α > β)을 사용할 때 성능이 더 좋았다고 한다.

On the Computational Complexity of PALP

다음과 같이 gradient scaling을 수행한다.

노이즈와 비슷한 비율로 scaling 하는 것으로 보이는데, 수렴에 도움이 되는 듯하다.

높은 t에서는 scaling term이 너무 크므로 다음과 같이 조정하여 균일한 gradient update를 보장한다.

VideoCrafter2: Overcoming Data Limitations for High-Quality Video Diffusion Models (0)	2024.01.22
UniVG: Towards UNIfied-modal Video Generation (1)	2024.01.22
InstantID: Zero-shot Identity-Preserving Generation in Seconds (2)	2024.01.20
Delta Denoising Score (DDS) (1)	2024.01.19
Object-Centric Diffusion for Efficient Video Editing (1)	2024.01.18
FateZero: Fusing Attentions for Zero-shot Text-based Video Editing (0)	2024.01.18