본문에서 제안하는 prompt personalization 방법은 일일이 개인화해야 하기 때문에 별로 실용성 있는 기술은 아니다.
[arXiv](2024/01/11 version v1)
Abstract
단일 prompt에 대한 개인화를 통해 복잡한 prompt로부터 정확한 이미지를 생성할 수 있는 Prompt-Aligned Personalization (PALP) 제안
Prompt Alignment Method
Diffusion model G:
Overview:
Personalization
모델 G의 self, cross-attention 계층을 LoRA를 통해 업데이트한다.
Prompt-Aligned Score Sampling
모델에 의해 단일 step에서 추정된 표본 x̂0 :
의 시각화:
- 기본 모델 (b) : [V]를 표현하지 못함
- 과적합된 개인화 모델 (c) : 개인화된 이미지를 과도하게 맞추려는 경향이 보임
- PALP (d) : [V]의 고양이 외형과 스케치 표현까지 잘 나타냄
개인화 모델 (c)의 분포를 조정하기 위해 [V]를 뺀 prompt yc, cfg를 적용한 Gα에 대해
Score Distillation Sampling을 고려한다.
SDS는 ϕ를 조절하여 Gα의 생성 분포로 x를 밀어낸다.
Avoiding Over-saturation and Mode Collapse
하지만 SDS는 [V]를 반영하지 않으므로 대신 Delta Denoising Score (DDS)의 변형을 사용한다.
위 손실에서 LoRA는 최대한 base model의 x̂0과 비슷하면서도 yP를 준수하는 이미지를 생성하도록 훈련된다.
두 branch에서 동일한 노이즈를 사용하고 불균형한 guidance scale(α > β)을 사용할 때 성능이 더 좋았다고 한다.
On the Computational Complexity of PALP
다음과 같이 gradient scaling을 수행한다.
노이즈와 비슷한 비율로 scaling 하는 것으로 보이는데, 수렴에 도움이 되는 듯하다.
높은 t에서는 scaling term이 너무 크므로 다음과 같이 조정하여 균일한 gradient update를 보장한다.
Results
'논문 리뷰 > Diffusion Model' 카테고리의 다른 글
VideoCrafter2: Overcoming Data Limitations for High-Quality Video Diffusion Models (0) | 2024.01.22 |
---|---|
UniVG: Towards UNIfied-modal Video Generation (0) | 2024.01.22 |
InstantID: Zero-shot Identity-Preserving Generation in Seconds (0) | 2024.01.20 |
Delta Denoising Score (DDS) (1) | 2024.01.19 |
Object-Centric Diffusion for Efficient Video Editing (0) | 2024.01.18 |
FateZero: Fusing Attentions for Zero-shot Text-based Video Editing (0) | 2024.01.18 |