DragGAN의 방법으로 Diffusion Model에서 포인트 기반 대화형 편집
Abstract
대화형 포인트 기반 편집을 확산 모델로 확장한 DragDiffusion 제안
Introduction
DragDiffusion은 특정 t 단계에서 잠재성을 조작하여 출력 이미지를 편집.
DragGAN에 따라 모션 감독 및 포인트 추적의 반복 절차를 사용.
특정 단계의 잠재성을 조작할 때의 한 가지 문제점은 스타일이나 외형이 바뀔 수도 있다는 것이다.
편집 전 입력 이미지를 재구성하기 위해 UNet에서 LoRA를 fine tuning하여 문제 완화.
Methodology
Method Overview
먼저 재구성을 위한 LoRA를 만들고,
샘플링의 특정 단계에서 DragGAN의 절차 사용.
Motion Supervision and Point Tracking
Motion supervision
수식은 DragGAN과 똑같은데,
다른 점은
- t 단계의 UNet의 뒤에서 두 번째 블록의 feature map에서 진행
- 원이 아니라 정사각형 패치 내의 무작위 점에서 진행
(sg=stop gradient로 DragGAN 논문 리뷰에 설명 있음, z0=input image)
정해진 횟수만큼 반복
Point Tracking
일정 크기의 정사각형 패치 내에서의 최근접 이웃 검색으로 새 handle point 찾기
Implementation Details
Classifier-free guidance 안 씀.
Qualitative Evaluation
'논문 리뷰 > Diffusion Model' 카테고리의 다른 글
InstaFlow: One Step is Enough for High-Quality Diffusion-Based Text-to-Image Generation (0) | 2023.09.27 |
---|---|
DragonDiffusion: Enabling Drag-style Manipulation on Diffusion Models (1) | 2023.09.25 |
Emergent Correspondence from Image Diffusion (DIFT) (1) | 2023.07.14 |
SnapFusion: Text-to-Image Diffusion Model on Mobile Devices within Two Seconds (0) | 2023.06.22 |
Progressive Distillation for Fast Sampling of Diffusion Models (0) | 2023.06.22 |
Consistency Models (0) | 2023.04.14 |