본문 바로가기

논문 리뷰/Diffusion Model

DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing

DragGAN의 방법으로 Diffusion Model에서 포인트 기반 대화형 편집

 

Github

arXiv

 

 

Abstract

대화형 포인트 기반 편집을 확산 모델로 확장한 DragDiffusion 제안

 

 

Introduction

DragDiffusion은 특정 t 단계에서 잠재성을 조작하여 출력 이미지를 편집.

 

DragGAN에 따라 모션 감독 및 포인트 추적의 반복 절차를 사용.

 

특정 단계의 잠재성을 조작할 때의 한 가지 문제점은 스타일이나 외형이 바뀔 수도 있다는 것이다.

편집 전 입력 이미지를 재구성하기 위해 UNet에서 LoRA를 fine tuning하여 문제 완화.

 

 

 

Methodology

Method Overview

먼저 재구성을 위한 LoRA를 만들고,

샘플링의 특정 단계에서 DragGAN의 절차 사용.


Motion Supervision and Point Tracking

Motion supervision

수식은 DragGAN과 똑같은데,

DragGAN의 손실

 

다른 점은

  • t 단계의 UNet의 뒤에서 두 번째 블록의 feature map에서 진행
  • 원이 아니라 정사각형 패치 내의 무작위 점에서 진행

(sg=stop gradient로 DragGAN 논문 리뷰에 설명 있음, z0=input image)

 

정해진 횟수만큼 반복


Point Tracking

일정 크기의 정사각형 패치 내에서의 최근접 이웃 검색으로 새 handle point 찾기


Implementation Details

Classifier-free guidance 안 씀.

 

 

 

Qualitative Evaluation