본문 바로가기

논문 리뷰/Diffusion Model

InstantID: Zero-shot Identity-Preserving Generation in Seconds

IP-Adapter, ControlNet을 통해 ID 조건화

 

[Project Page]

[Github]

[arXiv](2024/01/15 version v1)

 

 

Abstract

Plug&Play 방식, 하나의 얼굴 이미지만으로 개인화를 능숙하게 처리하는 InstantID 제안

 

 

 

Methods

Preliminaries

Stable Diffusion

ControlNet

IP-Adapter

 

Methodology

IP-Adapter의 문제점: 

  • CLIP encoder는 참조 이미지의 세부 사항을 포착하지 못한다.
  • Cross-attention 만으로는 토큰 시퀀스를 세밀하게 제어하지 못한다.

 

본문의 개선점:

  • 사전 훈련된 기성 face model을 사용하여 feature를 추출한다.
  • 생성 이미지의 세밀한 제어를 위해 ControlNet을 도입했다. 

ControlNet의 입력은 face crop image가 아니라 실제 이미지 key point 5개만 사용한다. 자유도가 지나치게 크지 않으면서 표정과 같은 정보가 과도하게 강조되지 않도록 하기 위함이다.

ControlNet의 cross-attention에는 text prompt 대신에 face embedding을 주입한다.

 

Training and Inference Strategies

Stable Diffusion과 같은 훈련 목표를 통해 상단에 trainable로 표시된 modules를 훈련한다.

 

 

 

Experiments

Project Page

 

InstantID

There has been significant progress in personalized image synthesis with methods such as Textual Inversion, DreamBooth, and LoRA. Yet, their real-world applicability is hindered by high storage demands, lengthy fine-tuning processes, and the need for multi

instantid.github.io