IP-Adapter, ControlNet을 통해 ID 조건화
[Github]
[arXiv](2024/01/15 version v1)
Abstract
Plug&Play 방식, 하나의 얼굴 이미지만으로 개인화를 능숙하게 처리하는 InstantID 제안
Methods
Preliminaries
Methodology
IP-Adapter의 문제점:
- CLIP encoder는 참조 이미지의 세부 사항을 포착하지 못한다.
- Cross-attention 만으로는 토큰 시퀀스를 세밀하게 제어하지 못한다.
본문의 개선점:
- 사전 훈련된 기성 face model을 사용하여 feature를 추출한다.
- 생성 이미지의 세밀한 제어를 위해 ControlNet을 도입했다.
ControlNet의 입력은 face crop image가 아니라 실제 이미지 key point 5개만 사용한다. 자유도가 지나치게 크지 않으면서 표정과 같은 정보가 과도하게 강조되지 않도록 하기 위함이다.
ControlNet의 cross-attention에는 text prompt 대신에 face embedding을 주입한다.
Training and Inference Strategies
Stable Diffusion과 같은 훈련 목표를 통해 상단에 trainable로 표시된 modules를 훈련한다.
Experiments
'논문 리뷰 > Diffusion Model' 카테고리의 다른 글
An Edit Friendly DDPM Noise Space: Inversion and Manipulations (DDPM Inversion) (0) | 2024.01.29 |
---|---|
VideoCrafter2: Overcoming Data Limitations for High-Quality Video Diffusion Models (0) | 2024.01.22 |
UniVG: Towards UNIfied-modal Video Generation (0) | 2024.01.22 |
PALP: Prompt Aligned Personalization of Text-to-Image Models (0) | 2024.01.19 |
Delta Denoising Score (DDS) (1) | 2024.01.19 |
Object-Centric Diffusion for Efficient Video Editing (0) | 2024.01.18 |