본문 바로가기

논문 리뷰/Diffusion Model

InstantBooth: Personalized Text-to-Image Generation without Test-Time Finetuning

예제마다 일일이 최적화하지 않고 모델 개인화

 

arXiv

 

 

Abstract

매번 일일이 fine tuning 할 필요 없이 즉각적인 T2I 모델의 개인화를 가능하게 하는 InstantBooth 제안

 

 

 

Introduction

T2I(Text-to-Image) 모델의 개인화는 두 가지로 분류 가능

 

  • 입력 이미지를 텍스트 공간으로 반전

e.g. DreamBooth, Textual-Inversion

단점: 각 예제에 대해 fine tuning 필요, 수정된 모델 가중치를 저장해야 함

 

  • 텍스트 가이드를 통해 I2I 매핑 학습

e.g. InstructPix2Pix, ControlNet

단점: 학습 쌍 데이터 필요

 

Fine tuning 없는 T2I 모델의 개인화가 목표.

  • 최적화 대신 인코더를 학습하여 일반화
  • 세부 정보를 위해 어댑터 계층 도입

 

 

 

Method

Overall Framework

 

Model Architecture Details

Data Pre-Processing

원본 이미지 세트 Xt에 대해 개체 마스킹과 무작위 증강을 적용하여 최종 조건 이미지 세트 Xs을 얻음.

 

Prompt Creation

수정된 프롬프트 ps 얻음.

A photo of a person playing guitar → A photo of a V̂ person playing guitar

 

Concept Embedding Learning

이미지 인코더를 통해 조건 이미지의 평균을 feature vector fc로 매핑하고 V̂에 대체.

 

Rich Representation Learning with Adapters

개념 임베딩은 세부사항을 놓칠 수 있기 때문에 어댑터 도입.

 

먼저 인코더를 통해 각 이미지에서 visual token을 추출하여 patch feature를 얻고

이전 계층의 출력 y와 합친 후 self attention(γ = 학습 가능 스칼라, β = 상수)

 

Model Training

xt = ground truth, 학습에서 Xt의 N = 1

손실함수:

 

Model Inference

Balanced Sampling

β는 학습 중에는 1, 추론에서는 줄임

 

Concept Token Renormalization

β의 값을 줄여도 때때로 V̂의 영향력이 너무 커질 때가 있음.

 

따라서 concept token fc를 재정규화.

 

 

 

Experiments

 

Ablation