본문 바로가기

논문 리뷰/Vision Transformer

Muse: Text-To-Image Generation via Masked Generative Transformers

Text-to-image를 위한 VQ masked transformer

 

Projet Page

arXiv

Github

 

 

 

 

Abstract

Diffusion 또는 Autoregressive(AR) 모델보다 훨씬 효율적이면서 이미지 생성에서 SOTA를 달성한 text-to-image transformer 모델 Muse.

 

Muse는 사전 훈련된 대형 언어 모델에서 추출된 텍스트 임베딩을 고려해 무작위로 마스킹된 이미지 토큰을 예측하도록 훈련된다. 적은 샘플링 반복과 병렬 디코딩 사용으로 확산이나 AR 모델보다 빠르고 효율적이다.

 

 

 

Introduction

하위 모듈들

  • 256, 512로 한 쌍의 VQGAN tokenizer
  • 부분적으로 마스킹된 저해상도 토큰 시퀀스에서 마스킹되지 않은 토큰과 텍스트 임베딩에 따라 마스킹된 토큰에 대한 marginal distribution을 예측하는 MIM(masked image model)
  • 저해상도 토큰을 고해상도 토큰으로 변환하는 superres transformer model

 

Stable diffusion, Parti와 같은 최신 확산, AR 모델보다 빠르고 효율적

 

본 논문의 기여

  • 우수한 FID, CLIP score를 달성하는 text-to-image의 최첨단 모델 Muse 
  • 양자화된 이미지 토큰과 병렬 디코딩을 사용하기 때문에 빠르고 효율적
  • Zero-shot 편집기능 제공

 

(MaskGIT ← 다른 분의 유튜브 영상인데, MaskGIT과 Muse 둘 다 구글에서 나온 논문이고 공통점이 매우 많기 때문에 보고 오는 것을 강추한다. 글보다 영상이 훨씬 더 잘 이해되기도 하고)

 

 

Model

 

Pre-trained Text Encoders

T5-XXL 인코더 사용

Semantic Tokenization using VQGAN

VQGAN으로 만든 저해상도, 고해상도 tokenizer 사용

출력에서 cross-entropy를 사용

VQGAN

 

Base Model

베이스는 masked transformer(e.g. BERT, MaskGIT)

훈련에서는 각 단계에서 모든 토큰을 예측

 

Super-Resolution Model

높은 해상도에서 직접 예측하면 세부사항에 초점을 맞추게 되기 때문에 일련의 모델 사용

Base model 훈련 후 훈련됨

저해상도 → 고해상도로 변환 후 VQGAN으로 디코딩

 

Decoder Finetuning

생성 품질 향상을 위해 VQGAN 디코더에 많은 잔차 연결과 채널을 추가하고 인코더, 코드북, transformer는 고정한 채 finetuning 한다.

 

Variable Masking Rate

MaskGIT에서와 같이 cosine scheduling을 기반으로 한 가변 masking rate r.

각 훈련 예제 당 r을 0~1에서 샘플링하고 cosine schedule을 적용한 확률로 마스킹한다.

 

 

Classifier Free Guidance

훈련 샘플의 10%에서 텍스트 인코딩을 제거하고 Classifier-free guidance(CFG) 적용.

 

CFG는 생성 품질과 다양성이 trade-off 되는데, 샘플링 동안 t를 서서히 증가시킴으로써 다양성의 손해를 줄인다.

 

또한 무조건 로짓인 lu를 '부정적 프롬프트'에 대한 조건부 로짓으로 대체한다.

이는 출력 이미지가 lc의 특징을 가지는 동시에 lu의 특징을 제거하도록 유도함.

 

Iterative Parallel Decoding at Inference

각 단계에서 cosine scheduling에 기반하여 가장 신뢰도 높은 토큰 일부의 마스크를 해제

 

4096개의 토큰을 저해상도 24 + 고해상도 8개의 디코딩 단계만으로 추론

 

 

 

Results

Qualitative Performance

 

Quantitative Performance

 

Image Editing

별도의 inversion이나 finetuning 없는 이미지 편집, 인페인팅, 아웃페인팅 지원