Muse: Text-To-Image Generation via Masked Generative Transformers

Text-to-image를 위한 VQ masked transformer

Abstract

Diffusion 또는 Autoregressive(AR) 모델보다 훨씬 효율적이면서 이미지 생성에서 SOTA를 달성한 text-to-image transformer 모델 Muse.

Muse는 사전 훈련된 대형 언어 모델에서 추출된 텍스트 임베딩을 고려해 무작위로 마스킹된 이미지 토큰을 예측하도록 훈련된다. 적은 샘플링 반복과 병렬 디코딩 사용으로 확산이나 AR 모델보다 빠르고 효율적이다.

Introduction

하위 모듈들

256, 512로 한 쌍의 VQGAN tokenizer
부분적으로 마스킹된 저해상도 토큰 시퀀스에서 마스킹되지 않은 토큰과 텍스트 임베딩에 따라 마스킹된 토큰에 대한 marginal distribution을 예측하는 MIM(masked image model)
저해상도 토큰을 고해상도 토큰으로 변환하는 superres transformer model

Stable diffusion, Parti와 같은 최신 확산, AR 모델보다 빠르고 효율적

본 논문의 기여

우수한 FID, CLIP score를 달성하는 text-to-image의 최첨단 모델 Muse
양자화된 이미지 토큰과 병렬 디코딩을 사용하기 때문에 빠르고 효율적
Zero-shot 편집기능 제공

(MaskGIT ← 다른 분의 유튜브 영상인데, MaskGIT과 Muse 둘 다 구글에서 나온 논문이고 공통점이 매우 많기 때문에 보고 오는 것을 강추한다. 글보다 영상이 훨씬 더 잘 이해되기도 하고)

Model

Pre-trained Text Encoders

T5-XXL 인코더 사용

Semantic Tokenization using VQGAN

VQGAN으로 만든 저해상도, 고해상도 tokenizer 사용

출력에서 cross-entropy를 사용

Base Model

베이스는 masked transformer(e.g. BERT, MaskGIT)

훈련에서는 각 단계에서 모든 토큰을 예측

Super-Resolution Model

높은 해상도에서 직접 예측하면 세부사항에 초점을 맞추게 되기 때문에 일련의 모델 사용

Base model 훈련 후 훈련됨

저해상도 → 고해상도로 변환 후 VQGAN으로 디코딩

Decoder Finetuning

생성 품질 향상을 위해 VQGAN 디코더에 많은 잔차 연결과 채널을 추가하고 인코더, 코드북, transformer는 고정한 채 finetuning 한다.

Variable Masking Rate

MaskGIT에서와 같이 cosine scheduling을 기반으로 한 가변 masking rate r.

각 훈련 예제 당 r을 0~1에서 샘플링하고 cosine schedule을 적용한 확률로 마스킹한다.

Classifier Free Guidance

훈련 샘플의 10%에서 텍스트 인코딩을 제거하고 Classifier-free guidance(CFG) 적용.

CFG는 생성 품질과 다양성이 trade-off 되는데, 샘플링 동안 t를 서서히 증가시킴으로써 다양성의 손해를 줄인다.

또한 무조건 로짓인 l_u를 '부정적 프롬프트'에 대한 조건부 로짓으로 대체한다.

이는 출력 이미지가 l_c의 특징을 가지는 동시에 l_u의 특징을 제거하도록 유도함.

Iterative Parallel Decoding at Inference

각 단계에서 cosine scheduling에 기반하여 가장 신뢰도 높은 토큰 일부의 마스크를 해제

4096개의 토큰을 저해상도 24 + 고해상도 8개의 디코딩 단계만으로 추론

Results

Qualitative Performance

Quantitative Performance

Image Editing

별도의 inversion이나 finetuning 없는 이미지 편집, 인페인팅, 아웃페인팅 지원

저작자표시 (새창열림)

'논문 리뷰 > Vision Transformer' 카테고리의 다른 글

Segment Anything (SAM) (0)	2023.04.09
Token Merging: Your ViT But Faster (0)	2023.04.06
Cut and Learn for Unsupervised Object Detection and Instance Segmentation (0)	2023.01.31
Scalable Diffusion Models with Transformers (DiT) (0)	2022.12.24
MatteFormer : Transformer-Based Image Matting via Prior-Tokens 논문 리뷰 (0)	2022.07.04
Mask DINO: Towards A Unified Transformer-based Framework for Object Detection and Segmentation 논문 리뷰 (1)	2022.06.14

Ostin X

Muse: Text-To-Image Generation via Masked Generative Transformers

Abstract

Introduction