Getting it Right: Improving Spatial Consistency in Text-to-Image Models (SPRIGHT Dataset)

Abstract

Vision dataset의 이미지를 recaption 하여 공간 중심적 데이터셋인 SPRIGHT 제작

[arXiv](2024/04/01 version v1)

LLaVA-1.5를 활용하여 기존 데이터셋의 600만 개의 이미지에 대해 다음과 같은 prompt로 recaption 하여 SPRIGHT dataset 생성.

SPRIGHT를 효율적으로 활용할 수 있는 방법 제안.

15000개 미만의 이미지가 포함된 데이터셋에서 1:1 비율로 SPRIGHT와 일반 캡션을 샘플링하여 U-Net과 CLIP text encoder를 fine-tuning.

사용된 데이터셋을 개체 수를 기준으로 분할하고 각 분할의 이미지를 사용하여 CLIP text encoder만 fine-tuning.

개체 수가 많은 이미지를 사용했을 때 더 공간 점수가 높았다.

이미지 품질은 떨어지는 느낌. 공식 github에서도 이 설정을 사용하지 않았다.

공간 캡션의 비율

공간 캡션의 길이

MagicTime: Time-lapse Video Generation Models as Metamorphic Simulators (0)	2024.04.09
CoMat: Aligning Text-to-Image Diffusion Model with Image-to-Text Concept Matching (1)	2024.04.08
InstantStyle: Free Lunch towards Style-Preserving in Text-to-Image Generation (1)	2024.04.04
Implicit Style-Content Separation using B-LoRA (0)	2024.03.29
FlexEdit: Flexible and Controllable Diffusion-based Object-centric Image Editing (0)	2024.03.29
Dataset Diffusion: Diffusion-based Synthetic Dataset Generation for Pixel-Level Semantic Segmentation (0)	2024.03.29