Multi-LoRA Composition for Image Generation

[arXiv](2024/02/26 version v1)

Abstract

LoRA 병합 방법인 LoRA-S, C와 Testbed인 ComposLoRA 제안

기존의 LoRA 병합 방식인 LoRA Merge는 다음과 같다.

하지만 이 방식은 많은 LoRA를 병합 시 불안정해진다.

LoRA-Switch (LoRA-S)

생성 전반에 걸쳐 LoRA를 순차적으로 활성화

LoRA-Composite (LoRA-C)

i 번째 LoRA를 통합한 모델 피라미터를 θ_i' 라고 하자. 각 LoRA에 대한 CFG score를 집계한다.

ComposLoRA Testbed

평가를 위해 캐릭터, 의상, 스타일, 배경 등 다양한 LoRA로 구성된 480개의 개별 구성 세트 제작.

Comparative Evaluation with GPT-4V

GPT-4V를 통해 구성 품질과 이미지 품질을 평가.

구성은 LoRA-S가 더 좋고 품질은 LoRA-C가 더 좋은 느낌?

Be Yourself: Bounded Attention for Multi-Subject Text-to-Image Generation (0)	2024.03.28
ELLA: Equip Diffusion Models with LLM for Enhanced Semantic Alignment (0)	2024.03.14
EMO: Emote Portrait Alive -- Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions (0)	2024.03.11
SDXL-Lightning: Progressive Adversarial Diffusion Distillation (3)	2024.03.06
Neural Network Diffusion (3)	2024.03.05
Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation (SPIN-Diffusion) (0)	2024.02.27