본문 바로가기

논문 리뷰/Diffusion Model

(138)
Be Yourself: Bounded Attention for Multi-Subject Text-to-Image Generation Abstract Layout에 맞는 이미지를 생성할 수 있는 Bounded Attention 제안 [Project Page] [arXiv](2024/03/25 version v1) Bounded Attention Bounded Guidance 0, −∞로 채워진 마스크 M을 사용해 다른 subject의 영역이 mask 된 bounded attention map을 구성할 수 있다. 각 subject에 대해 다음과 같은 손실을 집계한다. Subject의 bounding box와 관계없는 잠재 픽셀에 할당된 attention score가 높을수록 손실이 크다. i = subject index, x = 잠재 픽셀 좌표, query, c = key (cross attention의 경우 text condition,..
ELLA: Equip Diffusion Models with LLM for Enhanced Semantic Alignment [Project Page] [Github] [arXiv](2024/03/08 version v1) Abstract Timestep-Aware Semantic Connector를 통해 LLM과 확산 모델을 연결하여 텍스트 정렬을 향상시키는 ELLA (Efficient Large Language Model Adapter) 제안 Method Architecture Design Timestep-Aware Semantic Connector (TSC) Flamingo에서 Perceiver Resampler의 설계를 가져와 learnable query를 사용하고 cross-attention을 통해 LLM과 상호작용한다. 또한 확산 모델은 timestep에 따라 각각 다른 수준의 feature에 집중하므로 AdaLN ..
EMO: Emote Portrait Alive -- Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions [Project Page] [Github] [arXiv](2024/02/27 version v1) 성능이 말도 안 된다;; 그냥 미쳤다 이건;; Abstract 3D model, face landmark 등 강한 조건을 사용하지 않고 원활한 프레임 전환, 일관된 ID가 보장된 비디오 생성 Method Network Pipelines Backbone Network Stable Diffusion 1.5 기반 Audio Layers wav2vec 모델을 통해 각 프레임에 대한 음성 표현 추출. 백본에 audio-attention layer 추가. 모션은 숨을 들이쉬고 내쉬는 등 주변 프레임의 영향을 받기 때문에 이들을 연결하여 각 프레임의 음성 feature를 정의한다. ReferenceNet Referenc..
Multi-LoRA Composition for Image Generation [Project Page] [Github] [arXiv](2024/02/26 version v1) Abstract LoRA 병합 방법인 LoRA-S, C와 Testbed인 ComposLoRA 제안 Multi-LoRA Composition through a Decoding-Centric Perspective 기존의 LoRA 병합 방식인 LoRA Merge는 다음과 같다. 하지만 이 방식은 많은 LoRA를 병합 시 불안정해진다. LoRA-Switch (LoRA-S) 생성 전반에 걸쳐 LoRA를 순차적으로 활성화 LoRA-Composite (LoRA-C) i 번째 LoRA를 통합한 모델 피라미터를 θi' 라고 하자. 각 LoRA에 대한 CFG score를 집계한다. Experiments ComposLoRA T..
SDXL-Lightning: Progressive Adversarial Diffusion Distillation [HuggingFace Checkpoint] [arXiv](2024/03/02 version v3) Abstract Progressive, adversarial distillation을 결합하여 1-step으로 1024x1024 이미지 생성 Background Latent Diffusion Model, SDXL LoRA, LCM-LoRA는 LoRA를 통해 증류를 수행할 수 있다는 것을 보여주었다. Progressive Distillation Adversarial Distillation Method Why Distillation with MSE Fails Adversarial Objective Discriminator Design Relax the Mode Coverage Fix the Schedule D..
Neural Network Diffusion [Project Page] [Github] [arXiv](2024/02/20 version v1) Abstract 확산 모델을 통해 neural network parameter를 생성 Nerual Network Diffusion Parameter autoencoder Preparing the data for training the autoencoder Autoencoder의 훈련 데이터를 수집하기 위해 특정 모델을 처음부터 훈련하고 마지막 epoch의 checkpoints를 저장한다. 데이터로 사용할 모델 피라미터의 하위 집합 S = {s1, ..., sK}를 제외한 나머지 피라미터는 고정한다. 대규모 모델의 경우 fine-tuning 결과를 저장한다. Training parameter autoencod..
Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation (SPIN-Diffusion) [arXiv](2024/02/15 version v1) Abstract Self-Play Fine-Tuning (SPIN)을 확산 모델에 적용한 SPIN-Diffusion 제안 Problem Setting and Preliminaries Text-to-Image Diffusion Model Self-Play Fine-Tuning (SPIN) Method SPIN을 확산 모델에 그대로 적용하는 것에는 한 가지 문제가 있다. LLM에서는 확률 pθ(x0|c)를 얻기 쉽지만, 확산 모델에서는 모든 timestep의 궤적을 계산해야 하므로 다루기 어렵다. Differentiating Diffusion Processes Self-play와 같은 최소화 목표로 시작. Deceiving the Test Functio..
Training-Free Consistent Text-to-Image Generation (ConsiStory) [arXiv](2024/02/05 version v1) Abstract 사전 훈련된 모델의 내부 활성화를 공유하여 일관된 subject 생성을 가능하게 하는 훈련 없는 접근 방식인 ConsiStory 제안 Method Subject-driven self-attention Enriching layout diversity Feature injection Anchor images and reusable subjects Multi-subject consistent generation Subject-driven self-attention 모든 diffusion timestep과 32x32 해상도의 모든 cross-attention layer에서 attention map을 수집하고 임계값을 적용하여 subject ..
Boximator: Generating Rich and Controllable Motions for Video Synthesis [Project Page] [arXiv](2024/02/02 version v1) Abstract Bounding box, motion path를 통해 비디오를 제어할 수 있는 Boximator 제안 Boximator: Box-guided Motion Control Model architecture Data pipeline Self-tracking Multi-Stage training procedure Inference Model Architecture Spatial attention block의 self-attention과 cross-attention 사이에 새로운 attention block을 삽입한다. bloc : box의 좌표 bid : 여러 개의 box가 있을 때 box의 id를 RGB colo..
Emu Edit: Precise Image Editing via Recognition and Generation Tasks [Project Page] [arXiv](2023/11/16 version v1) Abstract 단일 모델로 다양한 task에 대해 instruction-based image editing이 가능한 Emu Edit 소개 Multi-Task Dataset for Image Editing Task Categories 3가지 주요 범주의 각 작업으로 구성됨. Instruction Generation In-context learning을 활용하여 작업별 예시 및 이미지 캡션을 제공하면 LLM이 편집 지침, 이상적인 출력 이미지에 대한 출력 캡션, 원본 이미지에 업데이트해야 하는 개체를 출력하도록 한다. Image Pairs Generation Prompt-to-Prompt, OCR, DINO, SAM 등의 다..
Emu: Enhancing Image Generation Models Using Photogenic Needles in a Haystack [arXiv](2023/09/27 version v1) Abstract 수천 개의 고품질 이미지만으로 Quality-Tuning을 수행하여 매력적인 이미지를 생성할 수 있는 Emu 제안 Approach Latent Diffusion Architecture Pre-training High-Quality Alignment Data Quality-Tuning Latent Diffusion Architecture Latent Diffusion autoencoder의 채널을 확장하면 품질이 크게 향상된다. 또한 전처리로 fourier feature transformation을 적용하고 적대적 손실을 추가하면 더욱 향상된다. 또한 피라미터 수가 2.8B인 대규모 U-Net을 사용하고 CLIP ViT-L, T5-XX..
AnimateLCM: Accelerating the Animation of Personalized Diffusion Models and Adapters with Decoupled Consistency Learning [Project Page] [Github] [arXiv](2024/02/01 version v1) Abstract Image prior, motion prior 추출을 분리하는 학습 전략과 plug-and-play adapter를 효율적으로 적응하는 전략 제안 Consistency Models Consistency Models 논문 리뷰 : 매우 자세한, 간단 버전 일반적으로 잔차 연결을 통해 consistency model을 피라미터화 한다. xtn+1을 샘플링하고 ODE solver를 통해 xtnΦ를 계산하여 인접한 한 쌍의 데이터 포인트(xtnΦ, xtn+1)를 생성할 수 있고 데이터 포인트 쌍에 대한 일관성 모델의 출력의 차를 최소화하여 consistency distillation loss를 유도..