본문 바로가기

논문 리뷰/Diffusion Model

(138)
FIFO-Diffusion: Generating Infinite Videos from Text without Training Abstract사전 훈련된 확산 모델을 기반으로 추가 훈련 없이 무한히 긴 비디오를 생성할 수 있는 FIFO-Diffusion 제안 [Project Page][Github][arXiv](2024/05/19 version v1)   FIFO-Diffusion Diagonal denoising 방법은 간단하다. Timestep을 프레임과 같은 f로 나눈 후 다음과 같이 처리한다. 빨간 실선으로 둘러싸인 프레임들이 한 번에 계산되는 프레임들이다.중요한 것은 기존의 비디오 확산 모델처럼 모든 프레임이 모든 같은 timestep을 공유하지 않는다는 것이다. 프레임 간의 거리는 timestep 간의 거리와 같다.   Latent partitioning 원본 확산 모델은 모든 프레임에서 같은 timestep을 예측..
Distilling Diffusion Models into Conditional GANs (Diffusion2GAN) Abstract잠재 공간에서 작동하는 새로운 증류 손실을 통해 확산 모델을 GAN으로 추출 [Project Page][arXiv](2024/05/09 version v1)   Method Paired Noise-to-Image Translation for One-step GenerationEnsembled-LatentLPIPS for Latent Space DistillationConditional Diffusion Discriminator Paired Noise-to-Image Translation for One-step Generation DDIM sampler를 이용해 ODE 궤적을 시뮬레이션하여 ODE solution, noise 쌍을 얻고 증류 손실을 통해 G를 최적화하는 일반적인 방법. 이러한..
StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation AbstractConsistent self-attention을 통해 일관된 이미지, motion predictor를 통해 부드러운 비디오 생성 [Project Page][Github][arXiv](2024/05/02 version v1)   Method Training-free Consistent images generation Consistent Self-Attention (CSA)은 기존의 SA를 대체하고 원래의 가중치를 재사용하여 훈련 없이 사용할 수 있다.CSA의 방법은 간단하다. 배치 내의 다른 토큰을 self-attention에 참여시키는 것이다. 구체적으로, 배치 내의 다른 이미지에서 토큰을 샘플링하고 K, V에 추가하여 SA를 수행한다. Pi = Si + IiSemantic motion p..
InstantFamily: Masked Attention for Zero-shot Multi-ID Image Generation AbstractMulti-modal embedding stack, masked cross-attention을 통해 multi-ID 생성 문제를 해결 [arXiv](2024/04/30 version v1)   Proposed Method InstantFamily Multimodal Embedding Stack 위 그림 (a)에 나와있듯이 face encoder의 2D local feature, 1D global feature를 text condition에 연결하여 cross-attention 입력으로 사용한다. Masked Cross-Attention Masked cross-attention은 3-stage로 진행되며 UNet과 ControlNet 모두에 사용된다.뭐 설명할 필요 없을 듯. 각 얼굴 영역..
ControlNet++: Improving Conditional Controls with Efficient Consistency Feedback Abstract Cycle consistency를 명시적으로 최적화하여 이미지 제어를 향상시키는 ControlNet++ 제안 [Project Page] [Github] [arXiv](2024/04/11 version v1) [ControlNet 논문 리뷰] Introduction CycleGAN에서 영감을 받아 조건으로 이미지를 생성한 후 다시 조건으로 회귀할 수 있는 cycle consistency를 이용할 것을 제안. Method Reward Controllability with Consistency Feedback Reward consistency loss 정의: L = 픽셀 공간 손실 측정 함수, G = stable diffusion, D = 탐지 등의 조건 변환 모델 이미지 생성 기능이 손상 되..
MagicTime: Time-lapse Video Generation Models as Metamorphic Simulators Abstract Time-lapse video를 통해 실제 물리 지식을 학습하여 metamorphic video 생성이 가능한 MagicTime [Project Page] [Github] [arXiv](2024/04/07 version v1) Methodology ChronoMagic Dataset Data Curation and Filter Youtube에서 time-lapse video를 수집하고 이하 설명할 단계를 거쳐 최종적으로 2265개의 time-lapse video가 포함된 ChronoMagic dataset 제작. Cascade Preprocessing OpenCV로 pixel intensity 차이를 계산하고 CLIP으로 프레임 간 cosine similarity를 측정하여 복잡한 장면 ..
CoMat: Aligning Text-to-Image Diffusion Model with Image-to-Text Concept Matching Abstract 정확한 text-image 정렬을 가능하게 하는 end-to-end fine-tuning 전략인 CoMat 제안 [Project Page] [Github] [arXiv](2024/04/04 version v1) Method Concept Matching Attribute Concentration Fidelity Preservation Concept Matching Captioning model이 생성된 이미지를 보고 prompt의 다음 단어를 예측할 확률을 통해 text-image 정렬을 측정. Attribute Concentration spaCy를 통해 prompt를 구문 분석하여 명사, 속성 쌍 {n, a}을 수집하고 일부 명사 필터링.(e.g. 추상 명사, 배경을 설명하는 명사, 지..
InstantStyle: Free Lunch towards Style-Preserving in Text-to-Image Generation Abstract 참조 이미지에서 content와 style을 분리하고 style attention block에만 주입. [Github] [arXiv](2024/04/03 version v1) Methods Motivations 1. 스타일의 정의가 모호하다. 같은 스타일의 데이터를 수집하는 것은 불가능에 가깝다. 2. Inversion을 사용하면 스타일 정보를 잃게 된다. 3. Content와 style 간의 균형을 잡기가 어려워 content 누출 문제가 발생한다. Observations 1. Adapter의 기능이 과소평가되었다. IP-Adapter로도 강도를 낮추면 content 누출을 줄이고 style을 전달할 수 있다. 2. CLIP feature space는 호환성이 좋으며 특정한 featur..
Getting it Right: Improving Spatial Consistency in Text-to-Image Models (SPRIGHT Dataset) Abstract Vision dataset의 이미지를 recaption 하여 공간 중심적 데이터셋인 SPRIGHT 제작 [Project Page] [Github] [arXiv](2024/04/01 version v1) The SPRIGHT Dataset LLaVA-1.5를 활용하여 기존 데이터셋의 600만 개의 이미지에 대해 다음과 같은 prompt로 recaption 하여 SPRIGHT dataset 생성. Improving Spatial Consistency SPRIGHT를 효율적으로 활용할 수 있는 방법 제안. 15000개 미만의 이미지가 포함된 데이터셋에서 1:1 비율로 SPRIGHT와 일반 캡션을 샘플링하여 U-Net과 CLIP text encoder를 fine-tuning. Efficient ..
Implicit Style-Content Separation using B-LoRA Abstract 두 개의 특정 블록의 LoRA 가중치를 학습하여 암시적으로 content와 style을 분리하는 B-LoRA 제안 [Project Page] [Github] [arXiv](2024/03/21 version v1) Method SDXL Architecture Analysis SDXL의 각 block에 다른 prompt를 주입하여 영향을 분석했다. 2, 4 block은 content를, 5 block은 색상을 주로 결정하는 것으로 나타났다. LoRA-Based Separation with B-LoRA 실험 결과 2 block 보다 4 block이 content를 더 잘 보존했다. 직관적으로도 down blocks에서 feature가 압축되므로 up blocks에서 content를 변경하는 것..
FlexEdit: Flexible and Controllable Diffusion-based Object-centric Image Editing Abstract 각 step에서 latent를 반복적으로 조정하여 다양한 편집 작업이 가능한 프레임워크인 FlexEdit 제안 [Project Page] [arXiv](2024/03/27 version v1) Approach Dynamic Object Binary Mask from Attention Map [Dataset Diffusion]: Layer에 걸쳐 self-attention, cross-attention map을 집계하고 self-attention map을 지수화하여 곱하면 cross-attention map을 강화할 수 있다. 강화된 cross-attention map에 임계값을 적용하여 마스크를 얻을 수 있다. Latent Optimization with Object Constraints..
Dataset Diffusion: Diffusion-based Synthetic Dataset Generation for Pixel-Level Semantic Segmentation Abstract 확산 모델을 통해 semantic segmentation dataset을 생성할 수 있는 Dataset Diffusion 제안 [Github] [arXiv](2023/11/13 version v4) Dataset Diffusion Preparing Text Prompts for Stable Diffusion 기존 데이터셋의 캡션은 종종 개체가 누락되거나 통일된 용어를 사용하지 않는 등의 문제가 있다. 모든 target class를 명시적으로 포함하는 text prompt 생성. Generating Segmentation from Self and Cross-attention Maps Layer와 timestep에 걸쳐 self-attention, cross-attention map을 수집한..