본문 바로가기

논문 리뷰/Diffusion Model

(138)
DragonDiffusion: Enabling Drag-style Manipulation on Diffusion Models 드래그로 조작 가능한 다양한 이미지 편집 기능 Github arXiv Abstract 확산 모델에서 Drag-style 조작이 가능한 DragonDiffusion 제안. Fine tuning, 추가 모듈 x. Introduction 비슷한 작업으로 DragGAN이 있지만 GAN보다 확산 모델이 일반화 능력, 안정성과 생성 품질이 더 우수함. 확산 과정에서 두 가지 feature set 포함.(Guidance feature, Generation feature) Generation feature를 편집하기 위해 guidance feature를 대상으로 활용. DragDiffusion과 달리 추가적인 훈련이 필요 없고 feature 간의 대응을 통해 이미지 일관성을 유지함. Method Overview DIF..
Emergent Correspondence from Image Diffusion (DIFT) 이미지 간의 대응 관계를 찾을 수 있는 확산 과정의 중간 feature Project Page DiffusionFeatures Finding correspondences between images is a fundamental problem in computer vision. In this paper, we show that correspondence emerges in image diffusion models without any explicit supervision. We propose a simple strategy to extract this implicit knowled diffusionfeatures.github.io Abstract 이미지 간의 대응 관계를 찾는 것은 컴퓨터 비전의 근본적인 ..
DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing DragGAN의 방법으로 Diffusion Model에서 포인트 기반 대화형 편집 Github arXiv Abstract 대화형 포인트 기반 편집을 확산 모델로 확장한 DragDiffusion 제안 Introduction DragDiffusion은 특정 t 단계에서 잠재성을 조작하여 출력 이미지를 편집. DragGAN에 따라 모션 감독 및 포인트 추적의 반복 절차를 사용. 특정 단계의 잠재성을 조작할 때의 한 가지 문제점은 스타일이나 외형이 바뀔 수도 있다는 것이다. 편집 전 입력 이미지를 재구성하기 위해 UNet에서 LoRA를 fine tuning하여 문제 완화. Methodology Method Overview 먼저 재구성을 위한 LoRA를 만들고, 샘플링의 특정 단계에서 DragGAN의 절차 사용...
SnapFusion: Text-to-Image Diffusion Model on Mobile Devices within Two Seconds 모바일 장치에서 2초 이내에 작동되는 매우 빠른 T2I 확산 모델 Project Page SnapFusion snap-research.github.io Abstract 모바일 장치에서 2초 이내에 작동되는 text-to-image 확산 모델. Efficient UNet, efficient image decoder, step distillation. Model Analysis of Stable Diffusion Prerequisites of Stable Diffusion Diffusion Model DDIM의 denoising Classifier-free guidance Latent Diffusion Model(LDM, Stable Diffusion) Benchmark and Analysis Macro P..
Progressive Distillation for Fast Sampling of Diffusion Models 점진적 증류를 통해 샘플링 시간 줄임 Github arXiv Abstract 적은 샘플링 단계를 사용할 때 향상된 안정성을 제공하는 확산 모델의 새로운 매개변수화. 결정론적 확산 샘플러를 새로운 확산 모델로 추출하는 방법. Introduction 사전 훈련된 확산 모델에 대한 N-step DDIM sampler의 동작을 샘플 품질의 저하가 거의 없는 N/2 단계의 새 모델로 증류하는 절차를 제시. 점진적 증류를 통해 샘플링 시간을 수십 배 줄이면서 샘플 품질을 유지함. Background on Diffusion Models (겁먹지 마세요. 이 부분은 잘 몰라도 됩니다.) 미분 가능한 log SNR 확산 모델의 순방향 과정 Denoising 모델을 통한 노이즈 제거 일반적인 Discrete time sa..
Consistency Models OpenAI에서 공개한 자기 일관성을 통해 학습하는 모델 One-step으로 꽤 괜찮을 품질의 이미지를 생성할 수 있는 것이 인상적. Github arXiv Abstract 확산 모델은 많은 진전을 이루었지만 느린 샘플링 속도와 반복 생성 프로세스에 의존한다. 이러한 한계를 극복하기 위해 Consistency Model(일관성 모델) 제안. 일관성 모델은 one-step 생성을 지원하면서도 품질을 위해 few-step 생성 또한 가능. 사전 훈련된 확산 모델을 증류하는 방법 또는 독립 실행형 생성 모델로 학습할 수 있다. Introduction 확산 모델은 GAN처럼 학습이 불안정하지 않고 자동회귀 모델, VAE, Normalizing Flow와 같이 아키텍처에 제약을 부과하지도 않는다. 단점은 많은 반..
InstantBooth: Personalized Text-to-Image Generation without Test-Time Finetuning 예제마다 일일이 최적화하지 않고 모델 개인화 arXiv Abstract 매번 일일이 fine tuning 할 필요 없이 즉각적인 T2I 모델의 개인화를 가능하게 하는 InstantBooth 제안 Introduction T2I(Text-to-Image) 모델의 개인화는 두 가지로 분류 가능 입력 이미지를 텍스트 공간으로 반전 e.g. DreamBooth, Textual-Inversion 단점: 각 예제에 대해 fine tuning 필요, 수정된 모델 가중치를 저장해야 함 텍스트 가이드를 통해 I2I 매핑 학습 e.g. InstructPix2Pix, ControlNet 단점: 학습 쌍 데이터 필요 Fine tuning 없는 T2I 모델의 개인화가 목표. 최적화 대신 인코더를 학습하여 일반화 세부 정보를 위해..
One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale (UniDiffuser) 각 multi-modal 데이터를 공동 훈련하여 modality 확장성이 뛰어난 모델 Github arXiv Abstract 하나의 모델에서 multi-modal 데이터셋과 관련된 모든 분포를 맞추는 통합 확산 프레임워크 UniDiffuser 제안. Unified view에서 영감을 얻은 UniDiffuser는 원래 확산 모델에 대한 최소한의 수정으로 모든 분포를 동시에 학습한다. Introduction Multi-modal 생성 작업은 확률적 모델링의 관점에서 해당 분포를 맞추는 것으로 볼 수 있다. (e.g. text-to-image 생성은 조건부 분포 p(ImageㅣText)를 학습하는 것) 본 논문에서는 추가 학습 또는 오버헤드 없이 하나의 모델에서 모든 관련 분포를 명시적으로 맞추는 확산 기반 ..
Structure and Content-Guided Video Synthesis with Diffusion Models (Gen-1, 2) Structure와 content를 조건으로 유연한 비디오 편집 Project Page Abstract 이미지 또는 텍스트 설명을 기반으로 비디오를 편집하는 structure and content-guided video diffusion model 제안. Introduction 본 논문의 기여 미리 학습된 이미지 모델에 시간 계층을 도입하고 이미지와 비디오를 공동 학습 함으로써 비디오로 확장 예제 이미지나 텍스트로 비디오를 수정하는 모델 시간, content 및 structure 일관성에 대한 완전한 제어 가능 작은 이미지 세트에서 fine tuning하여 더 세부적인 사용자 정의 가능 Method 'Structure'는 피사체의 모양, 위치, 시간적 변화 등 기하학적, 역학적 특성으로 정의. 'Cont..
Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators 추가 학습이나 최적화 과정 없이 T2I 모델로 비디오 생성 Project page Abstract Zero-shot text-to-video 생성을 소개하고 기존의 T2I 합성 방법을 이용한 저비용 접근 방식 제안. 비디오 데이터에 대한 추가 학습 없이도 기존 T2V와 비슷한 성능을 보여줌. Instruct-Pix2Pix와 같은 다른 편집 작업에도 적용할 수 있음. Introduction 본 논문에서는 최적화나 미세 조정 없이 T2V를 가능하게 하는 zero-shot “training-free” text-to-video를 연구한다. 시간적 일관성을 위한 수정 사항 Global scene과 background의 일관성을 위해 모션 정보로 생성된 프레임의 잠재 코드를 풍부하게 함 Foreground 개체의 ..
Token Merging for Fast Stable Diffusion 토큰 병합을 확산 모델에 적용 Github arXiv Abstract Token Merging을 Stable Diffusion에 적용하여 속도 향상 Introduction 대부분의 이미지는 중복성이 높고, 따라서 모든 토큰에 대해 계산을 수행하는 것은 리소스의 낭비이다. 추가적인 훈련 없이 평가 속도를 높일 수 있는 token merging(ToMe)을 SD에 적용. ToMe는 SD의 속도를 크게 향상할 수 있었지만 이미지 품질이 크게 저하되었다. 속도 향상과 함께 이미지 품질을 유지하기 위한 새로운 기술을 도입한다. Background ToMe LDM(Stable Diffusion) Token Merging for Stable Diffusion 확산 모델에서는 모든 토큰에 대해 제거할 노이즈를 알아야 ..
Composer: Creative and Controllable Image Synthesis with Composable Conditions 분해-재구성 단계를 통해 다양한 컨디셔닝에 적응 Project Page Abstract 먼저 이미지를 대표 요소로 분해한 다음 이 모든 요소를 조건으로 하여 입력을 재구성하는 확산 모델을 훈련하여 출력 이미지를 유연하게 제어할 수 있는 차세대 패러다임인 Composer 제안 Introduction 연구진은 제어 가능한 이미지 생성의 핵심이 컨디셔닝뿐만 아니라 compositionality에 더 의존한다고 주장한다. (잠재적으로 무한한 수의 새로운 조합을 인식하고 생성) Compositional generative model이란 시각적 구성 요소를 매끄럽게 재결합하여 새로운 이미지를 생성할 수 있는 생성 모델을 말한다. Composer는 U-Net 백본의 확산 모델로 구현되며 학습에는 decompositi..