본문 바로가기

논문 리뷰/Diffusion Model

(138)
MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation 여러 확산 과정을 최적화를 통해 한 장의 이미지로 통합 Project Page Abstract 추가 훈련 없이 사전 훈련된 text-to-image 확산 모델을 사용하여 다재다능하고 제어 가능한 이미지 생성을 가능하게 하는 통합 프레임워크인 MultiDiffusion 제안 Introduction 사전 훈련된 참조 확산 모델은 이미지의 서로 다른 영역에 적용되고 MultiDiffusion은 최소 제곱 최적화를 통해 global denoising sampling step을 수행한다. 또한 계산 오버헤드 적음. Method 점진적으로 이미지를 IT → I0으로 denoising 하는 사전 훈련된 참조 확산 모델 MultiDiffusion MultiDiffusion은 image space J와 condition..
Adding Conditional Control to Text-to-Image Diffusion Models (ControlNet) End-to-End 방식으로 확산 모델에 조건 입력 Github arXiv Abstract 확산 모델에 조건부 입력을 가능하게 하는 end-to-end 방식의 ControlNet 제안 Introduction 작업별 도메인에서 사용 가능한 데이터셋은 크지 않다. 따라서 일반화 능력을 보존하기 위한 특별한 훈련 방법이 필요하다. 시간과 메모리의 제약으로 인해 fine tuning 전략이 필요하다. 다양한 형태의 이미지 처리 문제에 대해 denoising process 제한, attention의 편집 등 절차적 방식으로 규제했지만 개체 수준의 본질적인 이해를 위해서는 end-to-end 학습이 필수불가결하다. ControlNet은 확산 모델의 가중치를 trainable copy, locked copy로 복제하..
Mixture of Diffusers for scene composition and high resolution image generation 여러 확산 과정을 혼합하여 이미지 생성 Github arXiv Abstract 캔버스의 서로 다른 영역에 작용하는 여러 확산 과정을 조화시킴으로써 더 큰 이미지를 생성할 수 있는 Mixture of Diffusers 알고리즘 제안 Introduction 일반적인 확산 모델은 다음과 같은 프롬프트를 잘 나타내지 못하며, 위치가 무시된다. 또한 큰 이미지를 생성하는 데에 기하급수적으로 컴퓨팅 비용이 증가함. Mixture of Diffusers는 여러 확산 과정을 혼합하여 위 문제들을 해결한다. Mixture of Diffusers의 이점: 특정 위치에서 개체를 생성하거나 스타일 사이의 공간에 부드러운 전환을 도입할 수 있음 각 확산 과정이 동일한 신경망을 공유하기 때문에 적은 메모리로 고해상도 이미지 생성..
Attend-and-Excite: Attention-Based Semantic Guidance for Text-to-Image Diffusion Models Text-to-image에서 여러 개체를 생성할 때 생기는 문제와 잘못된 속성 바인딩 개선 Github arXiv Abstract 확산 모델이 여러 주제를 동시에 생성하지 못하거나 속성을 올바르게 바인딩하지 못하는 실패 사례를 완화하는 데 도움이 되는 Generative Semantic Nursing(GSN) 개념 소개 Introduction 최근 확산 기반 text-to-image 생성 모델의 문제 여러 주제를 동시에 생성하지 못함 잘못된 개체에 속성 바인딩 GSN의 개념 도입, Attend-and-Excite(A&E)라는 GSN의 형태 제안. Attention 과정에서 텍스트와 이미지 간의 상호작용이 무시되기 쉽다는 관찰을 바탕으로 denoising 과정에서 각 주제 토큰이 일부 패치에서 지배적일 것..
Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation 사전 훈련 T2I 모델로 비디오 생성 Project Page Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation A new method for text-to-video generation using one text-video pair. tuneavideo.github.io Abstract 사전 훈련된 Text-to-Image(T2I) 확산 모델의 튜닝을 통해 text prompt에서 비디오를 생성하는 Sparse-Causal Attention이 있는 Tune-A-Video(TAV) 제안 Introduction T2I 모델의 self attention을 여러 이미지로 확장하는 것만으로 프레임 간에 콘텐츠 일..
InstructPix2Pix: Learning to Follow Image Editing Instructions Project Page InstructPix2Pix We propose a method for editing images from human instructions: given an input image and a written instruction that tells the model what to do, our model follows these instructions to edit the image. To obtain training data for this problem, we combine the www.timothybrooks.com Abstract 언어 모델, text-to-image 확산 모델을 이용해 finetuning, inversion 없이 이미지를 편집하는 InstructPix2Pi..
GLIGEN: Open-Set Grounded Text-to-Image Generation Text2img 확산 모델에서 object 위치, 포즈 지정하기 Project Page GLIGEN:Open-Set Grounded Text-to-Image Generation. Large-scale text-to-image diffusion models have made amazing advances. However, the status quo is to use text input alone, which can impede controllability. In this work, we propose GLIGEN, Grounded-Language-to-Image Generation, a novel approach that build gligen.github.io Abstract Grounding input..
DiffStyler: Controllable Dual Diffusion for Text-Driven Image Stylization DiffStyler 코드 리뷰, DiffStyler 써보기 Text guided stylization + dual architecture arXiv Github Abstract Text-guided stylization 확산 모델 DiffStyler Dual diffusion architecture를 사용하여 content와 style 사이의 균형을 제어 Content 이미지 기반의 학습 가능한 노이즈로 content의 구조를 보존 (모델을 학습시키는 게 아니라 sampling process의 입력인 학습 가능한 노이즈를 최적화하는 형태임) Introduction 예제 이미지를 이용한 stylization은 content와 style을 분리하는 과정을 거쳐야 하지만 텍스트는 해당 스타일 자체에 대한 의미..
What the DAAM: Interpreting Stable Diffusion Using Cross Attention DAAM 코드 리뷰, DAAM 써보기 단어가 생성된 이미지에 미친 영향을 hitmap으로 표시 arXiv Github Abstract Stable diffusion에 대한 text-image 속성 분석. Introduction 모델에서 cross attention map을 결합하여 각 단어에 대한 2차원 속성 map을 생성한다. 이것을 Diffusion Attentive Attribution Maps(DAAM) 라고 함. DAAM을 semantic segment와 비교 프롬프트의 구문 공간에서의 관계가 이미지의 픽셀 공간에서의 관계와 어떻게 관련되는지를 특성화 DAAM의 렌즈를 통해 의미론적 현상, 특히 생성 품질에 영향을 미치는 현상을 연구하여 구문적 발견을 추가로 조사 예를 들어, '기린과 얼룩말'은..
DPM-Solver++: Fast Solver for Guided Sampling of Diffusion Probabilistic Models DPM-solver에서 속도 개선, guided sampling에서도 작동되게 개선. Arxiv Github Abstract Guided sampling을 위한 DPM-solver. 또한 임계값 방법과 DPM-solver++의 multi-step 변형 제안. Introduction DPM-solver에서는 유도(guided) 샘플링에 대해 제대로 조사하지 않았다. 유도 샘플링의 경우 단순한 1차 solver인 DDIM보다도 좋지 않았다고 한다. 데이터 예측 매개 변수화로 ODE를 해결하기 위한 solver를 도출하고, train-test 불일치 문제를 완화하기 위해 동적 임계값 방법을 채택한다. 또한, 불안정 해결을 위해 다단계 solver를 개발. Background DPM-solver Paramete..
DPM-Solver : A Fast ODE Solver for Diffusion Probabilistic Model Sampling in Around 10 Steps ODE solver를 이용한 빠르고 고품질의 샘플링 테일러 전개로 DDIM보다 더 많은 시간 단계를 뛰어 넘음 Arxiv Github Abstract Diffusion probabilistic model(DPM)의 샘플링은 일반적으로 대규모 순차 단계가 필요하기 때문에 오래 걸린다. (SDE) DPM의 샘플링은 확산 상미분 방정식(ODE)을 해결하는 것으로 대안적으로 볼 수 있다(DDIM). 본 논문에서는 확산 ODE 솔루션의 정확한 공식을 제안하고 모든 term을 블랙박스 ODE solver에 맡기는 대신 솔루션의 선형 부분을 분석적으로 계산한다. 아무튼 ODE를 위한 전용 solver인 DPM-solver를 제안한다. DPM-solver는 별도의 훈련 없이 20번 이하의 적은 단계로 고품질 샘플을 생..
Null-text Inversion for Editing Real Images using Guided Diffusion Models 이미지 편집을 위한 Diffusion Inversion Project Page Abstract 본 논문에서는 정확한 반전 기법을 도입하여 이미지의 직관적인 텍스트 기반 수정을 용이하게 한다. 무작위 노이즈 샘플을 단일 입력 이미지에 매핑하는 것이 아니라 단일 pivot 노이즈 벡터를 사용하고 그 주변을 최적화하는 pivotal 반전 입력 텍스트 임베딩이 아닌 classifier-free guidance에서 사용하는 무조건 텍스트 임베딩만 수정하는 null-text 최적화 Introduction Classifier-free guidance와 관련된 거의 모든 작업들이 조건부 부분에만 집중하지만, 본 논문의 연구진들은 무조건 부분에 의해 유도되는 상당한 효과를 인식했다. 프롬프트 반전을 위해 무조건 부분에 ..