본문 바로가기

논문 리뷰/Diffusion Model

(138)
Common Diffusion Noise Schedules and Sample Steps are Flawed (Zero Terminal SNR) [arXiv](Current version v2) Introduction Stable Diffusion은 중간 밝기의 이미지만 생성하고 매우 밝거나 어두운 이미지를 생성하지 못한다. 따라서 몇 가지 간단한 수정: Noise schedule을 재조정하여 zero terminal SNR을 강제함 v-prediction으로 모델 훈련 항상 마지막 timestep에서 샘플러가 시작하도록 함 Classifier-free guidance를 재조정 Background 확산 모델 (개념, 수식, 코드) 순방향: Signal-to-noise ratio (SNR): 역방향: Methods Enforce Zero Terminal SNR 어떤 스케줄도 zero SNR에 도달하지 못한다. xT에는 여전히 각 채널의 전체 평균과..
Improving Sample Quality of Diffusion Models Using Self-Attention Guidance (SAG) 샘플의 fine-grained feature를 자체적인 지침으로 사용 [Project Page] [Github] [arXiv](Current version v6) Abstract 외부 조건과 훈련이 필요 없는 blur guidance, Self-Attention Guidance(SAG) 제안 Introduction 확산 모델의 중간 샘플의 내부 정보가 지침 역할을 할 수 있다는 직관을 바탕으로 blur guidance 제안. 하지만 blur가 구조적 모호성을 도입할 수 있기 때문에 핵심 정보를 캡처할 수 있는 self-attention을 활용한 SAG 또한 제안. 기존 지침(e.g. classifier-free guidance)과 함께 사용할 수 있다. Preliminaries DDPM : 개념, 수식 ..
Concept Sliders: LoRA Adaptors for Precise Control in Diffusion Models disentangled LoRA [Project Page] [Github] [arXiv](Current version v2) Abstract 다른 속성과의 간섭을 최소화하면서 하나의 개념에 해당하는 low-rank 피라미터 방향을 식별하고 정밀하게 제어할 수 있는 concept slider를 제시한다. Introduction Concept slider는 low-rank 수정을 통해 효율적인 구성과 최소한의 얽힘으로 개념에 대한 정밀하고 지속적인 제어를 가능하게 하는 adaptor를 제공한다. 이미지 쌍을 통해 텍스트보다 더 복잡한 편집이 가능하고 모듈식으로 수십 개의 슬라이더를 구성할 수도 있다. Background Low-Rank Adaptors: Method 대상 개념 ct(text), 모델 θ 주어..
Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets (SVD) Data curating의 중요성, 더 많은 diffusion noise Stability.AI는 실망시키지 않아... [Github] [Paper] Abstract 고해상도, 최첨단 Text-to-Video, Image-to-Video 생성을 위한 잠재 비디오 확산 모델인 Stable Video Diffusion 소개. Text-to-Image pretraining, Video pretraining, high-quality Video fine-tuning 각 단계를 식별하고 평가한다. Introduction 생성 모델에 대한 데이터의 중요성에도 불구하고 놀랍게도 비디오 생성에서 데이터의 영향을 조사한 연구는 없었다. 이미지 모델링의 경우 크고 다양한 dataset에서 사전 훈련 후 고품질 dataset..
VideoCrafter1: Open Diffusion Models for High-Quality Video Generation 딱히 특별한 건 없어 보이는데 왜 성능이 좋은 걸까... SD 2.1이 사기인가? 데이터셋이 좋았나? [Project Page] [Github] [arXiv](Current version v1) Abstract 1024 × 576 해상도의 고품질 비디오를 생성할 수 있는 T2V, I2V 모델 소개 Introduction Stable Diffusion 2.1을 기반으로 구축. Text-to-Video Model: SD U-Net에 temporal attention layer 통합. 개념 망각을 방지하기 위해 이미지, 비디오 공동 훈련 전략 사용. 2초 길이의 1024 x 576 해상도의 비디오를 생성할 수 있다. Image-to-Video Model: 텍스트와 이미지를 모두 입력으로 받을 수 있다. CLI..
Latent Video Diffusion Models for High-Fidelity Long Video Generation (LVDM) LDM을 시간 차원으로 확장하여 비디오 생성 [Project Page] [Github] [arXiv](Current version v2) Abstract 저차원 3D 잠재공간을 활용한 Latent Video Diffusion Models(LVDM) 제안 Introduction LDM의 저차원 잠재공간을 활용해 효율적으로 비디오를 생성할 수 있는 LVDM. +훈련 길이보다 더 긴 비디오를 생성할 수 있는 계층적 LVDM 프레임워크, 긴 비디오에 대한 성능 저하를 완화하기 위해 조건부 잠재 섭동과 무조건 지침 사용. Method Video Autoencoder 경량 3D 오토인코더로 비디오 압축. 비디오 샘플 x0 ∈ RH × W × L × 3가 주어지면 인코더 E는 spatial and temporal d..
Show-1: Marrying Pixel and Latent Diffusion Models for Text-to-Video Generation 픽셀, 잠재 기반 Diffusion Model을 혼합하여 적은 비용으로 고품질 비디오 생성 가능 [Project Page] [Github] [arXiv] Abstract 픽셀 기반 및 잠재 기반 VDM(Video Diffusion Model)을 결합한 Show-1 제안 Introduction 픽셀 기반 VDM: 프롬프트에 정확하게 맞춰진 모션을 생성할 수 있지만 높은 계산 비용 잠재 기반 VDM: 계산 효율이 좋지만 해상도가 높아질수록 비디오-텍스트 정렬 무시 키 프레임 생성, 프레임 보간, 초해상도에 각각의 모듈을 사용. 본 논문의 기여: 저해상도에서는 텍스트 정렬이 정확한 픽셀 기반 VDM을, 고해상도에서는 정렬된 결과를 바탕으로 계산 효율이 높은 잠재 기반 VDM을 사용하여 고품질 비디오 생성 낮은..
ScaleCrafter: Tuning-free Higher-Resolution Visual Generation with Diffusion Models Receptive field 확장으로 초고해상도 이미지 생성 고해상도에서의 객체 반복은 사실 diffusion model 만의 문제가 아니다. 굉장히 의미 있는 논문이라고 생각함. [Project Page] [Github] [arXiv] Abstract 512x512에서 사전 훈련된 Stable Diffusion을 사용하여 고해상도에서 이미지를 생성할 때 다양한 문제가 관찰됨. 연구진은 컨볼루션의 제한된 수용 필드에서 문제를 찾고 이를 동적으로 조절할 수 있는 re-dilation 제안. 초고해상도 이미지 생성을 가능하게 하는 dispersed convolution, noise-damped classifier-free guidance 제안. Fine-tuning이나 최적화가 필요하지 않음. Introdu..
FreeU: Free Lunch in Diffusion U-Net 저주파수, 고주파수 feature 간의 균형 조절 [Project Page] [Github] [arXiv] Abstract U-Net에 대한 분석을 통해 추가 교육이나 fine-tuning 없이 품질을 향상하는 방법인 FreeU 제안 Introduction Denoising process에서 저주파수 구성요소는 거의 바뀌지 않지만, 고주파수 구성요소는 노이즈에 민감하며, 급격히 변함. 연구진의 조사에 따르면 U-Net backbone은 주로 denoising을 담당, skip connection은 세분화된 의미 정보를 전파하여 디코더 모듈에 고주파 feature를 도입함. 그러나 이러한 전파가 denoising을 방해할 수 있고, 다음과 같은 비정상적인 세부정보가 생성될 수 있음. 추론 단계에서 back..
SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis Stable diffusion의 개선 버전 [Github] [arXiv] (본 글은 요약본입니다. 자세한 리뷰) SDXL 아키텍처 향상(3배 더 큰 U-Net backbone) 추가 컨디셔닝 오토인코더 향상 다단계 학습 Refiner Improving Stable Diffusion Architecture & Scale 아키텍처 구성이 달라졌다.(SD, SDXL 아키텍처 분석) 두 개의 텍스트 인코더를 같이 사용, 풀링된 텍스트 인코딩을 추가로 컨디셔닝 Micro-Conditioning 학습 데이터셋의 rescaling 전 원래 사이즈 csize를 컨디셔닝. 추론 시 겉보기 해상도 조절 가능 학습 데이터 로드 시 데이터가 crop 되었다면 crop 좌표 ccrop을 컨디셔닝. ccrop = (0,0)으로 ..
AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning Text-to-image 모델에 모듈을 추가하여 비디오 생성 Project Page Github arXiv Abstract Motion modeling module을 통해 T2I 모델에서 애니메이션을 생성하는 AnimateDiff 제안 Personalized Animation 다음 그림과 같이 개인화된 T2I 모델에 바로 삽입하여 사용할 수 있는 모듈을 목표로 한다. Motion Modeling Module Network Inflation 프레임 시간축이 추가된 5D(b*c*f*h*w) 텐서를 처리하기 위해 video diffusion model과 같이 원본 U-Net의 2D convolution과 attention layer를 Pseudo-3D layer로 교체하고 공간축을 따라 작동하도록 한다. MM..
InstaFlow: One Step is Enough for High-Quality Diffusion-Based Text-to-Image Generation Reflow, 증류를 통한 초고속 1단계 생성 Github arXiv Abstract Rectified flow를 통해 확산 모델을 초고속 1단계 모델로 전환하기 위한 text-conditioned pipeline인 InstaFlow 제안. 0.1초 이내에 이미지 생성 ㄷㄷ Methods Rectified Flow and Reflow Rectified flow(RF)는 두 분포 사이의 전송 매핑을 학습하기 위한 접근 방식을 제공한다. 신경망을 통해 v를 매개변수화 한다. 일반적인 확률 흐름 ODE는 다음과 같은 형태인데, RF의 저자는 더 간단한 형태를 제안했다. Straight Flows Yield Fast Generation ODE의 궤적을 직선화하는 것은 추론 비용을 줄이기 위한 필수적인 방법임. ..