Guidance
Diffusion Models Beat GANs on Image Synthesis : 분류기 가이드를 통한 다양성-품질 trade-off
Classifier-Free Diffusion Guidance : 분류기 없는 가이드로 다양성-품질 trade-off
Self-Attention Guidance : 샘플의 fine-grained feature를 자체적인 지침으로 사용
Sampling
Cold-Diffusion : 노이즈 이외의 다른 이미지 저하 방법을 위한 새로운 샘플링 알고리즘
DPM-Solver : ODE solver를 이용한 빠르고 고품질의 샘플링
DPM-Solver++ : 속도 개선, guided sampling에서도 작동되게 개선
Rectified Flow : 직선 경로를 통해 분포를 전송하는 ODE 모델
DeepCache : 인접한 denoising stage에서 feature를 캐시하여 속도를 향상
StreamDiffusion : RTX 4090 GPU에서 최대 91.07 fps로 이미지 생성 가능
Distillation
Progressive Distillation : 점진적 증류를 통해 샘플링 시간 줄임
SnapFusion : 모바일 장치에서 2초 이내에 작동되는 매우 빠른 T2I 확산 모델
InstaFlow : Reflow, 증류를 통한 초고속 1단계 생성
Adversarial Diffusion Distillation : DM distillation + GAN loss
BK-SDM : U-Net의 일부 블록을 제거하고 증류하여 피라미터 줄임
Segmind-Vega : Attention layer를 제거하고 layer level loss를 사용하여 증류
LMC-SDS : Score Distillation Sampling을 분석하고 더 깨끗한 gradient를 제공할 수 있는 방법 제안
Delta Denoising Score : SDS를 응용하여 최소한의 수정으로 이미지 편집
SDXL-Lightning : Progressive, adversarial distillation을 결합하여 1-step으로 1024x1024 이미지 생성
Diffusion2GAN : 잠재 공간에서 작동하는 새로운 증류 손실을 통해 확산 모델을 GAN으로 추출
- Consistency Model
Consistency Models : OpenAI에서 공개한 자기 일관성을 통해 학습하는 모델
VideoLCM : Latent Consistency Model을 사용하여 비디오를 생성
Improved Techniques for Training Consistency Models : Distillation 없이 consistency model을 직접 학습하는 consistency training의 개선된 기법 소개
AnimateLCM : Image prior, motion prior 추출을 분리하는 학습 전략과 plug-and-play adapter를 효율적으로 적응하는 전략 제안
Image Synthesis
VQ-Diffusion : VQ-VAE + Diffusion + Masking
Improved VQ-Diffusion : 이산 확산 모델의 샘플링 전략 개선
Latent Diffusion Model (LDM) : Diffusion Model + Autoencoder + Cross Attention
Zero Terminal SNR : Zero SNR의 중요성
Retrieval-Augmented Diffusion Models (RDM) : CLIP을 이용한 검색 기반 확산 모델
Imagen : 텍스트 임베딩으로 대형 언어 모델 사용. 동적 임계값, Efficient U-Net 제안
DAAM : 단어가 생성된 이미지에 미친 영향을 hitmap으로 표시
UniDiffuser : 각 multi-modal 데이터를 공동 훈련하여 modality 확장성이 뛰어난 모델
GLIGEN : Object 위치, 포즈 지정하기
Attend-and-Excite : 여러 개체를 생성할 때 생기는 문제와 잘못된 속성 바인딩 개선
Hard Prompts Made Easy : Hard prompt 최적화
Semantic-DDM : h-space 잠재 표현 수정을 통해 생성 이미지 제어
ControlNet : End-to-End 방식으로 확산 모델에 조건 입력
FineControlNet : 인스턴스가 여러 개일 때 각각을 분리해서 attention을 수행하여 제어능력 향상
LooseControl : 정확한 depth map 대신 일반화된 depth map을 soft condition으로 사용
SDXL(Stable Diffusion XL) : Stable diffusion의 개선 버전
FreeU : 저주파수, 고주파수 feature 간의 균형 조절
X-adapter : Version이 다른 plug-in과 text-to-image model 호환되게 하기
ToMe for SD : 토큰 병합을 확산 모델에 적용
SCEdit : SC-Tuner를 통해 skip connection을 편집
Generative Powers of Ten : Multi-scale content 생성
SSR-Encoder : 참조 이미지에서 피사체를 선택적으로 캡처할 수 있도록 설계된 condition encoder
IP-adapter : Decoupled cross-attention을 통해 image feature prompting
SPM : 개념 침식을 일으키지 않고 특정 개념을 삭제할 수 있는 adapter
Directed Diffusion : Cross-attention map에 activation을 생성하여 bbox를 통해 위치 제어
Parrot : Multi-reward 간에 Pareto 최적인 샘플만 훈련에 사용
Emu : 수천 개의 고품질 이미지만으로 Quality-Tuning을 수행하여 매력적인 이미지를 생성
Bounded Attention : Layout에 맞는 이미지를 생성할 수 있는 Bounded Attention 제안
SPRIGHT Dataset : Vision dataset의 이미지를 recaption 하여 공간 중심적 데이터셋 제작
CoMat : 정확한 text-image 정렬을 가능하게 하는 end-to-end fine-tuning 전략
ControlNet++ : Cycle consistency를 명시적으로 최적화하여 이미지 제어를 향상
- Model Personalizing
LoRA : 사전 훈련 네트워크 가중치의 rank를 분해하여 효율적인 downstream 작업
Textual Inversion : Text-to-image 모델에 원하는 대상의 시각적 특징 바인딩
DreamBooth : Text-to-image 모델에 원하는 대상의 시각적 특징 바인딩
InstantBooth : 예제마다 일일이 최적화하지 않고 모델 개인화
DreamTuner : DreamBooth + Subject Encoder + Self Subject Attention
PALP : LoRA를 통해 Target Prompt Personalization
ConsiStory : 사전 훈련된 모델의 내부 활성화를 공유하여 일관된 subject 생성을 가능하게 하는 훈련 없는 접근 방식
Multi-LoRA Composition : LoRA 병합 방법인 LoRA-S, C와 Testbed인 ComposLoRA 제안
- Super Resolution
Cascaded Diffusion Model : Cascade 구조를 통해 확산 모델에서 고해상도 샘플 생성
ScaleCrafter : Receptive field 확장으로 초고해상도 이미지 생성
HiDiffusion : 계산 집약적인 U-Net의 Up, Down Block 1을 수정하여 효율적인 초고해상도 생성
- Transformer Backbone
DiT : 확산 모델에 트랜스포머 백본
PixArt-α : 낮은 훈련 비용으로 고해상도 이미지 생성이 가능한 transformer 기반 T2I 확산 모델
PixArt-δ : PixArt-α + Latent Consistency Model + ControlNet
PixArt-Σ : 사전 훈련된 Diffusion Transformer를 효율적으로 fine-tuning 하여 4K 해상도의 이미지를 생성
FiT : RoPE의 context 확장을 이미지에 적용해 무제한의 해상도와 종횡비의 이미지를 생성
VisionLLaMA : 피라미드 형태의 LLaMA-like vision transformer
Stable Diffusion 3 : Transformer backbone, Rectified flow
SD3-Turbo : Adversarial Diffusion Distillation과 달리 잠재 확산 모델의 generative feature를 활용하여 ADD의 한계를 극복
- Instruction Tuning
Instruct-Imagen : 생성 모델을 자연어로 제어할 수 있도록 multi-modal instruction tuning
Emu Edit : 단일 모델로 다양한 task에 대해 instruction-based image editing이 가능
- LLM Based
LLM-grounded Diffusion : LLM이 layout을 생성하여 diffusion model을 안내
Recaptioning, Planning, and Generating : 복잡한 이미지 생성을 LLM을 통해 간단한 하위 영역 생성으로 분해
ELLA : Timestep-Aware Semantic Connector를 통해 LLM과 확산 모델을 연결하여 텍스트 정렬을 향상
- Reinforcement Learning
Diffusion-DPO : 확산 모델에 Direct Preference Optimization 적용
Large-scale Reinforcement Learning for Diffusion Models : 다양한 보상 함수에 대한 대규모 공동 훈련
SPIN-Diffusion : Self-Play Fine-Tuning (SPIN)을 확산 모델에 적용
- Face ID
PhotoMaker : 합성되는 이미지의 identity를 지정하고 제어할 수 있는 T2I 모델
InstantID : IP-Adapter, ControlNet을 통해 ID 조건화
InstantFamily : Multi-modal embedding stack, masked cross-attention을 통해 multi-ID 생성 문제 해결
- Virtual Try-On
Diffuse to Choose : Virtual try-on을 위한 확산 기반 인페인팅 모델
Multi-Diffusion
Mixture of Diffusers : 여러 확산 과정을 혼합하여 이미지 생성
MultiDiffusion : 여러 확산 과정을 최적화를 통해 한 장의 이미지로 통합
SyncDiffusion : Global 지각 손실을 통해 매끄럽고 일관적인 연결 가능
Video
LVDM : LDM을 시간 차원으로 확장하여 비디오 생성
Make-A-Video : 확산 기반 Text-to-Video 모델
Tune-A-Video : 사전 훈련 T2I 모델로 비디오 생성. 프레임이 낮지만 적은 비용이 장점
FateZero : Inversion을 통해 얻은 attention map을 사용해 시간적 일관성 향상
Text2Video-Zero : 추가 학습이나 최적화 과정 없이 T2I 모델로 비디오 생성
Gen - 1, 2 : Structure와 content를 조건으로 유연한 비디오 편집
AnimateDiff : Text-to-image 모델에 motion modeling module을 추가하여 비디오 생성
Show-1 : 픽셀, 잠재 기반 Diffusion Model을 혼합하여 적은 비용으로 고품질 비디오 생성 가능
I2VGen-XL : Cascade 구조로 비디오 생성
VideoCrafter1 : 1024 × 576 해상도의 고품질 비디오를 생성할 수 있는 T2V, I2V 모델
VideoCrafter2 : 저품질 비디오 모델을 고품질 이미지를 통해 fine-tuning
Stable Video Diffusion : Data curating의 중요성, 더 많은 diffusion noise
AnimateZero : AnimateDiff에서 정확환 외관 및 모션 제어 능력을 향상
InstructVideo : Human feedback을 통해 text-to-video 확산 모델을 fine-tuning
FreeInit : Re-initialization을 통해 비디오 확산 모델의 시간적 일관성 개선
VidToMe : 토큰을 병합하여 계산 비용을 줄임과 동시에 시간적 일관성 향상
Fairy : Temporal attention 없이 cross-frame attention, equivariant fine-tuning만으로 시간적 일관성 향상
PIA : 이미지에 affinity score를 더하여 각 프레임에 조건화
TF-T2V : 동영상 플랫폼에 널려있는 고품질 unlabeled video를 훈련에 활용
VideoDrafter : LLM, Img model, Vid model을 활용하여 일관성 있는 multi-scene video 생성
Moonshot : IP-Adapter에 temporal attention을 더하여 비디오 생성
Object-Centric Diffusion : 배경 영역의 계산을 줄임으로써 빠른 비디오 편집
UniVG : 자유도가 낮은 작업인 animation, super-resolution에서 목표 분포로의 전환을 학습할 수 있도록 함
Lumiere : 전체 프레임을 한 번에 생성하는 Space-Time U-Net
MagicTime : Time-lapse video를 통해 실제 물리 지식을 학습하여 metamorphic video 생성이 가능
StoryDiffusion : Consistent self-attention을 통해 일관된 이미지, motion predictor를 통해 부드러운 비디오 생성
FIFO-Diffusion : 사전 훈련된 확산 모델을 기반으로 추가 훈련 없이 무한히 긴 비디오 생성
- Pose Guide
Animate Anyone : AnimateDiff + ReferenceNet + Pose Guide
MagicAnimate : 모션 시퀀스에 따른 비디오 생성(실사)
- Uncommon Guide
MotionCtrl : Camera motion, object motion guide
TrailBlazer : Bounding box guide
SparseCtrl : Sparse Condition(Sketch, depth, image)
Motion-I2V : Drag Motion guide. 모션 예측과 비디오 생성을 분리하여 명시적인 모션 모델링이 가능
Boximator : Bounding box, motion path를 통해 비디오를 제어
- ID
EMO : 강한 조건을 사용하지 않고 원활한 프레임 전환, 일관된 ID가 보장된 비디오 생성
Editing
PITI : 사전 훈련된 확산 모델을 통한 image-to-image 변환
Prompt-to-Prompt : Attention map 주입을 통한 텍스트 기반 이미지 편집
InstructPix2Pix : 텍스트로 이미지 편집
Composer : 분해-재구성 단계를 통해 다양한 컨디셔닝에 적응
DragDiffusion : DragGAN의 방법으로 Diffusion Model에서 포인트 기반 대화형 편집
DragonDiffusion : 드래그로 조작 가능한 다양한 이미지 편집 기능
Concept Slider : disentangled LoRA
UDiffText : Text encoder를 설계하여 텍스트 합성에 특화
FlexEdit : 각 step에서 latent를 반복적으로 조정하여 다양한 편집 작업 가능
- Inversion
Null-text Inversion : 이미지 편집을 위한 Diffusion Inversion
DDPM Inversion : DDPM의 편집 친화적인 latent noise space를 추출하는 inversion 방법
Stylization
RDM Stylization : RDM의 DB를 교체하여 스타일화 하는 simple trick
DiffStyler : Text guided stylization + dual architecture
StyleAligned : Attention sharing을 통해 스타일 일관성 유지
B-LoRA : 두 개의 특정 블록의 LoRA 가중치를 학습하여 암시적으로 content와 style을 분리
InstantStyle : 참조 이미지에서 content와 style을 분리하고 style attention block에만 주입
Inpainting
RePaint : 재확산을 이용한 이미지 인페인팅
Paint by Example : 예제 기반 이미지 편집(인페인팅) 모델
Segmentation
EmerDiff : Stable Diffusion의 의미론적 지식을 활용하여 추가 학습 없이 segmentation
Dataset Diffusion : 확산 모델을 통해 semantic segmentation dataset을 생성
Restoration
DDNM : 사전 훈련된 확산 모델을 이용한 zero-shot 이미지 복원
SUPIR : 큰 모델, 대규모 데이터, MLLM의 이해력을 활용한 이미지 복원
Etc.
DIFT : 이미지 간의 대응 관계를 찾을 수 있는 확산 과정의 중간 feature
Neural Network Diffusion : 확산 모델을 통해 neural network parameter를 생성
'논문 리뷰 > 논문 분류' 카테고리의 다른 글
짧은 개념 모음 (1) | 2023.12.01 |
---|---|
Language 논문 분류 (0) | 2023.06.11 |
GAN 논문 분류 (0) | 2023.01.11 |
Vision Transformer 논문 분류 (0) | 2023.01.11 |
기타 논문 분류 (0) | 2022.06.10 |
년도별 (0) | 2022.06.10 |