본문 바로가기

논문 리뷰/Diffusion Model

(138)
Improved Techniques for Training Consistency Models [Github] [arXiv](2023/10/22 version v1) Abstract Distillation 없이 consistency model을 직접 학습하는 consistency training의 개선된 기법 소개 Consistency Models Consistency Models 논문 리뷰 잔차 연결을 통해 CM을 피라미터화. σ = noise level CM loss: N이 작을수록 Δt가 크다. fθ = student network, fθ̄ = teacher network라고 한다. Teacher network는 EMA로 업데이트된다. 일관성 증류(CD)의 경우 확산 모델 s를 통해 Consistency Training (CT)의 경우 데이터 x와 가우시안 노이즈 z를 활용하여 훈련 후 가우..
Weak-to-Strong Jailbreaking on Large Language Models [Github] [arXiv](2024/01/30 version v1) Abstract 작은 규모의 unsafe model을 통해 큰 모델의 출력 분포를 조정하여 Jail-Breaking을 유도 Weak-to-Strong Jailbreaking 작은 safe model을 유해한 예제에 대해 fine-tuning 하여 unsafe model을 얻는다. 위와 같이 strong safe model의 출력 분포를 조정하여 유해한 응답을 생성하도록 할 수 있다. 유일한 조건은 weak model과 strong model이 동일한 vocabulary를 공유해야 한다는 것이다. 본 논문의 핵심은 큰 모델의 직접적인 fine-tuning을 피하고 작은 모델을 fine-tuning 하여 간접적으로 큰 모델이 유해한 토큰..
Motion-I2V: Consistent and Controllable Image-to-Video Generation with Explicit Motion Modeling [Project Page] [arXiv](2024/01/31 version v2) Abstract 모션 예측과 비디오 생성을 분리하여 명시적인 모션 모델링이 가능한 Motion-I2V 제안 Keyword: Optical flow, Motion-augmented temporal layer, ControlNet Method Motion Prediction with Video Diffusion Models Motion fields modeling 모션 필드로써 optical flow를 채택. Training a motion field predictor 3단계 fine-tuning 전략: 사전 훈련된 LDM을 참조 이미지와 text prompt를 통해 모션 필드를 예측하도록 fine-tuning. LDM을 고정..
Diffuse to Choose: Enriching Image Conditioned Inpainting in Latent Diffusion Models for Virtual Try-All (DTC) [Project Page] [arXiv](2024/01/24 version v1) Abstract Virtual try-on을 위한 확산 기반 인페인팅 모델인 Diffuse to Choose (DTC) Method 더보기 Paint by Example Diffusion Inpainting Models PBE에서는 복붙 아티팩트를 피하기 위해 참조 이미지의 클래스 토큰만을 가져왔지만 본문에서는 참조 이미지의 feature가 중요하므로 모든 패치를 받으며 더 큰 이미지 인코더인 DINOv2를 사용하였다. 또한 diffusion loss 외에도 색상 등의 정렬을 위해 생성 이미지와 소스 이미지에 대해 VGGNet의 perceptual loss를 도입했다. Design of Diffuse to Choose Cr..
Scaling Up to Excellence: Practicing Model Scaling for Photo-Realistic Image Restoration In the Wild (SUPIR) [Project Page] [Github] [arXiv](2024/01/24 version v1) Abstract 큰 모델, 대규모 데이터, MLLM (Multimodal-LLM)의 이해력을 활용한 이미지 복원 방법인 SUPIR 소개 Introduction 역대 최대 규모(자칭)의 IR(Image Restoration) 방법인 SUPIR (Scaling-UP IR) 소개. SDXL에서 6억 개가 넘는 피라미터를 가진 어댑터를 설계하고 훈련한다. 또한 2천만 개가 넘는 고해상도 이미지, 13B의 MLLM 활용. Method Model Scaling Up Scaling Up Training Data Restoration-Guided Sampling Model Scaling Up Generative Prior..
Lumiere: A Space-Time Diffusion Model for Video Generation [Project Page] [arXiv](2024/01/23 version v1) Abstract 전체 프레임을 한 번에 생성하는 Space-Time U-Net을 통해 시간적으로 일관된 비디오 생성 Lumiere STUNet을 통해 모든 프레임을 한 번에 생성하고 MultiDiffusion을 통해 super-resolution 한다. Space-Time U-Net (STUnet) 사전 훈련된 spatial layer 뒤에 factorized space-time convolution(2D + 1D)을 사용함으로써 3D conv에 비해 계산상의 이점을, 1D에 비해 표현력의 이점을 챙긴다. Temporal attention은 계산 비용이 높으므로 가장 낮은 해상도에서만 사용한다. 일반적인 T2V 연구와 비슷..
Large-scale Reinforcement Learning for Diffusion Models [Project Page] [Github] [arXiv](2024/01/20 version v1) Project Page 보면 정렬은 확실히 좋은데 품질은 잘 모르겠는 느낌...? Realistic 하지 않달까... Abstract 다양한 보상 함수에 대한 대규모 공동 훈련 Method 강화 학습에 대한 지식이 없으신 분들은 이 글에서 ' Baseline function을 빼면 gradient의 분산이 줄어드는 이유' 까지만 보시면 됩니다. RL 목표: 피라미터 θ를 통해 보상 r 최대화 Policy Gradient with Multi-step MDP (Markov decision process) Denoising process를 정책으로 취급하고 최종 결과물에만 보상을 준다. 안정적인 훈련을 위해 im..
Mastering Text-to-Image Diffusion: Recaptioning, Planning, and Generating with Multimodal LLMs (RPG) [Github] [arXiv](2024/01/22 version v1) Abstract 복잡한 이미지 생성을 LLM을 통해 간단한 하위 영역 생성으로 분해하는 Recaptioning, Planning, and Generating (RPG) Keyword: Multimodal Recaptioning, Chain-of-Thought Planning, Complementary Regional Diffusion Method Text-to-image Generation Prompt Recaptioning User prompt yc에서 핵심 문구를 식별하고 충실도를 향상하기 위해 세부 정보를 보완한다. CoT Planning for Region Division LLM의 Chain-of-thought (CoT) 추론..
LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image Diffusion Models with Large Language Models (LMD) [Project Page] [Github] [arXiv](2023/10/10 version v2) Abstract LLM이 layout을 생성하여 diffusion model을 안내하는 LLM-grounded Diffusion (LMD) 제안 LLM-grounded Diffusion LLM-based Layout Generation Layout representation 레이아웃 표현은 bounding box와 caption으로 구성된다. Prompting In-context learning 레이아웃 표현을 명확히 하기 위해 작업 설명 후 수동으로 선별한 예제를 제공한다. 2가지 원칙: 각 인스턴스는 단일 bbox로 표시된다. E.g. '사과 4개'의 경우 각 사과가 각기 다른 bbox를 가진다. For..
EmerDiff: Emerging Pixel-level Semantic Knowledge in Diffusion Models [Project Page] [arXiv](2024/01/22 version v1) Abstract Stable Diffusion의 의미론적 지식을 활용하여 추가 학습 없이 segmentation map을 생성할 수 있는 EmerDiff 제안 Methods Constructing Low-Resolution Segmentation Maps 이후 언급되는 모든 과정 동안 완벽한 재구성을 위하여 DDPM Inversion을 사용한다. U-Net Upward blocks의 첫 번째 attention layer에서 query vector를 추출한다. 이 feature는 텍스트와 직접 상호작용하며 의미론적으로 인식되어야 한다. K-평균을 적용하여 low-resolution segmentation mask를 얻는다. ..
An Edit Friendly DDPM Noise Space: Inversion and Manipulations (DDPM Inversion) [Project Page] [Github] [arXiv](2023/04/14 version v2) Abstract DDPM의 편집 친화적인 latent noise space를 추출하는 inversion 방법 제안 The DDPM noise space Diffusion Forward process: 다음과 같이 간단하게 표현할 수 있다. Backward process: zt는 랜덤 가우시안 노이즈다. 실제로 DDPM 논문에서 유연성을 위해 사용한다. Edit friendly inversion 애초에 DDPM의 noise space가 편집 친화적이지 않기 때문에 noise map을 대체하는 단순한 방법으로는 편집이 불가능하다. 주어진 이미지 x0의 구조를 '각인'하기 위해 다음과 같은 보조 시퀀스를 구성한다..
VideoCrafter2: Overcoming Data Limitations for High-Quality Video Diffusion Models [Project Page] [Github] [arXiv](2024/01/17 version v1) Abstract 최근 몇몇 상업용 비디오 모델은 대규모의 잘 필터링된 고품질 비디오에 의존한다. 또한 저품질 WebVid-10M에서 모델을 훈련하는 많은 연구들은 고품질 비디오를 생성하기 어렵다. 본문에서는 저화질 비디오와 합성된 고품질 이미지를 활용하여 고품질 비디오를 생성할 수 있는 방법을 모색한다. 논문 한 줄 요약 : 고품질 비디오 데이터가 없을 때 저품질 비디오로 훈련된 T2V 모델에서 고품질 이미지를 통해 공간 모듈만 fine-tuning 하는 것이 가장 성능이 좋다. Method Spatial-temporal Connection Analyses Data-level Disentanglement o..