본문 바로가기

논문 리뷰

(452)
Adversarial Diffusion Distillation DM distillation + GAN loss 1초 만에 SDXL보다 더 좋은 성능 ㄷㄷ 미쳤다 미쳤어 ㄷㄷ [Github](SDXL-Turbo) [arXiv](Current version v1) Abstract 1~4 steps 만으로 확산 모델을 효율적으로 샘플링하는 Adversarial Diffusion Distillation(ADD) 소개 Introduction 확산 모델(DM)의 우수한 샘플 품질과 GAN의 속도를 결합하기 위해 적대적 손실과 score distillation의 조합을 도입한다. Classifier-free guidance를 사용하지 않아 메모리 요구사항이 줄어들고 SDXL-Base보다 성능이 뛰어나다. Background 최근 모델 증류에 대한 연구가 늘어나고 있다(e.g. ..
짧은 개념 모음 R1 Gradient Penalty Score Distillation Sampling Self-Conditioning Constitutional DPO
R1 Gradient Penalty R1 gradient penalty in Which Training Methods for GANs do actually Converge?GAN의 적대적 손실 함수:손실을 G는 최소화, D는 최대화하는 것이 목적이다. GAN에서 Generator와 Discriminator의 고유한 내쉬 균형은 G의 생성 분포가 실제 데이터 분포와 같고 D가 항상 0을 내놓을 때이다. (D가 1/2을 출력할 경우는 고유하지 않음. 고유한가 아닌가는 중요하지 않지만.) 하지만 내쉬 균형점 근처에서 훈련이 불안정해진다. 왜? why? 생성 분포 G(z)와 데이터 분포 P가 떨어져 있는 경우에는 잘 구별한다. 하지만 G의 성능이 엄청 좋아서 데이터 분포와 (거의)같은 분포를 생성할 경우에는?똑같은 분포에서 나온 데이터를 보고 둘..
Common Diffusion Noise Schedules and Sample Steps are Flawed (Zero Terminal SNR) [arXiv](Current version v2) Introduction Stable Diffusion은 중간 밝기의 이미지만 생성하고 매우 밝거나 어두운 이미지를 생성하지 못한다. 따라서 몇 가지 간단한 수정: Noise schedule을 재조정하여 zero terminal SNR을 강제함 v-prediction으로 모델 훈련 항상 마지막 timestep에서 샘플러가 시작하도록 함 Classifier-free guidance를 재조정 Background 확산 모델 (개념, 수식, 코드) 순방향: Signal-to-noise ratio (SNR): 역방향: Methods Enforce Zero Terminal SNR 어떤 스케줄도 zero SNR에 도달하지 못한다. xT에는 여전히 각 채널의 전체 평균과..
Score Distillation Sampling Score Distillation Sampling in DreamFusion 확산 모델(개념, 수식, 코드)의 목적 함수: (Timestep t와 noise ε을 샘플링하여 이미지 x를 확산하고 U-Net을 통해 ε을 예측) 하지만 샘플링하고 싶은 것이 픽셀이 아니라면 어떨까? DreamFusion 논문에서는 3D 모델을 만들기 위해 SDS를 제안하였다. Differentiable Image Parameterization(초반만)을 통해 x를 피라미터 θ와 미분 가능한 생성기 g의 출력으로 취급할 수 있다. x = g(θ). 확산 모델이 아닌 θ에 대해 최적화를 수행하려고 한다. LDiff의 gradient는 다음과 같고 (U-Net의 gradient * θ의 gradient) U-Net의 gradien..
Improving Sample Quality of Diffusion Models Using Self-Attention Guidance (SAG) 샘플의 fine-grained feature를 자체적인 지침으로 사용 [Project Page] [Github] [arXiv](Current version v6) Abstract 외부 조건과 훈련이 필요 없는 blur guidance, Self-Attention Guidance(SAG) 제안 Introduction 확산 모델의 중간 샘플의 내부 정보가 지침 역할을 할 수 있다는 직관을 바탕으로 blur guidance 제안. 하지만 blur가 구조적 모호성을 도입할 수 있기 때문에 핵심 정보를 캡처할 수 있는 self-attention을 활용한 SAG 또한 제안. 기존 지침(e.g. classifier-free guidance)과 함께 사용할 수 있다. Preliminaries DDPM : 개념, 수식 ..
Concept Sliders: LoRA Adaptors for Precise Control in Diffusion Models disentangled LoRA [Project Page] [Github] [arXiv](Current version v2) Abstract 다른 속성과의 간섭을 최소화하면서 하나의 개념에 해당하는 low-rank 피라미터 방향을 식별하고 정밀하게 제어할 수 있는 concept slider를 제시한다. Introduction Concept slider는 low-rank 수정을 통해 효율적인 구성과 최소한의 얽힘으로 개념에 대한 정밀하고 지속적인 제어를 가능하게 하는 adaptor를 제공한다. 이미지 쌍을 통해 텍스트보다 더 복잡한 편집이 가능하고 모듈식으로 수십 개의 슬라이더를 구성할 수도 있다. Background Low-Rank Adaptors: Method 대상 개념 ct(text), 모델 θ 주어..
Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets (SVD) Data curating의 중요성, 더 많은 diffusion noise Stability.AI는 실망시키지 않아... [Github] [Paper] Abstract 고해상도, 최첨단 Text-to-Video, Image-to-Video 생성을 위한 잠재 비디오 확산 모델인 Stable Video Diffusion 소개. Text-to-Image pretraining, Video pretraining, high-quality Video fine-tuning 각 단계를 식별하고 평가한다. Introduction 생성 모델에 대한 데이터의 중요성에도 불구하고 놀랍게도 비디오 생성에서 데이터의 영향을 조사한 연구는 없었다. 이미지 모델링의 경우 크고 다양한 dataset에서 사전 훈련 후 고품질 dataset..
Fast Feedforward Networks (FFF) Feedforward를 나눈 후 이진트리를 통해 다음 hidden node를 선택 [Github] [arXiv](Current version v2) Abstract Fast feedforward network를 도입하여 계층 크기와 추론 비용 사이의 비례를 끊는다. FFF는 feedforward 보다 최대 220배 빠르고 뉴런의 1%만 사용하면서 성능의 95%를 유지할 수 있다. Introduction 이전의 FF 모듈화에 대한 연구들은 뉴런을 전문화된 개별 블록으로 나누고 forward pass에 사용될 전문가 혼합을 결정하는 gating layer를 훈련하는 공통의 접근 방식을 공유한다. 하지만 이는 훈련을 복잡하게 만들고 중복성이 장려된다. FFF는 미분 가능한 이진트리를 통해 입력 공간을 서로 다..
Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer (MoE) Feedforward network를 하위 집합인 expert로 나누어 소수의 적합한 expert만이 계산에 참여함 [Github] [arXiv](Current version v1) Abstract Feedfoward의 하위 네트워크인 Sparsely-Gated Mixture-of-Experts layer (MoE)를 통해 약간의 계산 효율성 손실만으로 모델 용량을 1000배 이상 향상하고 성능을 크게 향상함. The Structure of The Mixture-of-Experts Layer MoE는 n개의 전문가 네트워크 세트와 희소 벡터를 출력하는 gating network G로 구성된다. i번째 expert의 출력을 Ei(x), gating output을 G(x)라 하면 MoE의 출력은 다음과 같다..
Cramming: Training a Language Model on a Single GPU in One Day 초저비용 환경에서 최대의 학습 효율 내기 인용 논문을 그냥 지나칠 수 없는 성격 때문에 리뷰했지만 사실 별로 중요한 논문은 아닌... [Github] [arXiv](Current version v1) [BERT] Abstract 최근에 언어 모델링 추세는 성능 향상에 집중하고 있으며, 이는 실무자가 언어 모델을 훈련하기 불가능한 환경을 초래했다. 본문에서는 단일 GPU에서 하루 동안 masked language modeling으로 처음부터 훈련된 BERT류 모델로 달성할 수 있는 downstream performance를 조사한다. Tying Our Hands Behind Our Back: A Setup with Limited Compute Masked language modeling으로 처음부터 훈련되..
VideoCrafter1: Open Diffusion Models for High-Quality Video Generation 딱히 특별한 건 없어 보이는데 왜 성능이 좋은 걸까... SD 2.1이 사기인가? 데이터셋이 좋았나? [Project Page] [Github] [arXiv](Current version v1) Abstract 1024 × 576 해상도의 고품질 비디오를 생성할 수 있는 T2V, I2V 모델 소개 Introduction Stable Diffusion 2.1을 기반으로 구축. Text-to-Video Model: SD U-Net에 temporal attention layer 통합. 개념 망각을 방지하기 위해 이미지, 비디오 공동 훈련 전략 사용. 2초 길이의 1024 x 576 해상도의 비디오를 생성할 수 있다. Image-to-Video Model: 텍스트와 이미지를 모두 입력으로 받을 수 있다. CLI..