본문 바로가기

전체 글

(535)
Diffusion Model Alignment Using Direct Preference Optimization (Diffusion-DPO) [arXiv](Current version v1) Abstract Direct Preference Optimization(DPO)을 확산 모델에 적용한 Diffusion-DPO 제안 Background Diffusion Models Simple loss: Direct Preference Optimization 조건 c에서 보상 모델 r이 접근할 수 있는 ranked pair xwin, xlose에 대해 Bradley-Terry model은 인간 선호도를 다음과 같이 규정한다. 보상 함수는 신경망으로 매개변수화되고 maximum likeihood를 통해 훈련될 수 있다. RLHF 보상을 최대화하는 동시에 KL-divergence를 통해 정규화된다. DPO Objective 위의 식에 대한 최적의 솔루션은 ..
Sketch Video Synthesis [Project Page] [Github] [arXiv](Current version v1) Abstract 비디오에서 애니메이션 scalable vector graphics(SVG) 생성 Introduction Neural Layered Atlas(NLA)와 미분 가능한 rasterizer 사용. SVG 형식의 스케치 비디오 생성을 위해 새로운 control point 초기화 방법과 temporal consistency loss 제안. Methods Preliminary: Video Decomposition via Layer Atlas Neural Layered Atlas Differentiable Optimization for Video Sketch T frame의 실제 비디오 IT, N개의 stro..
HiDiffusion: Unlocking High-Resolution Creativity and Efficiency in Low-Resolution Trained Diffusion Models 계산 집약적인 U-Net의 Up, Down Block 1을 수정하여 효율적인 초고해상도 생성 [arXiv](Current version v1) Abstract 객체 중복이 발생하지 않고 4096x4096 이미지를 생성할 수 있는 HiDiffusion Introduction Stable Diffusion은 초고해상도 이미지를 생성하는 데 시간이 매우 오래 걸리며 객체 중복이 발생한다. 고해상도 이미지의 feature map 크기와 컨볼루션 수용 필드 간의 불일치를 해결하기 위해 Resolution-Aware U-Net (RAU-Net) 제안. 시간이 많이 소요되는 global self-attention 대신 Modified Shifted Window Multi-head SelfAttention (MSW-M..
Layered Neural Atlases for Consistent Video Editing 비디오 프레임을 2D atlas로 분해하고 다시 비디오에 매핑 [Project Page] [Github] [arXiv](Current version v1) +참고: https://github.com/thiagoambiel/NeuralAtlases 훈련된 모델을 여러 비디오에 적용할 수 있는 것이 아니라, 프로젝트마다 새로운 모델을 훈련해야 한다. 모델을 훈련하면 원하는 프레임 지점에서 배경 atlas와 전경 atlas를 생성할 수 있고, 해당 atlas를 편집하여 적용할 수 있다. 더보기 폐색이나 왜곡이 많은 물체의 경우 multi-atlas를 사용하여 개선할 수 있다. 위 그림은 폐색이 많은 반대쪽 다리를 다른 atlas로 렌더링한 결과이다. 또한 애니메이션 atlas를 이용하여 모든 프레임에 다른 편..
CLIPasso: Semantically-Aware Object Sketching 다양한 추상회 정도의 스케치 생성 [Project Page] [Github] [arXiv](Current version v2) Abstract 다양한 수준의 추상화를 달성할 수 있는 객체 스케치 방법인 CLIPasso 제안 Introduction 스타일에 관계없이 시각적 의미를 인코딩하는 데 탁월한 CLIP 사용. 이전의 연구들에서는 스케치 데이터셋을 사용하는 경우가 많지만 출력 스타일을 제한하기 때문에 비채택. 대신 CLIP 이미지 인코더를 사용하여 사진을 추상 스케치로 변환한다. 스케치는 흰 배경에 배치된 검은 획(베지어 곡선) 세트로 정의되며 추상화 수준은 획 수에 따라 결정된다. 그려질 대상 이미지가 주어지면 획의 매개변수(제어점 위치)를 직접 최적화한다. Method 스케치를 4개의 제어점이 있..
Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation AnimateDiff + ReferenceNet + Pose Guide [Project Page] [arXiv](Current version v1) Abstract 확산 모델을 활용해 정지 영상에서 애니메이션을 생성할 수 있는 Animate Anyone 제안 Introduction 사전 훈련된 stable diffusion의 가중치를 상속하고 일관성을 유지하기 위해 대칭 U-Net 구조로 설계된 temporal attention이 있는 ReferenceNet을 사용한다. 포즈 제어를 위한 경량 pose guider 고안. Methods Network Architecture Overview Stable Diffusion + ReferenceNet + Pose Guider + Temporal Attentio..
Noise-Free Score Distillation [arXiv](Current version v1) Introduction 확산 모델의 힘을 이미지를 넘어 다른 도메인에 투사하기 위해 Score Distillation Sampling(SDS)이 도입되었다. 하지만 표준 denoising process로 생성된 이미지와 SDS 최적화로 생성된 이미지 사이에는 여전히 차이가 있으며, SDS는 세부 정보를 잘 생성하지 못한다. 본문에서는 확산 모델을 score function으로 처리하면서 score를 3가지 방향으로 분해하는 공식을 제안한다. 새로운 통찰을 통해 Noise-Free Score Distillation (NFSD) 도입. Background Classifier-free guidance(CFG)를 활용한 확산 모델에 중점을 둔다. SDS Scor..
Adversarial Diffusion Distillation DM distillation + GAN loss 1초 만에 SDXL보다 더 좋은 성능 ㄷㄷ 미쳤다 미쳤어 ㄷㄷ [Github](SDXL-Turbo) [arXiv](Current version v1) Abstract 1~4 steps 만으로 확산 모델을 효율적으로 샘플링하는 Adversarial Diffusion Distillation(ADD) 소개 Introduction 확산 모델(DM)의 우수한 샘플 품질과 GAN의 속도를 결합하기 위해 적대적 손실과 score distillation의 조합을 도입한다. Classifier-free guidance를 사용하지 않아 메모리 요구사항이 줄어들고 SDXL-Base보다 성능이 뛰어나다. Background 최근 모델 증류에 대한 연구가 늘어나고 있다(e.g. ..
짧은 개념 모음 R1 Gradient Penalty Score Distillation Sampling Self-Conditioning Constitutional DPO
R1 Gradient Penalty R1 gradient penalty in Which Training Methods for GANs do actually Converge?GAN의 적대적 손실 함수:손실을 G는 최소화, D는 최대화하는 것이 목적이다. GAN에서 Generator와 Discriminator의 고유한 내쉬 균형은 G의 생성 분포가 실제 데이터 분포와 같고 D가 항상 0을 내놓을 때이다. (D가 1/2을 출력할 경우는 고유하지 않음. 고유한가 아닌가는 중요하지 않지만.) 하지만 내쉬 균형점 근처에서 훈련이 불안정해진다. 왜? why? 생성 분포 G(z)와 데이터 분포 P가 떨어져 있는 경우에는 잘 구별한다. 하지만 G의 성능이 엄청 좋아서 데이터 분포와 (거의)같은 분포를 생성할 경우에는?똑같은 분포에서 나온 데이터를 보고 둘..
Common Diffusion Noise Schedules and Sample Steps are Flawed (Zero Terminal SNR) [arXiv](Current version v2) Introduction Stable Diffusion은 중간 밝기의 이미지만 생성하고 매우 밝거나 어두운 이미지를 생성하지 못한다. 따라서 몇 가지 간단한 수정: Noise schedule을 재조정하여 zero terminal SNR을 강제함 v-prediction으로 모델 훈련 항상 마지막 timestep에서 샘플러가 시작하도록 함 Classifier-free guidance를 재조정 Background 확산 모델 (개념, 수식, 코드) 순방향: Signal-to-noise ratio (SNR): 역방향: Methods Enforce Zero Terminal SNR 어떤 스케줄도 zero SNR에 도달하지 못한다. xT에는 여전히 각 채널의 전체 평균과..
Score Distillation Sampling Score Distillation Sampling in DreamFusion 확산 모델(개념, 수식, 코드)의 목적 함수: (Timestep t와 noise ε을 샘플링하여 이미지 x를 확산하고 U-Net을 통해 ε을 예측) 하지만 샘플링하고 싶은 것이 픽셀이 아니라면 어떨까? DreamFusion 논문에서는 3D 모델을 만들기 위해 SDS를 제안하였다. Differentiable Image Parameterization(초반만)을 통해 x를 피라미터 θ와 미분 가능한 생성기 g의 출력으로 취급할 수 있다. x = g(θ). 확산 모델이 아닌 θ에 대해 최적화를 수행하려고 한다. LDiff의 gradient는 다음과 같고 (U-Net의 gradient * θ의 gradient) U-Net의 gradien..