논문 리뷰/Diffusion Model (138) 썸네일형 리스트형 TrailBlazer: Trajectory Control for Diffusion-Based Video Generation [Project Page] [Github] [arXiv](2023/12/31 version v1) Abstract 간단한 bounding box를 통해 비디오에서 피사체를 안내할 수 있는 TrailBlazer 제안 Method 깜빡임 없이 고품질 비디오를 생성하는 것으로 유명한(?) VideoFusion의 fine-tuned version인 ZeroScope cerspense를 추가적인 훈련 없이 그대로 사용한다. VideoFusion은 모든 frame에서 공유하는 base noise와 residual noise를 따로 예측한다. Pipeline Spatial Cross Attention Guidance Temporal Cross-Frame Attention Guidance Scene compositin.. Directed Diffusion: Direct Control of Object Placement through Attention Guidance [Project Page] [Github] [arXiv](2023/09/26 version v3) Abstract Cross-attention map에 activation을 생성하여 위치를 제어할 수 있는 Directed Diffusion 제안 Method 아래 두 줄은 각각 처음과 마지막 denoising process의 cross-attention map을 보여준다. Process의 초기에 위치가 확립되며 cross-attention은 명확한 공간적 해석을 갖는다. Pipeline LDM(Stable Diffusion) 기반. 영역 정보 R = {B,I}는 bbox B와 해당 bbox에 대한 prompt index I로 구성됨. e.g. I = {2} = "cat" Cross-Attention Map.. VideoDrafter: Content-Consistent Multi-Scene Video Generation with LLM LLM, Img model, Vid model을 활용하여 일관성 있는 multi-scene video 생성 [Project Page] [arXiv](2024/01/02 version v1) Abstract LLM을 활용하여 content 일관성이 있는 multi-scene video를 생성할 수 있는 VideoDrafter 제안 VideoDrafter 1. Multi-Scene Video Script Generation 2. Entity Reference Image Generation 3. Video Scene Generation VideoDrafter-Img VideoDrafter-Vid Multi-Scene Video Script Generation LLM은 배포 유연성과 추론 효율성을 고려하여 Ch.. LooseControl: Lifting ControlNet for Generalized Depth Conditioning [Project Page] [Github] [arXiv](Current version v1) Abstract 정확한 depth map을 생성하는 것은 어려운 일이다. 일반화된 깊이 조절을 가능하게 하는 LooseControl 소개 Problem Setup - LooseControl ControlNet의 깊이 제어는 다음과 같이 depth map D가 주어지면 생성 이미지 I를 깊이 추정기 f에 입력했을 때 D와 같도록 한다. 본문에서는 여기에 condition function ϕ를 추가한다. Scene boundary control 조건 D가 깊이의 상한만 지정하도록 함 3D box control 생성된 객체 O가 경계 상자 B를 준수하는지 확인하는 조건 함수를 설계한다. Realizing LooseCo.. Discovering Interpretable Directions in the Semantic Latent Space of Diffusion Models (Semantic-DDM) [Project Page] [arXiv](Current version v1) Abstract U-Net의 bottleneck인 h-space라고 불리는 잠재 공간에서 의미 있는 방향을 찾기 위한 새로운 방법 제안 The semantic latent space of DDMs 확산 모델은 먼저 다음과 같이 noise n을 이용해 noised image를 얻고 역확산 과정을 통해 denoising. 분산은 다음과 같고 ηt가 0이면 DDIM, 1이면 DDPM이다. 이전 연구에 따라, middle block의 출력 활성화인 h-space를 연구한다. 이전 연구와 달리 P 뿐만 아니라 D에도 ∆ht를 주입하며, 이는 한 번의 forward pass만 필요하다는 이점이 있다. 이전 연구에서는 P의 h-space만 .. SSR-Encoder: Encoding Selective Subject Representation for Subject-Driven Generation [Project Page] [arXiv](Current version v1) Abstract 다양한 query modality에 대응하여 참조 이미지에서 피사체를 선택적으로 캡처할 수 있도록 설계된 SSR-Encoder 소개 The Proposed Method 1. Selective Subject Representation Encoder Token-to-patch aligner Detail-preserving subject encoder 2. Subject Conditioned Generation 3. Model Training and Inference Selective Subject Representation Encoder Token-to-patch aligner CLIP은 전경보다 배경을 우선시하는 .. One-dimensional Adapter to Rule Them All: Concepts, Diffusion Models and Erasing Applications (SPM) [Project Page] [Github] [arXiv](Current version v1) Abstract 개념 침식을 일으키지 않고 특정 개념을 삭제할 수 있는 adapter인 SPM 제안 Introduction Fine-tuning을 통한 개입은 위 그림과 같이 개념 침식(concept erosion)을 일으킨다. DM에 membrane으로 주입하여 반투과성(SemiPermeability) 개념을 학습할 수 있는 1-dim non-invasive adapter를 개발한다. SPM은 보조적인 훈련 데이터 없이도 사전 훈련된 모델을 유지하면서 개념을 지우는 방법을 학습한다. 삭제된 SPM corpus를 확보하면 재조정 없이도 다른 DM으로 이전할 수 있다. 한꺼번에 여러 개념을 삭제할 수 있고 SOTA.. MotionCtrl: A Unified and Flexible Motion Controller for Video Generation [Project Page] [Github] [arXiv](Current version v1) Abstract 생성 비디오의 camera motion과 object motion을 독립적으로 제어할 수 있는 MotionCtrl 제안 Introduction 한 가지 문제는 caption, camera motion, object motion을 포함하는 기존 데이터셋이 없다는 것이다. 문제를 해결하기 위해 Camera Motion Control Module (CMCM), Object Motion Control Module (OMCM)을 채택하였다. Baseline은 LVDM의 개선 버전인 VideoCrafter1을 채택. Realestate10k dataset에서 캡션을 생성하여 카메라 포즈 주석과 캡션이 있는 .. A Recipe for Scaling up Text-to-Video Generation with Text-free Videos (TF-T2V) 동영상 플랫폼에 널려있는 고품질 unlabeled video를 훈련에 활용 단순무식한 end-to-end 공동 훈련의 힘인지 coherence loss의 힘인지 모델도 단순하고 진짜 별거 없어 보이는데 결과물은 굉장히 부드럽다. 요즘 temporal layer를 따로 훈련하는 방법이 확실히 결과물의 품질은 별로인 것 같다는 생각이 듦. [Project Page] [Github] [arXiv](Current version v1) Abstract 캡션이 있는 비디오 데이터는 많지 않고, youtube와 같은 동영상 플랫폼에서 비디오를 수집하는 것이 훨씬 쉽다. 텍스트 없는 비디오를 통해 학습할 수 있는 TF-T2V 제안. Method Preliminaries of video diffusion model VA.. DreamTuner: Single Image is Enough for Subject Driven Generation DreamBooth + Subject Encoder + Self Subject Attention [Project Page] [arXiv](Current version v1) Abstract Subject-driven image generation을 효과적으로 달성하기 위해 coarse∙fine 정보를 주입하는 DreamTuner 제안 Method Subject-Encoder Self-Subject-Attention Subject-Driven Fine-Tuning Subject-Encoder 분할 모델을 통해 참조 이미지에서 배경을 분리하고 CLIP image encoder에 projection을 위한 ResBlocks 추가. U-Net의 transformer block에 Subject-Encoder At.. PIA: Your Personalized Image Animator via Plug-and-Play Modules in Text-to-Image Models 이미지에 affinity score를 더하여 각 프레임에 조건화 [Project Page] [Github] [arXiv](Current version v1) Abstract 주어진 이미지로 정렬하고 텍스트를 통해 모션을 제어하는 PIA(Personalized Image Animator) 제안 PIA: Your Personalized Image Animator Plug-and-Play Modules for Animation 조건부 이미지 I를 잠재 공간으로 인코딩 E(I) = zI. 움직임의 정도를 정량화하기 위해 affinity score s 도입. 훈련 중에 s는 각 프레임에서 첫 번째 프레임과의 L1 거리를 통해 계산되고 [0,1]로 정규화된다. zI와 정렬하기 위해 si를 1×h×w로 확장하고 co.. Fairy: Fast Parallelized Instruction-Guided Video-to-Video Synthesis Temporal attention 없이 cross-frame attention, equivariant fine-tuning만으로 시간적 일관성 향상 [Project Page] [arXiv](Current version v1) Abstract 30 fps, 4s, 512x384 video를 14초 만에 생성할 수 있는 비디오 편집 확산 모델인 Fairy 제안 Implicit Tracking via Cross-frame Attention Cross-frame attention은 시간 대응 추적의 기능이 있다. 특히 고해상도 feature에서. Fairy: Fast Video-to-Video Synthesis Anchor-Based Model 모든 anchor frame의 K, V를 캐시에 추가. Query .. 이전 1 2 3 4 5 6 7 8 ··· 12 다음