본문 바로가기

전체 글

(535)
Structure and Content-Guided Video Synthesis with Diffusion Models (Gen-1, 2) Structure와 content를 조건으로 유연한 비디오 편집 Project Page Abstract 이미지 또는 텍스트 설명을 기반으로 비디오를 편집하는 structure and content-guided video diffusion model 제안. Introduction 본 논문의 기여 미리 학습된 이미지 모델에 시간 계층을 도입하고 이미지와 비디오를 공동 학습 함으로써 비디오로 확장 예제 이미지나 텍스트로 비디오를 수정하는 모델 시간, content 및 structure 일관성에 대한 완전한 제어 가능 작은 이미지 세트에서 fine tuning하여 더 세부적인 사용자 정의 가능 Method 'Structure'는 피사체의 모양, 위치, 시간적 변화 등 기하학적, 역학적 특성으로 정의. 'Cont..
Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators 추가 학습이나 최적화 과정 없이 T2I 모델로 비디오 생성 Project page Abstract Zero-shot text-to-video 생성을 소개하고 기존의 T2I 합성 방법을 이용한 저비용 접근 방식 제안. 비디오 데이터에 대한 추가 학습 없이도 기존 T2V와 비슷한 성능을 보여줌. Instruct-Pix2Pix와 같은 다른 편집 작업에도 적용할 수 있음. Introduction 본 논문에서는 최적화나 미세 조정 없이 T2V를 가능하게 하는 zero-shot “training-free” text-to-video를 연구한다. 시간적 일관성을 위한 수정 사항 Global scene과 background의 일관성을 위해 모션 정보로 생성된 프레임의 잠재 코드를 풍부하게 함 Foreground 개체의 ..
Reviving Iterative Training with Mask Guidance for Interactive Segmentation 클릭 기반 interative segmentation, ITIS의 개선 버전 Github arXiv Abstract Segmentation mask를 사용하는 클릭 기반 대화형 segmentation을 위한 간단한 feed-forward 모델 제안. 완전히 새로운 개체를 분할할 수 있을 뿐만 아니라 외부 마스크로 시작하여 수정할 수도 있다. Introduction 대화형 segmentation은 다양한 방법들이 있지만 클릭 기반 방법이 유연하고 상호작용에 가장 적절하다. 클릭 기반 대화식 segmentation의 확장을 제안. 반복 훈련 절차를 통해 네트워크가 이전 단계의 마스크를 인식하도록 하여 안정성을 향상한다. 또한 정교한 마스크가 있는 다양한 대규모 데이터셋이 성능에 중요한 역할을 함. Relat..
Iteratively Trained Interactive Segmentation 사용자 클릭을 반복적으로 입력하여 학습하는 segmentation framework Github arXiv Abstract 클릭 형태의 사용자 입력을 컨볼루션 네트워크에 대한 입력으로 사용하는 대화형 object segmentation 시스템을 개발. 학습하는 동안 현재 예측된 segmentation의 오류를 기반으로 반복적으로 클릭을 추가하는 반복 학습 전략 제안. Introduction 본 논문에서는 클릭을 사용자 입력으로 관심 객체에 픽셀을 추가하거나 제거하는 대화형 segmentation에 중점을 둔다. 실제 사용자 클릭 데이터셋을 모으기가 힘들기 때문에 에뮬레이트된 클릭 패턴 사용. 본 논문의 기여 클릭 기반 대화형 segmentation 프레임워크 ITIS(Iteratively Trained ..
Segment Anything (SAM) Segmentation을 위한 최초의 foundation model Github arXiv Abstract 1000만 개 이상의 이미지 및 10억 개 이상의 마스크를 가진 현존하는 가장 큰 segmentation 데이터셋(SA-1B)과 해당 데이터셋으로 학습해 인상적인 제로샷 성능을 보여주는 SAM(Segment Anything Model) 제안. Introduction 웹 규모의 데이터셋에서 학습된 대규모 언어 모델은 강력한 일반화로 NLP를 혁신하고 있다. 본 논문의 목표는 segmentation에서 이러한 foundation model을 구축하는 것이다. 이를 위해 다음과 같은 질문들을 해결해야 한다. 제로샷 일반화를 가능하게 하는 작업은 무엇인가? 해당 모델의 아키텍처는? 어떤 데이터가 이 작업과..
Token Merging for Fast Stable Diffusion 토큰 병합을 확산 모델에 적용 Github arXiv Abstract Token Merging을 Stable Diffusion에 적용하여 속도 향상 Introduction 대부분의 이미지는 중복성이 높고, 따라서 모든 토큰에 대해 계산을 수행하는 것은 리소스의 낭비이다. 추가적인 훈련 없이 평가 속도를 높일 수 있는 token merging(ToMe)을 SD에 적용. ToMe는 SD의 속도를 크게 향상할 수 있었지만 이미지 품질이 크게 저하되었다. 속도 향상과 함께 이미지 품질을 유지하기 위한 새로운 기술을 도입한다. Background ToMe LDM(Stable Diffusion) Token Merging for Stable Diffusion 확산 모델에서는 모든 토큰에 대해 제거할 노이즈를 알아야 ..
Token Merging: Your ViT But Faster 추가 훈련 없이 토큰 병합으로 속도 높이기 Github arXiv Abstract 추가 훈련 없이 ViT 모델의 처리량을 늘릴 수 있는 토큰 병합(ToMe) 소개. ToMe는 경량 매칭 알고리즘을 사용하여 유사한 토큰을 점진적으로 결합한다. Introduction 컴퓨팅 비용을 줄이기 위해 Swin Transformer와 같은 방법들이 나왔지만 vanilla ViT는 여전히 바람직한 특성 몇 가지를 갖고 있다. 간단한 행렬 곱셈으로 구성 MAE와 같은 자체 감독 훈련 가능 데이터에 대한 가정이 부족하여 다양한 양식에 적용 가능하고 확장성이 있음 더 빠른 모델을 위해 런타임 시 토큰을 정리하는 token pruning이 제안되었지만 정보 손실의 우려가 있고 모델의 재교육해야 함. 본 논문에서는 토큰을 제거..
Composer: Creative and Controllable Image Synthesis with Composable Conditions 분해-재구성 단계를 통해 다양한 컨디셔닝에 적응 Project Page Abstract 먼저 이미지를 대표 요소로 분해한 다음 이 모든 요소를 조건으로 하여 입력을 재구성하는 확산 모델을 훈련하여 출력 이미지를 유연하게 제어할 수 있는 차세대 패러다임인 Composer 제안 Introduction 연구진은 제어 가능한 이미지 생성의 핵심이 컨디셔닝뿐만 아니라 compositionality에 더 의존한다고 주장한다. (잠재적으로 무한한 수의 새로운 조합을 인식하고 생성) Compositional generative model이란 시각적 구성 요소를 매끄럽게 재결합하여 새로운 이미지를 생성할 수 있는 생성 모델을 말한다. Composer는 U-Net 백본의 확산 모델로 구현되며 학습에는 decompositi..
MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation 여러 확산 과정을 최적화를 통해 한 장의 이미지로 통합 Project Page Abstract 추가 훈련 없이 사전 훈련된 text-to-image 확산 모델을 사용하여 다재다능하고 제어 가능한 이미지 생성을 가능하게 하는 통합 프레임워크인 MultiDiffusion 제안 Introduction 사전 훈련된 참조 확산 모델은 이미지의 서로 다른 영역에 적용되고 MultiDiffusion은 최소 제곱 최적화를 통해 global denoising sampling step을 수행한다. 또한 계산 오버헤드 적음. Method 점진적으로 이미지를 IT → I0으로 denoising 하는 사전 훈련된 참조 확산 모델 MultiDiffusion MultiDiffusion은 image space J와 condition..
Adding Conditional Control to Text-to-Image Diffusion Models (ControlNet) End-to-End 방식으로 확산 모델에 조건 입력 Github arXiv Abstract 확산 모델에 조건부 입력을 가능하게 하는 end-to-end 방식의 ControlNet 제안 Introduction 작업별 도메인에서 사용 가능한 데이터셋은 크지 않다. 따라서 일반화 능력을 보존하기 위한 특별한 훈련 방법이 필요하다. 시간과 메모리의 제약으로 인해 fine tuning 전략이 필요하다. 다양한 형태의 이미지 처리 문제에 대해 denoising process 제한, attention의 편집 등 절차적 방식으로 규제했지만 개체 수준의 본질적인 이해를 위해서는 end-to-end 학습이 필수불가결하다. ControlNet은 확산 모델의 가중치를 trainable copy, locked copy로 복제하..
Hard Prompts Made Easy: Gradient-Based Discrete Optimization for Prompt Tuning and Discovery Hard prompt 최적화 Github arXiv Abstract Hard prompt 최적화 및 자동 생성 Introduction Hard prompt는 다른 모델에도 적용 가능하다는 이식성에서 장점이 있다. Hard prompt의 최적화를 통해 hard prompt의 장점과 soft prompt의 장점인 용이성과 자동화를 결합한다. 텍스트 최적화를 위해 기존에 사용되던 gradient reprojection 체계를 기반으로 하여 hard prompt를 학습하기 위한 간단한 체계 제안 위 최적화 방법을 hard prompt 학습에 사용하여 prompt를 생성하는 일반적인 도구를 제공 학습된 prompt 체계가 해석 가능성을 향상하며 다른 텍스트 최적화 체계를 능가한다는 것을 보임 Prompt 최적화란..
Mixture of Diffusers for scene composition and high resolution image generation 여러 확산 과정을 혼합하여 이미지 생성 Github arXiv Abstract 캔버스의 서로 다른 영역에 작용하는 여러 확산 과정을 조화시킴으로써 더 큰 이미지를 생성할 수 있는 Mixture of Diffusers 알고리즘 제안 Introduction 일반적인 확산 모델은 다음과 같은 프롬프트를 잘 나타내지 못하며, 위치가 무시된다. 또한 큰 이미지를 생성하는 데에 기하급수적으로 컴퓨팅 비용이 증가함. Mixture of Diffusers는 여러 확산 과정을 혼합하여 위 문제들을 해결한다. Mixture of Diffusers의 이점: 특정 위치에서 개체를 생성하거나 스타일 사이의 공간에 부드러운 전환을 도입할 수 있음 각 확산 과정이 동일한 신경망을 공유하기 때문에 적은 메모리로 고해상도 이미지 생성..