논문 리뷰 (452) 썸네일형 리스트형 Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold (DragGAN) 드래그를 통해 이미지 제어 Github arXiv Abstract 드래그를 통해 이미지를 제어하는 DragGAN 제안 Introduction GAN의 feature space가 모션 감독과 정확한 포인트 추적을 가능하게 할 만큼 충분히 구별적이라는 핵심 통찰을 기반으로 함. 추가 네트워크에 의존하기 않기 때문에 몇 초 밖에 걸리지 않는 효율적인 조작 가능. 학습된 이미지 매니폴드에서 수행되기 때문에 사자 입 속의 이와 같은 콘텐츠 환각 또한 가능. Method StyleGAN2 아키텍처를 기반으로 handle point가 target point에 도달하도록 구동되는 대화형 이미지 조작을 목표로 함. Interactive Point-based Manipulation 사용자 정의 handle point pi.. Segment Anything in High Quality (HQ-SAM) SAM에서 세부적인 마스크 품질 개선 Github arXiv Abstract SAM(Segment Anything Model)의 마스크 품질을 개선한 HQ-SAM 제안 Introduction SAM의 주요한 문제 중 하나는 얇은 선 같은 물체를 잘 감지하지 못하는 것 HQ-SAM은 SAM의 가중치를 건드리지 않고 0.5% 미만의 피라미터를 추가하여 고품질 segmentation에 적응 SAM의 디코더에 입력되는 학습 가능한 HQ 출력 토큰 설계 HQ 토큰은 디코더 feature만이 아닌 세부 정보를 얻기 위해 정제된 feature에서 작동 고품질 segmentation 훈련을 위한 HQSeg-44K 데이터셋 제작. Method Preliminaries: SAM SAM Ours: HQ-SAM High-Qu.. Personalize Segment Anything Model with One Shot (PerSAM) SAM(Segment Anything Model) 개인화&자동화 arXiv Github Abstract SAM(Segment Anything Model)을 위한 개인화 접근 방식인 PerSAM 제안. 또한 학습 가능한 가중치를 도입하여 더욱 효율적인 변형인 PerSAM-F 제안. 제안한 방법으로 Stable Diffusion 또한 개인화 가능. Introduction SAM은 클릭과 같은 사용자 입력이 있어야 한다. PerSAM은 내 앨범에서 강아지 사진을 찾는 작업과 같이 자동으로 특정 개체를 탐지하고 분할할 수 있을까? 에서 시작한다. 원샷 데이터만을 사용하여 SAM을 효율적으로 사용자 정의 먼저 SAM을 통해 참조 이미지의 대상 개체의 임베딩을 인코딩한 뒤 테스트 이미지에서 개체와 모든 픽셀 간의 .. Inpaint Anything: Segment Anything Meets Image Inpainting Segment Anything Model(SAM)을 최신 모델들과 함께 다양한 작업에 적용 마스크 없는 인페인팅 Github arXiv Abstract Segment Anything Model(SAM)을 이용하여 마스크 없는 inpainting을 최초로 시도하고 Inpaint Anything(IA) 이라는 'clicking and filling'의 새로운 패러다임 제안. IA의 핵심 아이디어는 서로 다른 강점의 모델들을 결합해 사용자 친화적인 파이프라인을 구축하는 것. Motivation and Observation 강력한 segmentatin model(SAM), AIGC model(AI generated content - Stable Diffusion), inpainting model(LaMa)을 결.. A Method for Animating Children's Drawings of the Human Figure 아이들의 그림을 움직이게 하기 Project Page Github arXiv Abstract 아이들의 그림을 애니메이션화 하는 누구나 사용할 수 있을 만큼 간단하고 직관적인 시스템 제안. 또한 Amateur Drawings Dataset 소개. Introduction 이 시스템은 Figure detection Segmentation masking Pose estimation/rigging Animation 4단계로 구성된다. 기존 사진 모델과 펜 드로잉의 차이로 인해 모델을 fine tuning 해야 하고 훈련 세트 크기와 성공률 사이의 관계를 탐구하기 위한 일련의 실험과 지각 연구 수행. +Amateur Drawings Dataset Method 경계 상자 예측 Segmentation mask를 통해 .. Consistency Models OpenAI에서 공개한 자기 일관성을 통해 학습하는 모델 One-step으로 꽤 괜찮을 품질의 이미지를 생성할 수 있는 것이 인상적. Github arXiv Abstract 확산 모델은 많은 진전을 이루었지만 느린 샘플링 속도와 반복 생성 프로세스에 의존한다. 이러한 한계를 극복하기 위해 Consistency Model(일관성 모델) 제안. 일관성 모델은 one-step 생성을 지원하면서도 품질을 위해 few-step 생성 또한 가능. 사전 훈련된 확산 모델을 증류하는 방법 또는 독립 실행형 생성 모델로 학습할 수 있다. Introduction 확산 모델은 GAN처럼 학습이 불안정하지 않고 자동회귀 모델, VAE, Normalizing Flow와 같이 아키텍처에 제약을 부과하지도 않는다. 단점은 많은 반.. InstantBooth: Personalized Text-to-Image Generation without Test-Time Finetuning 예제마다 일일이 최적화하지 않고 모델 개인화 arXiv Abstract 매번 일일이 fine tuning 할 필요 없이 즉각적인 T2I 모델의 개인화를 가능하게 하는 InstantBooth 제안 Introduction T2I(Text-to-Image) 모델의 개인화는 두 가지로 분류 가능 입력 이미지를 텍스트 공간으로 반전 e.g. DreamBooth, Textual-Inversion 단점: 각 예제에 대해 fine tuning 필요, 수정된 모델 가중치를 저장해야 함 텍스트 가이드를 통해 I2I 매핑 학습 e.g. InstructPix2Pix, ControlNet 단점: 학습 쌍 데이터 필요 Fine tuning 없는 T2I 모델의 개인화가 목표. 최적화 대신 인코더를 학습하여 일반화 세부 정보를 위해.. One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale (UniDiffuser) 각 multi-modal 데이터를 공동 훈련하여 modality 확장성이 뛰어난 모델 Github arXiv Abstract 하나의 모델에서 multi-modal 데이터셋과 관련된 모든 분포를 맞추는 통합 확산 프레임워크 UniDiffuser 제안. Unified view에서 영감을 얻은 UniDiffuser는 원래 확산 모델에 대한 최소한의 수정으로 모든 분포를 동시에 학습한다. Introduction Multi-modal 생성 작업은 확률적 모델링의 관점에서 해당 분포를 맞추는 것으로 볼 수 있다. (e.g. text-to-image 생성은 조건부 분포 p(ImageㅣText)를 학습하는 것) 본 논문에서는 추가 학습 또는 오버헤드 없이 하나의 모델에서 모든 관련 분포를 명시적으로 맞추는 확산 기반 .. Structure and Content-Guided Video Synthesis with Diffusion Models (Gen-1, 2) Structure와 content를 조건으로 유연한 비디오 편집 Project Page Abstract 이미지 또는 텍스트 설명을 기반으로 비디오를 편집하는 structure and content-guided video diffusion model 제안. Introduction 본 논문의 기여 미리 학습된 이미지 모델에 시간 계층을 도입하고 이미지와 비디오를 공동 학습 함으로써 비디오로 확장 예제 이미지나 텍스트로 비디오를 수정하는 모델 시간, content 및 structure 일관성에 대한 완전한 제어 가능 작은 이미지 세트에서 fine tuning하여 더 세부적인 사용자 정의 가능 Method 'Structure'는 피사체의 모양, 위치, 시간적 변화 등 기하학적, 역학적 특성으로 정의. 'Cont.. Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators 추가 학습이나 최적화 과정 없이 T2I 모델로 비디오 생성 Project page Abstract Zero-shot text-to-video 생성을 소개하고 기존의 T2I 합성 방법을 이용한 저비용 접근 방식 제안. 비디오 데이터에 대한 추가 학습 없이도 기존 T2V와 비슷한 성능을 보여줌. Instruct-Pix2Pix와 같은 다른 편집 작업에도 적용할 수 있음. Introduction 본 논문에서는 최적화나 미세 조정 없이 T2V를 가능하게 하는 zero-shot “training-free” text-to-video를 연구한다. 시간적 일관성을 위한 수정 사항 Global scene과 background의 일관성을 위해 모션 정보로 생성된 프레임의 잠재 코드를 풍부하게 함 Foreground 개체의 .. Reviving Iterative Training with Mask Guidance for Interactive Segmentation 클릭 기반 interative segmentation, ITIS의 개선 버전 Github arXiv Abstract Segmentation mask를 사용하는 클릭 기반 대화형 segmentation을 위한 간단한 feed-forward 모델 제안. 완전히 새로운 개체를 분할할 수 있을 뿐만 아니라 외부 마스크로 시작하여 수정할 수도 있다. Introduction 대화형 segmentation은 다양한 방법들이 있지만 클릭 기반 방법이 유연하고 상호작용에 가장 적절하다. 클릭 기반 대화식 segmentation의 확장을 제안. 반복 훈련 절차를 통해 네트워크가 이전 단계의 마스크를 인식하도록 하여 안정성을 향상한다. 또한 정교한 마스크가 있는 다양한 대규모 데이터셋이 성능에 중요한 역할을 함. Relat.. Iteratively Trained Interactive Segmentation 사용자 클릭을 반복적으로 입력하여 학습하는 segmentation framework Github arXiv Abstract 클릭 형태의 사용자 입력을 컨볼루션 네트워크에 대한 입력으로 사용하는 대화형 object segmentation 시스템을 개발. 학습하는 동안 현재 예측된 segmentation의 오류를 기반으로 반복적으로 클릭을 추가하는 반복 학습 전략 제안. Introduction 본 논문에서는 클릭을 사용자 입력으로 관심 객체에 픽셀을 추가하거나 제거하는 대화형 segmentation에 중점을 둔다. 실제 사용자 클릭 데이터셋을 모으기가 힘들기 때문에 에뮬레이트된 클릭 패턴 사용. 본 논문의 기여 클릭 기반 대화형 segmentation 프레임워크 ITIS(Iteratively Trained .. 이전 1 ··· 27 28 29 30 31 32 33 ··· 38 다음