본문 바로가기

분류 전체보기

(554)
Emergent Correspondence from Image Diffusion (DIFT) 이미지 간의 대응 관계를 찾을 수 있는 확산 과정의 중간 feature Project Page DiffusionFeatures Finding correspondences between images is a fundamental problem in computer vision. In this paper, we show that correspondence emerges in image diffusion models without any explicit supervision. We propose a simple strategy to extract this implicit knowled diffusionfeatures.github.io Abstract 이미지 간의 대응 관계를 찾는 것은 컴퓨터 비전의 근본적인 ..
DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing DragGAN의 방법으로 Diffusion Model에서 포인트 기반 대화형 편집 Github arXiv Abstract 대화형 포인트 기반 편집을 확산 모델로 확장한 DragDiffusion 제안 Introduction DragDiffusion은 특정 t 단계에서 잠재성을 조작하여 출력 이미지를 편집. DragGAN에 따라 모션 감독 및 포인트 추적의 반복 절차를 사용. 특정 단계의 잠재성을 조작할 때의 한 가지 문제점은 스타일이나 외형이 바뀔 수도 있다는 것이다. 편집 전 입력 이미지를 재구성하기 위해 UNet에서 LoRA를 fine tuning하여 문제 완화. Methodology Method Overview 먼저 재구성을 위한 LoRA를 만들고, 샘플링의 특정 단계에서 DragGAN의 절차 사용...
Fast Segment Anything (FastSAM) SAM의 CNN version. 매우 빠름. Github arXiv Abstract SAM(Segment Anything Model)의 작업을 CNN 탐지기로 수행. 훨씬 적은 데이터셋과 빠른 속도로 SAM과 동일한 성능. Preliminary YOLO v1~v8 FPN(Feature Pyramid Networks) YOLACT(간단한 설명, 자세한) SAM(Segment Anything Model) Introduction SAM은 ViT 때문에 계산 리소스 부담이 심함. FastSAM에서는 segment 작업을 CNN 탐지기에 의한 all-instance segmentation과 prompt-guided selection 단계로 나눈다. SA-1B 데이터셋의 2% 만으로 훈련하여 기존과 비슷한 성능을 ..
Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture (I-JEPA) 데이터 증강 없이 의미론적 표현 학습하기 Github arXiv Abstract Hand-crafted data-augmentation에 의존하지 않고 의미론적인 표현을 학습하기 위한 아키텍처인 I-JEPA 소개. 단일 context block에서 다양한 target block의 표현을 예측한다는 아이디어. Introduction I-JEPA의 기본 개념은 추상 표현 공간에서 누락된 정보를 예측하는 것. I-JEPA는 추상적인 예측 대상을 사용하므로 불필요한 픽셀 수준 세부사항이 무시되어 더 의미론적인 feature를 학습한다. Method ViT 아키텍처 사용. MAE와 비슷하지만 중요한 차이점은 예측이 표현공간에서 이루어진다는 것. Targets. 입력 이미지를 target encoder fθ̄를 통..
Augmenting Language Models with Long-Term Memory (LongMem) 무제한 길이 토큰을 처리할 수 있는 LLM framework Github arXiv Abstract LLM이 무제한 길이 context를 처리할 수 있도록 확장한 LongMem 프레임워크 제안. Introduction GPT-3은 GPT-2에서 입력 토큰 수를 2k로 늘림. 하지만 dense attention으로 계산 복잡성 증가. 따라서 sparse attention을 사용하는 연구가 있었음. MemTRM에서는 메모리에서 검색된 memorized token과 in-context token 사이의 dense attention을 통해 계산. 하지만 단일 모델을 사용하여 메모리에 캐시 된 이전 표현이 현재 모델에 문제를 일으킬 수 있는 메모리 부실 문제가 있음. LongMem에서는 이전 context를 메모..
SnapFusion: Text-to-Image Diffusion Model on Mobile Devices within Two Seconds 모바일 장치에서 2초 이내에 작동되는 매우 빠른 T2I 확산 모델 Project Page SnapFusion snap-research.github.io Abstract 모바일 장치에서 2초 이내에 작동되는 text-to-image 확산 모델. Efficient UNet, efficient image decoder, step distillation. Model Analysis of Stable Diffusion Prerequisites of Stable Diffusion Diffusion Model DDIM의 denoising Classifier-free guidance Latent Diffusion Model(LDM, Stable Diffusion) Benchmark and Analysis Macro P..
Progressive Distillation for Fast Sampling of Diffusion Models 점진적 증류를 통해 샘플링 시간 줄임 Github arXiv Abstract 적은 샘플링 단계를 사용할 때 향상된 안정성을 제공하는 확산 모델의 새로운 매개변수화. 결정론적 확산 샘플러를 새로운 확산 모델로 추출하는 방법. Introduction 사전 훈련된 확산 모델에 대한 N-step DDIM sampler의 동작을 샘플 품질의 저하가 거의 없는 N/2 단계의 새 모델로 증류하는 절차를 제시. 점진적 증류를 통해 샘플링 시간을 수십 배 줄이면서 샘플 품질을 유지함. Background on Diffusion Models (겁먹지 마세요. 이 부분은 잘 몰라도 됩니다.) 미분 가능한 log SNR 확산 모델의 순방향 과정 Denoising 모델을 통한 노이즈 제거 일반적인 Discrete time sa..
Recognize Anything: A Strong Image Tagging Model (RAM) 이미지 태깅을 위한 foundation model Project Page Abstract 이미지 태깅을 위한 강력한 foundation model인 RAM(Recognize Anything Model) 제안 Introduction Label System : 보편적이고 통합된 label system 구축 Dataset : Label system으로 대규모 이미지에 자동으로 주석 추가 Data Engine : 모델을 활용하여 주성을 생성, 필터링하는 데이터 엔진 구축 Model : Tag2Text와 달리 zero-shot 일반화 가능 훈련 과정 대규모 데이터셋에서 pretrain RAM 훈련 데이터 엔진을 통해 데이터셋 보강, 필터링 RAM fine-tuning RAM의 장점 강력한 zero-shot 일반화..
Tag2Text: Guiding Vision-Language Model via Image Tagging Detector가 아닌 tagging을 이용한 vision-language pretraining framework Github arXiv Abstract Vision-language model 모델에 이미지 태깅을 도입하는 vision-language pretraining(VLP) 프레임워크인 Tag2Text 제안 Introduction (1) Detector 기반 기존의 vision-language (V+L) task framework (2) Image tagging을 이용한 새로운 방식 자동적인 text semantic parsing을 통해 대규모 데이터 사용 가능 태그 카테고리가 단순 객체를 넘어 장면, 속성, 동작과 같이 다양하기 때문에 image-text의 더 나은 연결을 제공 Detector보..
Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection Close-set detector인 DINO를 open-set detector로 개조 GithubarXiv AbstractTransformer 기반 detector인 DINO와 grounded pre-training을 결합한 Grounding DINO 제안.  Introduction인간이 지정한 임의의 객체를 감지하는 것을 open-set object detection이라고 명명. 언어와 이미지를 모두 처리할 수 있고 대규모 데이터를 활용할 수 있는 transformer인 DINO 채택. Close-set detector를 open-set detector로 확장하는 기존 방식:Closed-set detector를 세 부분으로 나누고 세 번의 feature fusion을 수행하며 neck, head의 출력..
Matting Anything (MAM) SAM을 활용한 image matting 모델. 다양한 matting 작업 처리 가능. Github arXiv Abstract Matting Anything Model(MAM) 단일 모델로 다양한 유형의 image matting 처리 가능 SAM(Segment Anything Model)의 feature map에 경량 M2M(Mask-to-Matte) 모듈을 채택하여 alpha matte 예측 SAM을 통해 대화식으로 사용 가능 Introduction MAM은 SAM feature map과 마스크 출력을 입력으로 사용하고 대상 인스턴스의 alpha matte를 예측하기 위해 가벼운 M2M(Mask-to-Matte) 모듈을 추가했다. 서로 다른 클래스의 인스턴스를 다루는 5가지 이미지 매팅 데이터 세트의 ..
Matte Anything: Interactive Natural Image Matting with Segment Anything Models (MatAny) 매우 간편한 interactive image matting Github arXiv Abstract 추가 교육 없이 SAM(Segment Anything Model)으로 윤곽선을 예측하고 OV(openvocabulary) detector로 투명도를 예측한 뒤 alpha matte를 생성하는 interactive matting algorithm인 MatAny 제안 Introduction Trimap은 이미지를 foreground, background, unknown으로 나눈 hint map이다. 현재 SOTA 이미지 매팅 방법은 이러한 trimap이 입력으로 필요한데, 매우 좋은 성능에도 불구하고 trimap 관련 높은 인건비 때문에 주류 접근법이 되지 못했다. MatAny에서는 SAM으로 개체의 마스크를 ..