논문 리뷰/Vision Transformer (64) 썸네일형 리스트형 Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection Close-set detector인 DINO를 open-set detector로 개조 GithubarXiv AbstractTransformer 기반 detector인 DINO와 grounded pre-training을 결합한 Grounding DINO 제안. Introduction인간이 지정한 임의의 객체를 감지하는 것을 open-set object detection이라고 명명. 언어와 이미지를 모두 처리할 수 있고 대규모 데이터를 활용할 수 있는 transformer인 DINO 채택. Close-set detector를 open-set detector로 확장하는 기존 방식:Closed-set detector를 세 부분으로 나누고 세 번의 feature fusion을 수행하며 neck, head의 출력.. Matting Anything (MAM) SAM을 활용한 image matting 모델. 다양한 matting 작업 처리 가능. Github arXiv Abstract Matting Anything Model(MAM) 단일 모델로 다양한 유형의 image matting 처리 가능 SAM(Segment Anything Model)의 feature map에 경량 M2M(Mask-to-Matte) 모듈을 채택하여 alpha matte 예측 SAM을 통해 대화식으로 사용 가능 Introduction MAM은 SAM feature map과 마스크 출력을 입력으로 사용하고 대상 인스턴스의 alpha matte를 예측하기 위해 가벼운 M2M(Mask-to-Matte) 모듈을 추가했다. 서로 다른 클래스의 인스턴스를 다루는 5가지 이미지 매팅 데이터 세트의 .. Matte Anything: Interactive Natural Image Matting with Segment Anything Models (MatAny) 매우 간편한 interactive image matting Github arXiv Abstract 추가 교육 없이 SAM(Segment Anything Model)으로 윤곽선을 예측하고 OV(openvocabulary) detector로 투명도를 예측한 뒤 alpha matte를 생성하는 interactive matting algorithm인 MatAny 제안 Introduction Trimap은 이미지를 foreground, background, unknown으로 나눈 hint map이다. 현재 SOTA 이미지 매팅 방법은 이러한 trimap이 입력으로 필요한데, 매우 좋은 성능에도 불구하고 trimap 관련 높은 인건비 때문에 주류 접근법이 되지 못했다. MatAny에서는 SAM으로 개체의 마스크를 .. Segment Anything in High Quality (HQ-SAM) SAM에서 세부적인 마스크 품질 개선 Github arXiv Abstract SAM(Segment Anything Model)의 마스크 품질을 개선한 HQ-SAM 제안 Introduction SAM의 주요한 문제 중 하나는 얇은 선 같은 물체를 잘 감지하지 못하는 것 HQ-SAM은 SAM의 가중치를 건드리지 않고 0.5% 미만의 피라미터를 추가하여 고품질 segmentation에 적응 SAM의 디코더에 입력되는 학습 가능한 HQ 출력 토큰 설계 HQ 토큰은 디코더 feature만이 아닌 세부 정보를 얻기 위해 정제된 feature에서 작동 고품질 segmentation 훈련을 위한 HQSeg-44K 데이터셋 제작. Method Preliminaries: SAM SAM Ours: HQ-SAM High-Qu.. Personalize Segment Anything Model with One Shot (PerSAM) SAM(Segment Anything Model) 개인화&자동화 arXiv Github Abstract SAM(Segment Anything Model)을 위한 개인화 접근 방식인 PerSAM 제안. 또한 학습 가능한 가중치를 도입하여 더욱 효율적인 변형인 PerSAM-F 제안. 제안한 방법으로 Stable Diffusion 또한 개인화 가능. Introduction SAM은 클릭과 같은 사용자 입력이 있어야 한다. PerSAM은 내 앨범에서 강아지 사진을 찾는 작업과 같이 자동으로 특정 개체를 탐지하고 분할할 수 있을까? 에서 시작한다. 원샷 데이터만을 사용하여 SAM을 효율적으로 사용자 정의 먼저 SAM을 통해 참조 이미지의 대상 개체의 임베딩을 인코딩한 뒤 테스트 이미지에서 개체와 모든 픽셀 간의 .. Inpaint Anything: Segment Anything Meets Image Inpainting Segment Anything Model(SAM)을 최신 모델들과 함께 다양한 작업에 적용 마스크 없는 인페인팅 Github arXiv Abstract Segment Anything Model(SAM)을 이용하여 마스크 없는 inpainting을 최초로 시도하고 Inpaint Anything(IA) 이라는 'clicking and filling'의 새로운 패러다임 제안. IA의 핵심 아이디어는 서로 다른 강점의 모델들을 결합해 사용자 친화적인 파이프라인을 구축하는 것. Motivation and Observation 강력한 segmentatin model(SAM), AIGC model(AI generated content - Stable Diffusion), inpainting model(LaMa)을 결.. Segment Anything (SAM) Segmentation을 위한 최초의 foundation model Github arXiv Abstract 1000만 개 이상의 이미지 및 10억 개 이상의 마스크를 가진 현존하는 가장 큰 segmentation 데이터셋(SA-1B)과 해당 데이터셋으로 학습해 인상적인 제로샷 성능을 보여주는 SAM(Segment Anything Model) 제안. Introduction 웹 규모의 데이터셋에서 학습된 대규모 언어 모델은 강력한 일반화로 NLP를 혁신하고 있다. 본 논문의 목표는 segmentation에서 이러한 foundation model을 구축하는 것이다. 이를 위해 다음과 같은 질문들을 해결해야 한다. 제로샷 일반화를 가능하게 하는 작업은 무엇인가? 해당 모델의 아키텍처는? 어떤 데이터가 이 작업과.. Token Merging: Your ViT But Faster 추가 훈련 없이 토큰 병합으로 속도 높이기 Github arXiv Abstract 추가 훈련 없이 ViT 모델의 처리량을 늘릴 수 있는 토큰 병합(ToMe) 소개. ToMe는 경량 매칭 알고리즘을 사용하여 유사한 토큰을 점진적으로 결합한다. Introduction 컴퓨팅 비용을 줄이기 위해 Swin Transformer와 같은 방법들이 나왔지만 vanilla ViT는 여전히 바람직한 특성 몇 가지를 갖고 있다. 간단한 행렬 곱셈으로 구성 MAE와 같은 자체 감독 훈련 가능 데이터에 대한 가정이 부족하여 다양한 양식에 적용 가능하고 확장성이 있음 더 빠른 모델을 위해 런타임 시 토큰을 정리하는 token pruning이 제안되었지만 정보 손실의 우려가 있고 모델의 재교육해야 함. 본 논문에서는 토큰을 제거.. Cut and Learn for Unsupervised Object Detection and Instance Segmentation Cut and learn 방식으로 작은 물체까지 잘 잡아냄 Project Page Cut and Learn for Unsupervised Object Detection and Instance Segmentation If you find our work inspiring or use our codebase in your research, please cite our work: @article{wang2023cut, author={Wang, Xudong and Girdhar, Rohit and Yu, Stella X and Misra, Ishan}, title={Cut and Learn for Unsupervised Objec people.eecs.berkeley.edu Abstract Unsupervise.. Muse: Text-To-Image Generation via Masked Generative Transformers Text-to-image를 위한 VQ masked transformer Projet Page arXiv Github Abstract Diffusion 또는 Autoregressive(AR) 모델보다 훨씬 효율적이면서 이미지 생성에서 SOTA를 달성한 text-to-image transformer 모델 Muse. Muse는 사전 훈련된 대형 언어 모델에서 추출된 텍스트 임베딩을 고려해 무작위로 마스킹된 이미지 토큰을 예측하도록 훈련된다. 적은 샘플링 반복과 병렬 디코딩 사용으로 확산이나 AR 모델보다 빠르고 효율적이다. Introduction 하위 모듈들 256, 512로 한 쌍의 VQGAN tokenizer 부분적으로 마스킹된 저해상도 토큰 시퀀스에서 마스킹되지 않은 토큰과 텍스트 임베딩에 따라 마스킹된.. Scalable Diffusion Models with Transformers (DiT) 확산 모델에 트랜스포머 백본. JAX로 구현됨. Arxiv Github Project Page Abstract 확산 모델에서 일반적으로 사용되는 U-Net 백본을 잠재 패치에서 작동하는 트랜스포머로 대체한다. 트랜스포머의 깊이/폭 증가 또는 입력 토큰의 증가가 더 낮은 FID를 갖는다는 것을 발견하였으며 class-conditional ImageNet 512, 256에서 이전의 모든 확산 모델을 능가한 2.27 FID를 달성하였다. Introduction 본 연구에서는 U-Net의 유도 편향이 확산 모델의 성능에 중요하지 않으며, 트랜스포머와 같은 표준 설계로 쉽게 대체될 수 있음을 보여준다. 또한 트랜스포머를 기반으로 한 새로운 확산 모델인 Diffusion Transformer(DiT)를 소개한다. .. MatteFormer : Transformer-Based Image Matting via Prior-Tokens 논문 리뷰 Trimap에서 추출한 Prior token을 이용해 ViT 기반 image matting 개선 Github Abstract 본 논문에서는 trimap 정보를 최대한 활용하는 MatteFormer라는 transformer 기반 이미지 매팅 모델을 제안한다. 먼저 각 trimap 영역의 전역적 표현인 prior 토큰을 도입하고 이 토큰을 global prior로 각 블록의 self attention에 참여한다. 인코더는 PAST(Prior-Attentive Swin Transformer) 블록을 도입한 Swin Transformer이다. Introduction 이미지는 foreground F, background B, alpha matte α로 다음과 같이 나타낼 수 있다. 이미지 매팅에서 추가 입력으로 .. 이전 1 2 3 4 5 6 다음