본문 바로가기

논문 리뷰/Vision Transformer

(64)
Mask DINO: Towards A Unified Transformer-based Framework for Object Detection and Segmentation 논문 리뷰 Detection 모델인 DINO를 segmentation까지 확장해 다양한 작업을 지원하는 통합 모델 Mask DINO를 제안하였다. Github Arxiv Abstract 본 논문에서는 통합 object detection 및 segmentation 프레임워크인 Mask DINO를 제안한다. Mask DINO는 모든 이미지 segmentation 작업(semantic, instance, panoptic)을 지원하는 마스크 예측 분기를 추가하여 DINO를 확장한다. 실험은 Mask DINO가 기존의 모든 전문적인 segmentation 방법들을 크게 능가한다는 것을 보여준다. Introduction 본 논문의 기여는 다음과 같다. Anchor box-guided cross attention, 쿼리 선택,..
DINO: DETR with Improved DeNoising AnchorBoxes for End-to-End Object Detection 논문 리뷰 DAB-DETR, DN-DETR, Deformable DETR에서 아이디어를 가져와 개선하여 큰 성능 향상을 이끌어낸 DETR 유사 모델이다. Facebookresearch의 DINO가 아닙니다... 2022년 3월에 나온, DN-DETR의 후속작이자 Mask DINO의 발판이 된 논문입니다. Github Arxiv Abstract 최첨단 end-to-end 객체 탐지기인 DINO(DETR with Improved deNoising anchOr boxes)를 소개한다. DINO는 denoising training을 위한 contrastive way, 앵커 초기화를 위한 mixed query selection method, 박스 예측을 위한 look forward twice scheme를 사용하여 이전의 ..
DN-DETR: Accelerate DETR Training by Introducing Query DeNoising 논문 리뷰 이분 그래프 매칭이 DETR 모델의 느린 수렴에 영향을 준다는 것을 보여주고 훈련 가속화와 성능 개선을 위해 denoising training을 제안하였다. Mask DINO를 향한 여정, DAB-DETR의 다음 시리즈이다. Github Arxiv Abstract 본 논문에서는 DETR의 훈련 속도를 높이기 위한 새로운 노이즈 제거 훈련 방법을 제시하고 DETR 유사 방법의 느린 수렴 문제에 대한 이해를 심화한다. 느린 수렴이 초기 훈련 단계에서 일관성이 없는 최적화 목표를 유발하는 이분 그래프 매칭의 불안정성에서 비롯된다는 것을 보여준다. 헝가리안 손실을 제외하고 이 문제를 해결하기 위해, 노이즈가 있는 ground truth 경계 상자를 추가로 디코더로 공급하고 모델을 훈련시켜 원래 상자를 재구성함으..
DAB-DETR : Dynamic Anchor Boxes are Better Queries for DETR 논문 리뷰 현재 많은 탐지와 분할 벤치마크에서 SOTA 성능을 달성한 Mask DINO의 시작, DAB-DETR이다. 쿼리에 대한 더 깊은 이해를 통해 동적 앵커 박스를 사용하는 새로운 쿼리 공식을 제시했다. Github Arxiv Abstract 본 논문에서는 DETR을 위한 동적 앵커 박스를 사용하는 새로운 쿼리 공식을 제시하고 DETR에서 쿼리의 역할에 대한 더 깊은 이해를 제공한다. 이 새로운 공식은 박스 좌표를 transformer 디코더에서 쿼리로 직접 사용하고 계층별로 동적으로 업데이트한다. Introduction DETR은 객체 탐지를 세트 예측 문제로 모델링하고 100개의 학습 가능한 쿼리를 사용하여 이미지에서 특징을 탐색하고 풀링하므로 non-maximum suppression(NMS)를 사용하지..
Separable Self-attention for Mobile Vision Transformers 논문 리뷰 6 Jun 2022. MobileViT에서 separable self-attention을 추가해 개선 버전인 MobileViTv2를 제안했다. Paper Github Abstract MobileViT는 분류 및 탐지를 포함한 여러 모바일 비전 작업에서 최첨단 성능을 달성할 수 있다. 이러한 모델은 매개 변수가 적지만 컨볼루션 신경망 기반 모델에 비해 지연 시간이 길다. MobileViT의 주요 효율성 병목 현상은 transformer의 multi head self attention(MHSA)으로 토큰(또는 패치) 수 k와 관련하여 O(k2) 시간 복잡성을 필요로 한다. 본 논문은 선형 복잡성, 즉 O(k)를 가진 separable self-attention을 소개한다. 제안된 방법의 간단하지만 효과적인 ..
EfficientFormer: Vision Transformers at MobileNet Speed 논문 리뷰 2 Jun 2022. 모바일 환경에서 높은 성능을 유지하며 transformer의 추론 속도를 획기적으로 줄인 논문이다. Github GitHub - snap-research/EfficientFormer Contribute to snap-research/EfficientFormer development by creating an account on GitHub. github.com Abstract ViT는 컴퓨터 비전 작업에서 빠른 진전을 보여 다양한 벤치마크에서 유망한 결과를 달성했다. 그러나 주의 메커니즘과 같은 엄청난 수의 매개 변수 및 모델 설계로 인해 ViT 기반 모델은 일반적으로 경량 컨볼루션 네트워크보다 속도가 두 배 느리다. 따라서 실시간 애플리케이션을 위한 ViT의 배포는 특히, 모바일 ..
Green Hierarchical Vision Transformer for Masked Image Modeling 논문 리뷰 계층적 ViT 모델에 Masked Image Modeling을 도입한 논문이다. 5월 26일 공개되었다. 요즘 이런 비슷한 주제의 논문이 많이 나오는 것 같다. Github GitHub - LayneH/GreenMIM: Official implementation of the paper 'Green Hierarchical Vision Transformer for Masked Image Modeling' Official implementation of the paper 'Green Hierarchical Vision Transformer for Masked Image Modeling'. - GitHub - LayneH/GreenMIM: Official implementation of the paper 'Gr..
Inception Transformer 논문 리뷰 5월 25일 공개된, 고주파수를 잘 포착하는 ViT와 저주파수를 잘 포착하는 CNN을 잘 혼합한 논문이다. 요즘 비슷한 주제의 논문을 너무 많이 봐서 솔직히 엄청 대충 읽고 있었는데 읽다 보니 나름 간단하고 괜찮은 아이디어라는 생각이 들었다. Github GitHub - sail-sg/iFormer: iFormer: Inception Transformer iFormer: Inception Transformer. Contribute to sail-sg/iFormer development by creating an account on GitHub. github.com Abstract (요약: 넓은 범위의 주파수 캡처를 위해 inception mixer 설계, 고주파수와 저주파수 간의 상충을 위해 램프 구조 ..
Vision Transformer Adapter for Dense Predictions 논문 리뷰 현재 semantic segmentation의 여러 벤치마크에서 SOTA를 차지하고 있는 ViT-Adapter Github GitHub - czczup/ViT-Adapter: Vision Transformer Adapter for Dense Predictions Vision Transformer Adapter for Dense Predictions. Contribute to czczup/ViT-Adapter development by creating an account on GitHub. github.com Abstract ViT를 위한 간단하지만 강력한 어댑터를 조사한다. 비전별 유도 편향을 아키텍처에 도입하는 최근의 시각적 transformer와 달리 ViT는 이미지의 사전 정보가 부족하여 dense..
ASSET : Autoregressive Semantic Scene Editing with Transformers at High Resolutions 논문 리뷰 ASSET은 Transformer를 이용한 고해상도 semantic 분할 편집 아키텍처이다. NLP의 기법들을 차용했다. Project Page Creative and Descriptive Paper Title. Paper description. people.cs.umass.edu Abstract Semantic 분할 맵에서 사용자의 편집에 따라 입력 고해상도 이미지를 자동으로 수정하기 위한 신경 아키텍처인 ASSET을 제시한다. ASSET은 새로운 attention 메커니즘을 가진 transformer를 기반으로 한다. 핵심 아이디어는 낮은 해상도에서 추출된 고밀도 attention에 의해 안내되어 높은 해상도에서의 attention matrix를 희소화 하는 것이다. 이전의 attention 메커니즘..
Uniform Masking: Enabling MAE Pre-training for Pyramid-based Vision Transformers with Locality (UM-MAE)논문 리뷰 5월 23일 공개된 본 논문은 local window를 사용하는 계층적 ViT에서도 MAE 사전 훈련 방법을 적용할 수 있게 한 논문이다. Github GitHub - implus/UM-MAE: Official Codes for "Uniform Masking: Enabling MAE Pre-training for Pyramid-based Vision Transformers wit Official Codes for "Uniform Masking: Enabling MAE Pre-training for Pyramid-based Vision Transformers with Locality" - GitHub - implus/UM-MAE: Official Codes for "Uniform Masking: Ena....
ConvMAE : Masked Convolution Meets Masked Autoencoders 논문 리뷰 5월 8일 공개된 ConvMAE: Masked Convolution Meets MaskedAutoencoders Github Paper (arxiv) Abstract Vision Transformer(ViT)는 다양한 비전 작업을 위해 널리 채택되었다. Feature 사전 훈련 및 multi-scale hybrid convolution-transformer 아키텍처를 위한 Masked auto-encoding은 ViT의 잠재력을 더욱 발휘하여 다양한 작업에서 최첨단 성능을 이끌어낼 수 있다. 본 논문에서 소개할 ConvMAE 프레임워크는 multi-scale hybrid convolution-transformer가 마스크 오토인코딩 체계를 통해 보다 차별적인 표현을 학습할 수 있음을 보여준다. 그러나 원..