본문 바로가기

논문 리뷰

(452)
Mask DINO: Towards A Unified Transformer-based Framework for Object Detection and Segmentation 논문 리뷰 Detection 모델인 DINO를 segmentation까지 확장해 다양한 작업을 지원하는 통합 모델 Mask DINO를 제안하였다. Github Arxiv Abstract 본 논문에서는 통합 object detection 및 segmentation 프레임워크인 Mask DINO를 제안한다. Mask DINO는 모든 이미지 segmentation 작업(semantic, instance, panoptic)을 지원하는 마스크 예측 분기를 추가하여 DINO를 확장한다. 실험은 Mask DINO가 기존의 모든 전문적인 segmentation 방법들을 크게 능가한다는 것을 보여준다. Introduction 본 논문의 기여는 다음과 같다. Anchor box-guided cross attention, 쿼리 선택,..
DINO: DETR with Improved DeNoising AnchorBoxes for End-to-End Object Detection 논문 리뷰 DAB-DETR, DN-DETR, Deformable DETR에서 아이디어를 가져와 개선하여 큰 성능 향상을 이끌어낸 DETR 유사 모델이다. Facebookresearch의 DINO가 아닙니다... 2022년 3월에 나온, DN-DETR의 후속작이자 Mask DINO의 발판이 된 논문입니다. Github Arxiv Abstract 최첨단 end-to-end 객체 탐지기인 DINO(DETR with Improved deNoising anchOr boxes)를 소개한다. DINO는 denoising training을 위한 contrastive way, 앵커 초기화를 위한 mixed query selection method, 박스 예측을 위한 look forward twice scheme를 사용하여 이전의 ..
DN-DETR: Accelerate DETR Training by Introducing Query DeNoising 논문 리뷰 이분 그래프 매칭이 DETR 모델의 느린 수렴에 영향을 준다는 것을 보여주고 훈련 가속화와 성능 개선을 위해 denoising training을 제안하였다. Mask DINO를 향한 여정, DAB-DETR의 다음 시리즈이다. Github Arxiv Abstract 본 논문에서는 DETR의 훈련 속도를 높이기 위한 새로운 노이즈 제거 훈련 방법을 제시하고 DETR 유사 방법의 느린 수렴 문제에 대한 이해를 심화한다. 느린 수렴이 초기 훈련 단계에서 일관성이 없는 최적화 목표를 유발하는 이분 그래프 매칭의 불안정성에서 비롯된다는 것을 보여준다. 헝가리안 손실을 제외하고 이 문제를 해결하기 위해, 노이즈가 있는 ground truth 경계 상자를 추가로 디코더로 공급하고 모델을 훈련시켜 원래 상자를 재구성함으..
DAB-DETR : Dynamic Anchor Boxes are Better Queries for DETR 논문 리뷰 현재 많은 탐지와 분할 벤치마크에서 SOTA 성능을 달성한 Mask DINO의 시작, DAB-DETR이다. 쿼리에 대한 더 깊은 이해를 통해 동적 앵커 박스를 사용하는 새로운 쿼리 공식을 제시했다. Github Arxiv Abstract 본 논문에서는 DETR을 위한 동적 앵커 박스를 사용하는 새로운 쿼리 공식을 제시하고 DETR에서 쿼리의 역할에 대한 더 깊은 이해를 제공한다. 이 새로운 공식은 박스 좌표를 transformer 디코더에서 쿼리로 직접 사용하고 계층별로 동적으로 업데이트한다. Introduction DETR은 객체 탐지를 세트 예측 문제로 모델링하고 100개의 학습 가능한 쿼리를 사용하여 이미지에서 특징을 탐색하고 풀링하므로 non-maximum suppression(NMS)를 사용하지..
Can CNNs Be More Robust Than Transformers? 논문 리뷰 지금까지 transformer의 견고성은 self attention에서 나온다고 알고 있었지만 attention 없이 순수 CNN으로 transformer의 구조를 흉내내어 보았더니 CNN 쪽이 더 견고성이 좋았다는 내용이다 Github Arxiv Can CNNs Be More Robust Than Transformers? The recent success of Vision Transformers is shaking the long dominance of Convolutional Neural Networks (CNNs) in image recognition for a decade. Specifically, in terms of robustness on out-of-distribution samples, ..
기타 논문 분류 ConvolutionCan CNNs Be More Robust Than Transformers? : CNN과 transformer의 모델 견고성 비교SLaK : 커널 분해. 커널 크기를 51x51까지 확장ConvNeXt V2 : 순수 Conv로만 이루어낸 ConvNeXt + MAEFastSAM : SAM의 CNN version. 매우 빠름 SegmentationITIS : 사용자 클릭을 반복적으로 입력하여 학습하는 segmentation frameworkRITM : 클릭 기반 interative segmentation, ITIS의 개선 버전 DetectionTOOD : classification과 localization을 명시적으로 정렬하는 새로운 정렬 헤드 T-HeadYOLO-World : 빠르고 정확..
년도별 2017Mixture-of-Experts : Feedforward network를 하위 집합인 expert로 나누어 소수의 적합한 expert만이 계산에 참여함 Look, Listen and Learn : 원시 비디오를 통한 visual-audio 표현 학습 2018Measuring the Intrinsic Dimension of Objective Landscapes : 네트워크의 고유 차원 측정 ITIS : 사용자 클릭을 반복적으로 입력하여 학습하는 segmentation frameworkContextual Attention : Contextual attention으로 image inpainting 개선Online Softmax : 더 적은 메모리 액세스로 softmax 계산GPipe : 레이어 그룹을..
Separable Self-attention for Mobile Vision Transformers 논문 리뷰 6 Jun 2022. MobileViT에서 separable self-attention을 추가해 개선 버전인 MobileViTv2를 제안했다. Paper Github Abstract MobileViT는 분류 및 탐지를 포함한 여러 모바일 비전 작업에서 최첨단 성능을 달성할 수 있다. 이러한 모델은 매개 변수가 적지만 컨볼루션 신경망 기반 모델에 비해 지연 시간이 길다. MobileViT의 주요 효율성 병목 현상은 transformer의 multi head self attention(MHSA)으로 토큰(또는 패치) 수 k와 관련하여 O(k2) 시간 복잡성을 필요로 한다. 본 논문은 선형 복잡성, 즉 O(k)를 가진 separable self-attention을 소개한다. 제안된 방법의 간단하지만 효과적인 ..
EfficientFormer: Vision Transformers at MobileNet Speed 논문 리뷰 2 Jun 2022. 모바일 환경에서 높은 성능을 유지하며 transformer의 추론 속도를 획기적으로 줄인 논문이다. Github GitHub - snap-research/EfficientFormer Contribute to snap-research/EfficientFormer development by creating an account on GitHub. github.com Abstract ViT는 컴퓨터 비전 작업에서 빠른 진전을 보여 다양한 벤치마크에서 유망한 결과를 달성했다. 그러나 주의 메커니즘과 같은 엄청난 수의 매개 변수 및 모델 설계로 인해 ViT 기반 모델은 일반적으로 경량 컨볼루션 네트워크보다 속도가 두 배 느리다. 따라서 실시간 애플리케이션을 위한 ViT의 배포는 특히, 모바일 ..
Green Hierarchical Vision Transformer for Masked Image Modeling 논문 리뷰 계층적 ViT 모델에 Masked Image Modeling을 도입한 논문이다. 5월 26일 공개되었다. 요즘 이런 비슷한 주제의 논문이 많이 나오는 것 같다. Github GitHub - LayneH/GreenMIM: Official implementation of the paper 'Green Hierarchical Vision Transformer for Masked Image Modeling' Official implementation of the paper 'Green Hierarchical Vision Transformer for Masked Image Modeling'. - GitHub - LayneH/GreenMIM: Official implementation of the paper 'Gr..
Inception Transformer 논문 리뷰 5월 25일 공개된, 고주파수를 잘 포착하는 ViT와 저주파수를 잘 포착하는 CNN을 잘 혼합한 논문이다. 요즘 비슷한 주제의 논문을 너무 많이 봐서 솔직히 엄청 대충 읽고 있었는데 읽다 보니 나름 간단하고 괜찮은 아이디어라는 생각이 들었다. Github GitHub - sail-sg/iFormer: iFormer: Inception Transformer iFormer: Inception Transformer. Contribute to sail-sg/iFormer development by creating an account on GitHub. github.com Abstract (요약: 넓은 범위의 주파수 캡처를 위해 inception mixer 설계, 고주파수와 저주파수 간의 상충을 위해 램프 구조 ..
Vision Transformer Adapter for Dense Predictions 논문 리뷰 현재 semantic segmentation의 여러 벤치마크에서 SOTA를 차지하고 있는 ViT-Adapter Github GitHub - czczup/ViT-Adapter: Vision Transformer Adapter for Dense Predictions Vision Transformer Adapter for Dense Predictions. Contribute to czczup/ViT-Adapter development by creating an account on GitHub. github.com Abstract ViT를 위한 간단하지만 강력한 어댑터를 조사한다. 비전별 유도 편향을 아키텍처에 도입하는 최근의 시각적 transformer와 달리 ViT는 이미지의 사전 정보가 부족하여 dense..