본문 바로가기

논문 리뷰/Vision Transformer

Fast Segment Anything (FastSAM)

SAM의 CNN version. 매우 빠름.

 

Github

arXiv

 

 

Abstract

SAM(Segment Anything Model)의 작업을 CNN 탐지기로 수행.

훨씬 적은 데이터셋과 빠른 속도로 SAM과 동일한 성능.

 

 

 

Preliminary

YOLO v1~v8

FPN(Feature Pyramid Networks)

YOLACT(간단한 설명, 자세한)

SAM(Segment Anything Model)

 

 

 

Introduction

SAM은 ViT 때문에 계산 리소스 부담이 심함.

 

FastSAM에서는 segment 작업을 CNN 탐지기에 의한 all-instance segmentation과 prompt-guided selection 단계로 나눈다.

 

SA-1B 데이터셋의 2% 만으로 훈련하여 기존과 비슷한 성능을 보여주고 실행 속도도 50배 빠름.

 

 

 

Methodology

 

All-instance Segmentation

YOLO v8-seg 백본에 YOLACT 적용. 다른 거 없음.

 

Prompt-guided Selection

  • Box prompt : 주어진 경계 상자와의 IoU가 가장 높은 마스크 
  • Point prompt : 해당 점이 존재하는 마스크
  • Text prompt : CLIP을 통해 이미지 임베딩 간의 유사성 메트릭을 사용하여 마스크 식별

 

 

 

Experiments