본문 바로가기

논문 리뷰/Mamba

VMamba: Visual State Space Model

[Github]

[arXiv](2024/01/18 version v1)

 

 

Abstract

Cross-Scan Module (CSM)을 통해 시각 모델링이 가능한 VMamba 제안

 

 

 

Method

  • Preliminaries
  • 2D Selective Scan
  • VMamba Model

 

Preliminaries

필독!!! Mamba

 

Mamba: Linear-Time Sequence Modeling with Selective State Spaces

SSM에 선택성을 부여하고 하드웨어 최적화 [Github] [arXiv](2023/12/01 version v1) Abstract Transformer 기반 모델들이 긴 시퀀스 처리에서 보여주는 계산 비효율성을 해결하기 위해 Mamba라는 새로운 신경망 구

ostin.tistory.com

 

2D Selective Scan

LTI 모델은 이미지와 같이 비인과적인 데이터를 모델링하기 어렵다. Mamba에서는 linear projection을 통해 선택적 스캔 접근법을 사용했으며, 이 논문보다 하루 전에 나와 본문에 언급되진 않았지만 Vision Mamba는 visual token을 순방향, 역방향으로 모델링하는 방법으로 비인과성을 부여했다.

 

VMamba에서는 4방향 스캔을 사용한다.

S6 = Mamba

 

VMamba Model

다음 그림은 VMamba-Tiny의 architecture이다.

 

Stem layer에서 이미지를 패치로 분할한다. 특이한 점은 토큰 시퀀스를 1D로 펼치지 않고 2D 패치를 유지하며 downsampling과 depth-wise convolution을 적용한다. 또한 SSM의 인과적 특성이 있기 때문에 위치 임베딩을 사용하지 않았다.