VMamba: Visual State Space Model

[Github]

[arXiv](2024/01/18 version v1)

Abstract

Cross-Scan Module (CSM)을 통해 시각 모델링이 가능한 VMamba 제안

Method

Preliminaries
2D Selective Scan
VMamba Model

Preliminaries

필독!!! Mamba

Mamba: Linear-Time Sequence Modeling with Selective State Spaces

SSM에 선택성을 부여하고 하드웨어 최적화 [Github] [arXiv](2023/12/01 version v1) Abstract Transformer 기반 모델들이 긴 시퀀스 처리에서 보여주는 계산 비효율성을 해결하기 위해 Mamba라는 새로운 신경망 구

ostin.tistory.com

2D Selective Scan

LTI 모델은 이미지와 같이 비인과적인 데이터를 모델링하기 어렵다. Mamba에서는 linear projection을 통해 선택적 스캔 접근법을 사용했으며, 이 논문보다 하루 전에 나와 본문에 언급되진 않았지만 Vision Mamba는 visual token을 순방향, 역방향으로 모델링하는 방법으로 비인과성을 부여했다.

VMamba에서는 4방향 스캔을 사용한다.

VMamba Model

다음 그림은 VMamba-Tiny의 architecture이다.

Stem layer에서 이미지를 패치로 분할한다. 특이한 점은 토큰 시퀀스를 1D로 펼치지 않고 2D 패치를 유지하며 downsampling과 depth-wise convolution을 적용한다. 또한 SSM의 인과적 특성이 있기 때문에 위치 임베딩을 사용하지 않았다.

저작자표시 (새창열림)

'논문 리뷰 > Mamba' 카테고리의 다른 글

Samba: Simple Hybrid State Space Models for Efficient Unlimited Context Language Modeling (0)	2024.06.26
Jamba: A Hybrid Transformer-Mamba Language Model (0)	2024.04.01
Zoology: Measuring and Improving Recall in Efficient Language Models (1)	2024.02.28
Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model (1)	2024.01.22
MoE-Mamba: Efficient Selective State Space Models with Mixture of Experts (0)	2024.01.15
Mamba: Linear-Time Sequence Modeling with Selective State Spaces (0)	2024.01.15

Ostin X

VMamba: Visual State Space Model

Abstract

Method

Preliminaries

2D Selective Scan

VMamba Model

'논문 리뷰 > Mamba' 카테고리의 다른 글

티스토리툴바

VMamba: Visual State Space Model

Abstract

Method

Preliminaries

2D Selective Scan

VMamba Model

'논문 리뷰 > Mamba' 카테고리의 다른 글

'논문 리뷰/Mamba' Related Articles

티스토리툴바