[Github]
[arXiv](2024/01/18 version v1)
Abstract
Cross-Scan Module (CSM)을 통해 시각 모델링이 가능한 VMamba 제안
Method
- Preliminaries
- 2D Selective Scan
- VMamba Model
Preliminaries
2D Selective Scan
LTI 모델은 이미지와 같이 비인과적인 데이터를 모델링하기 어렵다. Mamba에서는 linear projection을 통해 선택적 스캔 접근법을 사용했으며, 이 논문보다 하루 전에 나와 본문에 언급되진 않았지만 Vision Mamba는 visual token을 순방향, 역방향으로 모델링하는 방법으로 비인과성을 부여했다.
VMamba에서는 4방향 스캔을 사용한다.
VMamba Model
다음 그림은 VMamba-Tiny의 architecture이다.
Stem layer에서 이미지를 패치로 분할한다. 특이한 점은 토큰 시퀀스를 1D로 펼치지 않고 2D 패치를 유지하며 downsampling과 depth-wise convolution을 적용한다. 또한 SSM의 인과적 특성이 있기 때문에 위치 임베딩을 사용하지 않았다.