본문 바로가기

논문 리뷰/Mamba

MoE-Mamba: Efficient Selective State Space Models with Mixture of Experts

[arXiv](2024/01/08 version v1)

 

[Mamba 논문 리뷰]

 

Model Architecture

Switch Transformer에서 사용한 switch 기반 MoE를 사용한다.

또한 원래 2개의 mamba block이 1개의 transformer block과 대응하는데, 위 그림에도 나오듯이 MoE를 추가하면 transformer block과 1대1 대응된다.

 

 

 

Main Results

1 expert = Mamba-MLP