논문 리뷰/Mamba (8) 썸네일형 리스트형 Samba: Simple Hybrid State Space Models for Efficient Unlimited Context Language Modeling AbstractMamba와 Sliding Window를 계층적으로 결합한 hybrid architecture인 Samba를 제안하고 실험 [Github][arXiv](2024/06/11 version v1) Methodology MambaSliding Window Attention Experiments and Results Language Modeling on Textbook Quality Data Perplexity 처리 속도 Long-Context Understanding Jamba: A Hybrid Transformer-Mamba Language Model Abstract Transformer + Mamba + MoE [AI21 labs Blog] [arXiv](2024/03/28 version v1) 이거 완전 혁명인 거 같다;; Positional encoding도 필요 없고 속도나 메모리면에서 훨씬 효율적이면서도 transformer랑 성능 비슷함;; Introduction Transformer의 단점: 높은 메모리, 컴퓨팅 비용 단일 요약 상태가 없다. (항상 시퀀스로 존재한다.) Mamba는 Transformer보다 성능은 뒤처지지만 더 효율적이고 장거리 모델링에 적합하다. Jamba에는 MoE도 포함된다. Model Architecture Jamba block은 number of layers (default l = 8) ratio of atten.. Zoology: Measuring and Improving Recall in Efficient Language Models [Github] [arXiv](2023/12/08 version v1) Abstract Gated Convolution-Attention Hybrid model을 통해 multi-query associative recall (MQAR) 작업에서의 성능 향상 Background and Preliminaries Sequence mixers Attention Gated-Convolutions (= State Space Model의 일종, ≠ Mamba) Gated-convolution의 예: Hippo, Hungry Hungry Hippos (H3) Identifying the associative recall problem Fine-grained analysis of downstream quality Seq.. VMamba: Visual State Space Model [Github] [arXiv](2024/01/18 version v1) Abstract Cross-Scan Module (CSM)을 통해 시각 모델링이 가능한 VMamba 제안 Method Preliminaries 2D Selective Scan VMamba Model Preliminaries 필독!!! Mamba Mamba: Linear-Time Sequence Modeling with Selective State Spaces SSM에 선택성을 부여하고 하드웨어 최적화 [Github] [arXiv](2023/12/01 version v1) Abstract Transformer 기반 모델들이 긴 시퀀스 처리에서 보여주는 계산 비효율성을 해결하기 위해 Mamba라는 새로운 신경망 구 ostin.tistor.. Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model [Github] [arXiv](2024/01/17 version v1) Abstract Bidirectional Mamba block을 사용한 새로운 vision backbone인 Vision Mamba (Vim) 제안 Method Preliminaries Vision Mamba Vim Block Preliminaries 필독!!! Mamba Mamba: Linear-Time Sequence Modeling with Selective State Spaces SSM에 선택성을 부여하고 하드웨어 최적화 [Github] [arXiv](2023/12/01 version v1) Abstract Transformer 기반 모델들이 긴 시퀀스 처리에서 보여주는 계산 비효율성을 해결하기 위해 Mamba라는 새로운 신경.. MoE-Mamba: Efficient Selective State Space Models with Mixture of Experts [arXiv](2024/01/08 version v1) [Mamba 논문 리뷰] Model Architecture Switch Transformer에서 사용한 switch 기반 MoE를 사용한다. 또한 원래 2개의 mamba block이 1개의 transformer block과 대응하는데, 위 그림에도 나오듯이 MoE를 추가하면 transformer block과 1대1 대응된다. Main Results Mamba: Linear-Time Sequence Modeling with Selective State Spaces + Mamba에 대해 매우 잘 설명되어 있는 글 ← 그냥 이거 보세요 SSM에 선택성을 부여하고 하드웨어 최적화 [Github] [arXiv](2023/12/01 version v1) Abstract Transformer 기반 모델들이 긴 시퀀스 처리에서 보여주는 계산 비효율성을 해결하기 위해 Mamba라는 새로운 신경망 구조를 제안 State Space Models 필독!!! S4 model Efficiently Modeling Long Sequences with Structured State Spaces (S4) [arXiv](2022/08/05 version v3) 영어 잘하시면 이거 보세요. https://srush.github.io/annotated-s4/ 근데 솔직히 원어민도 이거 보고 이해 .. Efficiently Modeling Long Sequences with Structured State Spaces (S4) [arXiv](2022/08/05 version v3) 영어 잘하시면 이거 보세요. https://srush.github.io/annotated-s4/ 근데 솔직히 원어민도 이거 보고 이해 못 할 듯; The Annotated S4 srush.github.io 시작하기 전에 말하자면 이 논문에 관련된 모든 수식을 이해하는 것은 저로서는 불가능한 일이었습니다... 그래서 최대한 수학을 빼고 개념적으로 설명해 보겠습니다. (그래도 많아요) Abstract State Space Model(SSM)에 대한 새로운 피라미터화를 기반으로 이전 접근법보다 효율적인 Structured State Space Sequence model(S4) 제안 Background: State Spaces 일단 state space에 .. 이전 1 다음