[arXiv](2024/01/08 version v1)
Abstract
Mistral 7B와 동일하지만 각 레이어가 8개의 feedforward block으로 구성된 Sparse Mixture of Experts (SMoE) 모델인 Mixtral 8x7B 소개
LLaMA2 70B와 대등하거나 그 이상...
Architectural details
Mistral 7B와 다른점은 32K token의 조밀한 context 길이를 지원하고 FF를 MoE로 대체했다.
Mistral 7B |
Mixtral 8x7B |
Sparse Mixture of Experts
Mixture of Experts: gating network G를 통해 전문가를 선택한다.
V-MoE: Transformer의 경우 토큰 단위로 gating이 수행되며 같은 전문가에 할당된 토큰끼리 모아서 연산한다.
Mixtral에서는 K = 2, SwiGLU를 사용하여 각 전문가를 SwiGLU의 sub block으로 취급한다.
Results
'논문 리뷰 > Language Model' 카테고리의 다른 글
Self-Rewarding Language Models (0) | 2024.01.24 |
---|---|
DiffusionGPT: LLM-Driven Text-to-Image Generation System (0) | 2024.01.24 |
Towards Conversational Diagnostic AI (AMIE) (0) | 2024.01.18 |
Mistral 7B (0) | 2024.01.11 |
TinyLlama: An Open-Source Small Language Model (0) | 2024.01.09 |
DocLLM: A layout-aware generative language model for multimodal document understanding (0) | 2024.01.09 |