본문 바로가기

논문 리뷰/Language Model

Mixtral of Experts (Mixtral 8x7B)

[Project Page]

[arXiv](2024/01/08 version v1)

 

 

Abstract

Mistral 7B와 동일하지만 각 레이어가 8개의 feedforward block으로 구성된 Sparse Mixture of Experts (SMoE) 모델인 Mixtral 8x7B 소개

LLaMA2 70B와 대등하거나 그 이상...

 

 

Architectural details

Mistral 7B와 다른점은 32K token의 조밀한 context 길이를 지원하고 FF를 MoE로 대체했다.


Mistral 7B

Mixtral 8x7B

 

Sparse Mixture of Experts

Mixture of Experts: gating network G를 통해 전문가를 선택한다.

 

V-MoE: Transformer의 경우 토큰 단위로 gating이 수행되며 같은 전문가에 할당된 토큰끼리 모아서 연산한다.

 

Mixtral에서는 K = 2, SwiGLU를 사용하여 각 전문가를 SwiGLU의 sub block으로 취급한다.

 

 

 

Results

Website

 

Mixtral of experts

A high quality Sparse Mixture-of-Experts.

mistral.ai