JetMoE: Reaching Llama2 Performance with 0.1M Dollars

Abstract

SMoE를 채택하여 10만 달러 미만의 비용으로 효율적이고 뛰어난 성능을 보여주는 JetMoE-8B 모델 소개

[arXiv](2024/04/11 version v1)

Mixture-of-Experts를 attention, MLP layer 모두에 적용한 ModuleFormer에서 영감을 받아 Sparsely-gated Mixture-of-Experts (SMoE)를 채택하였다.

라우터의 출력에서 top-K logits을 선택하고

최종 출력은 전문가 출력의 가중합으로 계산된다.

Attention layer에는 4개의 projection matrix W_q, W_k, W_v, W_o가 속해 있다.

효율성을 위해 K, V는 공유하고 Q, O만 각 전문가로 나뉜다.

전문가 당 여러 개의 attention head를 허용하고 RoPE를 사용한다.

Frequency-based auxiliary loss

라우터가 특정 전문가를 선택할 확률 P와 실제로 할당된 토큰의 비율 f의 내적.

Uniform distribution에서 최소가 된다고 한다.

Router z-loss

ST-MoE에서 제안한 손실로 라우터 내 logits의 크기를 줄여 반올림 오류를 최소화한다.

Total loss

Hyper-parameters:

3-stage의 WSD(Warmup-Stable-Decay) learning rate schedule을 사용한다.

D-stage에서 고품질 데이터를 추가하는 훈련 데이터 혼합 전략 사용.

교사 모델(e.g. GPT-4, Claude)에서 생성된 데이터로 SFT 수행.

교사 모델의 선호도로 DPO 수행.

실제로는 UltraFeedback(GPT-4를 이용해 제작됨)과 같은 데이터셋을 사용했다.

Megalodon: Efficient LLM Pretraining and Inference with Unlimited Context Length (1)	2024.04.19
Learn Your Reference Model for Real Good Alignment (TR-DPO) (0)	2024.04.19
Ferret-v2: An Improved Baseline for Referring and Grounding with Large Language Models (1)	2024.04.18
Rho-1: Not All Tokens Are What You Need (0)	2024.04.17
Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention (0)	2024.04.17
LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders (0)	2024.04.16