본문 바로가기

논문 리뷰/etc.

Mixtures of Experts Unlock Parameter Scaling for Deep RL

[arXiv](2024/02/13 version v1)

 

 

Abstract

강화 학습에서 MoE를 통한 피라미터 확장으로 성능 향상

 

 

 

Preliminaries

Mixture of Experts (MoE)

SoftMoE

강화 학습 대체 뭐냐?

 

 

 

Mixture of Experts for Deep RL

Where to place the MoEs?

두 번째 FFN layer.

 

What is a token?

실험 결과 PerConv 방식이 가장 성능이 좋았다고 함.

또한 전문가 출력에서 입력 크기를 유지하기 위해 linear projection 추가.

 

What flavour of MoE to use?

Top1-MoE, SoftMoE

 

 

 

Empirical evaluation

다양하고 도전적인 픽셀 기반 환경 모음인 Arcade Learning Environment의 20개 게임에 대해 평가.

ResNet 기반 architecture 사용.


SoftMoE가 더 좋아요.