Abstract
전문가의 가중 평균을 통해 구성된 단일 병합 전문가를 사용하여 보조 손실 없는 훈련을 가능하게 하는 SMEAR (Soft Merging of Experts with Adaptive Routing) 제안
[arXiv](2023/06/06 version v1)
Soft Merging of Experts with Adaptive Routing
Mixture-of-Experts에 gradient 기반 훈련을 적용하면 라우팅에 역전파를 적용할 수 없기 때문에 문제가 있다.
이를 해결하기 위한 일반적인 접근법은 라우팅 출력에 보조 손실을 추가로 도입하는 것이다.
SMEAR은 라우팅 결과에 따라 모든 전문가의 가중 평균을 계산하여 하나의 전문가로 병합하고 출력을 계산한다.
특정 전문가를 선택하는 과정이 없어 모든 구성요소가 미분 가능하고 실제로 통과하는 전문가는 하나이기 때문에 계산 비용이 크게 증가하지 않는다.