NL-341, Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer, ICLR 2017
◼ Comment 이 논문은 MoE의 시초로 쓱 봤는데, MoE 아이디어를 한번더 확인한 느낌 알아둬야할것은 2.1 섹션이면 될것 같음 즉 입력값에 weight 곱하고 softmax 취해서 expert 취한다는 것인데 단순히 이렇게 하면 확률의 차이지 모든 expert을 계산해야하기 때문에 Noisy top-k gating이라해서, 가우시안 노이즈 더하고 expoert top-k만 선별하는 식으로 업데이트한다 섹션4에서 MoE학습시, 몇 개의 epxert가 큰 가중치를 주는 상태로 수렴하는 경향이 있는 문제가 있음 즉 선호되는 expert가 있고, 이것이 자주 선택되고 빠르게 학습되기 때문에 local minimum에 빠질 수 있다고함 그래서 추가적인 loss을 제안해서 밸런싱을 맞추려고 한 것 같음 ABSTRACT 신경망이 정보를 흡수할 수 있는 능력은 그 파라미터 수에 의해 제한된다. 조건부 계산(conditional computation)은 네트워크의 일부가 예제마다 선택적으로 활성화되도록 하여, 계산량을 그에 비례해 늘리지 않고도 모델 용량을 극적으로 키우는 이론적 방법으로 제안되어 왔다. 그러나 실제로는 알고리즘적·성능적 난제가 상당하다. 본 연구에서는 이러한 난제를 해결하고 조건부 계산의 가능성을 마침내 실현하여, 현대 GPU 클러스터에서 계산 효율의 손실은 크지 않으면서 모델 용량을 1000배 이상 향상시킨다. 우리는 수천 개의 feed-forward 서브네트워크로 구성된 Sparsely-Gated Mixture-of-Experts 레이어(MoE)를 제안한다. 학습 가능한 게이팅 네트워크는 각 예제마다 사용할 전문가들의 희소한 조합을 결정한다. 우리는 이 MoE를 언어 모델링과 기계번역에 적용하는데, 이들 과제에서는 훈련 코퍼스에 존재하는 방대한 지식을 흡수하기 위해 모델 용량이 매우 중요하다. 또한 최대 1370억 개의 파라미터를 갖는 MoE가 스택된 LSTM 층 사이에 합성곱 방식으로 적용되는 아키텍처를 제시한다. 대규모 언어 모델링 및 기계번...