Trend-007, ReZero is All You Need: Fast Convergence at Large Depth (2020.03.10-Arxiv)

■ 논문 정보

■ 요약

  • 깊은 네트워크는 도메인에 따라 성능이 달라지는데 vanishing/exploding gradient으로부터 고통을 받는다.
  • 특별히 Transformer 구조는 12 layers을 가지고 있어서 많은 데이터세트와 계산가능한 하드웨어 적인 것이 없으면 학습하기 어렵다.
  • 논문에서 비효율적인 신호전파가 네트워크의 학습을 방해한다는 것을 알아냈다.
  • Transformers은 multi-head self-attention이 poor 신호전파의 중요 요인이다.
  • 깊은 신호전파를 위하여 여기서 ReZero을 제시하고 이는 간단히 구조를 바꾸는 방법이다.
    • initializes an arbitrary layer as the identity map, using a single additional learned parameter per layer.
  • 이렇게 ReZero-Transformers 네워크는 100개가 넘는 layers을 가져도 학습이 쉽다고 한다.
  • 실제로 12 layers의 Transformer에 ReZero을 적용하면 enwiki8에서 56% 빠르게 학습이 된다.
  • ReZero는 다른 residual 네트워크들에 적용이 가능하고 ResNet-56에 적용했을때 CIFAR 10 로 학습할 시 43% 빠르게 수렴한다.
  • The idea is simple: ReZero initializes each layer to perform the identity operation. 
  • For each layer, we introduce a residual connection for the input signal x and one trainable parameter α that modulates the non-trivial transformation of the layer F(x),
  • Rather than propagating the signal through each of the non-trivial functions F[Wi ] at initialization, we add a skip connection and rescale the function by L learnable parameters αi (which we call residual weights) that are initialized to zero. The signal now propagates according to
    •  





















댓글