깊은 네트워크는 도메인에 따라 성능이 달라지는데 vanishing/exploding gradient으로부터 고통을 받는다.
특별히 Transformer 구조는 12 layers을 가지고 있어서 많은 데이터세트와 계산가능한 하드웨어 적인 것이 없으면 학습하기 어렵다.
논문에서 비효율적인 신호전파가 네트워크의 학습을 방해한다는 것을 알아냈다.
Transformers은 multi-head self-attention이 poor 신호전파의 중요 요인이다.
깊은 신호전파를 위하여 여기서 ReZero을 제시하고 이는 간단히 구조를 바꾸는 방법이다.
initializes an arbitrary layer as the identity map, using a single additional learned
parameter per layer.
이렇게 ReZero-Transformers 네워크는 100개가 넘는 layers을 가져도 학습이 쉽다고 한다.
실제로 12 layers의 Transformer에 ReZero을 적용하면 enwiki8에서 56% 빠르게 학습이 된다.
ReZero는 다른 residual 네트워크들에 적용이 가능하고 ResNet-56에 적용했을때 CIFAR 10 로 학습할 시 43% 빠르게 수렴한다.
The idea is simple: ReZero initializes each layer to perform
the identity operation.
For each layer, we introduce a residual connection
for the input signal x and one trainable parameter α that modulates the
non-trivial transformation of the layer F(x),
Rather than propagating the signal through each of the non-trivial functions F[Wi
] at
initialization, we add a skip connection and rescale the function by L learnable parameters αi (which
we call residual weights) that are initialized to zero. The signal now propagates according to
댓글
댓글 쓰기