Trend-003, UniLMv2: Pseudo-Masked Language Models for Unified Language Model Pre-Training (2020.02.28-Arxiv)

Hangbo Bao, Li Dong, Furu Wei, Wenhui Wang, Nan Yang, Xiaodong Liu, Yu Wang, Songhao Piao, Jianfeng Gao, Ming Zhou, Hsiao-Wuen Hon
Microsoft Research

입력 text가 [MASK]와 함께 주어지면 conventional mask 토큰과 주변 context와 상호 관계를 배워 autoencoding을 하게 된다.
그리고 partially autoregressive modeling을 통하여 masked spans 사이의 intra-relation을 pseudo mask가 배운다.

잘 디자인된 position embedding과 self-attention mask을 사용하면 context encodings은 불필요한 계산을 줄일 수 있다.
Conventional mask는 autoencoding에 global masking 정보를 제공하여 모든 position embeddings이 partially autoregressive LM에 접근할 수 있게 한다.
bidirectional encoder과 seq2seq decoder을 각각 unified LM을 pre-train하는 two task가 있다.
PMLM은 많은 benchmarks에서 SoTA이다.
여기서 말하는 partially autoregressive은 다음의 그림을 참고하면 될 것 같다.
Abstract과 그림만 봐서는 정확히 pseudo masking의 원리는 알기 어렵지만, 새로운 masking 기법으로 성능을 높였다는 의미이다.
마치 XLNet에 permutation LM의 느낌과 비슷한 느낌아닐까 싶다.
단지 여기서는 새롭게 제시한 pseudo masking만을 쓴 것이 아니라 AE도 같이 학습해 주었다.

AI Information