Trend-003, UniLMv2: Pseudo-Masked Language Models for Unified Language Model Pre-Training (2020.02.28-Arxiv)

■ 논문 정보

  • 링크: https://arxiv.org/pdf/2002.12804v1.pdf
  • 저자
    • Hangbo BaoLi DongFuru WeiWenhui WangNan YangXiaodong LiuYu WangSonghao PiaoJianfeng GaoMing ZhouHsiao-Wuen Hon 
    • Microsoft Research
  • 2020.02.28 아카이브 출시

■ 요약

  • 이 논문에서는 autoencoding과 부분적 autoregressive LM을 위해 unified pre-train을 한다.
    • 새로운 학습기법을 사용하고 이것을 pseudo-masked language model (PMLM)라고 한다.
  • 입력 text가 [MASK]와 함께 주어지면 conventional mask 토큰과 주변  context와 상호 관계를 배워 autoencoding을 하게 된다.
  • 그리고 partially autoregressive modeling을 통하여 masked spans 사이의 intra-relation을 pseudo mask가 배운다.
    • 정확히 어떤 말인지?
  • 잘 디자인된 position embedding과 self-attention mask을 사용하면 context encodings은 불필요한 계산을 줄일 수 있다.
  • Conventional mask는 autoencoding에 global masking 정보를 제공하여 모든 position embeddings이 partially autoregressive LM에 접근할 수 있게 한다.
  • bidirectional encoder과 seq2seq decoder을 각각 unified LM을 pre-train하는 two task가 있다.
  • PMLM은 많은 benchmarks에서 SoTA이다.
  • 여기서 말하는 partially autoregressive은 다음의 그림을 참고하면 될 것 같다.
  • Abstract과 그림만 봐서는 정확히 pseudo masking의 원리는 알기 어렵지만, 새로운 masking 기법으로 성능을 높였다는 의미이다.
  • 마치 XLNet에 permutation LM의 느낌과 비슷한 느낌아닐까 싶다. 
  • 단지 여기서는 새롭게 제시한 pseudo masking만을 쓴 것이 아니라 AE도 같이 학습해 주었다.

댓글