NL-067, ELECTRA : Pre-Training Text Encoders as Discriminators Rather than Generators (2020-ICLR)

  • BERT의 학습 방식을 지적하며 더 좋은 모델을 제시한 것이다.
  • 스탠포드와 구글에서 같이 낸 논문이며, 잘 정리된 링크를 참조하길 바란다!
    • 요즘 PLM 논문이 너무 많아 다 읽어보기는 힘들어서 정리된 것 만 보았다...ㅠㅠ
  • 밑에 설명에 몇자를 더 적어보자면
    • ELECTRA는 GAN과 달리 adversarial 학습을 하지 않는다고 하는데
    • 이게 힘든 이유를 생각해보면, Generator에서 토큰 생성을 해서 예측한 것은 실제 토큰들의 확률이다.
    • 이 예측 확률을 discriminator에 넣어주기 위해서는 어떤 token인지 argmax 시키는 discrete한 함수를 거쳐야 한다.
    • 따라서 여기서 미분이 안된다.
    • 즉 일반적 GAN처럼 G를 adversarial로 학습하려면 (고정시킨 파라미터의) discriminator의 토큰별 결과를 real/fake로 예측한 다음, 학습을 해야하는데 학습할 수 없다는 것이다.
  • 따라서 위의 이유 때문에, adversarial 학습은 하기 힘들다고 하는 것 같다.
    • 물론 이 부분은 일반적으로 생성에서 발생하는 문제기 때문에 여러 해결책의 연구가 있고 논문에는 다음과 같이 강화학습으로 학습했지만, 성능은 더 안좋았다고 한다.
    • Although we experimented circumventing this issue by using reinforcement learning to train the generator (see Appendix F), this performed worse than maximum-likelihood training. 
    • Lastly, we do not supply the generator with a noise vector as input, as is typical with a GAN.
  • 실제 여기서 학습은
    • G와 D를 각각 loss 식을 정의해서 학습하는 식이다.
    • 대신 G을 더 많이 학습시키는 것 같은데.. 이부분은 논문을 봐야할 듯

댓글