NL-027, Neural Text Generation: Past, Present and Beyond (2018-Arxiv)

이 논문은 NLG의 전반적인 딥러닝 방법을 다룬 논문이다. 2018년 3월에 나온 것이기 때문에 그 뒤에 나온 논문은 당연히 다루고 있지 않다. 그 전까지 흐름을 대략적으로 보고 그 뒤 NLG 관련 논문을 업데이트 할 예정..


0. Abstract

  • 대표적으로 text generation에는 3가지 방법이 있다.
    1. Reinforcement learning
    2. Re-parametrization trick
    3. Generative adversarial nets (GAN) techniques
  • 이 방법들은 RNNLM을 이용한 generation에서 나눌 수 있는 방법이고 뒤에 other method(Seq2Seq와 같은)에 대해서도 언급한다.
  • 여기서는 이러한 모델들을 비교해보고 대표적인 문제인 gradient vanishing과 generation diversity에 대해 다룬다.
  • 그리고 대표적인 benchmarking experiment를 하는 두 가지 dataset이 있는데 그것으로 비교해본다.
    • NLG는 이것으로 비교를 하면 되나봄.

1. Introduction

  • NLG는 다음과 같은 task 등에 쓰인다.
  • NLG는 일반적으로 다음과 같은 어려움이 있다.
    • Input과 output 간의 information imbalance
    • 특히, non-text (특수 기호들, 숫자들)에 대해서는 더욱 심할 듯
  • NTG(natural text generation)을 할 때 다음과 같은 문제점이 있다.
    • Natural language의 문법적 복잡성
      • 이를 해결하기 위해 문접적 문제를 knowledge-based system으로 해결하였었다.(2000년 논문)
      • 이는 사람의 노력이 너무 많이 들지만, 상업적으로 널리 쓰이고 있는 상태
    • 입력 정보의 extraction, simplification and transformation of the input information
      • 이는 근데 지금은 BERT, MT-DNN으로 해결할 수 있지 않을까 함.
  • Generation의 시초는 NNLM인가 보다.
    • CBoW, Skip-gram 논문에서 나왔던 것을 참고하면 될 듯
  • 하지만 이런 방법은 N-gram의 문제로 long-term이 존재하여 RNNLM이 2010년에 나왔고 많은 연구가 이 쪽 방향으로 진행되어 왔음.
    • Markov property
  • RNN의 변형인 LSTM/GRU로 많이 연구되어 왔고 long-term은 해결하였으나(사실 이것도 완벽히 해결 되었는지는 의문임..) exposure bias라는 문제가 있다.
    • 이 문제는, observed data의 분포에 fitting되어서 의미없는 문장들을 발생시킨다는 것이다.(overfitting 같은 개념인 듯)
    • 따라서 이를 해결하는 방법들이 생겨남.
    • 그렇게 해서 생겨난 것이 위에서 언급한 대표적인 방법이다.
    1. Reinforcement learning
    2. Generative adversarial nets
    3. End-to-end re-parameterization
  • 이러한 방법들에는 공통적인 문제가 있다.
    1. Gradient vanishing
    2. Generation diversity
  • 이러한 방법외에도 Seq2Seq을 이용한 다른 방법도 있긴하나 RL/GAN을 기반으로 한 방법 위주로 소개를 한 논문이다.

2. On Training Paradigms of RNNLMs

RNNLM에 대표적으로 3개가 있다.
  • Supervised learning (=MLE?)
  • RL
  • GAN
  • + re-parameterization?

2.1 NTG with Supervised Learning

  • 기본적으로 text generation은 unsupervised learning task이다.
  • 하지만 some constraint을 이용하여 supervised metric을 사용한다면, 좋은 예측 결과를 낼 수 있다.
  • Maximum Likelihood Estimation
    • MLE라고 말하는 것은 RNNLMs의 완전 기본이다.(일반적인 LM 구조)
    • 위와 같은 식을 따른다. 즉 LM 식으로 하겠다는 것임.
    • $$s_t=[x_0, x_1, \cdots, x_{n-1}]$$
    • S0은 empty string이다.
    • MLE는 수렴이 다른 알고리즘들에 비해 잘 되는 편이라고 함.
    • 그러나 exposure bias 문제가 발생한다. (설명은 background SS등 참조)
  • Scheduled Sampling
    • Background 참고

2.2 NTG with Reinforcement Learning

  • RNNLM은 MDP로 볼 수 있기 때문에 RL로 풀어보자.
  • PG-BLEU
    • RL policy-gradient 알고리즘 REINFORCEMENT을 이용하여 non-differentiable metrics을 해결할 수 있다.
    • 기본 방법은 BLEU을 최적화하는 방법으로 n-gram LM 모델이 있다.
    • 더 나아가 PG-BLEU 방법이 있다.
    • (4)와 같은 objective function을 가지고 있으며, 이를 minimize을 한다.
    • MLE와 다른 부분은 R이라는 reward를 가지고 있으며 PG-BLEU에서 R은 다음과 같이 정의한다.
    • 하지만 이 방법은 두 가지 단점이 있다.
      1. BLEU가 cheap metric이 아니라 유용하지 않다.
      2. BLEU는 generated text와 reference text의 관계를 나타내는데 좋은 emtric이 아니다.
    • 그래서 요즘에는 많이 쓰이지는 않은 것 같다.
  • Rethinking about MLE
    • RL 관점에서 보자면 MLE는 off-policy를 모방한 것이다.
      • 생각해보면 reward가 1인 것과 마찬가지이므로 ground truth를 보여줘서 학습하는 off-policy라고 볼 수 있는 것 같다.
    • 따라서 PF-BLEU애서 MLE로 pre-training하는 것을 포함한다고 한다.

2.3 Better NTG with Adversarial Training

  • Professor Forcing: Adversarial Training as Regularization
  • Sequence Generative Adversarial Network: Adversarial Reinforcement Learning
    • SeqGAN 설명
  • Further Discussion about SeqGAN
    • SeqGAN이 real environment에서 잘 작동안해서 이를 해결하려고 Wasserstein GAN과 improved variants 방법이 난옴
  • On Alleviation of Vanishing Gradient
    • 이 문제를 해결하기 위해 MaliGAN이 등장 (rescale score으로써 해결)
    • RankGAN은 다른 방법으로 해결함. (binary classification score with ranking score)
    • SeqGAN에서 BRA의 아이디어가 추가된 방법또한 존재하고 LeakGAN도 이러한 종류인가 봄
  • On the Enhancement of Diversity
    • 문장이 길게 생성하면 mode collapse 문제가 SeqGAN에서 발생
    • LeakGAN이 이것을 해결함.
    • diversity-promoting GAN도 하나의 방법
  • Re-parametrization
  • Other Methods
    • Seq2Seq의 방법으로 MaskGAN이 등장함(가장 최신..이게 대센가?).

2.4 On the Limitation of RNNLMs and Beyond

  • RNN의 general 능력에 의존해야 하지만 크게 믿을만 하지 못하다..

3. Empirical Study

  • 생략

4. Conclusion

  • Supervised with MLE objective는 exposure bias문제가 존재한다.
  • RL/adversarial training 또한 단점이 있는데.. gradient vanishing과 mode collapse problems이다.
  • 따라서 이러한 문제를 해결하려는 많은 시도가 있었다.

Reference

댓글