NL-027, Neural Text Generation: Past, Present and Beyond (2018-Arxiv)
이 논문은 NLG의 전반적인 딥러닝 방법을 다룬 논문이다. 2018년 3월에 나온 것이기 때문에 그 뒤에 나온 논문은 당연히 다루고 있지 않다. 그 전까지 흐름을 대략적으로 보고 그 뒤 NLG 관련 논문을 업데이트 할 예정..
0. Abstract
- 대표적으로 text generation에는 3가지 방법이 있다.
- Reinforcement learning
- Re-parametrization trick
- Generative adversarial nets (GAN) techniques
- 이 방법들은 RNNLM을 이용한 generation에서 나눌 수 있는 방법이고 뒤에 other method(Seq2Seq와 같은)에 대해서도 언급한다.
- 여기서는 이러한 모델들을 비교해보고 대표적인 문제인 gradient vanishing과 generation diversity에 대해 다룬다.
- 그리고 대표적인 benchmarking experiment를 하는 두 가지 dataset이 있는데 그것으로 비교해본다.
- NLG는 이것으로 비교를 하면 되나봄.
1. Introduction
- NLG는 다음과 같은 task 등에 쓰인다.
- Control-free sentence
- Poem generation
- Input-conditioned text generation (Image captioning 같은 것)
- Sentiment/tense controlled sentence generation
- NLG는 일반적으로 다음과 같은 어려움이 있다.
- Input과 output 간의 information imbalance
- 특히, non-text (특수 기호들, 숫자들)에 대해서는 더욱 심할 듯
- NTG(natural text generation)을 할 때 다음과 같은 문제점이 있다.
- Natural language의 문법적 복잡성
- 이를 해결하기 위해 문접적 문제를 knowledge-based system으로 해결하였었다.(2000년 논문)
- 이는 사람의 노력이 너무 많이 들지만, 상업적으로 널리 쓰이고 있는 상태
- 입력 정보의 extraction, simplification and transformation of the input information
- 이는 근데 지금은 BERT, MT-DNN으로 해결할 수 있지 않을까 함.
- Generation의 시초는 NNLM인가 보다.
- CBoW, Skip-gram 논문에서 나왔던 것을 참고하면 될 듯
- 하지만 이런 방법은 N-gram의 문제로 long-term이 존재하여 RNNLM이 2010년에 나왔고 많은 연구가 이 쪽 방향으로 진행되어 왔음.
- Markov property
- RNN의 변형인 LSTM/GRU로 많이 연구되어 왔고 long-term은 해결하였으나(사실 이것도 완벽히 해결 되었는지는 의문임..) exposure bias라는 문제가 있다.
- 이 문제는, observed data의 분포에 fitting되어서 의미없는 문장들을 발생시킨다는 것이다.(overfitting 같은 개념인 듯)
- 따라서 이를 해결하는 방법들이 생겨남.
- 그렇게 해서 생겨난 것이 위에서 언급한 대표적인 방법이다.
- Reinforcement learning
- Generative adversarial nets
- End-to-end re-parameterization
- 이러한 방법들에는 공통적인 문제가 있다.
- Gradient vanishing
- Generation diversity
- 이러한 방법외에도 Seq2Seq을 이용한 다른 방법도 있긴하나 RL/GAN을 기반으로 한 방법 위주로 소개를 한 논문이다.
2. On Training Paradigms of RNNLMs
RNNLM에 대표적으로 3개가 있다.
- Supervised learning (=MLE?)
- RL
- GAN
- + re-parameterization?
2.1 NTG with Supervised Learning
- 기본적으로 text generation은 unsupervised learning task이다.
- 하지만 some constraint을 이용하여 supervised metric을 사용한다면, 좋은 예측 결과를 낼 수 있다.
- Maximum Likelihood Estimation
- MLE라고 말하는 것은 RNNLMs의 완전 기본이다.(일반적인 LM 구조)
- 위와 같은 식을 따른다. 즉 LM 식으로 하겠다는 것임.
- $$s_t=[x_0, x_1, \cdots, x_{n-1}]$$
- S0은 empty string이다.
- MLE는 수렴이 다른 알고리즘들에 비해 잘 되는 편이라고 함.
- 그러나 exposure bias 문제가 발생한다. (설명은 background SS등 참조)
- Scheduled Sampling
- Background 참고
2.2 NTG with Reinforcement Learning
- RNNLM은 MDP로 볼 수 있기 때문에 RL로 풀어보자.
- PG-BLEU
- RL policy-gradient 알고리즘 REINFORCEMENT을 이용하여 non-differentiable metrics을 해결할 수 있다.
- 기본 방법은 BLEU을 최적화하는 방법으로 n-gram LM 모델이 있다.
- 더 나아가 PG-BLEU 방법이 있다.
- (4)와 같은 objective function을 가지고 있으며, 이를 minimize을 한다.
- MLE와 다른 부분은 R이라는 reward를 가지고 있으며 PG-BLEU에서 R은 다음과 같이 정의한다.
- 하지만 이 방법은 두 가지 단점이 있다.
- BLEU가 cheap metric이 아니라 유용하지 않다.
- BLEU는 generated text와 reference text의 관계를 나타내는데 좋은 emtric이 아니다.
- 그래서 요즘에는 많이 쓰이지는 않은 것 같다.
- Rethinking about MLE
- RL 관점에서 보자면 MLE는 off-policy를 모방한 것이다.
- 생각해보면 reward가 1인 것과 마찬가지이므로 ground truth를 보여줘서 학습하는 off-policy라고 볼 수 있는 것 같다.
- 따라서 PF-BLEU애서 MLE로 pre-training하는 것을 포함한다고 한다.
2.3 Better NTG with Adversarial Training
- Professor Forcing: Adversarial Training as Regularization
- Sequence Generative Adversarial Network: Adversarial Reinforcement Learning
- SeqGAN 설명
- Further Discussion about SeqGAN
- SeqGAN이 real environment에서 잘 작동안해서 이를 해결하려고 Wasserstein GAN과 improved variants 방법이 난옴
- On Alleviation of Vanishing Gradient
- 이 문제를 해결하기 위해 MaliGAN이 등장 (rescale score으로써 해결)
- RankGAN은 다른 방법으로 해결함. (binary classification score with ranking score)
- SeqGAN에서 BRA의 아이디어가 추가된 방법또한 존재하고 LeakGAN도 이러한 종류인가 봄
- On the Enhancement of Diversity
- 문장이 길게 생성하면 mode collapse 문제가 SeqGAN에서 발생
- LeakGAN이 이것을 해결함.
- diversity-promoting GAN도 하나의 방법
- Re-parametrization
- Other Methods
- Seq2Seq의 방법으로 MaskGAN이 등장함(가장 최신..이게 대센가?).
2.4 On the Limitation of RNNLMs and Beyond
- RNN의 general 능력에 의존해야 하지만 크게 믿을만 하지 못하다..
3. Empirical Study
- 생략
4. Conclusion
- Supervised with MLE objective는 exposure bias문제가 존재한다.
- RL/adversarial training 또한 단점이 있는데.. gradient vanishing과 mode collapse problems이다.
- 따라서 이러한 문제를 해결하려는 많은 시도가 있었다.
Reference
댓글
댓글 쓰기