NL-027, Neural Text Generation: Past, Present and Beyond (2018-Arxiv)

NL-027, Neural Text Generation: Past, Present and Beyond (2018-Arxiv)

이 논문은 NLG의 전반적인 딥러닝 방법을 다룬 논문이다. 2018년 3월에 나온 것이기 때문에 그 뒤에 나온 논문은 당연히 다루고 있지 않다. 그 전까지 흐름을 대략적으로 보고 그 뒤 NLG 관련 논문을 업데이트 할 예정..

0. Abstract

대표적으로 text generation에는 3가지 방법이 있다.

Reinforcement learning
Re-parametrization trick
Generative adversarial nets (GAN) techniques

이 방법들은 RNNLM을 이용한 generation에서 나눌 수 있는 방법이고 뒤에 other method(Seq2Seq와 같은)에 대해서도 언급한다.
여기서는 이러한 모델들을 비교해보고 대표적인 문제인 gradient vanishing과 generation diversity에 대해 다룬다.
그리고 대표적인 benchmarking experiment를 하는 두 가지 dataset이 있는데 그것으로 비교해본다.

NLG는 이것으로 비교를 하면 되나봄.

1. Introduction

NLG는 다음과 같은 task 등에 쓰인다.

Control-free sentence
Poem generation
Input-conditioned text generation (Image captioning 같은 것)
Sentiment/tense controlled sentence generation

NLG는 일반적으로 다음과 같은 어려움이 있다.

Input과 output 간의 information imbalance
특히, non-text (특수 기호들, 숫자들)에 대해서는 더욱 심할 듯

NTG(natural text generation)을 할 때 다음과 같은 문제점이 있다.

Natural language의 문법적 복잡성

이를 해결하기 위해 문접적 문제를 knowledge-based system으로 해결하였었다.(2000년 논문)
이는 사람의 노력이 너무 많이 들지만, 상업적으로 널리 쓰이고 있는 상태

입력 정보의 extraction, simplification and transformation of the input information

이는 근데 지금은 BERT, MT-DNN으로 해결할 수 있지 않을까 함.

Generation의 시초는 NNLM인가 보다.

CBoW, Skip-gram 논문에서 나왔던 것을 참고하면 될 듯

하지만 이런 방법은 N-gram의 문제로 long-term이 존재하여 RNNLM이 2010년에 나왔고 많은 연구가 이 쪽 방향으로 진행되어 왔음.

Markov property

RNN의 변형인 LSTM/GRU로 많이 연구되어 왔고 long-term은 해결하였으나(사실 이것도 완벽히 해결 되었는지는 의문임..) exposure bias라는 문제가 있다.

이 문제는, observed data의 분포에 fitting되어서 의미없는 문장들을 발생시킨다는 것이다.(overfitting 같은 개념인 듯)
따라서 이를 해결하는 방법들이 생겨남.
그렇게 해서 생겨난 것이 위에서 언급한 대표적인 방법이다.

Reinforcement learning
Generative adversarial nets
End-to-end re-parameterization

이러한 방법들에는 공통적인 문제가 있다.

Gradient vanishing
Generation diversity

이러한 방법외에도 Seq2Seq을 이용한 다른 방법도 있긴하나 RL/GAN을 기반으로 한 방법 위주로 소개를 한 논문이다.

2. On Training Paradigms of RNNLMs

RNNLM에 대표적으로 3개가 있다.

Supervised learning (=MLE?)
RL
GAN
+ re-parameterization?

2.1 NTG with Supervised Learning

기본적으로 text generation은 unsupervised learning task이다.
하지만 some constraint을 이용하여 supervised metric을 사용한다면, 좋은 예측 결과를 낼 수 있다.
Maximum Likelihood Estimation

MLE라고 말하는 것은 RNNLMs의 완전 기본이다.(일반적인 LM 구조)
위와 같은 식을 따른다. 즉 LM 식으로 하겠다는 것임.
$$s_t=[x_0, x_1, \cdots, x_{n-1}]$$
S0은 empty string이다.
MLE는 수렴이 다른 알고리즘들에 비해 잘 되는 편이라고 함.
그러나 exposure bias 문제가 발생한다. (설명은 background SS등 참조)

Scheduled Sampling

Background 참고

2.2 NTG with Reinforcement Learning

RNNLM은 MDP로 볼 수 있기 때문에 RL로 풀어보자.
PG-BLEU

RL policy-gradient 알고리즘 REINFORCEMENT을 이용하여 non-differentiable metrics을 해결할 수 있다.
기본 방법은 BLEU을 최적화하는 방법으로 n-gram LM 모델이 있다.
더 나아가 PG-BLEU 방법이 있다.
(4)와 같은 objective function을 가지고 있으며, 이를 minimize을 한다.
MLE와 다른 부분은 R이라는 reward를 가지고 있으며 PG-BLEU에서 R은 다음과 같이 정의한다.
하지만 이 방법은 두 가지 단점이 있다.

BLEU가 cheap metric이 아니라 유용하지 않다.
BLEU는 generated text와 reference text의 관계를 나타내는데 좋은 emtric이 아니다.

그래서 요즘에는 많이 쓰이지는 않은 것 같다.

Rethinking about MLE

RL 관점에서 보자면 MLE는 off-policy를 모방한 것이다.

생각해보면 reward가 1인 것과 마찬가지이므로 ground truth를 보여줘서 학습하는 off-policy라고 볼 수 있는 것 같다.

따라서 PF-BLEU애서 MLE로 pre-training하는 것을 포함한다고 한다.

2.3 Better NTG with Adversarial Training

Professor Forcing: Adversarial Training as Regularization
Sequence Generative Adversarial Network: Adversarial Reinforcement Learning

SeqGAN 설명

Further Discussion about SeqGAN

SeqGAN이 real environment에서 잘 작동안해서 이를 해결하려고 Wasserstein GAN과 improved variants 방법이 난옴

On Alleviation of Vanishing Gradient

이 문제를 해결하기 위해 MaliGAN이 등장 (rescale score으로써 해결)
RankGAN은 다른 방법으로 해결함. (binary classification score with ranking score)
SeqGAN에서 BRA의 아이디어가 추가된 방법또한 존재하고 LeakGAN도 이러한 종류인가 봄

On the Enhancement of Diversity

문장이 길게 생성하면 mode collapse 문제가 SeqGAN에서 발생
LeakGAN이 이것을 해결함.
diversity-promoting GAN도 하나의 방법

Re-parametrization
Other Methods

Seq2Seq의 방법으로 MaskGAN이 등장함(가장 최신..이게 대센가?).

2.4 On the Limitation of RNNLMs and Beyond

RNN의 general 능력에 의존해야 하지만 크게 믿을만 하지 못하다..

3. Empirical Study

생략

4. Conclusion

Supervised with MLE objective는 exposure bias문제가 존재한다.
RL/adversarial training 또한 단점이 있는데.. gradient vanishing과 mode collapse problems이다.
따라서 이러한 문제를 해결하려는 많은 시도가 있었다.

Reference

논문: https://arxiv.org/pdf/1803.07133.pdf

댓글