Text Generation Evaluation 02

$\textrm{NLL}_{oracle}$ (negative log-likelihood with oracle)

$\textrm{NLL}_{oracle}$ 은 SeqGAN에서 소개가 되었다. (처음인지는 잘 모르겠지만, 애초에 SeqGAN이 의미있는 NTG 첫 논문이기는 함..)
이는 true data로 평가를 하는 것은 아니고 임의로 만든 데이터로 평가를 한다는 것이다.
왜냐하면 true data로 평가한다면, real senetence가 "나는 집에 가고 싶다"이고 generated sentence가 "나는 내 방에 가고 싶은 마음이 든다."라고 생각해보자.
그렇다면 generated sentence는 잘 생성된 것인가? 사실 의미는 유사하지만 앞서 포스팅한 BLEU와 같은 score을 이용하면 상당히 낮다.
지금까지도 generated sentence을 automatic evaluation 하는 데에는 이러한 어려운 점이 있겠지만, $\textrm{NLL}_{oracle}$ 은 이러한 문제점을 줄이고자 하는 것이다.
과정을 한 번 살펴보자.

true data는 아니지만, 학습 데이터를 임의로 생성한다.
여러 방법이 있을 수 있겠지만, SeqGAN에서는 랜덤 초기화를 한 RNNLM으로 무작위로 아무런 문장(실제로 문법도 틀리고 의미도 없는)을 만들어 낸다.
이 중 일부분을 학습데이터와 평가 데이터로 나눈다.
학습 데이터로 NLG 모델을 학습한다.
학습된 NLG 모델에 평가 데이터를 집어넣어 문장을 생성한다.
평가데이터와 생성데이터간의 NLL 값을 계산한다.