NL-062, The E2E NLG Challenge: A Tale of Two Systems (2018-INLG)

■ Comment

이 논문에서는 두 개의 방법론을 제시한다. (template, seq2seq)
template는 당연히 학습 방법이 아니고 적절한 template을 선택해서 거기에 맞게 slot을 채워서 문장을 생성해내는 룰 베이스 방식이다.

테스트세트 MR에서 적절한 템플릿을 뽑기 위해서 학습+dev 데이터세트에서 그 후보를 만들어 놓는 식이다.
근데 데이터가 MR에 있는 attributes가 꼭 ref 문장에 다 있지 않을 수도 있고 추가적인 attributes가 있나보다.
이런 데이터는 버린다.

성능은 당연히 seq2seq가 더 좋게 나왔고 이마저도 baseline보다 성능은 낮다.

특이한점은 여기서 seq2seq을 할 때, MR에서 attribute values을 그대로 사용하지 않고 placeholder으로 사용하고 나중에 value을 집어 넣는 식으로 사용한다고 한다.
이 placeholder로 대체하는 과정을 delexicalization이라고 하는 것!

0. Abstract

이 논문에서는 e2e dataset을 수행할 두 개의 모델을 소개한다.

TemplGen, a templated-based system
SeqGen, a neural network-based system

SeqGen이 TemplGen 보다 좋음을 보여주고 다른 시스템들에 비해서도 비교할만한 시스템임을 보여준다.

1. Introduction

(1) TemplGen, a template-based system that automatically mined templates and (Smiley et al., 2018)
(2) SeqGen, a neural network system based on the encoder-decoder architecture (Davoodi et al., 2018)
NLG 챌린지는 meaning representation (MR) 입력을 받고 자연어를 출력으로 한다.
기존에 존재하던 많은 NLG 시스템은 template-base인데, 이것이 생성 문장의 정확도와 문법을 컨트롤하기 쉽기 때문이다.
이 대회에서는 두 가지 접근법을 제시한다. (위에서 말한 것)
또한 seq2seq 뉴럴모델이 template-based 시스템보다 더 좋은 결과를 내는지 확인한다.

2. The E2E NLG Challenge

E2E 챌린지는 레스토랑 도메인이고 CrowdFlower을 통하여 크라우드소싱이 되었다.
The crowdsourced dataset consists of 50,602 instances derived from 5,751 unique MRs.
이전의 BAGEL (Mairesse et al., 2010) and SF Hotels/Restaurants (Wen et al., 2015)의 데이터세트보다 훨씬 크다.
데이터세트를 만들 때, 작업자는 주어진 MR을 기반으로 자연어를 만들게 된다.
그들은 information를 빠뜨려도 되고 그들이 유용한지 알아낼 필요가 없다.
각 MR은 3~8개의 attributes을 가지고 있다.

1) name, 2) eat type, 3) food, 4) price range, 5) customer rating, 6) area, 7) family friendly, and 8) near

인스턴스의 40%중에서 자연어는 omission 혹은 추가 정보를 포함한다.
이 데이터세트는 76.5/8.5/15 비율로 train, develop, test로 나뉜다.

3. Our Two Participating Systems

많은 NLG 시스템은 templates을 기반으로 하는데 이는 시스템을 쉽게 컨트롤하여 grammatical and semantic의 정확도를 보장할 수 있기 때문이다.
그러나 사용되는 templates의 다양성이 부족하여 이러한 시스템은 언어가 자연스럽고 지 않고 반복적이게 들릴 수 있다.
다른 타입의 NLG 시스템은 뉴럴 네트워크를 기반으로 한다.
이러한 시스템들은 좋은 결과를 보여주지만, 학습 데이터가 많이 필요하다.
게다가 뉴럴네트워크는 문법적으로 같은 문장들을 반복하여 생성할 수 있다.
즉 생성된 문장이 실제로 맞는다는 보장을 할 수 없다.

3.1 TemplGen : a Template-based System

먼저, attribute name의 MR에 있는 attribute value을 자동적으로 구분지었다. (parsing 했다는 의미인 듯)
attribute values들은 대체적으로 일관적이나 추가적인 적용범위를 위해 몇 가지 fuzzy 매칭 룰을 추가하여 Crwon vs Crowne와 같은 variants을 설명한다.
넓은 범위의 포텐셜의 실현이 가능한(e.g., positive: children are welcome, kid friendly, or negative: adult only, not for kids) family friendly을 제외한 모든 attributes에 대해 수행했다.
그래서 우리는 binary로 yes/no 값을 attribte에 사용했다.
각각의 delexicalized 문장에서 우리는 MR에 있는 모든 attributes들이 delexicalization process 동안 캡쳐되었던 것인지 확인한다.
MR에 있는 attributes의 수와 성공적으로 delexicalized된 수와 차이가 있다면 그 instance는 버린다.
토탈, 45%의 학습 문장을 러프하게 버린다.

이는 omission 혹은 additions을 포함하는 데이터안의 인스턴스의 40%보다 약간 많다.

We then use the delexicalized templates to create a dictionary look-up of the MRs.
템플릿이 있고, 우리는 다양한 문장과 문장 바운더리에 따라 나뉜 템플릿을 식별한다.
독자적인 문장은 템플릿에서 reverse 엔지니어링된 partial 템플릿을 저장한다.
Table 1은 기존 템플릿을 설명하고 이는 2개의 문장을 포함하고 여기서 각 하나의 문장에 맞는 partial 템플릿을 추출한다.
이러한 프로세스를 통해서 우리는 8개의 attributes을 각각 포함하고 2~8개의 조합으로 이루어진 템플릿을 수집한다.
각 attribute에 맞는 독단적인 템플릿을 추출함으로써 우리는 어떠한 attribute의 조합도 커버할 수 있다고 개런티한다.

하지만 생성하는 8개의 분리된 문장이 자연스럽진 않을 수는 있다.

테스트할 때는, 보지 못한 attributes으로 구성된 MR이 주어진다.
우리는 MR의 attributes을 다뤄서 안맞는 템플릿을 선택하는 알고리즘을 사용하여 템플릿에 filling을 하는 식으로 한다.
즉 학습 데이터를 사용하여 여러 상황에 대한 템플릿 셋을 구축해놓고 테스트할 때는 샘플에 대해 이 셋에서 가장 적절한 것들을 선택하여 filling하는 식의 방법인 듯
후보 세트의 템플릿들은 현재 MR로 재구성된다.
VADER의 NLTK1을 이용한 기본적인 sentiment 분석을 통하여 후보들을 필터링한다.

sentiment가 일치하지 않으면 삭제한다. (e.g., great restaurant described as having low rating).

이것을 결정하기 위해, positive, negative 양쪽에 중립적이지 않는 스코어를 가지는 문장들이 있지만, reversal을 가리키는 단어가 없는 것을 찾는다. (무슨말이지?)
최종 출력은 후보자 탬플릿에서 랜덤으로 선택된다.

3.2 The sequence-to-sequence system

이 논문의 시스템은 3가지 구성 요소가 있다.

Delexicalization
Seq-toSeq model
Relexicalization

Delexicalization

NLG에서 하나의 챌린지는 semantically, grammatically하게 정확한 text을 생성하는 것이다.
이런 조건을 만족하는 seq2seq 모델을 위해서는 병렬 코퍼스가 많이 필요하다.
하지만. E2E 데이터의 속성들 사이에서 많은 non-categorical attributes들이 sparse하기 때문에 학습 과정을 어렵게 한다.
따라서 MR을 기반으로 정확한 문장을 생성하기 위해서 we delexicalized the values of some of the attributes to avoid data sparsity (Mairesse et al., 2010; Wen et al., 2015).
delexicalization 과정은 attributes의 값을 placeholders으로 바꾼다.
E2E attributes 사이에서 우리는 attributes의 값을 delexicalize 하여서 values의 open set의 value form으로 바꾼다.
These include name, price range, customer rating and near.
대체할 때 MR 부분과 대응되는 자연어 문장모두 delexicalize한 것이다.
price range와 customer rating에 해당하는 delexicalizing 은 다른 것보다 좀 더 여운 부분이다.

왜냐하면 이 두 속성들은 MR과 자연어 문장에서 좀 더 많은 value variation을 가지기 때문이다.

그래서 학습 task는 MR template와 NL template 사이를 학습하는 것이다.
delexicalized MR은 seq2seq 모델의 입력으로 사용되고 delexicalized 자연어가 모델의 타겟 출력이 된다.

Seq-to-Seq Model

NMT에서 많이 사용되는 모델이고 입력 문장은 먼저 encoder을 통과하고 그 뒤에 decoder을 통하여 생성이 되는 모델이다.
이 챌린지에서는, 번역 문제를 고려하여 SoTA NMT 모델을 사용한다.

Relexicalization

마지막 스텝에서는 자동적으로 placeholders가 delexicalized 문장에서 생성이 된다.
placeholders은 actual values으로 바뀌어야 한다.
그래서 development set의 학습에서는 attributes의 values을 유지하고 이 값을 기존 문장에서 이 값들로 placeholder을 relexicalized (재구성) 하였다.
test sets에서의 MR과 일치하는 경우가 없을 때 기존 MR에서 나타난 placeholders의 value을 사용하였다.
이것은 아마도 퀄리티와 자연성에서 부정적인 영향을 미쳤을 것이다.

4 Results and Discussion

4.1 Results

E2E의 평가는 automatic metrics와 human scoring을 통하여 수행된다.
이것들 결과는 table 4에 있고 section 4.2, 4.3에서 automatic, huam 점수 매기는 법에 대해 설명한다.

4.2 Automatic Scoring

Table 4는 베이스라인 시스템과 비교하여 우리의 시스템을 보여주는 결과이다.
시스템은 BLEU, NIST, METEOR, ROUGE_L, CIDer로 평가가 된다.
첫 번째 칼럼은 베이스라인 시스템이고 attention과 함께 seq2seq model이다.
다른 두 개의 칼럼은 우리의 시스템의 automatic scores으로 TemplGen은 training과 development을 기반으로 구성되어있고 SeqGen은 seq2seq with beam search (size: 5 ) decoder이다.
우리는 다양한 beam size을 가지는 beam search decoder을 시도했고 size가 5인 decoder가 가장 좋은 결과를 보여줌을 발견했다.
automatic metrics 중에서 우리의 시스템들은 어떤 것도 베이스라인보다 좋지는 않다.
하지만 SeqGen 시스템은 TemplGen보다 성능이 좋으며, 베이스라인 시스템과 비슷한 성능을 보여준다.

4.3 Human Evaluation

5명의 사람이 생성 문장에 대해 평가를 한다.
quality and naturalness에 대해 생성 순위를 매긴다.
그들은 grammatical correctness, fluency, adequacy 등을 기반으로 랭크를 매긴다.
Raters were not given the MR for the naturalness evaluation.
Thus, this metric does not take into account faithfulness to the MR.
For quality, TemplGen out scored SeqGen ranking 3rd and 4th, respectively, out of 5 clusters of systems.
The results are reversed for naturalness, with SeqGen performing better than TemplGen ranking 3rd and 5th, respectively, out of 5 clusters.
Systems within each cluster are considered statistically indistinguishable.

4.4 Discussion

여기서는 문법과 같은 faithfulness 의 metric이 평가하는데 가장 중요한다고 한다.
Because a variety of features are encompassed within the metric of quality (e.g., fluency and adequacy), it is difficult to determine where our algorithm succeeds and fails.
그래서 이를 결정하기 위해 이 논문에서 제공한 두 가지 모델의 25 문장들을 뽑아서 살펴본다.
또한 SeqGen은 end-to-end 방법이고 한계가 없다.
첫 번쨰로 우리는 decoder을 컨트롤 하지 않고 MR에서 나타내는 모든 속성을 생성할 수 있다.
그래서 모델은 all the attributes or generating extra attributes에 고통받을 필요가 없다.
In both cases, the relexicalization component either cannot relexicalize all the placeholders or there are extra placeholders that cannot be relexicalized.
Table 5의 첫 번째 행은 SeqGen의 예시이며 MR에 있는 모든 attributes에 일치하는 문장을 생성하지 않는다.
SeqGen 모델에서 생성되는 문장의 다른 이슈는 문법적인 정확도의 퀄리티와 관련되어 있다.
이 이슈는 delexicalization 때문이다.
Table 5의 2번째 행은 문법적으로 틀리다.
In this example, the issue is caused by less than £20ly priced.
TemplGen에서는 전체적으로 automatic metrics에서 좋은 성능을 내지 못한다.
이것은 TemplGen이 특별히 이러한 automatic metrics을 위해 최적화 하지 않았기 때문이다.
반면에, TemplGen 모델로 생성된 모든 문장 분석은 다음을 보여준다.

생성 문장이 MR의 모든 속성을 포함하고 하나는 추가 정보를 포함한다는 것을 보여줍니다.

그러나 우리는 fluency와 같은 몇 가지 이슈가 퀄리티 점수를 낮춘다는 것을 발견했다.
생성의 suboptimal은 아마 fluent가 낮다.

왜냐하면 MR을 만족하는 attributes의 일부분을 랜덤으로 선택하는 전략이기 때문에 다양한 문장으로 구성되어 있다.
즉 TemplGen에서 적절한 후보가 너무 많다보니 랜덤으로 선택하면 성능이 안좋아질 수 밖에 없다.

더 많은 attributes을 포함하는 파티션의 우선 순위를 지정하는 것은 간단한 해결책일 수 있다.
최종적으로 다른 생성은 disfluent처럼 보인다.

왜냐하면 template의 부분 선택 처럼 단어 선택 이슈가 있기 때문이다.
table 5의 마지막 행이 이 묹제라고 함.

future work에서는 decoder가 반복적인 tokens을 (placeholders을 포함한) 생성하지 못하도록 제한을 걸 것이다.
We also plan to use the released data set for generating semantically similar sentences for the meaning representations

5 Conclusions

In this paper, we described our two systems for the 2017 E2E challenge: a rule-based system and a sequence-to-sequence neural network system.
룰 베이스 시스템은 automatic 점수에서 높지는 않지만, MR에 충실한 문장을 생성해낸다.
반면에 seq2seq은 다른 시스템들과 비교할만한 성능을 낸다.

Reference

https://www.aclweb.org/anthology/W18-6558.pdf

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-062, The E2E NLG Challenge: A Tale of Two Systems (2018-INLG)

■ Comment

0. Abstract

1. Introduction

2. The E2E NLG Challenge

3. Our Two Participating Systems

3.1 TemplGen : a Template-based System

3.2 The sequence-to-sequence system

4 Results and Discussion

4.1 Results

4.2 Automatic Scoring

4.3 Human Evaluation

4.4 Discussion

5 Conclusions

댓글

댓글 쓰기