NL-064, Designing a Symbolic Intermediate Representation for Neural Surface Realization (2019-NAACL)

■ Comment

  • 여기서 가장 큰 포인트 원래 입력과 출력을 바로 매핑하는 것이 아니라 중간 단계의 symbolic intermediate representation을 거쳐가는 것이다.
  • 따라서 입력에서 intermediate을 거치고 intermediate에서 출력을 하도록 2개의 뉴럴 시스템 encoder-decoder가 있는 셈이다.
    • 앞 부분은 content selection이라고 하고 뒷 부분을 planning systems라고 본다.
    • surface realization은 representation에서 문장을 생성하는 것을 말하는거 같은데 일반 모델에서는 end-to-end이기 때문에 모델 전체를 말하는 것 같지만
    • 여기서는 모델을 분리했기 때문에 planning systems라고 보는게 맞는 것 같다.
  • 모델 자체는 크게 특이한 점은 없고 (기존의 것을 사용했고) 대신 추가적인 데이터를 사용하여 학습했다고 한다.
    • 데이터 자체에 대해서 자세한 부분은 안써있는 것 같지만, 어휘가 겹치도록 데이터를 구성하였다.
  • 아무튼 이렇게 두 개의 스테이지로 구분함으로써 모델들이 배워야 하는 난이도가 내려가기 때문에 성능이 좋아진다고 주장한다.

0. Abstract

  • 뉴럴 NLG 시스템으로부터 생성된 출력은 종종 hallucination, repetition or contradiction와 같은 에러를 담고 있다.
  • 이 연구는 symbolic intermediate representation을 디자인하여 multi-stage 뉴럴 생성을 하는데 사용하는데 집중한다.
    • 실패하는 출력의 빈도를 줄이는 의도이다.
  • 우리는 중간 representation의 surface realization이 고품질을 가지고 full system이 E2E 데이터세트에 적용될 때 이것은 E2E 챌린지의 winner보다 더 좋은 성능을 보여줌을 나타낸다.
  • 게다가 일반적인 end-to-end 뉴럴 시스템의 surface realization 스텝을 분리함으로써 우리는 non-neural content selection and planning systems의 프레임워크를 제공하여 잠재적으로 뉴럴 surface realization 모델들의 semi-supervised pretraining의 장점을 활용한다.

1 Introduction

  • NLG 시스템이 실제로 유용하게 사용되기 위하여 그들은 적절한 발화를 생성해야하고 이 발화는 모든 관련있는 정보를 포함해야한다.
  • 게다가 그 정보는 정확하고 유창하게 표현이 되어야 한다 마치 사람이 쓴 것처럼
  • 룰과 템플릿 기반의 시스템은 상업적 NLG 시스템에 기여하고 이들은 그들의 생성 능력에 한계가 있고 사람의 노력이 필요하다.
    • 그러나 이들은 안정적으로 믿을만하고 financial journalism과 business intelligence와 같은 영역들에서 넓게 사용된다.
  • 반대로 뉴럴 NLG은 잘 수집된 데이터세트를 필요로하여 이것으로 그들의 모델을 학습하고 유창한 담화를 생성한다.
    • 그러나 hallucination와 a general lack of adequacy와 같은 문제들이 있다.
  • 2018, 2018년 Alexa Prize에 모두 최종 시스템에 뉴럴 NLG는 없었다.
  • multi-stage 뉴럴 NLG 역역에서의 사전의 연구를 따라서 조금 더 전통적인 파이프라인 data-to-text 생성으로부터 영감을 받아 여기서는 end-to-end data-driven 뉴럴 모델을 symbolic intermediate representation을 사용하여 utterance planningsurface realization models로 분리한다. 
  • 우리는 특별히 surface realization에 집중하고 under specified universal dependency tree에 기반한 새로운 symbolic intermediate representation을 소개한다.
  • 우리의 intermediate representation 설계할 때 다음의 제약이 따른다.
    • 1. The intermediate representation must be suitable for processing with a neural system.
    • 2. It must not make the surface realization task too difficult because we are interested in understanding the limitations of neural generation even under favorable conditions.
    • 3. It must be possible to parse a sentence into this representation so that a surface realization training set can be easily augmented with additional in-domain data. (추가적인 in-domain 데이터로 학습 셋을 쉽게 증강스키기 위해)
  • E2E 데이터세트를 사용한 영어에 집중해서 우리는 reference 문장들을 논문의 intermediate representation으로 파싱을했다.
  • 우리는 이러한 representation으로부터 생성하도록 surface realization 모델을 학습해서 automatic과 manual evaluation을 이용하여 결과를 비교하였다.
  • 우리는 생성된 텍스트의 품질이 높고 BLEU 점수가 82.47이 된다.
  • TripAdvisor 코퍼스의 학습 데이터를 증강시키면 83.38으로 높아진다.
  • manual error 분석은 출력 문장들 중 매우 작은 비율로 (5%이하) reference의 의미는 완벽히 회복되지 않음을 보여준다.
  • 적절한 높은 레벨은 intermediate representation이 reference sentences으로 부터 직접적으로 생성되길 기대된다.
  • 적절한 문장의 샘플을 분석하면 가독성이 참조 문장과 동등하다는 것을 알 수 있습니다.
  • our intermediate representation으로부터 surface realization이 충분히 높은 성능을 달성함을 확인한 후, 파이프라인 시스템의 일부분의 효율성을 테스트한다.
  • E2E 테스크에서 우리의 시스템은 automated 결과가 챌린지의 winner보다 높다.
  • surface realization stage에서 추가적인 학습 데이터의 사용은 더 높은 gains을 얻을 수 있다.
  • 이러한 결과가 파이프라인이 뉴럴 NLG의 context에서 더 잘 작동하도록 제안한다.

2 Methods

  • 우리의 시스템은 두 가지 모델로 구성된다.
    • The first is an utterance planning model which takes as input some structured data and generates an intermediate representation of an utterance containing one or more sentences. (구조화된 입력 데이터를 받아서 하나 이상의 문장을 포함하는 담화의 intermediate representation을 생성한다.)
    • 담화의 각 문장의 intermediate representation은 두 번째 surface realization 모델로 전달되고 최종적인 자연어 문장을 생성한다.
  • 그림 1의 E2E 데이터세트의 예제가 있다.
  • 두 모델 모두 뉴럴 베이스이다.
  • 우리는 symbolic intermediate representation을 사용해서 두 모델들 사이에 정보를 전달한다.

2.1 Symbolic Intermediate Representation

  • symbolic intermediate representation은 deep Underspecified Universal Dependency (UUD) 구조에서 사용된다고 한다.
  • UUD 구조는 tree로써 “containing only content words linked by predicate-argument edges in the PropBank/NomBank fashion"
  • 각 UUD 구조는 single sentence을 표현한다.
  • UUD 구조는 “approximate the kind of abstract meaning representations used in native NLG tasks” 하도록 설계되었다.
  • 즉, 규칙 기반 시스템의 출력이 NLG 프로세스 파이프라인의 일부분이으로 합리적으로 생성할 것으로 예상된다.
  • 그러나 우리가 알기론, 어떠한 시스템도 아직은 deep UUD 구조를 출력으로 생성한 경우는 없다.
  • 그래서 preprocessing을 하는 동안 deep UUD 구조의 변화로 더 좋은 적절한 뉴럴시스템을 디자인하여 구조를 symbolic intermediate representation으로 사용해야한다.
    • 다시말해서, 우리는 UUD tree을 선형화하고 수반되는 token features을 삭제하고 각 token의 surface form을 사용한다. (그림 2처럼)
  • Linearization
    • seq2seq 모델에서 tree structure을 사용하기 위해서 tree에 있는 nodes의 linearization 순서는 반드시 정해져야한다.
    • tree nodes는 depth first search을 사용하여 순서가 매겨진다.
    • scopre markers은 각 childe node 이전에 추가된다.
    • 만약 node가 단 하나의 child node을 가지고 있다면 scope markers을 생략한다.
    • 이것은 애매할 수 있지만, seq의 길이를 크게 줄여준다.
    • 그림 2를 보면 트리에서 restaurant 밑에 3개의 노드가 있다.
    • 따라서 restaurant _(xname friendly located)_ 가 생성이 된다.
    • 근데 friendly는 단 한개의 child family가 있고 locate는 2개의 child가 있다.
    • 따라서 restaurant _(xname friendly family located _(riverside xnear)_)_ 로 symbolic intermediate representation이 되는 것으로 보여진다.
    • 근데 처음에 tree을 만들 때 node의 순서가 중요하기 때문에 이것은 in conllu format에 그려진 것처럼 한 것 같다. (여기서 Head가 의미하는 것이 상위 노드의 ID을 말하는 것)
    • 두 개의 nodes가 tree안에 같은 level로 나타날 때, linearization 순서가 일반적으로 무작위로 선택되거나 룰 베이스 휴리스틱한 또는 보조 모델을 사용하여 결정된다.
    • 이 시스템에서 같은 레벨 tokens의 linearization은 문장에서 나타난 그들의 기존 순서에 의해 결정된다.
    • 우리는 랜덤에 반대되는 동등한 level nodes의 순서가 일정한 것을 사용하였다.
      • symbolic intermediate representation은 많은 수의 논문에서 보여지고 뉴럴 모델이 랜덤 순서로 섞인 symbolic intermediate representation으로 학습될 때 성능이 나빠진다고 한다.
      • 랜덤성을 사용하여 데이터 사이즈가 증가해도 마찬가지이다.
    • 우리는 sibling nodes 순서를 기초로 토큰의 원래 문장 순서를 사용하기로 결정했습니다.
    • Though this is clearly a simplification, and gives the model additional information, it is an intuitive choice.
  • Features
    • deep UUD 구조의 tokens은 head id 말고도 각각의 많은 추가적인 features와 연관되어 있다.
      • dependency relations (DepRel), universal part-of-speech tag (UPOS) and lexical features (feats)
    • deep UUD 구조의 surface realization에 대한 다른 뉴럴 작업들은 factor methods 정보를 포함한다.
    • 그러나 우리의 symbolic intermediate representation은 이러한 추가 features을 포함하지 않는다. 
    • 각 토큰에 추가 기능을 포함시키지 않으면서 뉴럴 모델을 사용하여 symbolic intermediate representation을 생성하는 작업을 단순화합니다.
    • Dalvi et al.에서와 같이 멀티 태스킹 학습을 사용하여 토큰 기능을 생성 할 수 있지만 future work이다.
  • Lemmas vs. Forms 
    • Deep UUD 구조에서 제공되는 token은 토큰의 기존 form의 root인 lemma이다.
    • Part-of-speech(품사)와 lexical features(어휘 특징)은 surface realization 시스템이 form을 정하는 것이 가능하도록 제공된다.
    • symbolic intermediary representation에서 이러한 특징들을 포함하지 않음으로써 우리는 token의 기존 form을 사용한다.
    • 이것은 surface realization task의 다른 단순화이다.
    • lemma+PoS+lexical features가 전형적으로 original form을 재구성하는데 충분한 정보를 제공해줌을 알아내지만 이것은 100% 정확한 매핑을 하지는 않는다.

3 Experiments

  • Datasets
    • E2E 데이터세트는 42,061 쌍의 MR과 담화의 학습 데이터가 있다.
    • surface realization model을 위한 학습 데이터는 증강되었다.
      • TripAdvisor 코퍼스는 E2E 코퍼스와 100% 겹치는 어휘들로 구성되어있고 길이는 5~30 tokens이다.
      • 이것은 추가적으로 평균 10개 tokens을 가지는 209,823 문장이 추가되었다.
    • E2E 코퍼스는 문장길이가 1~59 tokens을 가지고 평균 13개의 tokens을 가지고 있다.
    • 두 코퍼라는 sentence tokenized와 Standford NLP universal dependency parser을 사용한다.
    • CoNLL_U format의 parsed된 문장은 special deep UUD parser에 의해 추가 프로세싱이된다.
    • E2E 코퍼스에 있는 담화는 delexicalised되어서 MR의 name과 near의 slot인 restaurant names을 익명화시킨다.
    • 모든 tokens은 학습전에 소문자화된다.
  • Models
    • 뉴럴 NLG 파이프라인 시스템을 위해 우리는 NMT 프레임워크 OpenNMT을 사용한 두 개의 encoder-decoder 모델로 분리하였다.
    • 우리는 surface realization과 content selection을 위한 두 개의 encoder-decoder 모델을 학습시켰다.
    • 그러나 두 개의 하이퍼파라미터는 동일하다.
    • single layer LSTM은 RNN size 450과 word vector size 300이 사용되었다.
    • The models were trained using ADAM (Kingma and Ba, 2015) with a learning rate of 0.001. 
    • 두 모델의 유일한 차이는 surface realization 모델은 copy attention mechanism으로 학습되었다.
    • 즉 두 개의 encoder-decoder 쌍의 모델이 있는데 하나는 content selection을 하는 것이다.
      • 이는 위에서 주구장창 설명한 그림 1에서의 중간층을 만드는 단계이다.
    • 하나는 surface realization으로 최종 출력을 중간층으로부터 생성하는 것이다.
    • full E2E 태스크를 위해 single planning model가 E2E 코퍼스로 훈련이 되었다.
    • 그러나 다른 두 개의 surface realization models들이 비교되었다.
      • one trained solely on sentences from the E2E corpus
      • another trained on a combined corpus of E2E and TripAdvisor sentences
    • full E2E 태스크의 베이스라인은 두 개의 encoder-decoder 모델과 비교를 한다.
      • 이 모델들은 둘 다 생성된 담화에 대해 semantic re-rankers을 사용한다.
      • TGen (Dusek and Jurcicek ˇ , 2016) the baseline system for the E2E challenge
      • Slug2Slug (Juraska et al., 2018) the winning system of the E2E challenge.
  • Automated Evaluation
    • E2E 태스크는 다음의 automated metrics을 통하여 평가된다.
      • BLEU (Papineni et al., 2002)
      • NIST (Doddington, 2002)
      • METEOR (Lavie and Agarwal, 2007)
      • ROUGE (Lin, 2004)
      • CIDEr (Vedantam et al., 2015).
    • 두 개의 surface realization models은 E2E validation set에서 파싱된 intermediate representations을 사용하여 얼마나 그들이 문장을 실제처럼 만드는지에 대해 평가한다.
    • We report BLEU-4 scores for the silver parse generated texts from the surface realization models. 
    • In both the E2E (Dusek et al. ˇ , 2019) and WebNLG challenge (Shimorina, 2018) it was found that automated results did not correlate with the human evaluation on the sentence level.
    • However in the Surface Realization shared task correlation between BLEU score and human evaluation was noted to be highly significant (Mille et al., 2018a).
  • Manual Analysis
    • NLG 시스템으로 생성된 텍스트의 품질을 더 정확히 이해하기 위해 human 평가를 사용하는 중요성은 과장될 수 없다.
    • 우리는 입력 담화의 파싱으로 surface realization model의 출력을 human evaluation하였다.
    • 우리는 meaning similarity을 의미하는 readability and fluency 관점에 대해 평가를 한다.
    • surface realization model을 평가하기 위해 생성된 담화와 human references을 비교한다.
    • 어떻게 평가하는지에 대한 설명 부분은 생략;;
      • For the meaning similarity human evaluation we remove sentences with no differences, only differences involving the presence or absence of hyphens or only capitalization differences.
      • We manually analyze failure cases where semantic similarity is not achieved to discover where the issues arise. 
      • We then pass on only those generated utterances deemed to have the same meaning with the reference utterance into the next stage of readability evaluation. 

4 Results

4.1 Surface Realization Analysis

  • Automated evaluation
  • Manual analysis
    •  
  • Analysis of failed meaning similarities

4.2 End-to-End Analysis

5 Related Work

  • 생략

6 Discussion

  • E2E 테스크에서 우리의 시스템의 automated 결과는 winning system보다 좋은 성능을 보여준다.
  • 이것은 full 뉴럴시스템을 utterance planning과 surface realization으로 분리하여 potential 이득을 보았다는 것을 보여준다.
  • 우리의 직관은 sentence planning과 surface realization의 semantic과 syntactic task로 loosely(느슨하게) 분리함으로써 우리의 모델이 single model보다 각각 구분된 task로 source와 target sequenece의 alignments을 배우기 쉽다는 것이다.
  • NMT에 사용되는 E2E 코퍼스가 상대적으로 작은 데이터세트이기 때문에 명확한alignments은 도움이 된다.
    • 즉, 이렇게 alignments을 두 stage로 쪼개는 것이 더 명확하기 때문에 성능이 좋아진다.
  • 생성된 담화의 fluency와 adequacy(적절성)에 대한 사람의 분석은 어떤 부분이 automated metrics이 향상되는 요인인지 결정할 수 있다.
  • 추가적인 학습 데이터가 쉽게 surface realization 모델을 위해 쉽게 수집되기 위해 symbolic intermediate representation의 디자인된다.
  • 실제로 우리는 E2E 테스크에서 E2E and TripAdvisor 코퍼스로 surface realization model을 학습하여 근소하게 좋은 결과를 보여준다.
    • Table 4을 보면 정말 근소하긴 함 
  • 이러한 접근법은 아마도 TripAdvisor 코퍼스를 자동으로 파싱한 추가적인 작은 문장들을 넘어서 스케일을 확장시킬 수 있다.
    • 즉 더 많은 데이터도 이렇게 수집할 수 있다는 말
  • E2E 챌린지에서 뉴럴 시스템이 높은 성능을 내기 위해서는 semantic reranker가 필수적이라고 한다. (Dusek et al. ˇ , 2019). 
  • semantic reranker을 우리의 시스템에 추가시킨다면, utterance planning step 성능을 향상시킬 수 있을 것으로 생각된다.
  • 우리는 intermediate representation을 단순화시켜서 만들었지만 lemmas을 포함하고 인접한 nodes의 정렬을 위해 기존의 문장 순서를 사용했지만 그들의 생성은 여전히 높은 수준의 모델을 수행해야 한다.
    • 즉 아무리 intermediate representation을 거쳐 2 stage을 만들어도 생성하는 것은 어렵다는 말
  • 규칙 기반의 담화 planning system과 같이 더 높은 레벨의 시스템보다 더 abstract intermediate representation을 선호할 수 있다.
  • 실제로 정보가 intermediate representation사이에 들어가는 trade off는 매우 중요한 요소이다.
  • 우리의 automated represenation을 사용한 surface realization model은 룰 베이스 시스템이 제공하는 입력과 같이 작동하도록 만들었다.
    • 즉 앞부분에 content selection부분은 룰베이스로도 할 수 있다는 말?

7 Conclusion

  • 우리는 뉴럴 NLG 시스템 파이프라인에 사용될 symbolic intermediate representation을 디자인 했다.
  • 우리는 이러한 representation으로부터 surface realization이 고품질이라는 것을 알아냈고 추가적인 데이터의 학습으로 성능을 향상시켰다.
  • full 파이프라인을 테스트할 때, 자동화된 결과는 이전의 top 뉴럴 시스템보다 성능이 좋고 일반적으로 end-to-end 뉴럴 시스템을 task-focused 모델들로 분리하는 것에 대한 가능성을 보여준다.
Reference

댓글

댓글 쓰기