NL-061, Constrained Decoding for Neural NLG from Compositional Representations in Task-Oriented Dialogue (2019-ACL)

■ Comment

  • E2E 데이터세트는 flat MR이라 다음과 같은 문제가 있다.
    • 1) the correspondence of arguments to dialog acts
    • 2) what attributes to group and contrast
    • 3) semantic equivalence of arguments like date time1 and date time2.
  • 따라서 이를 structure MRs로 만드는 과정이 있고 E2E와 별개로 weather 도메인에서 새로운 데이터세트를 공개한다.
  • 어찌되었든 이러한 structured MRs에서 문장을 생성을 하는데 모델은 attention을 이용한 LSTM-based로 encoder와 decoder의 형태로 되어있다.

0. Abstract

  • task-oriented conversational systems에서  structured semantic representations에서 유창한 자연스러운 언어를 생성하는 것은 중요한 스텝이다.
  • E2E NLG Challenge에서 seq2seq으로 이 문제를 해결하려고 했다.
  • semantic representations은 사용되었고 이것이 모델이 문장을 생성하는데에 대한 조건이고 시스템의 생성응답이 제한이 된다.
  • 여기서 핵심은 다음의 4가지이다.
    • propose using tree-structured semantic representations
      • 전통적인 룰베이스 NLG 시스템과 같이 더 좋은 discourse-level 구조화와 문장 레벨 계획과 같은 것
    • introduce a challenging dataset using this representation for the weather domain
    • 시맨틱 정확성을 향상시키기 위해이 표현을 이용하는 Seq2Seq 모델에 대한constrained decoding 접근법을 도입한다.
    • demonstrate promising results on our dataset(날씨) and the E2E dataset
  • 즉 방법론은 룰 베이스와 같은 느낌인 tree-structured을 이용하여 seq2seq을 사용했다 이거인 듯?

1. Introduction

  • End-to-end로 neural NLG (NNLG)는 seq2seq으로 많은 발전이 있어왔다.
  • 최근 E2E NLG 챌린지 (Dusek et al., 2018, 2019)와 같은 방법으로 이러한 모델의 개발을 촉진하기 위해 대규모 데이터 세트를 사용할 수 있게 되었습니다.
  • 그럼에도 불구하고 아직 NNLG 모델 대부분이 real-world task-oriented dialogue systems에 적용하기 부적절한 것으로 남아있다.
    • 다음의 것을 할 능력이 없을 때 부적절하다는 것
    • reliably perform common sentence planning and discourse structuring operations (Reed et al., 2018)
    • generalize to complex inputs (Wiseman et al., 2017),
    • avoid generating texts with semantic errors including hallucinated content (Dusek et al. 2018, 2019)
  • 여기서는 입력을 뉴럴 생성기에 풍부하게 주며 discourse relation을 포함하도록 한다.
  • text을 생성할 때 이러한 relations을 control 하는 것이 중요하다고 강조한다.
    • 특별히 user 모델을 사용하여 응답을 구조화할 때 
  • 관련된 연구에서 Reed가 flat 입력 MR에 control tokens을 추가하여 (contrast와 sentence structure)  구조를 control 하는 것에 사용하는 것이 효과적임을 보여준다.
    • 하지만 그들의 방법은 그들의 구조를 세밀하게 컨트롤하지 않고서도 relations의 presence or absence을 컨트롤할 수 있다.
  • 따라서 우리는 그들의 접근법을 넘어서 전체 트리 구조를 입력으로 사용하고 트리 구조 출력을 생성 할 것을 제안합니다.
  • 이것은 decoding의 제한된 novel 방법을 정의하고 표준 seq2seq 모델로 생성을 한다.
  • 이것으로 생성된 text가 전통 접근법의 surface realization와 같이 specified content을 유지할 수 있다.
  • E2E 데이터세트에서 논문의 실험은 Reed 방법보다 훨씬 더 좋은 CONTRAST relation을 컨트롤할 수 있음을 증명한다.
  • 또한 standard baselines보다 diversity와 expressiveness의 성능 향상을 보여준다.
  • 또한 weather 도메인의 응답에 맞는 새로운 데이터세트를 release하고 이것은 JUSTIFY, JOIN, CONTRAST relation을 포함한다.
  • 이 두개의 데이터세트에서 논문의 풍부한 입렵을 사용한 constrained decoding이 higher semantic correctness as well as better generalizability and data efficiency을 보여준다.

2. Towards More Expressive Meaning Representations 

2.1. Limitations of Flat MRs

  • E2E 데이터세트에서 meaning representations (MRs)은 key-value 쌍의 flat 리스트이다.
  • 각 key는 slot name이고 value는 slot의 해당 값이다.
  • Wen 2015 연구에서는 MRs가 비슷한 구조를 가지고 있고 추가적으로 dialog act에 해당하는 정보를 가지고 있다.
    • dialog act는 REQUEST, INFORM, etc 등의 전달해야하는 정보라고 함.
  • 이러한 MRs는 기본적인 semantic information을 캡쳐하기 충분하지만, 담화적인 관계를 캡쳐하기는 어렵다.
    • 담화적인 관계란 CONTRAST와 같은 것을 말하고 이것은 전통 NLG에서 일관된 담화를 생성하는데 중심이 되는 것이다.
  • 테이블 1에 두 개의 reference가 flat MRs의 문제점을 보여주고 있다.
    • 즉 담화의 정보가 MR에 캡쳐가 되지 않는다.
    • 여기서 담화의 정보란 두 개의 속성들이 contrasted (혹은 justify a recommendation)가 되어야 하는지를 의미한다.
    • 쉽게 말해서 생성될 정답 문장이 여러 개일 수 있다는 것이다.
  • 이것은 dual challenge 문제이다.
  • 첫째로 MR은 discourse relation을 구체화 하지 않는다.
    • 따라서 crowd-workers은 MR을 사용하는데에 있어서 어떤 지시사항이 없기 때문에 natural-sounding 반응을 만들기 위해 본인의 판단을 사용한다.
    • E2E 구성원은 이러한 variation에 플러스를 주지만, Reed는 현재 뉴럴 시스템이 이 데이터세트에서 효과적으로 discourse relation을 표현하는 것은 가능하지 않다고 말하고 입력 MRs을 풍부하게 하는 방법을 탐구한다.
    • 실제로 E2E 시스템은 약 300 개의 contrastive samples을 포함하는 테스트 세트에서 contrastive tokens을 포함하는 43 개의 출력 (10080 중 0.4 %) 만 나타냅니다.
    • 한마디로 하면, 주어진 조건 사이의 relation이 없기 때문에 데이터를 만드는 사람의 배경지식?과 같은 것이 들어가고 variation이 클 수가 있다.
  • 두 번쨰로 Reed을 넘어서 우리는 MRs을 통한 이러한 관계의 컨트롤성이 conversational systems에 필요하다고 주장한다.
    • conversational 시스템의 외부 지식이 (ex. 사용자의 모델) 아마도 contrast, 그룹핑, 정당화 등의 결정에 도움을 줄 수 있다.
    • 여러 연구에서 discourse behaviors을 컨트롤 하는 것은 품질과 자연스러움에 관한 사용자의 인식에 중요한 부분이다.
    • Flat MRs은 이러한 의미를 제공하지 않는다.
    • 뉴럴 모델들은 이 데이터에서 general을 배울 수 있다. (예를 들어, 일반적으로 사용되지 않는 family friendly or serving English food와 같은 attribute을 5-start을 받은 good attribute에 관한 contrasting)
    • 그러나 때때로 사람들은 adult-oriented 시설에 관심이 있고 어떤 사람들은 영국 음식을 좋아할 수도 있습니다. 이러한 기본 설정을 사용하는 사용자의 경우 일반적인 추세에 따라 생성 된 텍스트가 일관성이 없습니다.
    • 예를 들어 adult-oriented locale을 찾는 것으로 알려진 사용자의 경우 JJ’s Pub is a highly-rated restaurant for adults near the Crowne Plaza Hotel.
    • 첫 번째 문제에서 말하는 것처럼 배경지식(외부지식)을 사용하면 사람들마다 성질들이 다르기 때문에 텍스트가 일관성이 없을 수 있다고 하는 것 같다. 그래서 컨트롤성이 필요하다.

2.2. Tree-Structured MRs

  • 이러한 챌린지를 극복하기 위해서, 여기서는 structured meaning representations의 사용을 제안한다.
    • structured meaning representations : explored widely in (hybrid) rule-based NLG systems 
  • 논문의 representations은 3가지 파트가 있다.
    • Argument
      • 레스토랑 혹은 날짜의 이름처럼 response에 언급된 것처럼 어떠한 entity or slot이 될 수 있다.
      • 어떤 arguments는 복잡하고 sub-arguments을 포함할 수 있다. (날짜 시간 argument는 week day, month와 같은 subfields을 가지고 있는 것처럼)
    • Dialog act
      • Dialog act는 단일 조항에 대해 언어적으로 대응할  있는 기본 unit이다.
      • Dialog act는 한 개 이상의 arguments을 포함할 수 있고 이는 다음과 같이 표현되어야 한다. 
      • Examples: INFORM, YES, RECOMMEND
    • Discourse relation 
      • Discourse relation은 dialog acts 사이의 관계를 정의한다.
      • 하나의 discourse relation은 여러 개의 다른 dialog 혹은 discourse relations을 포함할 것이므로 잠재적으로 임의의 수준의 중첩이 가능하게 한다.
      • Examples: JOIN, JUSTIFY, CONTRAST
  • Meaning representation은 임의의 숫자와 discourse relation의 조합과 dialog acts으로 구성된 formulation을 사용한다.
    • 이것은 훨씬 더 높은 표현력과 구체적인 nested tree-structured MR을 생성한다.
  • Table 1에서는 MR structured 의 한 방법의 예시와 E2E 데이터세트의 "flat" MR와 reference의 쌍을 보여준다.
    • Table 1의 our mr reference을 보면 CONTRAST안에 INFORM이 있고 그 안에 entity와 value가 존재한다.
    • 즉 Discourse relation이 가장 상위, 그 밑에 Dialog act 그 밑에 Argument가 있는 식이다.
  • 이러한 representation은 표현력을 향상시켰고 flat MRs안에서 좀 더 기본적인 dialog acts와 arguments의 결과를 보여준다.
  • 예로, table 2에 있는 weather 도메인의 예시를 보자
  • response가 여러 개의 dialog acts, contrast와 여러 개의 요약과 그룹핑된 instances을 가지고 있다.
  • 즉 온도와 바람은 분리되어서 그룹핑이 된다.
  • 또한 몇 개의 arguments는 (예. data time) 여러 번 response에 등장하고 여러 개의 다른 values을 가지면서 다른 dialog acts에 대응이 된다.
  • flat MR은 다음의 표현에 문제점이 있다.
    • 1) the correspondence of arguments to dialog acts
    • 2) what attributes to group and contrast
    • 3) semantic equivalence of arguments like date time1 and date time2.
  • 반면 이 논문에서 제공한 MRs은 discourse-level learning을 쉽게 하고 여러 개의 dialog acts에 서 arguments의 재사용을 촉구한다.

3. Dataset

  • 위에서 말한 representation을 고려하여 weather domain에서 dialog acts, discourse relations, and arguments에 대한 온톨로지를 구축하였다.
  • (Liang et al., 2009)에서 살펴본 바와 같이 기상 영역을 선택하려는 논문의 동기는이 영역이 NLG에 상당한 복잡성을 제공한다는 것이다.
  • 특히 일기 예보 요약은 매우 길 수 있으며, 여러 개의 분리 된 정보에 대한 추론이 필요하다.
  • 이 작업에서는 날짜 / 시간 범위에 따른 날씨 요약의 복잡성을 보여주는 데이터 집합을 수집하는 데 중점을 두었다.
  • 우리의 날씨 데이터 세트는 또한 conversational setup에서 수집되었다는 점에서 독특합니다 (아래 참조).
  • 다중 스테이지
    • 다음의 5-stages로 weather 도메인에서 데이터를 수집했는데 이 부분은 생략..
    • 1) Query collection
    • 2) Query annotation
    • 3) MR generation
    • 4) Response generation and annotation
    • 5) Quality evaluation

3.1. Dataset statistics 

  • 33493 데이터 샘플
  • 위의 테이블처럼 대화식에서 데이터를 만들었고 이 복잡도는 밑의 table 5에 나와있다.
  • The vocabulary size is 1485, and the max/average/min lengths of responses are 151/40.6/8.
  • Our final training set contains 25,390 examples, with 11,879 unique MRs.
  • We consider two MRs to be identical if they have the same delexicalized tree structure — see Section 4.1.
  • The test set contains 3,121 examples, of which 1.1K (35%) have unique MRs that have never been seen in the training set.

3.2. Enriched E2E Dataset

  • 즉 여기서는 flat MR을 tree-structured MR로 바꾸었다는 것이다.
  • 방법은 heuristic techniques을 사용했다고 한다.
  • We used the output of Juraska et al.’s (2018) tagger to find a character within each slot in the flat MR, and automatically adjusted these to correspond to a token boundary if they didn’t already. 
  • We then used the Viterbi segmentations from the model released by Wiseman et al. (2018) to get spans corresponding to each argument.
  • Finally, we used the Berkeley neural parser (Kitaev and Klein, 2018) to identify spans coordinated by but, and added CONTRAST relations as parents of the coordinated arguments. 
  • We added JOIN based on sentence boundaries.
  • An interesting direction for future research would be to extend Wiseman et al.’s methods to induce tree structures directly.
  • 즉 휴리스틱하게 tagger→Viterbi segmentation→neural parser→CONTRAST 관계 파악→문장 경계를 기반으로 JOIN 추가→tree-structured
  • 이것을 미래 연구에서는 바로 tree structure을 만들어 본다고 한다.
  • 최종적으로는 데이터세트가 (~51K examples), ~24K examples (47%) contain JOIN, while 2237 (4.3%) contain CONTRAST을 가지고 있다.

4. Model

4.1 Seq2Seq with Linearized Trees

  • 모델은 기본 seq2seq에 attention을 사용하였다.
  • LSTM-based로 encoder와 decoder을 구성하였음.
  • 또한 decoder로 생성시에는 beam-search을 사용하였음
  • 모델의 입력은 linearized된 tree-structured MR의 representation이 들어가고 출력은 annotated response의 linearized된 tree-structured representation이 나오게 된다. (table 6 참고)
  • 이것은 response의 현실적인 tokens을 예측하는 것이고 모델이 non-terminals을(dialog/discourse relations and arguments) 예측해야만 해서 span의 start와 end을 가리켜야 한다.
  • tres strcture의 예측의 장점은 모델이 MR과 response 사이의 alignment을 supervision할 수 있다는 것이다.
  • 또한 예측 된 트리 구조를 사용하여 예측된 응답의 정확성을 확인할 수 있습니다.
  • 다음에 설명하는 constrained decoding 방식에 이를 활용합니다.

4.2. Constrained Decoding

  • 위에서 설명한 것처럼 모델에 의해 예측된 출력 구조는 입력 MR에 깔끔하게 대응해야하는 tree를 형성하며 일부 instances of ellipses 는 제외합니다 (표 6의 data time argument와 동일).
  • 따라서, 입력 MR은 예측의 semantic 정확도에 대한 제약으로 간주 될 수있다.
  • 예측된 구조가 MR과 일치하지 않으면 예측이 틀리고 reject가 될 수 있다.
  • Figure 1가 이 아이디어에 대해 설명한다.
    • 여기서 (3)은 tree 구조가 MR과 다르기 때문에 안된다고 말하는 것이다.
  • Beam-search 설명이 있는데 생략
    • 빔 검색의 각 타임 스텝 후에 트리 제약 조건을 위반하는 후보의 점수가 마스크 처리되어 앞으로 진행되지 않습니다.
    • 빔 검색 초기에 제약 조건을 위반하는 후보를 제거함으로써 디코더가 더 많은 가설을 탐색 할 수 있습니다.
  • 그리고 뒷 부분에는 MR 규칙?과 같은 제약을 안지키는 후보들의 정렬하는 과정에 대해 설명이 있는데.. 생략

5. Experiments

6. Related Work

  • 생략

7. Conclusions 

  • 풍부한 tree-structured MR은 생성할 때 표현력과 semantic 정확도를 높일 수 있음을 보여준다.
  • 또한 constrained decoding 기술을 사용하여 tree-structured MRs을 황용하여 생성된 text의 semantc 정확도와 discourse structure의 정확하게 컨트롤한다.
  • weather 도메인에서 새로운 데이터세트를 제안하고 E2E 데이터세트를 tree-structured MRs을 포함하도록 풍부한 데이터세트를 만든다.
  • 우리의 실험에 따르면 tree-structured MR과 함께 constrained decoding은 semantic정확성을 크게 향상시킬뿐만 아니라 데이터 효율성과 일반화를 향상시킬 수 있습니다.
Reference

댓글