NL-109, The World is Not Binary: Learning to Rank with Grayscale Data for Dialogue Response Selection (2020-EMNLP)

◼️ Comment

  • response selection에 관한 논문을 처음 읽는 거지만 읽는데에 큰 무리는 없었다.
  • 이 논문은 모델링에 대해 초점을 가진 것이 아니라 학습 방향?에 대한 초점이다.
    • 즉 이전의 연구들은 binary classification으로다가, context-response가 0이냐 1이냐로 구분해서 학습했다고 한다.
    • 이러한 데이터의 구성에서 response가 distractor은 context와 동떨어진 내용을 다룬다고 한다.
    • 즉 context와 같은 주제를 다루지만 response로 적합하지 않는 답변은 없다는 것이다.
    • 그러다보니, response 후보끼리 상대적인 개념이 없다.
    • 실제 테스트 환경에서는 context와 유사한 distractor이 많을 것이기 때문에 이를 learning-to-rank 로 해결하고자 한다.
  • 가장 중요한건 데이터이다.
    • 즉 response가 얼마나 적합한지 0~1사이의 점수를 매기고 싶은데 이런 데이터는 사람이 매겨도 주관적인 부분이 많기 때문에 구축이 거의 불가능하다고 봐야한다.
    • 여기서 논문의 핵심 아이디어가 나오는데, 기존 검색시스템 or 생성시스템이 생성한 response을 0과 1 중간의 개념으로 보겠다는 것이다.
    • 0.5의 점수를 주는 것은 아니고, 학습할 때 margin ranking loss을 이용해서 학습한다.
    • persona 생성에서 사용했던 loss와 똑같은 느낌이다.
    • 아무튼 이렇게 자동으로 grayscale에 해당하는 데이터(response)를 만들어서 적용하면서 기존 시스템들의 성능향상을 관찰한 논문이다.

Abstract

  • Response selection은 검색 기반의 대화 시스템을 만드는데 중요한 역할을 한다.
  • response selection은 자연스럽게 learning-to-rank 문제인데도 불구하고, 대부분의 사전 연구는 이 테스크에서 point-wise view을 취하고 binary classifiers을 학습한다.
    • 각 response candidate은 relevant(one) or irrelevant(zero)로 레이블링된다.
  • 반면에, 이러한 formalization은 response 품질의 다양성에 대한 무지로 인한 sub-optimal일 수 있다.
  • 반면에, learning-to-rank에 대한 gray-scale 데이터를 annotating하는 것은 엄청 비싸고 챌린지할 수 있다.
  • 이 연구에서, 우리는 grayscale 데이터를 사람의 노력없이 자동적으로 구축될 수 있음을 보여준다.
  • 우리의 방법은 기존의 response 검색 모델과 response generation 모델들을 graysacle 데이터 생성기에 적용한다.
  • 구축된 graysacle 데이터로, 우리는 학습에 multi-level ranking objevtives을 제안하고, 이는 (1) matching 모델이 좀 더 fine-grained context-response relevance difference을 가르치고 (2) distractor 강점에대한 trainetest discrepancy을 줄여준다.
  • 우리의 방법은 간단하고 효과적이고 범용적이다.
  • 3가지 벤치마크 데이터세트에 대한 실험들과 4가지 matching models은 접근법이 중요하고 consistent한 성능 향상을 가져옴을 보여준다.

1 Introduction

  • 인공 대화 시스템을 만드는 것은 최근 몇 년동안 관심을 얻고있다.
  • 대화 시스템에서의 핵심 모듈은 response selection으로 대화 내용(예 : 대화 기록)을 고려하여 가능한 후보자 중에서 best response을 식별하는 것이다.
  • response selection 문제에서, 최근 시도는 neural matching 모델들을 만들어 대화 컨텍스트에서 개별의 response candidates의 적절성을 scoring하는 것이다.
  • 이 토픽들에 대한 대부분 이전의 연구들은 1) fine-grained text encoding과 2) 대화 컨텍스트와 response candidates사이의 더 나은 interaction에 집중했었고, 일반적으로 정교하고 강력한 matching networks을 사용했다.
  • 차이점에도 불구하고 거의 모든 이전 작업에서 matching 모델은 binary classification 목표로 훈련되었습니다.
  • 학습 데이터들의 각 response은 positive (예. 대화 컨텍스트에서 correct response) 혹은 negative (incorrect response)로 레이블됐다.
  • 종종, negative response는 자동적으로 random sampling으로 구축되었다.
  • 위의 학습 전략의 한가지 한계는 이러한 formalization은 정교한 response 퀄리티의 뉘앙스를 다운시킨다.
    • matching 모델은 오직 binary label을 (correct or incorrect) 알려고 한다.
  • 그러나, 가능한 response candidate의 퀄리티는 매우 다양할 수 있어서 matching 모델이 response candidated을 다른 것들(비교군)보다 more/less incorrect을 알게하면, 모델의 능력을 효과적으로 늘릴 수 있다.
  • 다른 한계는, 실제 시나리오에서, matching 모델들은 종종 더 어려운 테스크들에 직면한다.
    • 랜덤으로 선택하는 것보다 강력한 response candidates의 세트로부터 가장 좋은 response을 선택하는 것. (negative sample을 무작위로 선정하는 것의 문제가 있다는 것 같음)
  • An example is given in Table 1. 
  • 학습동안, matching models은 ground truth G을 구별하도록 학습이 되고, 랜덤으로 response R1을 샘플링하는데, R1은 대화 컨텍스트와 적은 연관성을 보여준다.
  • 이러한 학습데이터로 학습된 matching 모델들은 R2와 R3와 같은 강력한 distractor response의 세트로부터 ground-truth response G을 식별하는 경험이 적다.
  • 직관적으로, 좋은 matching model은 binary classification objective로인해 랜덤의 response로(보통 연관성이없는)부터 좋은 response을 구별해야할 뿐 아니라 경쟁적인 candidates로부터의 미세한 차이를 잡아내야한다.
  • 우리는 위 문제들에 대한 자연스러운 해결책은 학습을 위해 grayscale data을 모으는 것이다.
    • 만약 우리는 모든 가능한 response candidates의 품질이 interval [0, 1]에 있는 것을 생각하면, golden-truth와 random response는 보통 두 가지 endpoints로(0,1) 커버될 것이다.
    • 우리의 목표는 0과 1사이의 위치하는 grayscale response의 리스트를 얻고 싶은 것이다.
  • 그러나, grayscale 데이터는 human annotation 비용과 개별 human annotators의 주관이 있기 때문에 실제로 얻기 어렵다.
  • 이 연구에서, 우리는 오직 golden 대화 context와 response 쌍만 제공되는 표준 대화 데이터세트에서 자동적으로 grayscale 데이터를 제작하는 것을 제안한다.
  • 이 목표를 달성하기 위해, 우리는 과거 검색 알고리즘과 생성 모델들을 사용(resort)한다.
  • 우리의 아이디어는 많은 케이스의 관찰에서부터 영감받아, 검색모델과 생성모델들의 responses들은 랜덤으로 샘플된 것보다는 좋으나 ground-truth response 보다는 나쁘다는 것이다.
  • 우리는 “ground truth > retrieval > random”와 같은 점진적인 관계가 matching model에 좀 더 좋은 학습으로 활용될 수 있음을 믿는다.
  • 구체적으로, 우리는 multi-level ranking objective을 제안하여 이러한 관계를 최대한 활용한다.
    • 우리의 multi-level ranking objective는 여러 binary constrastive esmations을 jointly 결합한다.
    • 추가적으로, graysacle 데이터는 실제 세계의 response distractors을 부분적으로 시뮬레이션하고 학습과 테스트사이의 gap을 줄여주고 strong response distractors을 강력하게 구별해주도록 이끈다.
  • 우리의 방법은 간단하고 효과적이고 모델을 디자인하는 이전의 노력과는 다르다.
  • 이것은 기존의 matching models로 편리하게 실행될 수 있다.
  • 실험결과들은 4개의 SoTA matching models와 3개의 벤치마크 데이터세트로 우리의 새로운 학습 접근법이 일관되게 성능 향상을 이끔을 입증한다.

2 Background 

  • response selection의 이전 연구들은 싱글턴 대화들을 많이 연구했다. (Wang et al., 2013; Tan et al., 2015; Yan et al., 2016)
  • 최근에는, 연구자들은 multi-turn conversations을 연구하기 시작했다. (Lowe et al., 2015; Wu et al., 2017; Zhang et al., 2018)
  • 최근 문헌에서는, response selection의 테스크는 다음과 같이 정의된다.
    • 대화 데이터세트 D = {(ci , ri)}가 주어졌을 떄, ci는 대화 컨텍스트를 의미하고 ri는 사람이 쓴 ground-truth response을 의미한다.
  • 목표는 D로부터 matching models s(·, ·)이 s(c,r)이 대화 컨텍스트 c와 response candidate r의 적합성을 정확하게 측정하는 것이다.
  • 최근 몇 년 동안 이러한 매칭 모델을 구축하기 위해 빠른 진전이 이루어졌습니다.
  • 구체적으로 다양한 뉴럴 네트워크들이 정교한 text encoding과 더 나은 대화 컨텍스트와 response 상호 모델링을 제안해왔다. (Zhou et al., 2016; Wu et al., 2017; Zhou et al., 2018; Gu et al., 2019; Tao et al., 2019; Yuan et al., 2019) 
  • 이러한 matcing models을 학습하기 위해, binary-labeled training 세트들은 구축되어왔다.
  • 사람이 쓴 ground-truth response은 positive instances로 (1로 레이블) 지정되고 랜덤으로 샘플링된 response Ni은 negative ones (레이블 0)으로 지정된다.
  • s(·, ·)의 학습 objective는 그리고나서 다음의 binary classificaion loss 함수를 따른다.
  • 이전의 연구들과 다른 점은, 우리의 연구는 binary-labeled 학습 데이터의 효과성과 해당하는 binary classification objective에 대한 질문이다.
  • 이진 분류 패러다임은 대부분의 무작위로 샘플링 된 부정적인 응답이 일치 정도 측면에서 해당 긍정적인 응답과 거리가 멀기 때문에 sub-optimal 이라고 주장했습니다. 
    • 이는 테스트 중에 일부  strong distractors가 있으면 심각한 단점을 초래할 수 있습니다 (Zhou et al ., 2018; Zhang et al., 2018).
  • 우리의 연구는 response 퀄리티에 관한 negative sample set Ni의 범위를 늘리는 것으로 시작하고 
  • 우리의 연구는 response 품질 측면에서 negative sample set Ni의 범위를 늘리는 것으로 시작하여 보다 정교한 응답 품질 차이를 포착하는 것을 목표로 하는 간단하지만 새로운 학습 전략으로 이끈다.

3 Proposed Approach 

3.1 Overview

  • Figure 1 depicts an overview of our approach. 
  • 먼저, 다른 response들은 검색모델, 생성모델들, 랜덤샘플링과 같은 다양한 소스들로부터 얻어진다.
  • 그리고나서, 수집된 response는 resimated quality별로 정렬되서 progressive relationships 형태로된다.
  • 마지막으로, multi-level ranking objective는 이러한 관계를 배우도록 고안된다.
  • We first present our methods for automatically constructing grayscale data in Section 3.2, followed by the multi-level ranking objective introduced in Section 3.3.

3.2 Grayscale Data Acquisition

  • 우리의 목표는 다양한 품질을 가지는 responses의 세트를 구성하는 것이다.
  • 구체적으로, 우리는 각 대화 context에서 3개 타입의 responses을 구축하고 3개의 tiers로 랭크를 매긴다.
  • 우리의 데이터 수집은 human-to-human의 대화 컨텍스트 및 응답 쌍만 제공하는 표준 대화 데이터 세트에만 의존한다는 점에 유의해야합니다.
  • Zero & One 
    • 먼저, 표준 대화 데이터세트에 있는 대화 컨텍스트에 대응하는 responses은 우리의 ground-truth responses로 고려된다.
    • 이러한  사람이쓴 responses은 종종 유익하고 관련이 있다.
    • 그 결과로, ground truth 샘플들은 tier-1로 랭크된다.
    • 이전의 연구와 유사하게, 우리는 랜덤 샘플링한 responses을 contrastive estimation으로 활용한다.
    • 랜덤 responses은 다른 대화 컨텍스트에 있는 학습 데이터에서 샘플링된다.
    • 우리는 random responses을 tier-3으로 랭크한다. 왜냐하면 그들은 자주 대화 컨텍스트와 적은 연관성을 보여주기 때문이다.
    • ground-truth responses와 random responses은 “zero & one” 으로 이전의 연구에서 사용했던 것처럼 binary training data으로 구성된다.
  • Grayscale 
    • 우리는 이제 grayscale 데이터 구성 과정을 설명한다.
    • 우리는 자동 response 생성을 위해 자주 사용되는 toolkits의 두 개 타입을 고려하여 graysacle data을 생성하고, 이를 retrieval-based models과 generation-based models로 부른다.
    • retrieval-based models은 response 요청을 받을 때, 학습 코퍼스에서 기존의 response을 직접 복사한다. (Ji et al., 2014; Hu et al., 2014) 
    • 실제 세계 대화에서 반환되는 responses은 항상 사람의 발화이기 때문에, 그들은 유익하고 문법이 맞다.
    • 그러나, 이러한 시스템의 response 퀄리티는 주어진 학습 코퍼스와 대화 컨텍스트의 lexical 유사도에 따라 달라진다.
    • 일반적으로, 검색 결과들은 random responses보다 좋다. 왜냐하면 그들은 대화 컨텍스트와 좀 더 연관성이 있기 때문이다.
    • 그러나, 대부분의 검색 결과들은 ground truth보다 나쁘다.
    • 검색 결과들은 tier-2에 랭크된다.
      • 특별히, 우리는 multi-turn 대화를 싱글턴 input-response 일련으로 분리한다.
      • 그리고나서, 우리는 input-response pairs을  BM25 알고리즘으로 인덱싱한다.
      • 우리는 대화 컨텍스트의 마지막 대화를 사용해서 response candidates을 검색한다.
    • 생성 기반의 모델들은 학습 이후에, 처음부터 새로운 utterance을 생성한다.
      • 그들 모델들이 드문 대화 컨텍스트에서 더 나은 생성 역량을 가지지만, generation responses는 universal하고 noninformative한 경향을 가지고 있다. (예. “I don’t know”, “I think so” etc.)
      • 검색 응답들과 비슷하게, generation responses는 보통 랜덤 responses보다 더 낫지만, ground-truth responses보다 나쁘다.
      • 그러나, 단지 lexical overlapping을 기반으로 하는 retrieval models은 과 비교하여, generation은 좀 더 깊은 semantic interactions을 잡아낼 수 있다.
    • retrieval과 generation 모델들의 특성 차이는 그들의 결과들이 reponse quality의 상호보완적이게만들며, 이는 우리가 학습에 더 유익하다
  • 구체적으로, 우리는 seq2seq with attention 모델을 response generation을 학습한다.
    • 우리는 검색모델에 사용했던 같은 코퍼스를 생성모델 학습에 적용한다.
    • 생성 반응은 대화 컨텍스트를 학습 모델에 넣어서 생성이 된다.
  • Discussion on Extendibility 
    • 많은 grayscale data을 구축하는 많은 정교한 방법이 있다.
    • 예를 들어, 한가지는 다른 검색모델들과 생성모델들의 결과들을 적용하는 것이다.
    • 다른 모델들의 responses은 대응되는 모델들의 상대적인 강도에 따라 sub-groups로 나뉠 수 있을 것이다. 
    • 예를 들어, 조금 더 최신의 좋은 생성 모델로부터의 생성된 responses은 (즉, GPT2을 기반으로한) 덜 좋은 모델들보다 좋을 것이다. (즉, vanilla seq2seq 모델)
    • 그러나, 이 논문에서는 우리는 오직 우리의 아이디어를 간단하고 깔끔하게 유지하기위해, basic 검색과 생성 모델들의 결과들을 보여준다.
    • 그럼에도불구하고, 이러한 간단한 세팅은, 우리가 증명하듯이 이미 놀라운 성능향상을 보여준다.

3.3 Multi-Level Ranking Objectives

  • 우리의 grayscale data 수집은 원칙적이고 좀 더 정교하고 충분한 학습 패러드레임을 실행한다.
  • grayscale 데이터의 충분한 사용을 위해, 우리는 multi-level ranking objectives을 제안한다.
  • binary classification errors을 최소화하는 이전의 연구와 달리, 우리의 학습 objective는 response selection의 learning-to-rank 특성에 더욱 적합하다. 
    • 즉 가능한 responses의 ranking errors을 최소화한다. (Cao et al., 2007)
  • 또한, grayscale 데이터가 다양한 response quality을 나타내므로, random negatives이 아닌 이러한 데이터로 학습은 테스팅 환경을 더 잘 시뮬레이션한다.
  • 우리는 몇 가지 notation을 가지는 formal 설명을 한다.
    • 학습 세트는 으로 재구성되고, 는 대화 컨텍스트를 말하고 Ri={}로 grayscale 데이터로 강화된 response set을 말한다.
  • 는 ground-truth response, retrieval response, generation response, random responses을 각각 말한다.
  • 우리는 3개의 정렬된 리스트를 다음과 같이 고려한다.
  • ground truth>retrieval>random 
    • 이 정렬된 리스트는 ground-truth responses, retrieval responses, random responses 사이를 점진적인 관계로 고려한다.
    • We use margin ranking losses for implementation, the formula are given below:
    • µ은 하이퍼파라미터이고 두 개의 tiers 사이의 최소한의 acceptable score margin이고 s(·, ·)는 주어진 매칭 모델 matching score이다.
  • ground truth>generation>random 
    • 이 정렬된 리스트는 ground-truth, generation responses, random responses 사이의 점진적인 관계를 고려한 것이다.
    • The loss function is given below.
  • ground truth>random
    • 이 loss function은 직접적으으로 ground-truth 샘플들 와 random samples  사이의 관계를 모델링한 것이다.
  • Our final training objective is an unite of all above. 
  • It models the integrated relationship between tiers “ground truth>retrieval & generation>random” and “ground truth > random” simultaneously:

4 Experimental Setup 

4.1 Datasets and Evaluation Metrics (번역)

  • We test on three benchmark datasets for multi-turn response selection.
  • Ubuntu Dialogue Corpus 
    • Ubuntu Forum (Lowe et al., 2015)에서 수집 한 기술 지원에 대한 영어 다중 회전 대화로 구성됩니다.
    • 데이터 세트에는 학습, 검증 및 테스트를위한 각각 500K, 50K 및 50K 채팅 로그가 포함됩니다. 
    • 각 테스트 대화는 9개의 distractor responses과 짝을 이룹니다. 
    • 규칙에 따라 응답 선택 성능은 Rn @ k 점수로 평가됩니다. 
    • Rn @ k는 n 개의 후보에서 위치 k에서의 재현율입니다.
  • Douban Conversation Corpus 
    • Douban 그룹 (Wu et al., 2017)에서 크롤링 한 중국어 다중 회전 일상 대화로 구성됩니다.
    • 데이터 세트에는 학습, 검증 및 테스트를위한 각각 500K, 25K 및 1K 채팅 로그가 포함됩니다.
    • 각 테스트 대화는 10 개의 후보 응답과 짝을 이룹니다. 
    • 이전 작업에 이어 Rn @ k 점수 외에도 평균 평균 정밀도 (MAP), 평균 역수 순위 (MRR) 및 위치 1의 정밀도 (P @ 1)도보고합니다.
  • E-commerce 
    • 고객과 Taobao의 고객 서비스 직원 간의 중국어 대화로 구성됩니다 (Zhang et al., 2018).
    • 데이터 세트 크기 및 설정은 Douban 말뭉치와 동일합니다. 
    • Rn @ k 점수는 일반적으로 평가에 사용됩니다.

4.2 Baseline Models 

  • We compare with the following baseline models.
  • Single-turn Matching Models 
    • 이러한 모델들은 모든 컨텍스트 발화들을 하나의 long 발화로 모은다음 long 발화들과 response candidates 사이의 matching scores을 게산한다.
    • 모델: RNN (Lowe et al., 2015), CNN (Lowe et al., 2015), LSTM (Lowe et al., 2015), Bi-LSTM (Kadlec et al., 2015), Match-LSTM (Wang and Jiang, 2016) and MVLSTM (Wan et al., 2016).
  • Multi-turn Matching Models 
    • 이러한 모델들은 좀 더 발전된 방법들로 컨텍스트 발화들의 정보를 모은다.
    • 모델: DL2R (Yan et al., 2016), Multi-View (Zhou et al., 2016), DUA (Zhang et al., 2018), SMN (Wu et al., 2017), DAM (Zhou et al., 2018), IOI (Tao et al., 2019), and MSN (Yuan et al., 2019).

4.3 Implementation Details

  • grayscale 데이터 구축을 위해, 우리는 seq2seq 생성 모델을 학습하고 BM25 검색 시스템을 각 데이터세트의 학습세트를 이용해서 구축한다.
  • 우리는 BM25 검색으로부터 상위 100개의 response를, seq2seq 생성으로부터 상위 5개의 (beam search을 통해) responses을 grayscale responses으로 고려한다.
  • 더 나아간 연구를 위해, 우리는 우리의 수집된 grayscale 데이터를 공공적으로 사용가능하게한다.
    • https: //ai.tencent.com/ailab/nlp/dialogue/ datasets/grayscale_data_release.zip
  • 학습동안, 우리는 학습 matching model에 적응하는 방법으로 grayscale responses을 사용한다.
  • 각 학습 epoch에서, 10개의 다른 grayscale responses가 사용된다.
    • 현재 매칭 모델에의해 rank매겨진 5개의 retireval responses와 5개의 seq2seq generation responses가 사용된다.
  • 우리는 우리의 새로운 학습 접근법으로 4개의 SoTA 모델에 적용한다.
    • SMN (Wu et al., 2017)은 대화 컨텍스트의 각 발화를 응답과 상호 작용 한 다음 상호 작용 행렬을 CNN과 일치하는 벡터로 변환합니다. 일치하는 벡터는 마지막으로 RNN을 사용하여 일치하는 점수로 매핑됩니다.
    • DAM (Zhou et al., 2018)은 stacked self-attention를 사용하여 서로 다른 세분성으로 텍스트 세그먼트의 일치하는 벡터를 얻습니다. 그런 다음 일치하는 벡터를 교차주의로 증류하고 마지막으로 단일 레이어 퍼셉트론을 통해 일치하는 점수로 융합합니다.
    • IOI (Tao et al., 2019)는 여러 상호 작용 블록을 쌓아서 컨텍스트의 각 발화를 응답과 쌍을 이룬 다음 모든 쌍의 일치 정보를 반복적 인 방식으로 일치 점수로 집계합니다.
    • MSN (Yuan et al., 2019)은 다중 홉 선택기를 사용하여 관련 발화를 컨텍스트로 선택한 다음 필터링 된 컨텍스트를 주어진 응답 후보와 일치시켜 일치 점수를 얻습니다.
  • Specifically, we first pre-train a model with objective L_ran only then switch to L_Uni. 
  • We find that such a treatment makes the training process more stable. 

5 Results and Discussion (번역)

5.1 Experimental Results

  • 실험 결과는 표 2에 나열되어 있으며, 여기서 G-X는 그레이 스케일 강화 교육 접근 방식으로 X를 나타냅니다. 
  • 우리의 훈련 접근 방식은 다양한 메트릭 측면에서 네 가지 일치 모델의 성능을 크게 향상시키는 것을 볼 수 있습니다. 
  • 개선 사항은 서로 다른 데이터 세트와 서로 다른 모델에서 일관되며 이는 우리 접근 방식의 대학을 나타냅니다. 
  • 또한 한 가지 흥미로운 관찰은 제안 된 교육 접근 방식을 사용하는 덜 정확하지 않은 매칭 아키텍처가 기존 교육 패러다임 (예 : G-IOI 대 MSN)의 강력한 매칭 아키텍처를 능가 할 수 있다는 것입니다. 
  • 이것은 학습 목표의 선택이 종종 간과되지만 경쟁적인 반응 선택 모델을 구축하는 데 결정적 일 수 있음을 시사합니다.

5.2 Effect of Different Grayscale Data

  • 그런 다음 성능 향상에서 다양한 그레이 스케일 데이터의 역할을 이해하기 위해 제거 연구를 수행합니다. 
  • SMN과 DAM을 기준 모델로 선택합니다. 
  • 검색 응답 또는 생성 응답을 제거하고 둘 다 제거하여 세 가지 추가 설정으로 모델을 훈련합니다. 
  • 결과는 표 3에 나와 있으며, 검색 데이터와 생성 데이터 모두 전체 성능에 대체 할 수없는 기여를 하고 두 세계의 조합이 최상의 결과를 만들어 냄을 알 수 있습니다.
  • 이는 이기종 소스의 응답이 서로를 보완한다는 우리의 가설을 확인합니다. 
  • 또한 검색 데이터의 도움이 단독으로 사용될 때 생성 데이터보다 더 큰 영향을 미친다는 것을 알 수 있습니다. 
  • 이는 seq2seq 기반 생성 모델이 일반적이고 둔한 응답을 출력하는 경향이 있기 때문일 수 있습니다. 
  • 이러한 일반적인 응답은 검색 데이터보다 정보가 적으므로 세분화 된 응답 품질의 뉘앙스를 구별하는 데 제한적인 도움을 줄 수 있습니다.

5.3 Effect of Multi-level Ranking Objectives

  • 다음으로, multi-level ranking objective (MRO)의 효과를 연구합니다. 
  • 다른 계층에서 점진적 관계를 활용하기 위해 MRO를 채택했습니다. 
  • 그러나 더 간단한 대안은 모든 그레이 스케일 데이터를 음수 샘플로 처리하고 Eq2의 학습 목표를 사용하는 것입니다. 
  • 검색 및 생성 결과로 부정적인 예제 세트를 확대하는 단순한 데이터 증가 기술로 간주 할 수 있습니다. 
  • 우리는 제안된 MRO가 필요한지 여부를 테스트하고 MRO의 이점을 정량화하기 위해 이러한 아이디어를 구현합니다. 
  • 표 4에서 볼 수 있듯이 MRO없이 훈련 된 모델의 성능은 MRO로 훈련 된 모델보다 떨어집니다. 
  • 게다가 MRO가없는 그레이 스케일 데이터의 개선은 그레이 스케일 데이터가없는 원래의 데이터에 비해 상당히 제한적입니다. 
  • 이는 제안 된 다단계 순위 목표가 성능 향상에 필수적임을 나타냅니다.

5.4 Effect of Margin Size

  • 초 매개 변수 마진 크기 (µ)는 일치하는 점수에서 두 계층 사이의 최소 거리를 나타내며 일치하는 모델의 성능에 영향을 미칠 수 있습니다. 
  • 마진이 교육 성능에 미치는 영향을 연구하기 위해 일련의 민감도 분석 실험을 수행합니다.
  • 모든 모델은 R10 @ 1로 평가됩니다. 
  • 그림 2를 참조하면 SMN과 DAM 모두 Douban에서 유사한 추세를 보임을 알 수 있습니다.
  • 곡선은 먼저 증가한 다음 마진이 증가함에 따라 감소합니다. 
  • 이는 주로 Douban의 응답 후보가 관련성이 높기 때문입니다. 
  • 여백이 너무 크면 일치하는 모델은 관련성이 높은 산만 요소를 처리 할 수 ​​없습니다. 
  • 그러나 여백이 너무 작으면 일치하는 모델이 너무 민감 해지고 때로는 대화 컨텍스트와 관련성이 낮은 응답에 대해 실수로 높은 점수를 부여합니다. 
  • 우분투의 결과는 완전히 다른 동작을 보여줍니다. 
  • 성능은 마진에 따라 증가합니다. 
  • 그 이유는 우분투의 응답 산만 기는 의미론에서 상대적으로 큰 여백을 가지고 있으며 일치하는 모델은 Ground Truth와 다른 그레이 스케일 샘플을 강력하게 구별해야하기 때문일 수 있습니다. 
  • 결과적으로 큰 차이로 학습 된 모델은 이러한 데이터 분포에 적합 할 수 있습니다.

5.5 Compatiblity with Co-teaching

  • 우리는 Feng et al. (2019)는 강력한 매칭 모델을 훈련하기 위해 공동 교육 프레임 워크를 채택합니다. 
  • 실험에서 동적 마진이있는 공동 교육 프레임 워크는 무작위로 샘플링 된 잡음이있는 응답의 효과를 효과적으로 제거하는 것으로 입증되었습니다. 
  • 우리는 우리의 접근 방식과 공동 교육 프레임 워크가 서로에게 도움이 될 수 있다고 믿습니다. 
  • 따라서 우리는 학습 접근 방식을 마진 전략을 인스턴스로 사용하여 일치하는 모델을 학습시키는 공동 학습 프레임 워크와 결합합니다. 
  • 표 5의 결과를 통해 우리의 접근 방식으로 훈련 된 모델이 공동 교육 프레임 워크로 훈련 된 모델보다 성능이 우수하다는 것을 알 수 있습니다. 
  • 더 중요한 것은 SMN + CoT 및 DAM + CoT가 다단계 순위 목표를 추가 한 후 추가로 개선되었다는 것입니다. 
  • 이는 우리의 접근 방식이 공동 교육 프레임 워크와 호환되며 일반화 된 접근 방식으로 작동 할 수있는 강력한 이식성과 실용성을 보여줍니다.

5.6 Case Study 

6 Related Work

  • 일부 연구자들은 더 나은 학습 방법으로 기존 매칭 모델의 성능을 개선하는 방법도 연구했습니다. 
  • Wu et al. (2018)은 Seq2Seq 모델을 약한 어노 테이터로 활용하여 대화의 각 응답 후보에 점수를 할당하고 점수를 통해 매칭 모델을 학습 할 것을 제안했습니다. 
  • Feng et al. (2019)는 훈련 소음의 영향을 제거하기위한 코 티칭 프레임 워크 (Han et al., 2018)를 도입했습니다. 
  • 학습 접근 방식은 두 가지 일치 모델을 유지하고 서로를 가르치게합니다. Li et al. (2019)은 동적으로 훈련하는 동안 부정적인 샘플을 선택하기 위해 네 가지 부정적인 샘플링 전략을 채택하여 거짓 부정 및 사소한 참 응답의 효과를 무시하려고 시도했습니다. 
  • 이전 작업과 달리 우리의 접근 방식은 이기종 소스의 회색조 데이터를 사용하고 점진적인 품질 관계를 학습합니다. 
  • 또한, 우리의 작업은 검색 모델을 통해 세대 모델을 강화하려는 최근 시도 (Cai et al., 2019a, b)와 동등한 세대 모델로 검색 모델을 향상시킵니다. 

7 Conclusions 

  • 우리는 multi-turn 대화를 위한 response selection 모델들을 학습하는 새로운 접근법을 제시한다.
  • 이것은 자동으로 grayscale 데이터의 다른 types을 제작하고 multi-level ranking objective을 사용한다.
  • 제안된 접근법은 matching model이 정교한 퀄리티의 차이를 더 잘 잡아낼 수 있고 distractor 강도의 train-test 차이를 줄일 수 있다.
  • 3가지 벤치마크에서 4가지 SoTA 모델들에 대한 실험 결과들은 제안된 학습 접근법의 효과성을 입증한다.

Reference

댓글