NL-138, MDD-Eval: Self-Training on Augmented Data for Multi-Domain Dialogue Evaluation, AAAI 2022

◼ Comment

  • 이 논문은 멀티도메인 대화를 평가하는 방법을 제시한다.
    • 대화 평가라는게 주어진 context-response에 대한 점수를 내는 것이다.
    • 즉 (cji , rji ) → sji처럼 s을 계산하고, 이는 퀄리티를 의미한다.
  • (cji , rji ) → sji에 대해서는 사람이 직접 태깅한 데이터를 활용해 학습한다고 한다.
    • 태깅할 때 점수는 language fluency, coherence, topic relevance, logical consistency을 참조할 수 있긴 하지만, 간단히 적합성으로 한다고 한다.
  • 이렇게 구축된 데이터로 teacher 모델을 학습한다.
    • 데이터는 좀 더 세분하게 보면 random, adversarial, relevant 3가지 클래스가 있다.
    • 여기서 relevant와 adversarial responses들은 사람 어노테이터에의해 생성된 것이다.
  • 이렇게 학습된 teacher 모델의 효과는 다음과 같다.
    • (1) unlabeled 컨텍스트-응답 쌍 (c*i , r*i )에 pseudo labels을 제공하며, 이는 다른 대화 데이터 어그멘테이션 기술로 획득됩니다. 
      • *는 컨텍스트-응답 쌍이 모든 도메인의 대화 말뭉치에서 추출될 수 있음을 의미합니다.
    • (2) Mteacher에 의해 결정된 낮은 confidence score을 가진 false negatives와 adversarial 혹은 random samples이 제거되는 데이터 선택 프로세스를 용이하게 합니다. 
    • (3) 평가 작업의 기준선 역할을 합니다.
    • 여기서 teacher 모델이 학습되는 도메인은 모든 도메인이 아니라 특정 도메인이다.
    • 즉, 특정 도메인에서 좋은 데이터세트를 수집하고, 이로 학습한 teacher 모델로 다른 도메인에서의 데이터를 자동으로 만들어서 (student) 모델이 전반적인 도메인에서 잘 작동하게끔 하겠다는 것이다.
  • 그렇다면 다른 도메인에서 어떻게 데이터를 만들까?
    • 이는 위에서 말했듯이, 사람이 태깅하는건 아니고 다음의 기술로 데이터를 증강시킨다.
    • Syntactic Perturbation
    • Back-Translation
    • Generative Model Output
    • Random Utterance Selection
    • Mask-and-fill
    • 자세한건 아래에 설명..
    • 아무튼 이렇게 5개 방식으로 context-response pair을 만든다.
    • 이렇게 구축된 pair에 레이블링을 하기 위해, teacher 모델을 태운다.
    • 그러면 3개의 클래스에 대한 확률이 나올텐데 threshold 70%로 필터링한다.
    • 아마 70%이하면 데이터를 버린다는 의미겠지?
    • 일반적으로, back-translation와 generative model output은 relevant 클래스이고
    • syntactic perturbation, mask-and-fill은 adversarial set이 되고
    • random utterance selection은 random set이 된다.
  • 이렇게 구축된 데이터로 이젠 student 모델을 학습시킨다.
    • 학습시킬때, 단순히 fine-tuning하는 것은 아닌거 같고..
    • CE, KL, MLM 3가지 로스로 학습한다.
    • 즉 fine-tuning하는 CE loss,
    • teacher model의 분포와 가까워지는 KL divergence loss
    • 새로운 도메인에 대한 이해를 위한 MLM loss
  • 이렇게 했을 때, metric 성능이 좋다고 하는데 이 부분은 생략했음...

0 Abstract

  • 챗봇은 일반적인 잡담, 지식 교환 및 페르소나 기반 대화와 같은 다양한 영역에서 사람과 유사한 대화를 수행하도록 설계되었습니다. 
  • 이러한 대화 에이전트의 품질을 측정하기 위해 대화 평가자는 도메인 전반에 걸쳐 평가를 수행해야 합니다. 
  • 그러나 대부분의 최신 automatic dialogue evaluation metrics (ADM)은 multi-domain evaluation를 위해 설계되지 않았습니다. 
  • 우리는 문제를 해결하기 위해 일반적이고 강력한 프레임워크인 MDD-Eval을 설계하고자 합니다. 
  • 구체적으로, 우리는 먼저 사람이 주석을 추가한 데이터로 teacher evaluator를 훈련하여 특정 영역에서 좋은 대화 응답과 나쁜 대화 응답을 구별하는 평가 기술을 습득한 다음,
    • 새로운 평가자가 multiple domains에 걸쳐 일반화하는데 도움이 되는 teacher-annotated multi-domain data로 new evaluator를 훈련시키는 self-training strategy을 채택합니다.
  • MDDEval은 6가지 대화 평가 벤치마크에서 광범위하게 평가됩니다. 
  • 경험적 결과는 MDD-Eval 프레임워크가 모든 평가 벤치마크에서 평균 Spearman 상관 점수 측면에서 최첨단 ADM에 비해 7%의 절대 개선으로 강력한 성능을 달성한다는 것을 보여줍니다.

1 Introduction

  • 최근 몇 년 동안 개방형 대화 시스템에 대한 관심이 증가하는 것을 목격했습니다(Adiwardana et al. 2020; Zhang et al. 2020; Roller et al. 2021).
  • 고품질 대화 말뭉치(Li et al. 2017; Zhang et al. 2018)의 가용성이 증가하고 신경 아키텍처의 발전(Devlin et al. 2019; Radford et al. 2019)으로 학습 기반 대화 시스템이 가능해지고 있습니다. .
  • 응용 프로그램에는 general chit-chat, knowledge exchange, persona-based chat, and emotion disclosure와 같은 다양한 시나리오에서 사용자의 프롬프트에 적절한 응답을 생성할 수 있는 대화 기술이 필요합니다.
  • 그러나 대화 연구는 자동 대화 평가 메트릭(ADM)으로 시스템 성능을 평가하는 능력에 크게 의존합니다. 
  • BLEU 및 ROUGE와 같은 대화 시스템 문헌에서 사용되는 NLG(일반 자연어 생성) 메트릭은 대화 평가의 다면적 특성뿐만 아니라 대화에서 one-to-many context response mapping때문에, 인간의 판단과 낮은 상관 관계가 있는 것으로 나타났기 때문에 multi-domain dialogue 평가 작업에 적합하지 않습니다.
  • 대안 솔루션은 다양한 품질의 대화 응답을 구별하는 방법을 명시적으로 학습하는 모델 기반 ADM을 설계하는 것입니다.
  • 최근에는 표준 NLG 메트릭의 약점을 해결하기 위해 자체 지도 학습을 활용하는 많은 모델 기반 ADM이 제안되었습니다(Sai et al. 2020; Ghazarian et al. 2019; Mehri and Eskenazi 2020b; Huang et al. 2020; Zhang et al. 2021c).
  • 이러한 ADM은 인간의 판단과 강한 상관관계를 보여주지만 multiple domains에 걸친 대화를 평가하는 일반화된 기술이 부족합니다.
  • 예를 들어, 표 1에서 DEB(Sai et al. 2020) 및 GRADE(Huang et al. 2020)는 DailyDialog 데이터 세트(Li et al. 2017)에서 사전 훈련됩니다.
    • 그들은 chit-chat content에 대해 훈련된 대화 시스템의 응답을 포함하는 DailyDialog-Eval(Zhao, Lala, 및 Kawahara 2020) 벤치마크에서 잘 수행됩니다.
    • 그러나 TopicalChat(Gopalakrishnan et al. 2019)과 영역이 가깝고 지식 기반 대화의 대화 응답이 포함된 TopicalEval(Mehri 및 Eskenazi 2020b) 벤치마크에서 평가할 때 성능이 크게 떨어집니다.
    • TopicalChat 데이터 세트에서 사전 훈련된 USR(Mehri and Eskenazi 2020b)의 경우에는 반대입니다.
  • 다중 영역 대화 평가 작업을 위한 강력한 ADM을 설계하기 위해 두 가지 연구 질문을 고려합니다. 
    • (1) 다양한 품질의 응답을 구별하기 위해 ADM에 rating 기술을 갖추는 방법은 무엇입니까? 즉, 관련 응답에 높은 점수를 부여하고 그렇지 않은 경우 낮은 점수를 부여하는 능력입니다. 
    • (2) ADM은 평가 기술을 일반화하기 위해 대화 영역 전반에 걸친 general knowledge을 어떻게 학습할 수 있습니까? 
    • 첫 번째 질문에 대해 가장 직접적이고 효과적인 방법은 사람에게서 배우는 것입니다. 
      • 즉, 사람이 주석을 추가한 대화 데이터로 ADM을 훈련할 수 있습니다. 
    • 두 번째 질문에 대한 일반적인 지식은 대규모 다중 영역 대화 데이터 세트에서 학습할 수 있습니다. 
      • 이상적으로는 사람의 주석을 사용할 수 있는 경우 Oracle 다중 도메인 대화 평가자를 학습할 수 있습니다. 
      • 그러나 대규모 인간 주석을 수행하는 것은 매우 비용이 많이 듭니다. 
    • 따라서 우리는 우리의 작업에 대한 준지도 학습을 탐색하도록 동기를 부여합니다.
  • 보다 구체적으로, 우리는 human-annotated dialogue evaluation data에 대해 훈련된 teacher model이 unlabeled dialogue data에 대한 pseudo 레이블을 생성하는 self-training paradigm에서 multi-domain dialogue evaluation (MDD-Eval) 프레임워크를 제안합니다. 
  • 그런 다음 synthetically-labeled data를 사용하여 student 모델을 학습합니다.
    • large-scale multi-domain unlabeled dialogue data를 얻기 위해 random utterance selection, mask-and-fill 및  back-translation과 같은 ADM의 self-supervised learning에 성공적으로 적용된 대화 데이터 증강 기술을 활용합니다. 
    • 이러한 방식으로, 우리는 student model이 teacher model의 평가 기술을 보유하고 pseudo 레이블이 있는 대규모 다중 도메인 데이터 세트에 적용된 후 도메인 전반에 일반화할 수 있을 것으로 기대합니다.
  • Overall, we make the following contributions: 
    • MDD-Eval이라는 모델 기반 프레임워크는 증강 데이터에 대한 자체 학습 방식으로 제안됩니다.
      • 평가 기술은 human-annotated data에 대해 학습하고 cross-domain general knowledge은 machine-annotated data에 대해 학습합니다.
    • ADM 교육을 용이하게 하는 기계 주석이 포함된 대규모 다중 도메인 대화 데이터 세트를 출시합니다. 
      • 데이터 세트의 이름을 MDD-Data로 지정합니다.
    • MDD-Eval은 6개의 대화 평가 벤치마크에 대한 평균 Spearman 상관 관계 측면에서 최첨단 ADM에 비해 7%의 절대 개선을 달성합니다.
    • MDD-Data, MDD-Eval 구현 및 사전 훈련된 체크포인트가 공개됩니다. 
      • 이를 통해 실무자와 연구자는 대화 시스템의 자동 평가를 위해 MDD-Eval을 사용하고 조정할 수 있습니다.

2 Related Work

2.1 Dialogue Evaluation Metrics

  • 인간의 평가는 인식된 대화 시스템의 품질을 반영합니다. 
  • 그러나 비용과 시간이 많이 소요됩니다.
  • 시스템 개발을 위해 우리는 모델 설계, 하이퍼파라미터 튜닝 및 시스템 벤치마킹을 위해 ADM에 의존합니다(Yeh, Eskenazi, Mehri 2021).
  • 개방형 도메인 ADM의 현재 추세는 참조 기반 접근 방식에서 참조가 없는 모델 기반 접근 방식으로 이동하고 있습니다(Mehri and Eskenazi 2020a; Zhang et al. 2021a).
  • 많은 ADM 솔루션에서 우리는 자체 감독 방식으로 원래 응답과 부정적인 샘플을 구별하기 위해 판별 네트워크를 훈련함으로써 대화 컨텍스트와 생성된 응답 간의 관련성을 예측합니다.
  • 대표적인 예로 RUBER(Tao et al. 2018), BERT-RUBER(Ghazarian et al. 2019), USR(Mehri and Eskenazi 2020b), GRADE(Huang et al. 2020), MaUdE(Sinha et al. 2020) 및 D-score가 있습니다. (Zhang et al. 2021c).
  • 자기 지도 학습으로 학습된 메트릭의 문제는 무작위 음성 샘플링 전략이 거짓 음성 또는 지나치게 단순한 후보를 생성하여 ADM에 원치 않는 편향을 도입할 가능성이 있다는 것입니다.
  • 한 가지 아이디어는 ADM의 식별 능력을 높이기 위해 적대적 관련 없는 응답을 도입하는 것입니다(Sai et al. 2020; Gupta, Tsvetkov, and Bigham 2021; Park et al. 2021).
  • 이러한 방식으로, 평가 모델은 다양한 대화 컨텍스트에서 여러 관련성 및 적대적 관련 없는 응답의 데이터 세트로부터 큰 이점을 얻을 것입니다.
  • 기존 방법은 이러한 데이터 세트를 설계하는 방법에 매우 중점을 둡니다.
  • 이러한 생각을 따라 이 작업은 먼저 하나의 데이터 세트에서 평가 기술을 학습한 다음 여러 도메인에 걸쳐 기술을 일반화하는 새로운 전략을 제시합니다.

2.2 Self-Training

  • 자가 훈련은 추가 정보를 얻기 위해 레이블이 지정되지 않은 데이터에 대한 모델의 예측을 통합하는 간단하고 효과적인 반지도 접근 방식입니다. 
  • 이미지 인식, 텍스트 생성 자동 음성 인식, 구문 분석과 같은 많은 작업에서 효과적인 것으로 나타났습니다.
  • 자가 훈련의 성공에 기여하는 두 가지 핵심 아이디어가 있습니다. 
    • pseudo-labeling and consistency regularization
    • pseudo-labeling은 모델 예측을 하드 레이블로 변환하는 프로세스를 나타냅니다 (Lee et al. 2013). 
    • 일반적으로 분류자가 충분히 확신할 때만 레이블이 지정되지 않은 예를 유지하기 위해 신뢰 기반 임계값이 부과됩니다(Sohn et al. 2020).
    • MDD-Eval에서는 레이블이 지정되지 않은 데이터에서 고품질의 적대적 및 무작위 음성 샘플을 부트스트랩하기 위해 신뢰 기반 임계값과 함께 pseudo-labeling을 적용합니다. 
  • consistency regularization는 (Bachman, Alsharif 및 Precup 2014)에 의해 처음 제안되었습니다. 
    • 이는 입력 또는 모델 함수가 소량의 노이즈에 의해 섭동되더라도 분류 모델에 의한 예측이 일관되게 유지된다는 것을 의미합니다. 
    • 최근에 일관성 정규화를 사용하여 자가 학습 프로세스를 조정하면 많은 이미지 및 텍스트 분류 작업에서 모델 성능이 향상되는 것으로 나타났습니다(Xie et al. 2020a; Berthelot et al. 2020). 
    • 우리는 기본적으로 텍스트 분류 작업으로 학습되는 대화 평가자의 학습에 일관성 정규화를 통합하도록 동기를 부여했습니다.
  • Xieet al. (2020b) Noisy Student and Sohn et al. (2020)은 FixMatch 프레임워크를 제안합니다. 
  • 둘 다 pseudo-labeling과 consistency regularization를 통합 프레임워크에 통합합니다. 
  • Noisy Student와 FixMatch는 이미지 분류 작업에서 놀라운 성능을 보여주었으며, 이는 우리가 처음으로 오픈 도메인 ADM 교육에서 의사 레이블링 및 일관성 정규화 아이디어를 통합하도록 동기를 부여했습니다.

3 Methodology

  • 이 섹션에서는 먼저 multi-domain dialogue evaluation task (섹션 3.1)을 정의한 다음 세 단계로 MDD-Eval 프레임워크를 공식화합니다.
    • (a) human-annotated dataset에서 teacher model (섹션 3.2)을 사전 훈련하여 relevant responses과 irrelevant 응답을 구별하는 평가 기술을 학습합니다.
    • (b) MDD-Eval self-training을 위한 large-scale multi-domain dataset를 어그멘테이션을 한다. (섹션 3.3).
    • (c) pretrained teacher model을 augmented data로 일반화하여 augmented data 에서 학습한 일반화된 평가 기술을 전달하는 학생 모델을 도출합니다. (섹션 3.4).

3.1 Problem Formulation

  • 대화 context와 그에 해당하는 response: cji, rji
    • cji, rji 데이터 쌍은 j번째 대화 평가 벤치마크 Dj로부터 추출되고, j ∈ {1, ..., J}, and Dj ∈ DJ이고 i ∈ {1, ..., I}이다.
    • J개 도메인들과 각각 I 데이터 쌍들이 있다.
  • 우리의 목표는 metirc M을 학습해서 M : (cji , rji ) → sji하게 하는 것이다.
    • sji는 metric score로 M이 인식하는 (cji , rji )의 퀄리티를 가리킨다.
    • 게다가, 각 (cji , rji )는 여러 사람들의 판단으로부터 어노테이트되었고 각 사람들은 Likert scale을 기반으로 퀄리티 점수를 제공하여 (cji , rji )의 품질에 대한 자신의 인지를 나타낸다.
  • 우리는 (cji , rji )에 주어진 사람 점수의 평균을 qji로 나타낸다.
  • 대화 평가의 다면적 특성으로 인해 품질은 language fluency, coherence, topic relevance, logical consistency 등을 참조할 수 있습니다.
    • 우리 작업의 초점은 다차원 평가가 아닌 다영역 대화 평가이므로 여기에서 응답 적합성으로 품질을 수정합니다.
  • Dj에서 M의 성능을 평가하려면 S = {sji , . . . , sjI} 및 Q = {qji , . . . , qjI} 가 계산됩니다. 
    • ρj 를 사용하여 Dj 에 대한 상관 점수를 나타냅니다. 
    • ρj 가 높을수록 Dj 에 대한 메트릭의 성능이 더 우수함을 나타냅니다. 
    • 다중 영역 대화 평가 작업에서 효과적인 M은 모든 J 영역에서 좋은 상관 점수를 달성해야 합니다. 
    • 다시 말해서, 원하는 M은 좋은 평균 상관관계 ρ~ = 1/J sum^{J}_{j=1} (ρj) 를 얻어야 합니다.

3.2 Teacher Model

  • 우리는 먼저 모델을 하나의 특정한 도메인에서 human-annotated data에 대해 pretrain한다. 
    • 즉 이는 teacher model Mteacher로 파라미터 θteacher로 정의된다.
  • 대화 context response 쌍이 주어지면, Mteacher은 context와 해당하는 response 사이의 관련도에 대해 정확하게 결정해야한다.
    • teacher model에게 정확한 rating skill을 주기 위해, 우리는 높은 퀄리티의 human annotated base dataset Db ∈ DJ에 의존한다.
    • 여기서 Db는 single-domain이고, 우리가 증강시키려고하는 데이터보다 훨씬 작은 사이즈이다.
  • 데이터세트 Db에는 주어진 context에대해 3가지 카테고리의 response가 있다.
    • random, adversarial, relevant
    • relevant와 adversarial responses들은 사람 어노테이터에의해 생성된 것이다.
    • Mteacher은 Db에서 context-response 쌍이 3가지 카테고리를 구별하도록 학습이 된다.
    • with the objective function:
    • 여기서 ◦은 concatenation이다.
    • y˜bi은 예측된 class이고 ybi는 (cbi, rbi)에 대한  gold label이고 LCE은 cross entropy loss이다.
  • Mteacher은 3가지 역할을 한다.
    • (1) unlabeled 컨텍스트-응답 쌍 (c*i , r*i )에 pseudo labels을 제공하며, 이는 다른 대화 데이터 어그멘테이션 기술로 획득됩니다. 
      • *는 컨텍스트-응답 쌍이 모든 도메인의 대화 말뭉치에서 추출될 수 있음을 의미합니다.
    • (2) Mteacher에 의해 결정된 낮은 confidence score을 가진 false negatives와 adversarial 혹은 random samples이 제거되는 데이터 선택 프로세스를 용이하게 합니다. 
    • (3) 평가 작업의 기준선 역할을 합니다.

3.3 Dialogue Data Augmentation

  • 도메인 전반에 걸쳐 teacher model을 일반화하기 위해 unlabeled context-response pairs이 많이 포함된 D* 로 표시된 multi-domain 데이터 세트를 수집합니다. 
  • unlabeled pairs은 Mteacher의 Db와 같은 방식으로 자동으로 주석이 추가됩니다. 
  • 주석에 대한 세 가지 후보 응답이 있는 대화 컨텍스트의 예가 그림 1에 나와 있습니다. 
  • 이러한 데이터 세트를 구성하기 위해 다음 대화 데이터 증대 기술을 활용합니다.
  • Syntactic Perturbation
    • Sinha에 의해 동기가 부여되어 구문(syntax) 수준에서 세 가지 변형을 고려했습니다. 
    • (1) 단어 삭제(응답에서 토큰의 임의 부분이 삭제됨). 
    • (2) 단어 섞기(응답의 토큰 순서는 무작위로 섞입니다). 
    • (3) 단어 반복(응답에서 토큰의 임의 부분이 여러 번 반복됨). 
    • syntactic perturbations은 부자연스러운 대화 응답을 생성할 때 일부 생성 모델의 잘못된 동작을 시뮬레이션하기 위한 것입니다.
  • Back-Translation
    • 역번역(Edunov et al. 2018)은 syntactic variants을 생성하여 응답을 강화합니다. 
    • 실제로 우리는 사전 훈련된 WMT'19 영어-독일어 및 독일어-영어 앙상블 모델을 채택하여 역번역을 수행합니다.
  • Generative Model Output
    • DialoGPT 및 BlenderBot과 같은 최첨단 대화 생성기는 대량의 대화 데이터에 대해 사전 훈련을 받았으며 유창하고 주제에 대한 응답을 생성하는 강력한 기능을 보여주고 있습니다.
    • 그것들은 각각의 대화 컨텍스트에 따라 조건화된 응답의 의미론적 변형을 생성하는 데 도움이 됩니다.
  • Random Utterance Selection
    • 무작위 발화 선택은 대화 맥락과 관련하여 관련 없는 응답을 도입하기 위해 대화 평가 메트릭의 자체 지도 학습에서 널리 채택된 간단하고 효과적인 전략입니다.
    • 대화 컨텍스트가 주어지면 무작위 발화 선택의 세 가지 변형이 채택됩니다. 
    • (1) 다른 대화에서 응답을 무작위로 샘플링합니다. 
    • (2) 생성 모델에 의해 생성된 전체 응답 풀에서 응답을 무작위로 샘플링합니다.  
    • (3) 역번역을 통해 얻은 전체 응답 풀에서 응답을 무작위로 샘플링합니다. 
  • Mask-and-fill
    • 위에서 언급한 기술은 relevant and random 클래스에 대한 응답 후보를 생성하는 경향이 있습니다.
      • 위 방법으로 생성된 응답의 레이블이 방법론에 따라 정해지는 것은 아니라 대체적으로 그렇다는 뜻이다.
    • Mask-and-fill 전략은 적대적 클래스에 대한 후보자를 자동으로 구성하기 위해 채택됩니다. 
    • 특히 ILM(Infilling by Language Modeling) 프레임워크를 채택하여 마스크 및 채우기 응답 증대를 수행합니다. 
    • 프로세스는 다음과 같습니다. 
    • 자연스러운 인간-인간 대화에서 추출된 컨텍스트-응답 쌍이 주어지면 응답의 하나 또는 몇 개의 인접한 토큰이 [MASK] 자리 표시자로 무작위로 대체됩니다. 
    • 수정된 응답은 사전 훈련된 ILM 모델에 입력된 다음 자동 회귀 방식으로 토큰을 생성합니다. 
    • 결과적으로 [blank] 자리 표시자는 생성된 토큰으로 대체되어 원래 응답의 재구성된 보기를 얻습니다.
    • 재구성된 응답은 대화 컨텍스트와 관련하여 적대적 샘플 역할을 합니다. (=adversarial)
  • 많은 수의 컨텍스트-응답 쌍을 얻은 후 사전 훈련된 Mteacher를 적용하여 모든 쌍에 soft pseudo labels을 제공합니다. 
    • soft pseudo labels은 세 가지 클래스(random, adversarial and relevant)에 대한 확률 분포입니다. 
    • 그런 다음 pseudo-labeled D* 의 품질을 개선하기 위해 필터링 프로세스가 구현됩니다. 
    • Mteacher가 낮은 신뢰도로 분류한 쌍을 제외하기 위해 70%의 신뢰도 임계값이 적용됩니다. 
    • Emprical evidence에 따르면 70% threshold은 증강 데이터의 품질과 양 사이에 좋은 균형을 제공합니다. 
    • 70% threshold가 안되는 데이터는 버리는 건가? 즉 3개의 class가 균일하게 나오는 그런 경우
  • D* 내에서 relevant set는 다른 dialogue corpora의 대화에서 추출한 원래 context response pairs에 추가한 generative models 및 back-translation로 얻은 필터링된 쌍으로 구성됩니다. 
    • 즉 기존의 context에 대해 생성한 response가 relevant 가 되고
    • 이 response을 back-translation한 것도 relevant가 된다?
  • adversarial set는 주로 syntactic perturbation 및 mask-and-fill 전략을 통해 구성된 필터링된 쌍을 포함합니다. 
  • random set의 경우, 문맥-응답 쌍은 주로 random utterance selection으로 얻습니다.

3.4 Student Model

  • D*가 준비되면 다음 분류 작업을 수행하여 D*에서 θstudent에 의해 매개변수화된 학생 모델 Mstudent를 학습할 수 있습니다.
  • 그림 2는 Mstudent의 학습 목표를 그래픽으로 나타낸 것이며 방정식은 다음과 같습니다.
    • 여기서 LCE는 교차 엔트로피 손실, LKL은 KL divergence , LMLM은 MLM(self-supervised masked language modeling) 손실입니다. 
    • x*i 및 y~*i는 입력 쌍(c*i , r*i )이 각각 주어졌을 때 사전 훈련된 Mteacher가 생성한 의사 레이블과 Mstudent의 logit입니다.
  • LKL은 consistency regularization를 시행하기 위해 도입되었으며 Mstudent는 노이즈에 덜 민감하므로 입력 공간의 섭동과 관련하여 더 부드럽습니다. 
  • 노이즈 주입 후 r*i 의 노이즈 버전을 rˆ*i 로 표시합니다.
  • 실제 구현에서는 r*i 를 기반으로 rˆ i 를 생성합니다. 
  • xˆ*i는 (c*i , rˆ*i )를 입력한 후 Mstudent의 해당 로짓입니다. 
  • x*i 및 xˆ*i의 각각의 소프트맥스 이후 확률 분포 사이의 KL 발산은 훈련 중에 최소화됩니다.
  • 마지막 용어인 LMLM은 Mstudent가 다중 도메인 합성 데이터 세트에 더 잘 적응할 수 있도록 추가 도메인 특정 지식을 추출하는 데 도움을 주기 위한 것입니다.
  • MLM 구현은 표준 BERT(Devlin et al. 2019) 관행을 따르며, 이로써 연결된 시퀀스 [c*i ◦ r*i ]에서 토큰의 임의 부분이 마스킹됩니다. 
  • Mstudent는 마스킹된 토큰에 대한 예측을 할 것으로 예상됩니다.

3.5 Run-time Scoring Process

  • 학습된 student 모델은 multi-domain dialogue evaluation task을 수행하기 위한 MDDEval의 백본 역할을 하며, 섹션 3.1에서 언급한 대로 주어진 컨텍스트 응답 쌍(cji, rji) ∈ Dj에 대한 메트릭 점수 sji를 유도합니다.
  • Mstudent의 채점 프로세스를 다음과 같이 공식화합니다.
    • 이는 입력(cji , rji )이 주어지면 Mstudent의 관련 클래스 출력과 관련된 소프트맥스 이후 확률입니다.

4 Experiment Setup

5 Results & Analysis 

6 Conclusion

  • 우리는 다중 영역 대화 평가 문제를 목표로 하고 두 가지 연구 질문으로 문제에 접근합니다. 
    • ADM: automatic dialogue evaluation metrics
    • (1) ADM은 다양한 품질의 응답을 구별하는 평가 기술을 어떻게 배울 수 있습니까? 
    • (2) ADM은 평가 기술을 일반화하기 위해 다른 대화 영역에 걸쳐 일반 지식을 어떻게 얻을 수 있습니까? 
  • 우리는 두 가지 연구 문제를 해결하기 위해 MDD-Eval을 제안합니다. 
  • 특히 teacher evaluator는 사람이 주석 처리한 데이터로 훈련되어 특정 영역에서 좋은 컨텍스트-응답 쌍을 나쁜 컨텍스트-응답 쌍과 구별하는 기술을 습득합니다. 
  • 그런 다음 new evaluator는 teacher-annotated multi-domain data로 훈련되어 여러 영역에 걸쳐 평가 기술을 일반화합니다. 
  • 경험적 결과는 MDD-Eval이 다중 영역 대화 평가 작업에 효과적이고 강력함을 보여줍니다.

Reference

댓글