◼ Comment

이 논문은 멀티도메인 대화를 평가하는 방법을 제시한다.

대화 평가라는게 주어진 context-response에 대한 점수를 내는 것이다.
즉 (cji , rji ) → sji처럼 s을 계산하고, 이는 퀄리티를 의미한다.

(cji , rji ) → sji에 대해서는 사람이 직접 태깅한 데이터를 활용해 학습한다고 한다.

태깅할 때 점수는 language fluency, coherence, topic relevance, logical consistency을 참조할 수 있긴 하지만, 간단히 적합성으로 한다고 한다.

이렇게 구축된 데이터로 teacher 모델을 학습한다.

데이터는 좀 더 세분하게 보면 random, adversarial, relevant 3가지 클래스가 있다.
여기서 relevant와 adversarial responses들은 사람 어노테이터에의해 생성된 것이다.

이렇게 학습된 teacher 모델의 효과는 다음과 같다.

(1) unlabeled 컨텍스트-응답 쌍 (c*i , r*i )에 pseudo labels을 제공하며, 이는 다른 대화 데이터 어그멘테이션 기술로 획득됩니다.

*는 컨텍스트-응답 쌍이 모든 도메인의 대화 말뭉치에서 추출될 수 있음을 의미합니다.

(2) Mteacher에 의해 결정된 낮은 confidence score을 가진 false negatives와 adversarial 혹은 random samples이 제거되는 데이터 선택 프로세스를 용이하게 합니다.
(3) 평가 작업의 기준선 역할을 합니다.
여기서 teacher 모델이 학습되는 도메인은 모든 도메인이 아니라 특정 도메인이다.
즉, 특정 도메인에서 좋은 데이터세트를 수집하고, 이로 학습한 teacher 모델로 다른 도메인에서의 데이터를 자동으로 만들어서 (student) 모델이 전반적인 도메인에서 잘 작동하게끔 하겠다는 것이다.

그렇다면 다른 도메인에서 어떻게 데이터를 만들까?

이는 위에서 말했듯이, 사람이 태깅하는건 아니고 다음의 기술로 데이터를 증강시킨다.
Syntactic Perturbation
Back-Translation
Generative Model Output
Random Utterance Selection
Mask-and-fill
자세한건 아래에 설명..
아무튼 이렇게 5개 방식으로 context-response pair을 만든다.
이렇게 구축된 pair에 레이블링을 하기 위해, teacher 모델을 태운다.
그러면 3개의 클래스에 대한 확률이 나올텐데 threshold 70%로 필터링한다.
아마 70%이하면 데이터를 버린다는 의미겠지?
일반적으로, back-translation와 generative model output은 relevant 클래스이고
syntactic perturbation, mask-and-fill은 adversarial set이 되고
random utterance selection은 random set이 된다.

이렇게 구축된 데이터로 이젠 student 모델을 학습시킨다.

학습시킬때, 단순히 fine-tuning하는 것은 아닌거 같고..
CE, KL, MLM 3가지 로스로 학습한다.
즉 fine-tuning하는 CE loss,
teacher model의 분포와 가까워지는 KL divergence loss
새로운 도메인에 대한 이해를 위한 MLM loss

이렇게 했을 때, metric 성능이 좋다고 하는데 이 부분은 생략했음...

0 Abstract

챗봇은 일반적인 잡담, 지식 교환 및 페르소나 기반 대화와 같은 다양한 영역에서 사람과 유사한 대화를 수행하도록 설계되었습니다.
이러한 대화 에이전트의 품질을 측정하기 위해 대화 평가자는 도메인 전반에 걸쳐 평가를 수행해야 합니다.
그러나 대부분의 최신 automatic dialogue evaluation metrics (ADM)은 multi-domain evaluation를 위해 설계되지 않았습니다.
우리는 문제를 해결하기 위해 일반적이고 강력한 프레임워크인 MDD-Eval을 설계하고자 합니다.
구체적으로, 우리는 먼저 사람이 주석을 추가한 데이터로 teacher evaluator를 훈련하여 특정 영역에서 좋은 대화 응답과 나쁜 대화 응답을 구별하는 평가 기술을 습득한 다음,

새로운 평가자가 multiple domains에 걸쳐 일반화하는데 도움이 되는 teacher-annotated multi-domain data로 new evaluator를 훈련시키는 self-training strategy을 채택합니다.

MDDEval은 6가지 대화 평가 벤치마크에서 광범위하게 평가됩니다.
경험적 결과는 MDD-Eval 프레임워크가 모든 평가 벤치마크에서 평균 Spearman 상관 점수 측면에서 최첨단 ADM에 비해 7%의 절대 개선으로 강력한 성능을 달성한다는 것을 보여줍니다.

1 Introduction

최근 몇 년 동안 개방형 대화 시스템에 대한 관심이 증가하는 것을 목격했습니다(Adiwardana et al. 2020; Zhang et al. 2020; Roller et al. 2021).
고품질 대화 말뭉치(Li et al. 2017; Zhang et al. 2018)의 가용성이 증가하고 신경 아키텍처의 발전(Devlin et al. 2019; Radford et al. 2019)으로 학습 기반 대화 시스템이 가능해지고 있습니다. .
응용 프로그램에는 general chit-chat, knowledge exchange, persona-based chat, and emotion disclosure와 같은 다양한 시나리오에서 사용자의 프롬프트에 적절한 응답을 생성할 수 있는 대화 기술이 필요합니다.
그러나 대화 연구는 자동 대화 평가 메트릭(ADM)으로 시스템 성능을 평가하는 능력에 크게 의존합니다.
BLEU 및 ROUGE와 같은 대화 시스템 문헌에서 사용되는 NLG(일반 자연어 생성) 메트릭은 대화 평가의 다면적 특성뿐만 아니라 대화에서 one-to-many context response mapping때문에, 인간의 판단과 낮은 상관 관계가 있는 것으로 나타났기 때문에 multi-domain dialogue 평가 작업에 적합하지 않습니다.
대안 솔루션은 다양한 품질의 대화 응답을 구별하는 방법을 명시적으로 학습하는 모델 기반 ADM을 설계하는 것입니다.
최근에는 표준 NLG 메트릭의 약점을 해결하기 위해 자체 지도 학습을 활용하는 많은 모델 기반 ADM이 제안되었습니다(Sai et al. 2020; Ghazarian et al. 2019; Mehri and Eskenazi 2020b; Huang et al. 2020; Zhang et al. 2021c).
이러한 ADM은 인간의 판단과 강한 상관관계를 보여주지만 multiple domains에 걸친 대화를 평가하는 일반화된 기술이 부족합니다.
예를 들어, 표 1에서 DEB(Sai et al. 2020) 및 GRADE(Huang et al. 2020)는 DailyDialog 데이터 세트(Li et al. 2017)에서 사전 훈련됩니다.

그들은 chit-chat content에 대해 훈련된 대화 시스템의 응답을 포함하는 DailyDialog-Eval(Zhao, Lala, 및 Kawahara 2020) 벤치마크에서 잘 수행됩니다.
그러나 TopicalChat(Gopalakrishnan et al. 2019)과 영역이 가깝고 지식 기반 대화의 대화 응답이 포함된 TopicalEval(Mehri 및 Eskenazi 2020b) 벤치마크에서 평가할 때 성능이 크게 떨어집니다.
TopicalChat 데이터 세트에서 사전 훈련된 USR(Mehri and Eskenazi 2020b)의 경우에는 반대입니다.

다중 영역 대화 평가 작업을 위한 강력한 ADM을 설계하기 위해 두 가지 연구 질문을 고려합니다.

(1) 다양한 품질의 응답을 구별하기 위해 ADM에 rating 기술을 갖추는 방법은 무엇입니까? 즉, 관련 응답에 높은 점수를 부여하고 그렇지 않은 경우 낮은 점수를 부여하는 능력입니다.
(2) ADM은 평가 기술을 일반화하기 위해 대화 영역 전반에 걸친 general knowledge을 어떻게 학습할 수 있습니까?
첫 번째 질문에 대해 가장 직접적이고 효과적인 방법은 사람에게서 배우는 것입니다.

즉, 사람이 주석을 추가한 대화 데이터로 ADM을 훈련할 수 있습니다.

두 번째 질문에 대한 일반적인 지식은 대규모 다중 영역 대화 데이터 세트에서 학습할 수 있습니다.

이상적으로는 사람의 주석을 사용할 수 있는 경우 Oracle 다중 도메인 대화 평가자를 학습할 수 있습니다.
그러나 대규모 인간 주석을 수행하는 것은 매우 비용이 많이 듭니다.

따라서 우리는 우리의 작업에 대한 준지도 학습을 탐색하도록 동기를 부여합니다.

보다 구체적으로, 우리는 human-annotated dialogue evaluation data에 대해 훈련된 teacher model이 unlabeled dialogue data에 대한 pseudo 레이블을 생성하는 self-training paradigm에서 multi-domain dialogue evaluation (MDD-Eval) 프레임워크를 제안합니다.
그런 다음 synthetically-labeled data를 사용하여 student 모델을 학습합니다.

large-scale multi-domain unlabeled dialogue data를 얻기 위해 random utterance selection, mask-and-fill 및 back-translation과 같은 ADM의 self-supervised learning에 성공적으로 적용된 대화 데이터 증강 기술을 활용합니다.
이러한 방식으로, 우리는 student model이 teacher model의 평가 기술을 보유하고 pseudo 레이블이 있는 대규모 다중 도메인 데이터 세트에 적용된 후 도메인 전반에 일반화할 수 있을 것으로 기대합니다.

Overall, we make the following contributions:

MDD-Eval이라는 모델 기반 프레임워크는 증강 데이터에 대한 자체 학습 방식으로 제안됩니다.

평가 기술은 human-annotated data에 대해 학습하고 cross-domain general knowledge은 machine-annotated data에 대해 학습합니다.

ADM 교육을 용이하게 하는 기계 주석이 포함된 대규모 다중 도메인 대화 데이터 세트를 출시합니다.

데이터 세트의 이름을 MDD-Data로 지정합니다.

MDD-Eval은 6개의 대화 평가 벤치마크에 대한 평균 Spearman 상관 관계 측면에서 최첨단 ADM에 비해 7%의 절대 개선을 달성합니다.
MDD-Data, MDD-Eval 구현 및 사전 훈련된 체크포인트가 공개됩니다.

이를 통해 실무자와 연구자는 대화 시스템의 자동 평가를 위해 MDD-Eval을 사용하고 조정할 수 있습니다.

2 Related Work

2.1 Dialogue Evaluation Metrics

인간의 평가는 인식된 대화 시스템의 품질을 반영합니다.
그러나 비용과 시간이 많이 소요됩니다.
시스템 개발을 위해 우리는 모델 설계, 하이퍼파라미터 튜닝 및 시스템 벤치마킹을 위해 ADM에 의존합니다(Yeh, Eskenazi, Mehri 2021).
개방형 도메인 ADM의 현재 추세는 참조 기반 접근 방식에서 참조가 없는 모델 기반 접근 방식으로 이동하고 있습니다(Mehri and Eskenazi 2020a; Zhang et al. 2021a).
많은 ADM 솔루션에서 우리는 자체 감독 방식으로 원래 응답과 부정적인 샘플을 구별하기 위해 판별 네트워크를 훈련함으로써 대화 컨텍스트와 생성된 응답 간의 관련성을 예측합니다.
대표적인 예로 RUBER(Tao et al. 2018), BERT-RUBER(Ghazarian et al. 2019), USR(Mehri and Eskenazi 2020b), GRADE(Huang et al. 2020), MaUdE(Sinha et al. 2020) 및 D-score가 있습니다. (Zhang et al. 2021c).
자기 지도 학습으로 학습된 메트릭의 문제는 무작위 음성 샘플링 전략이 거짓 음성 또는 지나치게 단순한 후보를 생성하여 ADM에 원치 않는 편향을 도입할 가능성이 있다는 것입니다.
한 가지 아이디어는 ADM의 식별 능력을 높이기 위해 적대적 관련 없는 응답을 도입하는 것입니다(Sai et al. 2020; Gupta, Tsvetkov, and Bigham 2021; Park et al. 2021).
이러한 방식으로, 평가 모델은 다양한 대화 컨텍스트에서 여러 관련성 및 적대적 관련 없는 응답의 데이터 세트로부터 큰 이점을 얻을 것입니다.
기존 방법은 이러한 데이터 세트를 설계하는 방법에 매우 중점을 둡니다.
이러한 생각을 따라 이 작업은 먼저 하나의 데이터 세트에서 평가 기술을 학습한 다음 여러 도메인에 걸쳐 기술을 일반화하는 새로운 전략을 제시합니다.

2.2 Self-Training

자가 훈련은 추가 정보를 얻기 위해 레이블이 지정되지 않은 데이터에 대한 모델의 예측을 통합하는 간단하고 효과적인 반지도 접근 방식입니다.
이미지 인식, 텍스트 생성 자동 음성 인식, 구문 분석과 같은 많은 작업에서 효과적인 것으로 나타났습니다.
자가 훈련의 성공에 기여하는 두 가지 핵심 아이디어가 있습니다.

pseudo-labeling and consistency regularization
pseudo-labeling은 모델 예측을 하드 레이블로 변환하는 프로세스를 나타냅니다 (Lee et al. 2013).
일반적으로 분류자가 충분히 확신할 때만 레이블이 지정되지 않은 예를 유지하기 위해 신뢰 기반 임계값이 부과됩니다(Sohn et al. 2020).
MDD-Eval에서는 레이블이 지정되지 않은 데이터에서 고품질의 적대적 및 무작위 음성 샘플을 부트스트랩하기 위해 신뢰 기반 임계값과 함께 pseudo-labeling을 적용합니다.

consistency regularization는 (Bachman, Alsharif 및 Precup 2014)에 의해 처음 제안되었습니다.

이는 입력 또는 모델 함수가 소량의 노이즈에 의해 섭동되더라도 분류 모델에 의한 예측이 일관되게 유지된다는 것을 의미합니다.
최근에 일관성 정규화를 사용하여 자가 학습 프로세스를 조정하면 많은 이미지 및 텍스트 분류 작업에서 모델 성능이 향상되는 것으로 나타났습니다(Xie et al. 2020a; Berthelot et al. 2020).
우리는 기본적으로 텍스트 분류 작업으로 학습되는 대화 평가자의 학습에 일관성 정규화를 통합하도록 동기를 부여했습니다.

Xieet al. (2020b) Noisy Student and Sohn et al. (2020)은 FixMatch 프레임워크를 제안합니다.
둘 다 pseudo-labeling과 consistency regularization를 통합 프레임워크에 통합합니다.
Noisy Student와 FixMatch는 이미지 분류 작업에서 놀라운 성능을 보여주었으며, 이는 우리가 처음으로 오픈 도메인 ADM 교육에서 의사 레이블링 및 일관성 정규화 아이디어를 통합하도록 동기를 부여했습니다.

3 Methodology

이 섹션에서는 먼저 multi-domain dialogue evaluation task (섹션 3.1)을 정의한 다음 세 단계로 MDD-Eval 프레임워크를 공식화합니다.

(a) human-annotated dataset에서 teacher model (섹션 3.2)을 사전 훈련하여 relevant responses과 irrelevant 응답을 구별하는 평가 기술을 학습합니다.
(b) MDD-Eval self-training을 위한 large-scale multi-domain dataset를 어그멘테이션을 한다. (섹션 3.3).
(c) pretrained teacher model을 augmented data로 일반화하여 augmented data 에서 학습한 일반화된 평가 기술을 전달하는 학생 모델을 도출합니다. (섹션 3.4).

3.1 Problem Formulation

대화 context와 그에 해당하는 response: cji, rji

cji, rji 데이터 쌍은 j번째 대화 평가 벤치마크 Dj로부터 추출되고, j ∈ {1, ..., J}, and Dj ∈ DJ이고 i ∈ {1, ..., I}이다.
J개 도메인들과 각각 I 데이터 쌍들이 있다.

우리의 목표는 metirc M을 학습해서 M : (cji , rji ) → sji하게 하는 것이다.

sji는 metric score로 M이 인식하는 (cji , rji )의 퀄리티를 가리킨다.
게다가, 각 (cji , rji )는 여러 사람들의 판단으로부터 어노테이트되었고 각 사람들은 Likert scale을 기반으로 퀄리티 점수를 제공하여 (cji , rji )의 품질에 대한 자신의 인지를 나타낸다.

우리는 (cji , rji )에 주어진 사람 점수의 평균을 qji로 나타낸다.
대화 평가의 다면적 특성으로 인해 품질은 language fluency, coherence, topic relevance, logical consistency 등을 참조할 수 있습니다.

우리 작업의 초점은 다차원 평가가 아닌 다영역 대화 평가이므로 여기에서 응답 적합성으로 품질을 수정합니다.

Dj에서 M의 성능을 평가하려면 S = {sji , . . . , sjI} 및 Q = {qji , . . . , qjI} 가 계산됩니다.

ρj 를 사용하여 Dj 에 대한 상관 점수를 나타냅니다.
ρj 가 높을수록 Dj 에 대한 메트릭의 성능이 더 우수함을 나타냅니다.
다중 영역 대화 평가 작업에서 효과적인 M은 모든 J 영역에서 좋은 상관 점수를 달성해야 합니다.
다시 말해서, 원하는 M은 좋은 평균 상관관계 ρ~ = 1/J sum^{J}_{j=1} (ρj) 를 얻어야 합니다.

3.2 Teacher Model

우리는 먼저 모델을 하나의 특정한 도메인에서 human-annotated data에 대해 pretrain한다.

즉 이는 teacher model Mteacher로 파라미터 θteacher로 정의된다.

대화 context response 쌍이 주어지면, Mteacher은 context와 해당하는 response 사이의 관련도에 대해 정확하게 결정해야한다.

teacher model에게 정확한 rating skill을 주기 위해, 우리는 높은 퀄리티의 human annotated base dataset Db ∈ DJ에 의존한다.
여기서 Db는 single-domain이고, 우리가 증강시키려고하는 데이터보다 훨씬 작은 사이즈이다.

데이터세트 Db에는 주어진 context에대해 3가지 카테고리의 response가 있다.

random, adversarial, relevant
relevant와 adversarial responses들은 사람 어노테이터에의해 생성된 것이다.
Mteacher은 Db에서 context-response 쌍이 3가지 카테고리를 구별하도록 학습이 된다.
with the objective function:
여기서 ◦은 concatenation이다.
y˜bi은 예측된 class이고 ybi는 (cbi, rbi)에 대한 gold label이고 LCE은 cross entropy loss이다.

Mteacher은 3가지 역할을 한다.

(1) unlabeled 컨텍스트-응답 쌍 (c*i , r*i )에 pseudo labels을 제공하며, 이는 다른 대화 데이터 어그멘테이션 기술로 획득됩니다.

*는 컨텍스트-응답 쌍이 모든 도메인의 대화 말뭉치에서 추출될 수 있음을 의미합니다.

(2) Mteacher에 의해 결정된 낮은 confidence score을 가진 false negatives와 adversarial 혹은 random samples이 제거되는 데이터 선택 프로세스를 용이하게 합니다.
(3) 평가 작업의 기준선 역할을 합니다.

3.3 Dialogue Data Augmentation

도메인 전반에 걸쳐 teacher model을 일반화하기 위해 unlabeled context-response pairs이 많이 포함된 D* 로 표시된 multi-domain 데이터 세트를 수집합니다.
unlabeled pairs은 Mteacher의 Db와 같은 방식으로 자동으로 주석이 추가됩니다.
주석에 대한 세 가지 후보 응답이 있는 대화 컨텍스트의 예가 그림 1에 나와 있습니다.
이러한 데이터 세트를 구성하기 위해 다음 대화 데이터 증대 기술을 활용합니다.
Syntactic Perturbation

Sinha에 의해 동기가 부여되어 구문(syntax) 수준에서 세 가지 변형을 고려했습니다.
(1) 단어 삭제(응답에서 토큰의 임의 부분이 삭제됨).
(2) 단어 섞기(응답의 토큰 순서는 무작위로 섞입니다).
(3) 단어 반복(응답에서 토큰의 임의 부분이 여러 번 반복됨).
syntactic perturbations은 부자연스러운 대화 응답을 생성할 때 일부 생성 모델의 잘못된 동작을 시뮬레이션하기 위한 것입니다.

Back-Translation

역번역(Edunov et al. 2018)은 syntactic variants을 생성하여 응답을 강화합니다.
실제로 우리는 사전 훈련된 WMT'19 영어-독일어 및 독일어-영어 앙상블 모델을 채택하여 역번역을 수행합니다.

Generative Model Output

DialoGPT 및 BlenderBot과 같은 최첨단 대화 생성기는 대량의 대화 데이터에 대해 사전 훈련을 받았으며 유창하고 주제에 대한 응답을 생성하는 강력한 기능을 보여주고 있습니다.
그것들은 각각의 대화 컨텍스트에 따라 조건화된 응답의 의미론적 변형을 생성하는 데 도움이 됩니다.

Random Utterance Selection

무작위 발화 선택은 대화 맥락과 관련하여 관련 없는 응답을 도입하기 위해 대화 평가 메트릭의 자체 지도 학습에서 널리 채택된 간단하고 효과적인 전략입니다.
대화 컨텍스트가 주어지면 무작위 발화 선택의 세 가지 변형이 채택됩니다.
(1) 다른 대화에서 응답을 무작위로 샘플링합니다.
(2) 생성 모델에 의해 생성된 전체 응답 풀에서 응답을 무작위로 샘플링합니다.
(3) 역번역을 통해 얻은 전체 응답 풀에서 응답을 무작위로 샘플링합니다.

Mask-and-fill

위에서 언급한 기술은 relevant and random 클래스에 대한 응답 후보를 생성하는 경향이 있습니다.

위 방법으로 생성된 응답의 레이블이 방법론에 따라 정해지는 것은 아니라 대체적으로 그렇다는 뜻이다.

Mask-and-fill 전략은 적대적 클래스에 대한 후보자를 자동으로 구성하기 위해 채택됩니다.
특히 ILM(Infilling by Language Modeling) 프레임워크를 채택하여 마스크 및 채우기 응답 증대를 수행합니다.
프로세스는 다음과 같습니다.
자연스러운 인간-인간 대화에서 추출된 컨텍스트-응답 쌍이 주어지면 응답의 하나 또는 몇 개의 인접한 토큰이 [MASK] 자리 표시자로 무작위로 대체됩니다.
수정된 응답은 사전 훈련된 ILM 모델에 입력된 다음 자동 회귀 방식으로 토큰을 생성합니다.
결과적으로 [blank] 자리 표시자는 생성된 토큰으로 대체되어 원래 응답의 재구성된 보기를 얻습니다.
재구성된 응답은 대화 컨텍스트와 관련하여 적대적 샘플 역할을 합니다. (=adversarial)

많은 수의 컨텍스트-응답 쌍을 얻은 후 사전 훈련된 Mteacher를 적용하여 모든 쌍에 soft pseudo labels을 제공합니다.

soft pseudo labels은 세 가지 클래스(random, adversarial and relevant)에 대한 확률 분포입니다.
그런 다음 pseudo-labeled D* 의 품질을 개선하기 위해 필터링 프로세스가 구현됩니다.
Mteacher가 낮은 신뢰도로 분류한 쌍을 제외하기 위해 70%의 신뢰도 임계값이 적용됩니다.
Emprical evidence에 따르면 70% threshold은 증강 데이터의 품질과 양 사이에 좋은 균형을 제공합니다.
70% threshold가 안되는 데이터는 버리는 건가? 즉 3개의 class가 균일하게 나오는 그런 경우

D* 내에서 relevant set는 다른 dialogue corpora의 대화에서 추출한 원래 context response pairs에 추가한 generative models 및 back-translation로 얻은 필터링된 쌍으로 구성됩니다.

즉 기존의 context에 대해 생성한 response가 relevant 가 되고
이 response을 back-translation한 것도 relevant가 된다?

adversarial set는 주로 syntactic perturbation 및 mask-and-fill 전략을 통해 구성된 필터링된 쌍을 포함합니다.
random set의 경우, 문맥-응답 쌍은 주로 random utterance selection으로 얻습니다.

3.4 Student Model

D*가 준비되면 다음 분류 작업을 수행하여 D*에서 θstudent에 의해 매개변수화된 학생 모델 Mstudent를 학습할 수 있습니다.

그림 2는 Mstudent의 학습 목표를 그래픽으로 나타낸 것이며 방정식은 다음과 같습니다.

여기서 LCE는 교차 엔트로피 손실, LKL은 KL divergence , LMLM은 MLM(self-supervised masked language modeling) 손실입니다.
x*i 및 y~*i는 입력 쌍(c*i , r*i )이 각각 주어졌을 때 사전 훈련된 Mteacher가 생성한 의사 레이블과 Mstudent의 logit입니다.

LKL은 consistency regularization를 시행하기 위해 도입되었으며 Mstudent는 노이즈에 덜 민감하므로 입력 공간의 섭동과 관련하여 더 부드럽습니다.
노이즈 주입 후 r*i 의 노이즈 버전을 rˆ*i 로 표시합니다.
실제 구현에서는 r*i 를 기반으로 rˆ i 를 생성합니다.
xˆ*i는 (c*i , rˆ*i )를 입력한 후 Mstudent의 해당 로짓입니다.
x*i 및 xˆ*i의 각각의 소프트맥스 이후 확률 분포 사이의 KL 발산은 훈련 중에 최소화됩니다.
마지막 용어인 LMLM은 Mstudent가 다중 도메인 합성 데이터 세트에 더 잘 적응할 수 있도록 추가 도메인 특정 지식을 추출하는 데 도움을 주기 위한 것입니다.
MLM 구현은 표준 BERT(Devlin et al. 2019) 관행을 따르며, 이로써 연결된 시퀀스 [c*i ◦ r*i ]에서 토큰의 임의 부분이 마스킹됩니다.
Mstudent는 마스킹된 토큰에 대한 예측을 할 것으로 예상됩니다.

3.5 Run-time Scoring Process

학습된 student 모델은 multi-domain dialogue evaluation task을 수행하기 위한 MDDEval의 백본 역할을 하며, 섹션 3.1에서 언급한 대로 주어진 컨텍스트 응답 쌍(cji, rji) ∈ Dj에 대한 메트릭 점수 sji를 유도합니다.
Mstudent의 채점 프로세스를 다음과 같이 공식화합니다.

이는 입력(cji , rji )이 주어지면 Mstudent의 관련 클래스 출력과 관련된 소프트맥스 이후 확률입니다.

4 Experiment Setup

5 Results & Analysis

6 Conclusion

우리는 다중 영역 대화 평가 문제를 목표로 하고 두 가지 연구 질문으로 문제에 접근합니다.

ADM: automatic dialogue evaluation metrics
(1) ADM은 다양한 품질의 응답을 구별하는 평가 기술을 어떻게 배울 수 있습니까?
(2) ADM은 평가 기술을 일반화하기 위해 다른 대화 영역에 걸쳐 일반 지식을 어떻게 얻을 수 있습니까?

우리는 두 가지 연구 문제를 해결하기 위해 MDD-Eval을 제안합니다.
특히 teacher evaluator는 사람이 주석 처리한 데이터로 훈련되어 특정 영역에서 좋은 컨텍스트-응답 쌍을 나쁜 컨텍스트-응답 쌍과 구별하는 기술을 습득합니다.
그런 다음 new evaluator는 teacher-annotated multi-domain data로 훈련되어 여러 영역에 걸쳐 평가 기술을 일반화합니다.
경험적 결과는 MDD-Eval이 다중 영역 대화 평가 작업에 효과적이고 강력함을 보여줍니다.

Reference

https://www.aaai.org/AAAI22Papers/AAAI-1689.ZhangC.pdf

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-138, MDD-Eval: Self-Training on Augmented Data for Multi-Domain Dialogue Evaluation, AAAI 2022

◼ Comment

0 Abstract

1 Introduction

2 Related Work

2.1 Dialogue Evaluation Metrics

2.2 Self-Training

3 Methodology

3.1 Problem Formulation

3.2 Teacher Model

3.3 Dialogue Data Augmentation

3.4 Student Model

3.5 Run-time Scoring Process

4 Experiment Setup

5 Results & Analysis

6 Conclusion

댓글

댓글 쓰기