◼ Comment

이 논문은 대화에서 negative sample을 만드는 논문이다.
보통 negative sample을 만들어서 응답선택 모델 성능향상시키는게 일반적으로 생각했었다.
이 논문은, 그것과는 살짝 다르게, 응답선택 모델을 evaluation metric으로 사용하는 것이다.
즉 context - response 쌍이 있을 때, 이 response가 context에 얼마나 적합햐나를 평가하겠다는 것이다.

따라서 response가 단순히 0 or 1처럼 적절한지를 예측하는 것이 아니고, score을 매긴다.
이 score을 매기는 방법으로는 gold response와 비교해서 BLEU을 사용, BERTScore 등등의 여러가지 방법이 있다.
표 1이 이러한 지표를 나타낸다.
논문에서 ref을 인용해서 말하길 gold response 하나와 비교하는 것은 적합하지 않다는 것이다.
왜냐하면 수많은 response가 가능한데 이에 대한 정보를 gold response가 다 담아내지 못하기 때문이다.
따라서 unreference 방법인 응답선택 모델로 score을 내서 평가하겠다는 것이다.
이런 방버은 기존의 연구에서 이미 있고 사람의 평가와 더욱 유사한 결과를 보여준다고 한다.
이 논문에서는 추가적으로, 이때 만들 응답선택 모델을 생성한 negative response을 이용하여 학습하면 더 좋은 평가 메트릭이 된다는 것이다.

negative sample을 만드는 방법은

cotext - maksed response을 연결해서 mask token의 LM 확률
maksed response 자체만으로 mask token의 LM 확률
이 두개를 비교해서 점수차이가 큰 토큰을 삭제한다. (threshold을 준다)
점수차이가 크다는 것은 context에 의존적인 개념이 되기 때문이다.
여기서 사용되는 LM은 대화 코퍼스으로 (dailydialog) post-train한 것이다.
삭제된 token은 masked response에서 LM으로 가장 높은 확률을 나타내는 token으로 대체된다. (기존 token이 top1이면 top2로 대체)

근데 이렇게 생성된 negative sample은 4.3.1에서 보여주길, 꼭 negative가 아니다.

즉 negative임을 보장할 순 없고 개인적으로 그림 6보면 생각보다 false negative가 많아 보이긴 하다.

0 Abstract

오픈도메인 대화에의해 생성된 responses의 퀄리티를 평가하는 것은 챌린지한 테스크이다.
이것은 대화 히스토리가 주어졌을때 여러 개의 적절한 responses가 가능하기 때문이다.
reference 기반의 metrics은 알려진 올바른 response들의 세트와의 비교에 의존하고, 이는 종종 다양성을 설명하는데 실패하고 결론적으로 human judgement과 제대로 연관되지 않는다.
이 문제를 해결하기 위해, 연구자들은 알려진 올바른 responses을 사용하지 않고 response의 퀄리티를 평가할 가능성을 조사해왔다.
Tao는 automatic response evaluation 모델이 next-utteracne prediction (NUP) 테스크에 대한 unsupervised learning을 사용해서 만들어질 수 있다고 입증한다.
이러한 unsupervised learning 모델의 경우, 우리는 기존의 golden response와 높은 유사성을 유지하면서, context와 부적절하도록 golden response을 조작하여 설계된 새로운 negative responses을 생성한다.
영어 데이터 세트에 대한 실험에서 랜덤 negative samples과 함께 우리 방법으로 생성된 negative samples을 사용하면 인간 평가와 모델의 상관 관계가 증가할 수 있음을 발견했습니다.
negative samples을 생성하는 프로세스는 자동이고, human annotation에 의존하지 않는다.

1 Introduction

여러 응답이 단일 컨텍스트에 적합할 수 있으므로 응답의 자동 평가가 어려울 수 있습니다.
BLEU, METEOR 또는 ROUGE와 같이 기계 번역이나 텍스트 요약에 자주 사용되는 잘 알려진 메트릭은 human-annotated golden answers와 n-그램 중첩 측정을 기반으로 합니다.
기계 번역이나 텍스트 요약 시스템에 비해 대화 시스템은 주어진 상황(대화 기록)에 대해 acceptable 응답 범위가 더 넓습니다.

이것은 Liu(2016)가 보고한 바와 같이 대화 시스템에서 생성된 응답에 대한 n-gram 기반 평가와 인간 수행 평가 사이의 낮은 상관 관계를 설명할 수 있습니다.
그들은 또한 응답과 정답 사이의 임베딩 유사성을 계산할 것을 제안했으며 이러한 메트릭이 n-gram 기반 메트릭보다 인간 평가와 더 높은 상관 관계를 가지고 있음을 보여주었습니다.
이 방법은 고정된 답변 후보 집합에 있는 답변과 유사한 답변만 보상하므로 알려진 답변과 유사하지 않은 다른 가능한 답변을 설명하지 못합니다.

이 문제를 해결하기 위해, Lowe (2017)은 supervised regression model을 제안했고, 이는 올바른 answer candidates을 독립적으로 예측을 한다.

human evaluations와 더 나은 상관 관계를 달성할 수 있었지만 그들의 방법은 학습할 human-annotated dataset를 획득하는데 달려 있습니다.

Tao (2018)은 automatic response evaluation을 위해 Next-Utterance Prediction (NUP) 테스크을 사용한다.

그들의 모델은 unsupervised이고, 랜덤 negative samples로부터 적절한 response을 구별하는 것으로 학습된다. (랜덤 negative : 학습 코퍼스에서 랜덤으로 response을 고르는 것)
모델은 response가 대화 히스토리 이후에 바로 발생할 확률을 예측하여 response quality을 평가할 수 있다.
그들은 또한 response 퀄리티의 평가에서 probability 기반의 평가는 사람의 평가는 높은 연관성을 보여줌을 입증한다.
즉, 이전에서 생성된 respone을 평가하는 것은 어려웠다.
대표적으로 gold response와 생성된 response사이의 BLEU, METEOR등을 계산했다.
좀 더 나아가서, embedding 방법 (BERTScore)을 이용하는 것도 소개되고 이는 사람 평가와 좀 더 높은 상관관계가 있다.
하지만, 이는 gold response와 비교하는 것이고, gold response 외의 다양한 답변이 가능하기 때문에 오차범위가 크다는 것이다.
그래서 MRS 모델로 이를 평가하는 게 있고, 이것이 사람의 평가와 높은 연관성을 보여준다고 한다.

이 논문에서, 우리는 golden response을 잘 다뤄서 negative sample을 생성하는 방법을 제안한다.
manipulation은 다음의 3 steps으로 실행된다.

(1) 각 단어의 scoring
(2) replace할 words을 선택
(3) 선택된 words을 replacing

첫 번째 step에서, 각 단어가 context에 얼마나 의존적인지 결정함으로써 score가 할당된다.
두 번째 step에서, 우리는 threshold value보다 높은 score을 가지는 모든 단어들을 선택하고, 여기서 높은 scores은 대화 히스토리에 더 큰 의존성을 가리킨다.
세 번째 step에서, 모든 이전의 선택된 단어들은 masked되고 pretrained LM에의해 그들의 위치에서 예측된 단어들로 교체된다.

Figure 1 shows an example of a negative sample generated by our method.
"What’s wrong with heading out with Mark for vacation?" 가 gold response일 때, tokens "with", "heading", "vacation", and "?"가 선택되었고 "?", "Go", "dinner", and "."으로 순서대로 대체된다.

랜덤 negative 샘플로만 학습된 모델보다, 랜덤 negative sample + 우리의 negative sample로 훈련된 모델은 두 개의 데이터 세트를 사용한 실험에서 무작위 음성 샘플에서만 훈련된 모델보다 인간 평가와 더 높은 상관 관계를 보여줍니다(Zhao et al., 2020).
우리는 또한 제안된 방법으로 생성된 네거티브 샘플로 훈련된 automatic evaluation systems이 그렇지 않은 시스템보다 인간의 판단에 더 가까운 결정을 내릴 수 있다는 증거를 찾습니다.

즉 생성한 negative sample로 학습한 모델로 생성 응답을 MRS 관점으로 평가한 점수가 인간의 점수와 더 가까워진다는 것을 보여준다?

2 Related Work

Liu(2016)는 BLEU, METEOR 및 ROUGE와 같은 기존의 n-gram 중첩 기반 메트릭이 개방형 도메인 대화 시스템의 결과를 평가하는 데 사용할 때 사람의 평가와 낮은 상관 관계를 보인다고 지적했습니다.

그들은 생성된 응답의 임베딩을 golden 응답의 임베딩과 비교하여 유사성을 측정할 것을 제안했습니다.
Li(2016)는 텍스트 피드백으로 대화 시스템을 탐색했습니다. Ghandeharioun(2019)은 대화 시스템을 위한 대화형 인간 평가의 필요성을 제안하고 인간 노력의 부담을 줄이기 위해 자체 플레이 시나리오를 제안했습니다.
Hashimoto(2019)는 인간의 평가와 평가 모델의 예측을 결합하는 방법을 제안했습니다.

Low(2017)는 황금 응답과의 유사도를 측정하지 않고 응답의 품질을 직접 예측하는 지도 학습 방법을 제안했습니다.

Tao(2018)는 감독되지 않은 방식으로 NUP 작업에 대해 훈련된 모델을 사용하여 시스템에서 생성되는 응답의 품질을 예측할 수 있음을 보여주었습니다.
Ghazarian(2019)은 컨텍스트화된 단어 임베딩을 사용하여 이전 작업을 개선했습니다.
Mehri와 Eskenazi(2020)는 두 가지 비지도 평가 모델을 제안했습니다.
하나는 마스크 언어 모델링(MLM)을 기반으로 하고 다른 하나는 사전 훈련된 LM을 사용하는 응답 검색 작업을 기반으로 합니다.
Pang(2020)은 LM을 사용하여 가능성을 추정하여 응답의 일관성과 유창성을 예측했습니다.

Sai(2020)는 (DD++) 학습 응답 평가를 위한 적대적 음성 샘플의 중요성을 강조하고 인간이 선별한 적대적 음성 응답이 포함된 데이터 세트를 발표했습니다.

그러나 음성 샘플은 수동으로 선별되었으며 이 프로세스는 시간과 비용이 많이 소요될 수 있습니다.
Wu(2020)는 골든 요약을 손상시키고 이를 음수 샘플로 사용하여 추상 요약을 위한 평가 모델의 성능을 향상시키려고 했습니다.
기계 번역 작업에서 Sellam(2020)은 BERT를 사용한 역번역 및 마스크 채우기와 같은 방법을 통해 합성 예제와 쌍을 이루는 데이터를 생성하고 쌍을 이루는 데이터를 사용하여 평가 모델을 사전 학습했습니다.
우리의 연구는 대화 이력에 대한 황금 응답을 조작하여 부정적인 샘플을 생성하는 방법을 소개하고 제안한 방법으로 생성된 부정적인 샘플을 비지도 응답 평가 모델을 개선하는 데 사용할 수 있음을 제안합니다.
제안된 방법은 사람의 노력 없이 자동으로 수행될 수 있습니다.

3 Method

이 섹션에서, 우리는 우리의 방법으로 negative samples을 생성하는 것을 설명한다.
제안된 방법은 golden response에서 특정 단어들을 selecting and replacing하여 negative sample을 생성하는 것이다.
선택된 단어는 다음의 차이를 기반으로 선택된다.

(a) 대화 히스토리를 고려하여 response에서 word가 나타날 확률을 측정
(b) 대화 히스토리를 고려하지 않았을 때, response에서 word가 나타날 확률을 측정

MLM을 수행할 수 있는 LM을 사용하여 이러한 확률을 추정할 수 있습니다.

높은 차이의 확률을 가지는 단어들은 선택되고 다른 단어들로 교체된다.
뒤에 나오겠지만, context, 단어1, 단어2, ..., 단어m 이 있을때
단어k가 가지는 확률을 LM의 token 확률을 통해 판별하겠다는 거 같음.

단어를 다른 단어로 대체할 때 MLM을 수행할 수 있는 LM을 사용하여 대화 히스토리가 제공되지 않은 경우 원래 단어의 위치에 나타날 가능성이 가장 높은 단어를 예측할 수 있습니다.

대화 히스토리가 없을 때, 단어1, 단어2, ..., 단어m이 있을때
단어k가 가지는 확률을 LM의 token 확률을 통해 판별하겠다는 거 같음.
즉, 대화 히스토리의 유무에 따른 단어의 확률 차이를 통해 차이가 큰 애를 바꾼다.
마치 내가 쓴 논문인 SST에서 단어삭제 방법과 유사한면이 있는 듯

3.1 Scoring

제안된 방법은 golden response에서 어떤 단어가 대화 히스토리에의해 가장 영향을 많이 받는지 결정하여 scoring하는 프로세스이다.
단어의 score은 다음의 두 차이로부터 얻는다.

(a) the estimated probability of the word appearing in its position when the dialogue history is given
(b) the estimated probability of the word appearing in its position when the dialogue history is not given.

scoring process는 target response에서 모든 단어들에서 독단적으로 수행된다.
구체적으로 golden response에서 i번째 word (xi)의 score을 계산하기 위해, 우리는 먼저 xi을 [mask] token으로 대체한다.

그런 다음 마스킹된 토큰 대신 원래 단어 xi가 나타날 가능성이 두 번 계산됩니다.
한 번은 대화 기록이 있고 한 번은 포함되지 않습니다.

log-likelihood의 차이는 각 단어의 최종 score로 사용되고, 이는 다음과 같이 정의된다.

여기서 xi는 점수를 매길 단어를 나타내고 r/i는 xi가 마스킹된 황금 응답의 단어 시퀀스를 나타냅니다.
c denotes the dialogue history of the golden response, and [; ] the concatenation of two pieces of text.
P(xi |[c; r/i ]; θ)는 대화 히스토리를 고려할 때 xi가 발생할 확률을 나타냅니다.
P(xi |r/i ; θ)는 대화 히스토리를 고려하지 않을 때 xi가 발생할 확률을 나타냅니다.
θ denotes the parameters of the LM.

Figure 2 shows an example of our proposed scoring process.

원래 응답에서 'vacation'라는 단어가 응답에서 단어 중 가장 높은 점수를 받았습니다.
"with"와 "heading"이라는 단어도 다른 단어보다 높은 점수를 받았습니다.

3.2 Selecting

각 문장에서, 우리는 threshold t보다 높은 점수를 가지는 각 단어들을 선택한다.
예를 들어, 그림 2에서, threshold가 0.5이면, 단어들 "with", "heading", "vacation", and "?" 이 선택될 것이다.
threshold value보다 높은 점수를 가진 단어들이 아무것도 없다면, 단어들은 선택되지 않을 것이고, 이 경우에는 negative sample은 생성될 수 없다.

그러면 negative sample은 어떻게 처리? 랜덤샘플링?

우리는 threshold t을 우리의 실험에서 0.5로 설정한다.
우리의 데이터세트에서 이 threshold을 사용하면, 평균 27.28%의 토큰들이 각 response에서 선택된다.
또한 response의 94.89%가 최소한 하나의 단어들이 선택되고, 이는 negative sample은 각 케이스에대해 94.89%만큼 생성될 수 있다는 것을 의미한다.

3.3 Replacing

선택된 단어들은 LM을 통해 교체된다.
선택된 모든 단어들은 기존 response에서 [mask] 토큰들로 교체된다.
그리고나서 LM은 대화 히스토리을 고려하지 않고 단어들을 예측하고, 이는 각 masked word의 위치에서 가장 그럴듯하게 발생하는 것이다.
만약 LM이 기존의 단어들 예측하면, 가장 그럴듯한 2번째 단어가 대신 사용된다.
사실 이 방법이, negative sample이라는 것을 보장하지는 않는다.

4 Experiments

4.1 Setting

4.1.1 Dataset

모델 예측과 인간 평가 간의 상관 관계를 측정하기 위해 Zhao가 제안한 응답 평가 데이터 세트를 사용합니다.

이 데이터세트는 대화 히스토리, machine-generated responses, golden response를 포함하고, 이에 대한 human annotators가 평가한 적절한 점수도 포함한다.
오호 한번 살펴볼만한 데이터세트일듯
score은 5-point Likert scale이고, 각 response는 4명의 annotators에 의해 점수가 매겨진다.

Zhao 논문에서

여섯 개의 생성 모델들

S2S (Sutskever et al., 2014), attentional S2S, HRED (Serban et al., 2016), VHRED (Serban et al., 2017), GPT2-sm and GPT2-md (Wolf et al., 2018),

3개의 디코딩 알고리즘

greedy decoding, ancestral decoding, and nucleus sampling

이 조합들이 responsese들을 생성하는데 사용된다.
그들은 DailyDialog과 PersonaChat을 사용하였다.

각 데이터세트에서, 그들은 생성 대화 모델들의 세트로 학습된다.

각 900개의 context-response pairs가 두 개의 데이터세트에서 랜덤 선택되서 테스트세트로 사용되고, annotators은 두 개의 다른 evaluation datasets에서 적절함을 평가하도록 구성된다.
이 데이터 세트에 대한 Krippendorff의 alpha는 0.815로, 합리적인 주석자간 일치를 나타냅니다.

DailyDialog dataset consists of 13,118 multiturn open-domain conversations written by human workers, and PersonaChat dataset consists of 12,875 multi-turn open-domain conversations written by human workers.

4.1.2 Models

이 논문에서는 negative sample을 만들고, 이로 학습된 모델들이 사람이 평가한 점수와 높은 연관성을 가짐을 보여주는 것이다.

이를 아래의 자동 평가 메트릭과 비교하는 것 같다.
즉 (대화 히스토리, response)에서 reponse의 적절성을 테스트하는 것

평가 모델들은 아래의 것들이다.

그들 중, BLEU, ROUGE, METEOR, Embedding Average/Exterma/Greedy, and BERTScore은 reference-based 메트릭으로 golden response와의 유사도를 기반으로 response의 퀄리티를 평가한다.
BERT-MLM, GPT2-coherence, BERT-retrieval (random-N), BERT retrieval (ours)은 unreferenced metrics으로 golden response가 필요하지 않다.
RUBERT은 하이브리드 메트릭의 관점이고, reference-based와 unreferenced 접근법을 둘다 포함한다.

몇 가지의 referenced-based 메트릭들은 학습가능한 모델들에 비해 간단한 비교 방법들이나, response의 퀄리티를 평가하는데 사용될 수 있기 때문에 다른 모델들과 함께 소개된다.
우리는 아래에서 설명되는 supervised approaches들과 unsupervised approaches을 비교하지 않는다.

Low 및 Zhao가 제안한 supervised approaches은 human-annotated response-evaluation paris로 학습된 것이다.

BLEU는 여러 references와 hypothesis 사이의 n-gram precision를 측정하여 기계 번역 작업에 널리 사용되는 메트릭입니다(Papineni et al., 2002).
ROUGE는 text summarization에 널리 사용되는 메트릭으로, 이는 n-gramm recalldmf cmrwjdgksek.

우리는 F-score of ROUGE-L을 적절성 score로 사용한다.

METEOR은 기계번역 테스크에서 쓰는 메트릭으로, 이는 n-gram precision과 n-gram recall of hypothesis을 고려한다.
Embedding Average/Greedy/Extrema는 golden과 generated responses을 embedding similarity을 사용해서 유사도를 계산하여 golden response가 될 수 있는 다양한 방법을 설명한다. (Liu et al., 2016)
BERTScore은 contextualized BERT embeddings을 기반으로하는 최근에 제안된 unsupervised metric이다.
RUBER은 reference-based와 unreferenced 메트릭의 점수를 각각 계산하고나서, 그들을 최종 점수를 예측하는데 사용한다.

reference-based 메트릭은 golden responses와 generated responses 사이의 유사도를 그들의 embedding similarity을 기반으로 측정한다.
unreferenced metric은 NUP 테스크로 학습된다.

BERT-MLM은 LM을 사용해서 masking을 처리한후에 response에서 각 token의 log-likelihood을 더하는 것이다. (Mehri and Eskenazi, 2020)

LM은 코퍼스에대해 fine-tuned된 것이다.
그리고 나서 likelihood을 모아서 최종 점수로 사용한다.

GPT2-coherence는 대화 히스토리와 response 사이의 coherence을 fine-tuned GPT2 모델로 response의 log-likelihood의 평균을 계산하여 측정한다.
BERT-retrieval (random-N)은 BERT-based 모델로, 대화 히스토리를 사용하여 golden responses가 negative sample로부터 구별하도록 학습된다.

Mehri와 Eskenazi(2020)의 원래 모델은 대화 기록에 대해 하나의 무작위 응답을 음성 샘플로 사용했기 때문에 BERT 검색(random-1)이라고 합니다.
BERT 검색(random-2)이라고 하는 대화 기록에 대해 두 개의 무작위 음성 샘플을 사용하는 모델의 변형을 참조합니다.
이는 아래 설명된 대로 대화 기록에 대해 두 개의 부정적인 샘플을 사용하는 우리 모델과 공정하게 비교하기 위한 것입니다.

BER-retrieval(ours)은 BERT 검색 모델과 동일한 구조를 가진 모델입니다.

차이점은 우리 모델이 우리가 제안한 방법으로 생성된 음수 샘플을 사용한다는 것입니다.
이 모델은 생성된 음성 샘플과 무작위 음성 샘플을 모두 사용합니다.
특히, 훈련 중에 모델은 두 개의 부정적인 샘플과 구별하는 방법을 학습한다.
두 가지 샘플: 우리의 방법으로 생성된 것, 코퍼스에서 랜덤샘플링 된 것

4.1.3 Implementation Details

우리는 원본 DailyDialog 데이터 세트에서 참조되지 않은 모델을 훈련한 다음 두 개의 응답 평가 데이터 세트(섹션 4.1.1)에서 평가했습니다.
DailyDialog 데이터 세트의 대화를 슬라이딩 창 방식으로 분할하여 대화 기록과 해당 응답의 쌍을 구성합니다.
대화 기록의 최대 턴은 Zhao에 이어 5로 설정되었습니다.
우리는 모든 관련 실험에 사전 훈련된 BERT 및 GPT2를 사용합니다.
1 Epoch에 대해 MLM으로 설정된 DailyDialog 학습데이터에서 미세 조정된 BERT 모델이 제안된 방법(섹션 3.1)의 scoring 단계에 사용되었습니다.

동일한 모델이 replacing 단계에 사용되었습니다(섹션 3.3).
selecting 단계(섹션 3.2)에 임계값 0.5를 사용했습니다.

우리는 훈련을 위해 Adam 옵티마이저(Kingma and Ba, 2015)를 사용했습니다.
우리는 DailyDialog 데이터 세트(섹션 4.1.1)에서 만든 응답 평가 데이터 세트에 대한 인간 평가와 모델 예측 간의 (Pearson) 상관 관계를 최대화하는 BERT 검색(random-1) 모델에 대한 하이퍼파라미터를 검색했습니다.

이 검색에서 찾은 값(epoch=3, 배치 크기=64, 학습률=2e5)은 모든 BERT 검색 모델(random-N, ours)에 사용되었습니다.

모든 실험에 대해 무작위 시드가 고정되었습니다.

4.2 Results

4.2.1절에서는 각 평가 모델의 결과와 인간 평가 간의 상관관계를 확인한다.
4.2.2절에서는 제안한 방법에 대한 심층 분석을 보여줍니다.
4.2.3절에서 제안된 방법으로 훈련된 자동 평가 시스템이 그렇지 않은 모델보다 인간의 판단에 더 가까운 결정을 내릴 수 있음을 시사하는 예를 제시합니다.

4.2.1 Correlation with Human Judgment

표 1은 두 데이터 세트를 기반으로 각 모델에 대한 모델 예측과 인간 평가 간의 상관 관계를 보여줍니다.
인간 점수와 모델 예측 간의 상관 관계를 측정하기 위해 Pearson 상관 관계(r)와 Spearman의 순위 상관 계수(ρ)를 사용했습니다.
응답 평가 데이터 세트에서 황금 응답 점수를 제외하고 DailyDialog 및 PersonaChat 데이터 세트에서 각각 800 및 750 응답 평가 쌍을 추출했습니다.

즉, context - generated response 쌍을 DailyDialog 및 PersonaChat에서 각각 800, 750을 뽑았다는 것이겠지?
gold response은 또 따로 있고

우리의 음성 샘플 방법을 통합한 모델은 훈련에 동일한 수의 음성 샘플을 사용하는 BERT 검색(random-2)에 의해 만들어진 예측보다 인간 평가와 더 높은 상관 관계를 가진 예측을 했습니다.
베이스라인 모델 중 대부분의 레퍼런스 기반 메트릭은 상대적으로 낮은 성능을 보였다.

이러한 결과는 황금 응답을 응답을 평가하기 위한 "유일한" 정답으로 사용하는 것이 비효율적일 수 있음을 시사하는 이전 연구의 관찰을 뒷받침하는 것으로 생각됩니다.

RUBER는 DailyDialog 데이터셋에 대해 다른 참조 기반 모델보다 우수한 성능을 보였지만 PersonaChat 응답 평가에서는 낮은 성능을 보였습니다.
GPT2 일관성 모델은 DailyDialog 데이터셋에서 BERT 검색(random-1) 모델과 유사한 성능을 보였지만 PersonaChat 데이터셋에서는 상대적으로 낮은 성능을 보였습니다.
또한 하이브리드 및 참조되지 않은 모델은 PersonaChat 데이터 세트가 아니라 DailyDialog 데이터 세트에서 훈련되었다는 점에 유의해야 합니다.

그림 3은 DailyDialog의 응답 평가 데이터 세트에 대한 인간 점수 및 모델 예측을 시각화하는 산점도를 보여줍니다.
BLEU는 낮은 점수를 예측하는 경향이 있습니다.
이것은 황금 응답과 생성된 응답 사이에 단지 몇 개의 n-그램 중첩이 있음을 시사할 수 있습니다.
임베딩 기반 메트릭(Emb. Greedy 및 BERTScore)의 예측은 특정 범위에 집중되었으며 인간 점수와의 낮은 상관 관계를 보여주었습니다.
비참조 또는 하이브리드 메트릭(RUBER, BERT-MLM, GPT2-coherence 및 BERT-retrieval(random-1))은 참조 기반 메트릭보다 상대적으로 높은 상관 관계를 보여줍니다.
우리는 BERT-retrieval(우리)이 0.1974의 상관 계수로 모델 간에 가장 큰 상관 관계를 보여줍니다.
scatter plots는 BERT 검색(random-1) 예측에서 자주 발생하는 false-positive 예측이 모델의 예측에서 덜 자주 발생했음을 시사합니다.
그러나 우리 모델의 scatter plots는 계단 함수와 같은 모양을 가지고 있습니다.
대부분의 응답이 0점이나 1점에 가까운 점수를 받았는데, 이는 점수가 중간인 경우에도 이상적인 모델이 사람의 점수와 일치할 수 있어야 하기 때문에 문제가 됩니다.
이러한 경향은 향후 연구에서 다루어져야 할 우리 모델의 한계로 여겨진다.

4.2.2 Model Analysis

무작위 음성 샘플과 함께 사용할 음성 샘플을 만드는 데 있어 몇 가지 변형으로 실험을 수행하여 모델을 분석합니다.

(1) drop-golden: 채점, 선택 및 교체 단계를 따르는 대신 황금 응답의 일부 단어를 무작위로 삭제하여 음성 샘플을 만들고 무작위 음성 샘플과 함께 사용합니다.
(2) shuffle-golden: 3단계를 따르는 대신 황금 응답의 단어를 무작위로 섞어서 부정 샘플을 만들고 무작위 부정 샘플과 함께 사용합니다.
(3) score-w/o-history: 수학식 1에서 첫 번째 항 없이 채점 기능을 사용하므로 대화 이력 없이 문장 내 확률만 고려한다.
(4) select-random : 수학식 1에서 제안한 스코어링 함수를 사용하지 않고 대체할 단어를 무작위로 선택한다.
(5) replace-w-history: 단어를 교체할 때 LM이 마스크된 단어를 교체할 때 대화 기록을 고려하도록 대화 기록을 응답과 연결합니다.

표 2는 위의 수정된 모델에 대한 모델 예측과 인간 평가 간의 상관 관계를 보여줍니다.
음성 샘플을 만들기 위해 황금 응답에서 단어를 삭제하거나 뒤섞는 것은 무작위 응답(BERT-retrieval(random1, random-2))을 사용할 때와 유사하거나 더 낮은 성능을 보입니다.
채점 과정에서 대화 이력을 고려했을 때보다 채점 과정에서 고려하지 않았을 때 상관관계가 더 낮았다.
이는 대화의 일관성을 위해 중요한 단어뿐만 아니라 일반적으로 가능성이 낮은 단어에 대해서도 높은 점수를 주기 때문이라고 추측합니다.
토큰을 무작위로 선택하는 것은 제안된 점수 기능을 사용하는 것보다 낮은 상관 관계를 보여줍니다.
교체 과정에서 대화 이력을 고려하면 고려하지 않을 때보다 성능이 저하됩니다.
대화 이력을 제공하면 마스킹된 단어에 대한 예측이 컨텍스트에 더 적합하여 재구성된 응답이 부정적인 샘플로 덜 적절하다고 추측합니다.

4.2.3 Case Study

4.3 POS-tag distribution of selected words

선택한 단어의 품사(POS) 태그 분포를 우리의 방법으로 계산하고 이를 DailyDialog 말뭉치의 원래 분포와 비교합니다(그림 5).
VERB와 NOUN 태그가 가장 많이 선택되는 것을 볼 수 있으며(각각 21.9%, 20.5%), 원래 말뭉치보다 비율이 높아졌다(각각 18.3%, 16.7%).
한편 구두점(.)의 비율은 21.3%에서 12.1%로 크게 줄었다.
구두점 태그의 가능성은 대화 기록보다 응답의 로컬 정보에 더 영향을 받는 것으로 의심됩니다.

4.3.1 Are the generated samples actually inappropriate?

우리의 방법으로 생성된 음성 샘플이 실제로 부적절한지 확인하기 위해 Amazon Mechanical Turk(AMT)를 통해 설문 조사를 수행했습니다.
40개의 대화 기록 예를 선택하고 각 대화에 대해 세 가지 유형의 응답을 준비했습니다.

1) the golden response, 2) a negative sample generated by our method, and 3) a randomly selected negative sample from the corpus.

각 대화에 대해 4명의 주석가에게 3가지 응답의 품질을 평가하도록 요청했습니다.
Low에 이어 "전체적으로 응답이 얼마나 적절합니까?"라는 질문을 받았습니다.

각 문맥-응답 쌍에 대해 평가를 수행했으며 5점 Likert 척도로 평가를 수행했습니다.

주석에 대한 Fleiss의 카파와 Krippendorff의 알파는 각각 0.63과 0.63이었습니다.
그림 6은 조사 결과를 보여준다.

황금 응답과 무작위 응답의 평균 점수는 각각 4.65와 1.19였습니다.
음성 샘플의 평균 점수는 2.51이었습니다.

각 응답 유형의 점수에 대한 표준 편차는 황금 응답, 음성 표본 및 무작위 응답에 대해 각각 0.67, 1.27 및 0.41이었습니다.
이러한 결과가 생성된 모든 음성 샘플이 부적절하다는 것을 보장하지는 않습니다.

그러나 우리가 가정할 수 있는 것은 황금 응답을 조작하는 방법이 황금 응답보다 더 부적절한 부정적인 샘플을 생성한다는 것입니다.
이게 진짜로 생성된 ours에 적절함이 껴있어서 중간점수가 나오는건지, adversarial 하기 때문에 중간 점수가 나오는지 궁금
근데, 사람이 평가한거니까 ours에 false-negative가 있는것이 아닐까?

표 3은 설문 조사 결과와 함께 주어진 대화 기록에 대한 세 가지 다른 유형의 응답 중 두 가지 예를 보여줍니다.
적절한 응답과 부적절한 응답의 차이를 찾는 모델 학습의 경우 우리의 방법으로 생성된 부정적인 샘플을 황금 응답과 구별하는 작업이 무작위로 선택된 부정적인 샘플을 황금 응답과 구별하는 작업보다 더 어려울 것이라고 추측합니다. .
생성된 부정적인 샘플이 완전히 관련이 없는 응답보다 더 미묘한 방식으로 부적절할 수 있기 때문이라고 생각합니다.
우리는 이 더 도전적인 설정을 사용한 학습이 4.2.1절에서 논의한 성능 향상을 가져왔다고 생각합니다.
그러나 제안된 방법에 따라 원래 황금 응답과 수정된 음성 샘플 간의 의미 관계에 대한 더 많은 양적 분석과 추가 해석을 수행하는 등 각 경우에 대한 보다 심층적인 의미 분석이 필요하다고 생각합니다.

(예를 들어 광범위한 인간 연구를 통해)

앞으로의 과제로 남겨두겠습니다.

5 Conclusion

본 논문에서는 비지도 및 비참조 응답 평가 모델을 훈련하는 데 사용할 수 있는 음성 샘플을 자동으로 생성하는 방법을 제안했습니다.
제안된 방법이 응답 평가 모델의 비지도 학습을 향상시킬 수 있음을 입증하기 위해 실험을 수행했습니다.
실험 결과를 정량적으로 분석하고 제안한 방법의 독특한 특성을 보여주는 몇 가지 예를 살펴보았다.

Reference

https://aclanthology.org/2021.naacl-main.120.pdf

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-140, Generating Negative Samples by Manipulating Golden Responses for Unsupervised Learning of a Response Evaluation Model, NAACL 2021

◼ Comment

0 Abstract

1 Introduction

2 Related Work

3 Method

3.1 Scoring

3.2 Selecting

3.3 Replacing

4 Experiments

4.1 Setting

4.1.1 Dataset

4.1.2 Models

4.1.3 Implementation Details

4.2 Results

4.2.1 Correlation with Human Judgment

4.2.2 Model Analysis

4.2.3 Case Study

4.3 POS-tag distribution of selected words

4.3.1 Are the generated samples actually inappropriate?

5 Conclusion

댓글

댓글 쓰기