NL-140, Generating Negative Samples by Manipulating Golden Responses for Unsupervised Learning of a Response Evaluation Model, NAACL 2021
◼ Comment
- 이 논문은 대화에서 negative sample을 만드는 논문이다.
- 보통 negative sample을 만들어서 응답선택 모델 성능향상시키는게 일반적으로 생각했었다.
- 이 논문은, 그것과는 살짝 다르게, 응답선택 모델을 evaluation metric으로 사용하는 것이다.
- 즉 context - response 쌍이 있을 때, 이 response가 context에 얼마나 적합햐나를 평가하겠다는 것이다.
- 따라서 response가 단순히 0 or 1처럼 적절한지를 예측하는 것이 아니고, score을 매긴다.
- 이 score을 매기는 방법으로는 gold response와 비교해서 BLEU을 사용, BERTScore 등등의 여러가지 방법이 있다.
- 표 1이 이러한 지표를 나타낸다.
- 논문에서 ref을 인용해서 말하길 gold response 하나와 비교하는 것은 적합하지 않다는 것이다.
- 왜냐하면 수많은 response가 가능한데 이에 대한 정보를 gold response가 다 담아내지 못하기 때문이다.
- 따라서 unreference 방법인 응답선택 모델로 score을 내서 평가하겠다는 것이다.
- 이런 방버은 기존의 연구에서 이미 있고 사람의 평가와 더욱 유사한 결과를 보여준다고 한다.
- 이 논문에서는 추가적으로, 이때 만들 응답선택 모델을 생성한 negative response을 이용하여 학습하면 더 좋은 평가 메트릭이 된다는 것이다.
- negative sample을 만드는 방법은
- cotext - maksed response을 연결해서 mask token의 LM 확률
- maksed response 자체만으로 mask token의 LM 확률
- 이 두개를 비교해서 점수차이가 큰 토큰을 삭제한다. (threshold을 준다)
- 점수차이가 크다는 것은 context에 의존적인 개념이 되기 때문이다.
- 여기서 사용되는 LM은 대화 코퍼스으로 (dailydialog) post-train한 것이다.
- 삭제된 token은 masked response에서 LM으로 가장 높은 확률을 나타내는 token으로 대체된다. (기존 token이 top1이면 top2로 대체)
- 근데 이렇게 생성된 negative sample은 4.3.1에서 보여주길, 꼭 negative가 아니다.
- 즉 negative임을 보장할 순 없고 개인적으로 그림 6보면 생각보다 false negative가 많아 보이긴 하다.
0 Abstract
- 오픈도메인 대화에의해 생성된 responses의 퀄리티를 평가하는 것은 챌린지한 테스크이다.
- 이것은 대화 히스토리가 주어졌을때 여러 개의 적절한 responses가 가능하기 때문이다.
- reference 기반의 metrics은 알려진 올바른 response들의 세트와의 비교에 의존하고, 이는 종종 다양성을 설명하는데 실패하고 결론적으로 human judgement과 제대로 연관되지 않는다.
- 이 문제를 해결하기 위해, 연구자들은 알려진 올바른 responses을 사용하지 않고 response의 퀄리티를 평가할 가능성을 조사해왔다.
- Tao는 automatic response evaluation 모델이 next-utteracne prediction (NUP) 테스크에 대한 unsupervised learning을 사용해서 만들어질 수 있다고 입증한다.
- 이러한 unsupervised learning 모델의 경우, 우리는 기존의 golden response와 높은 유사성을 유지하면서, context와 부적절하도록 golden response을 조작하여 설계된 새로운 negative responses을 생성한다.
- 영어 데이터 세트에 대한 실험에서 랜덤 negative samples과 함께 우리 방법으로 생성된 negative samples을 사용하면 인간 평가와 모델의 상관 관계가 증가할 수 있음을 발견했습니다.
- negative samples을 생성하는 프로세스는 자동이고, human annotation에 의존하지 않는다.
1 Introduction
- 여러 응답이 단일 컨텍스트에 적합할 수 있으므로 응답의 자동 평가가 어려울 수 있습니다.
- BLEU, METEOR 또는 ROUGE와 같이 기계 번역이나 텍스트 요약에 자주 사용되는 잘 알려진 메트릭은 human-annotated golden answers와 n-그램 중첩 측정을 기반으로 합니다.
- 기계 번역이나 텍스트 요약 시스템에 비해 대화 시스템은 주어진 상황(대화 기록)에 대해 acceptable 응답 범위가 더 넓습니다.
- 이것은 Liu(2016)가 보고한 바와 같이 대화 시스템에서 생성된 응답에 대한 n-gram 기반 평가와 인간 수행 평가 사이의 낮은 상관 관계를 설명할 수 있습니다.
- 그들은 또한 응답과 정답 사이의 임베딩 유사성을 계산할 것을 제안했으며 이러한 메트릭이 n-gram 기반 메트릭보다 인간 평가와 더 높은 상관 관계를 가지고 있음을 보여주었습니다.
- 이 방법은 고정된 답변 후보 집합에 있는 답변과 유사한 답변만 보상하므로 알려진 답변과 유사하지 않은 다른 가능한 답변을 설명하지 못합니다.
- 이 문제를 해결하기 위해, Lowe (2017)은 supervised regression model을 제안했고, 이는 올바른 answer candidates을 독립적으로 예측을 한다.
- human evaluations와 더 나은 상관 관계를 달성할 수 있었지만 그들의 방법은 학습할 human-annotated dataset를 획득하는데 달려 있습니다.
- Tao (2018)은 automatic response evaluation을 위해 Next-Utterance Prediction (NUP) 테스크을 사용한다.
- 그들의 모델은 unsupervised이고, 랜덤 negative samples로부터 적절한 response을 구별하는 것으로 학습된다. (랜덤 negative : 학습 코퍼스에서 랜덤으로 response을 고르는 것)
- 모델은 response가 대화 히스토리 이후에 바로 발생할 확률을 예측하여 response quality을 평가할 수 있다.
- 그들은 또한 response 퀄리티의 평가에서 probability 기반의 평가는 사람의 평가는 높은 연관성을 보여줌을 입증한다.
- 즉, 이전에서 생성된 respone을 평가하는 것은 어려웠다.
- 대표적으로 gold response와 생성된 response사이의 BLEU, METEOR등을 계산했다.
- 좀 더 나아가서, embedding 방법 (BERTScore)을 이용하는 것도 소개되고 이는 사람 평가와 좀 더 높은 상관관계가 있다.
- 하지만, 이는 gold response와 비교하는 것이고, gold response 외의 다양한 답변이 가능하기 때문에 오차범위가 크다는 것이다.
- 그래서 MRS 모델로 이를 평가하는 게 있고, 이것이 사람의 평가와 높은 연관성을 보여준다고 한다.
- 이 논문에서, 우리는 golden response을 잘 다뤄서 negative sample을 생성하는 방법을 제안한다.
- manipulation은 다음의 3 steps으로 실행된다.
- (1) 각 단어의 scoring
- (2) replace할 words을 선택
- (3) 선택된 words을 replacing
- 첫 번째 step에서, 각 단어가 context에 얼마나 의존적인지 결정함으로써 score가 할당된다.
- 두 번째 step에서, 우리는 threshold value보다 높은 score을 가지는 모든 단어들을 선택하고, 여기서 높은 scores은 대화 히스토리에 더 큰 의존성을 가리킨다.
- 세 번째 step에서, 모든 이전의 선택된 단어들은 masked되고 pretrained LM에의해 그들의 위치에서 예측된 단어들로 교체된다.
- Figure 1 shows an example of a negative sample generated by our method.
- "What’s wrong with heading out with Mark for vacation?" 가 gold response일 때, tokens "with", "heading", "vacation", and "?"가 선택되었고 "?", "Go", "dinner", and "."으로 순서대로 대체된다.
- 랜덤 negative 샘플로만 학습된 모델보다, 랜덤 negative sample + 우리의 negative sample로 훈련된 모델은 두 개의 데이터 세트를 사용한 실험에서 무작위 음성 샘플에서만 훈련된 모델보다 인간 평가와 더 높은 상관 관계를 보여줍니다(Zhao et al., 2020).
- 우리는 또한 제안된 방법으로 생성된 네거티브 샘플로 훈련된 automatic evaluation systems이 그렇지 않은 시스템보다 인간의 판단에 더 가까운 결정을 내릴 수 있다는 증거를 찾습니다.
- 즉 생성한 negative sample로 학습한 모델로 생성 응답을 MRS 관점으로 평가한 점수가 인간의 점수와 더 가까워진다는 것을 보여준다?
2 Related Work
- Liu(2016)는 BLEU, METEOR 및 ROUGE와 같은 기존의 n-gram 중첩 기반 메트릭이 개방형 도메인 대화 시스템의 결과를 평가하는 데 사용할 때 사람의 평가와 낮은 상관 관계를 보인다고 지적했습니다.
- 그들은 생성된 응답의 임베딩을 golden 응답의 임베딩과 비교하여 유사성을 측정할 것을 제안했습니다.
- Li(2016)는 텍스트 피드백으로 대화 시스템을 탐색했습니다. Ghandeharioun(2019)은 대화 시스템을 위한 대화형 인간 평가의 필요성을 제안하고 인간 노력의 부담을 줄이기 위해 자체 플레이 시나리오를 제안했습니다.
- Hashimoto(2019)는 인간의 평가와 평가 모델의 예측을 결합하는 방법을 제안했습니다.
- Low(2017)는 황금 응답과의 유사도를 측정하지 않고 응답의 품질을 직접 예측하는 지도 학습 방법을 제안했습니다.
- Tao(2018)는 감독되지 않은 방식으로 NUP 작업에 대해 훈련된 모델을 사용하여 시스템에서 생성되는 응답의 품질을 예측할 수 있음을 보여주었습니다.
- Ghazarian(2019)은 컨텍스트화된 단어 임베딩을 사용하여 이전 작업을 개선했습니다.
- Mehri와 Eskenazi(2020)는 두 가지 비지도 평가 모델을 제안했습니다.
- 하나는 마스크 언어 모델링(MLM)을 기반으로 하고 다른 하나는 사전 훈련된 LM을 사용하는 응답 검색 작업을 기반으로 합니다.
- Pang(2020)은 LM을 사용하여 가능성을 추정하여 응답의 일관성과 유창성을 예측했습니다.
- Sai(2020)는 (DD++) 학습 응답 평가를 위한 적대적 음성 샘플의 중요성을 강조하고 인간이 선별한 적대적 음성 응답이 포함된 데이터 세트를 발표했습니다.
- 그러나 음성 샘플은 수동으로 선별되었으며 이 프로세스는 시간과 비용이 많이 소요될 수 있습니다.
- Wu(2020)는 골든 요약을 손상시키고 이를 음수 샘플로 사용하여 추상 요약을 위한 평가 모델의 성능을 향상시키려고 했습니다.
- 기계 번역 작업에서 Sellam(2020)은 BERT를 사용한 역번역 및 마스크 채우기와 같은 방법을 통해 합성 예제와 쌍을 이루는 데이터를 생성하고 쌍을 이루는 데이터를 사용하여 평가 모델을 사전 학습했습니다.
- 우리의 연구는 대화 이력에 대한 황금 응답을 조작하여 부정적인 샘플을 생성하는 방법을 소개하고 제안한 방법으로 생성된 부정적인 샘플을 비지도 응답 평가 모델을 개선하는 데 사용할 수 있음을 제안합니다.
- 제안된 방법은 사람의 노력 없이 자동으로 수행될 수 있습니다.
3 Method
- 이 섹션에서, 우리는 우리의 방법으로 negative samples을 생성하는 것을 설명한다.
- 제안된 방법은 golden response에서 특정 단어들을 selecting and replacing하여 negative sample을 생성하는 것이다.
- 선택된 단어는 다음의 차이를 기반으로 선택된다.
- (a) 대화 히스토리를 고려하여 response에서 word가 나타날 확률을 측정
- (b) 대화 히스토리를 고려하지 않았을 때, response에서 word가 나타날 확률을 측정
- MLM을 수행할 수 있는 LM을 사용하여 이러한 확률을 추정할 수 있습니다.
- 높은 차이의 확률을 가지는 단어들은 선택되고 다른 단어들로 교체된다.
- 뒤에 나오겠지만, context, 단어1, 단어2, ..., 단어m 이 있을때
- 단어k가 가지는 확률을 LM의 token 확률을 통해 판별하겠다는 거 같음.
- 단어를 다른 단어로 대체할 때 MLM을 수행할 수 있는 LM을 사용하여 대화 히스토리가 제공되지 않은 경우 원래 단어의 위치에 나타날 가능성이 가장 높은 단어를 예측할 수 있습니다.
- 대화 히스토리가 없을 때, 단어1, 단어2, ..., 단어m이 있을때
- 단어k가 가지는 확률을 LM의 token 확률을 통해 판별하겠다는 거 같음.
- 즉, 대화 히스토리의 유무에 따른 단어의 확률 차이를 통해 차이가 큰 애를 바꾼다.
- 마치 내가 쓴 논문인 SST에서 단어삭제 방법과 유사한면이 있는 듯
3.1 Scoring
- 제안된 방법은 golden response에서 어떤 단어가 대화 히스토리에의해 가장 영향을 많이 받는지 결정하여 scoring하는 프로세스이다.
- 단어의 score은 다음의 두 차이로부터 얻는다.
- (a) the estimated probability of the word appearing in its position when the dialogue history is given
- (b) the estimated probability of the word appearing in its position when the dialogue history is not given.
- scoring process는 target response에서 모든 단어들에서 독단적으로 수행된다.
- 구체적으로 golden response에서 i번째 word (xi)의 score을 계산하기 위해, 우리는 먼저 xi을 [mask] token으로 대체한다.
- 그런 다음 마스킹된 토큰 대신 원래 단어 xi가 나타날 가능성이 두 번 계산됩니다.
- 한 번은 대화 기록이 있고 한 번은 포함되지 않습니다.
- log-likelihood의 차이는 각 단어의 최종 score로 사용되고, 이는 다음과 같이 정의된다.
- 여기서 xi는 점수를 매길 단어를 나타내고 r/i는 xi가 마스킹된 황금 응답의 단어 시퀀스를 나타냅니다.
- c denotes the dialogue history of the golden response, and [; ] the concatenation of two pieces of text.
- P(xi |[c; r/i ]; θ)는 대화 히스토리를 고려할 때 xi가 발생할 확률을 나타냅니다.
- P(xi |r/i ; θ)는 대화 히스토리를 고려하지 않을 때 xi가 발생할 확률을 나타냅니다.
- θ denotes the parameters of the LM.
- Figure 2 shows an example of our proposed scoring process.
3.2 Selecting
- 각 문장에서, 우리는 threshold t보다 높은 점수를 가지는 각 단어들을 선택한다.
- 예를 들어, 그림 2에서, threshold가 0.5이면, 단어들 "with", "heading", "vacation", and "?" 이 선택될 것이다.
- threshold value보다 높은 점수를 가진 단어들이 아무것도 없다면, 단어들은 선택되지 않을 것이고, 이 경우에는 negative sample은 생성될 수 없다.
- 그러면 negative sample은 어떻게 처리? 랜덤샘플링?
- 우리는 threshold t을 우리의 실험에서 0.5로 설정한다.
- 우리의 데이터세트에서 이 threshold을 사용하면, 평균 27.28%의 토큰들이 각 response에서 선택된다.
- 또한 response의 94.89%가 최소한 하나의 단어들이 선택되고, 이는 negative sample은 각 케이스에대해 94.89%만큼 생성될 수 있다는 것을 의미한다.
3.3 Replacing
- 선택된 단어들은 LM을 통해 교체된다.
- 선택된 모든 단어들은 기존 response에서 [mask] 토큰들로 교체된다.
- 그리고나서 LM은 대화 히스토리을 고려하지 않고 단어들을 예측하고, 이는 각 masked word의 위치에서 가장 그럴듯하게 발생하는 것이다.
- 만약 LM이 기존의 단어들 예측하면, 가장 그럴듯한 2번째 단어가 대신 사용된다.
- 사실 이 방법이, negative sample이라는 것을 보장하지는 않는다.
4 Experiments
4.1 Setting
4.1.1 Dataset
- 모델 예측과 인간 평가 간의 상관 관계를 측정하기 위해 Zhao가 제안한 응답 평가 데이터 세트를 사용합니다.
- 이 데이터세트는 대화 히스토리, machine-generated responses, golden response를 포함하고, 이에 대한 human annotators가 평가한 적절한 점수도 포함한다.
- 오호 한번 살펴볼만한 데이터세트일듯
- score은 5-point Likert scale이고, 각 response는 4명의 annotators에 의해 점수가 매겨진다.
- Zhao 논문에서
- 여섯 개의 생성 모델들
- S2S (Sutskever et al., 2014), attentional S2S, HRED (Serban et al., 2016), VHRED (Serban et al., 2017), GPT2-sm and GPT2-md (Wolf et al., 2018),
- 3개의 디코딩 알고리즘
- greedy decoding, ancestral decoding, and nucleus sampling
- 이 조합들이 responsese들을 생성하는데 사용된다.
- 그들은 DailyDialog과 PersonaChat을 사용하였다.
- 각 데이터세트에서, 그들은 생성 대화 모델들의 세트로 학습된다.
- 각 900개의 context-response pairs가 두 개의 데이터세트에서 랜덤 선택되서 테스트세트로 사용되고, annotators은 두 개의 다른 evaluation datasets에서 적절함을 평가하도록 구성된다.
- 이 데이터 세트에 대한 Krippendorff의 alpha는 0.815로, 합리적인 주석자간 일치를 나타냅니다.
- DailyDialog dataset consists of 13,118 multiturn open-domain conversations written by human workers, and PersonaChat dataset consists of 12,875 multi-turn open-domain conversations written by human workers.
4.1.2 Models
- 이 논문에서는 negative sample을 만들고, 이로 학습된 모델들이 사람이 평가한 점수와 높은 연관성을 가짐을 보여주는 것이다.
- 이를 아래의 자동 평가 메트릭과 비교하는 것 같다.
- 즉 (대화 히스토리, response)에서 reponse의 적절성을 테스트하는 것
- 평가 모델들은 아래의 것들이다.
- 그들 중, BLEU, ROUGE, METEOR, Embedding Average/Exterma/Greedy, and BERTScore은 reference-based 메트릭으로 golden response와의 유사도를 기반으로 response의 퀄리티를 평가한다.
- BERT-MLM, GPT2-coherence, BERT-retrieval (random-N), BERT retrieval (ours)은 unreferenced metrics으로 golden response가 필요하지 않다.
- RUBERT은 하이브리드 메트릭의 관점이고, reference-based와 unreferenced 접근법을 둘다 포함한다.
- 몇 가지의 referenced-based 메트릭들은 학습가능한 모델들에 비해 간단한 비교 방법들이나, response의 퀄리티를 평가하는데 사용될 수 있기 때문에 다른 모델들과 함께 소개된다.
- 우리는 아래에서 설명되는 supervised approaches들과 unsupervised approaches을 비교하지 않는다.
- Low 및 Zhao가 제안한 supervised approaches은 human-annotated response-evaluation paris로 학습된 것이다.
- BLEU는 여러 references와 hypothesis 사이의 n-gram precision를 측정하여 기계 번역 작업에 널리 사용되는 메트릭입니다(Papineni et al., 2002).
- ROUGE는 text summarization에 널리 사용되는 메트릭으로, 이는 n-gramm recalldmf cmrwjdgksek.
- 우리는 F-score of ROUGE-L을 적절성 score로 사용한다.
- METEOR은 기계번역 테스크에서 쓰는 메트릭으로, 이는 n-gram precision과 n-gram recall of hypothesis을 고려한다.
- Embedding Average/Greedy/Extrema는 golden과 generated responses을 embedding similarity을 사용해서 유사도를 계산하여 golden response가 될 수 있는 다양한 방법을 설명한다. (Liu et al., 2016)
- BERTScore은 contextualized BERT embeddings을 기반으로하는 최근에 제안된 unsupervised metric이다.
- RUBER은 reference-based와 unreferenced 메트릭의 점수를 각각 계산하고나서, 그들을 최종 점수를 예측하는데 사용한다.
- reference-based 메트릭은 golden responses와 generated responses 사이의 유사도를 그들의 embedding similarity을 기반으로 측정한다.
- unreferenced metric은 NUP 테스크로 학습된다.
- BERT-MLM은 LM을 사용해서 masking을 처리한후에 response에서 각 token의 log-likelihood을 더하는 것이다. (Mehri and Eskenazi, 2020)
- LM은 코퍼스에대해 fine-tuned된 것이다.
- 그리고 나서 likelihood을 모아서 최종 점수로 사용한다.
- GPT2-coherence는 대화 히스토리와 response 사이의 coherence을 fine-tuned GPT2 모델로 response의 log-likelihood의 평균을 계산하여 측정한다.
- BERT-retrieval (random-N)은 BERT-based 모델로, 대화 히스토리를 사용하여 golden responses가 negative sample로부터 구별하도록 학습된다.
- Mehri와 Eskenazi(2020)의 원래 모델은 대화 기록에 대해 하나의 무작위 응답을 음성 샘플로 사용했기 때문에 BERT 검색(random-1)이라고 합니다.
- BERT 검색(random-2)이라고 하는 대화 기록에 대해 두 개의 무작위 음성 샘플을 사용하는 모델의 변형을 참조합니다.
- 이는 아래 설명된 대로 대화 기록에 대해 두 개의 부정적인 샘플을 사용하는 우리 모델과 공정하게 비교하기 위한 것입니다.
- BER-retrieval(ours)은 BERT 검색 모델과 동일한 구조를 가진 모델입니다.
- 차이점은 우리 모델이 우리가 제안한 방법으로 생성된 음수 샘플을 사용한다는 것입니다.
- 이 모델은 생성된 음성 샘플과 무작위 음성 샘플을 모두 사용합니다.
- 특히, 훈련 중에 모델은 두 개의 부정적인 샘플과 구별하는 방법을 학습한다.
- 두 가지 샘플: 우리의 방법으로 생성된 것, 코퍼스에서 랜덤샘플링 된 것
4.1.3 Implementation Details
- 우리는 원본 DailyDialog 데이터 세트에서 참조되지 않은 모델을 훈련한 다음 두 개의 응답 평가 데이터 세트(섹션 4.1.1)에서 평가했습니다.
- DailyDialog 데이터 세트의 대화를 슬라이딩 창 방식으로 분할하여 대화 기록과 해당 응답의 쌍을 구성합니다.
- 대화 기록의 최대 턴은 Zhao에 이어 5로 설정되었습니다.
- 우리는 모든 관련 실험에 사전 훈련된 BERT 및 GPT2를 사용합니다.
- 1 Epoch에 대해 MLM으로 설정된 DailyDialog 학습데이터에서 미세 조정된 BERT 모델이 제안된 방법(섹션 3.1)의 scoring 단계에 사용되었습니다.
- 동일한 모델이 replacing 단계에 사용되었습니다(섹션 3.3).
- selecting 단계(섹션 3.2)에 임계값 0.5를 사용했습니다.
- 우리는 훈련을 위해 Adam 옵티마이저(Kingma and Ba, 2015)를 사용했습니다.
- 우리는 DailyDialog 데이터 세트(섹션 4.1.1)에서 만든 응답 평가 데이터 세트에 대한 인간 평가와 모델 예측 간의 (Pearson) 상관 관계를 최대화하는 BERT 검색(random-1) 모델에 대한 하이퍼파라미터를 검색했습니다.
- 이 검색에서 찾은 값(epoch=3, 배치 크기=64, 학습률=2e5)은 모든 BERT 검색 모델(random-N, ours)에 사용되었습니다.
- 모든 실험에 대해 무작위 시드가 고정되었습니다.
4.2 Results
- 4.2.1절에서는 각 평가 모델의 결과와 인간 평가 간의 상관관계를 확인한다.
- 4.2.2절에서는 제안한 방법에 대한 심층 분석을 보여줍니다.
- 4.2.3절에서 제안된 방법으로 훈련된 자동 평가 시스템이 그렇지 않은 모델보다 인간의 판단에 더 가까운 결정을 내릴 수 있음을 시사하는 예를 제시합니다.
4.2.1 Correlation with Human Judgment
- 표 1은 두 데이터 세트를 기반으로 각 모델에 대한 모델 예측과 인간 평가 간의 상관 관계를 보여줍니다.
- 인간 점수와 모델 예측 간의 상관 관계를 측정하기 위해 Pearson 상관 관계(r)와 Spearman의 순위 상관 계수(ρ)를 사용했습니다.
- 응답 평가 데이터 세트에서 황금 응답 점수를 제외하고 DailyDialog 및 PersonaChat 데이터 세트에서 각각 800 및 750 응답 평가 쌍을 추출했습니다.
- 즉, context - generated response 쌍을 DailyDialog 및 PersonaChat에서 각각 800, 750을 뽑았다는 것이겠지?
- gold response은 또 따로 있고
- 우리의 음성 샘플 방법을 통합한 모델은 훈련에 동일한 수의 음성 샘플을 사용하는 BERT 검색(random-2)에 의해 만들어진 예측보다 인간 평가와 더 높은 상관 관계를 가진 예측을 했습니다.
- 베이스라인 모델 중 대부분의 레퍼런스 기반 메트릭은 상대적으로 낮은 성능을 보였다.
- 이러한 결과는 황금 응답을 응답을 평가하기 위한 "유일한" 정답으로 사용하는 것이 비효율적일 수 있음을 시사하는 이전 연구의 관찰을 뒷받침하는 것으로 생각됩니다.
- RUBER는 DailyDialog 데이터셋에 대해 다른 참조 기반 모델보다 우수한 성능을 보였지만 PersonaChat 응답 평가에서는 낮은 성능을 보였습니다.
- GPT2 일관성 모델은 DailyDialog 데이터셋에서 BERT 검색(random-1) 모델과 유사한 성능을 보였지만 PersonaChat 데이터셋에서는 상대적으로 낮은 성능을 보였습니다.
- 또한 하이브리드 및 참조되지 않은 모델은 PersonaChat 데이터 세트가 아니라 DailyDialog 데이터 세트에서 훈련되었다는 점에 유의해야 합니다.
- 그림 3은 DailyDialog의 응답 평가 데이터 세트에 대한 인간 점수 및 모델 예측을 시각화하는 산점도를 보여줍니다.
- BLEU는 낮은 점수를 예측하는 경향이 있습니다.
- 이것은 황금 응답과 생성된 응답 사이에 단지 몇 개의 n-그램 중첩이 있음을 시사할 수 있습니다.
- 임베딩 기반 메트릭(Emb. Greedy 및 BERTScore)의 예측은 특정 범위에 집중되었으며 인간 점수와의 낮은 상관 관계를 보여주었습니다.
- 비참조 또는 하이브리드 메트릭(RUBER, BERT-MLM, GPT2-coherence 및 BERT-retrieval(random-1))은 참조 기반 메트릭보다 상대적으로 높은 상관 관계를 보여줍니다.
- 우리는 BERT-retrieval(우리)이 0.1974의 상관 계수로 모델 간에 가장 큰 상관 관계를 보여줍니다.
- scatter plots는 BERT 검색(random-1) 예측에서 자주 발생하는 false-positive 예측이 모델의 예측에서 덜 자주 발생했음을 시사합니다.
- 그러나 우리 모델의 scatter plots는 계단 함수와 같은 모양을 가지고 있습니다.
- 대부분의 응답이 0점이나 1점에 가까운 점수를 받았는데, 이는 점수가 중간인 경우에도 이상적인 모델이 사람의 점수와 일치할 수 있어야 하기 때문에 문제가 됩니다.
- 이러한 경향은 향후 연구에서 다루어져야 할 우리 모델의 한계로 여겨진다.
4.2.2 Model Analysis
- 무작위 음성 샘플과 함께 사용할 음성 샘플을 만드는 데 있어 몇 가지 변형으로 실험을 수행하여 모델을 분석합니다.
- (1) drop-golden: 채점, 선택 및 교체 단계를 따르는 대신 황금 응답의 일부 단어를 무작위로 삭제하여 음성 샘플을 만들고 무작위 음성 샘플과 함께 사용합니다.
- (2) shuffle-golden: 3단계를 따르는 대신 황금 응답의 단어를 무작위로 섞어서 부정 샘플을 만들고 무작위 부정 샘플과 함께 사용합니다.
- (3) score-w/o-history: 수학식 1에서 첫 번째 항 없이 채점 기능을 사용하므로 대화 이력 없이 문장 내 확률만 고려한다.
- (4) select-random : 수학식 1에서 제안한 스코어링 함수를 사용하지 않고 대체할 단어를 무작위로 선택한다.
- (5) replace-w-history: 단어를 교체할 때 LM이 마스크된 단어를 교체할 때 대화 기록을 고려하도록 대화 기록을 응답과 연결합니다.
- 표 2는 위의 수정된 모델에 대한 모델 예측과 인간 평가 간의 상관 관계를 보여줍니다.
- 음성 샘플을 만들기 위해 황금 응답에서 단어를 삭제하거나 뒤섞는 것은 무작위 응답(BERT-retrieval(random1, random-2))을 사용할 때와 유사하거나 더 낮은 성능을 보입니다.
- 채점 과정에서 대화 이력을 고려했을 때보다 채점 과정에서 고려하지 않았을 때 상관관계가 더 낮았다.
- 이는 대화의 일관성을 위해 중요한 단어뿐만 아니라 일반적으로 가능성이 낮은 단어에 대해서도 높은 점수를 주기 때문이라고 추측합니다.
- 토큰을 무작위로 선택하는 것은 제안된 점수 기능을 사용하는 것보다 낮은 상관 관계를 보여줍니다.
- 교체 과정에서 대화 이력을 고려하면 고려하지 않을 때보다 성능이 저하됩니다.
- 대화 이력을 제공하면 마스킹된 단어에 대한 예측이 컨텍스트에 더 적합하여 재구성된 응답이 부정적인 샘플로 덜 적절하다고 추측합니다.
4.2.3 Case Study
4.3.1 Are the generated samples actually inappropriate?
- 우리의 방법으로 생성된 음성 샘플이 실제로 부적절한지 확인하기 위해 Amazon Mechanical Turk(AMT)를 통해 설문 조사를 수행했습니다.
- 40개의 대화 기록 예를 선택하고 각 대화에 대해 세 가지 유형의 응답을 준비했습니다.
- 1) the golden response, 2) a negative sample generated by our method, and 3) a randomly selected negative sample from the corpus.
- 각 대화에 대해 4명의 주석가에게 3가지 응답의 품질을 평가하도록 요청했습니다.
- Low에 이어 "전체적으로 응답이 얼마나 적절합니까?"라는 질문을 받았습니다.
- 각 문맥-응답 쌍에 대해 평가를 수행했으며 5점 Likert 척도로 평가를 수행했습니다.
- 주석에 대한 Fleiss의 카파와 Krippendorff의 알파는 각각 0.63과 0.63이었습니다.
- 그림 6은 조사 결과를 보여준다.
- 황금 응답과 무작위 응답의 평균 점수는 각각 4.65와 1.19였습니다.
- 음성 샘플의 평균 점수는 2.51이었습니다.
- 각 응답 유형의 점수에 대한 표준 편차는 황금 응답, 음성 표본 및 무작위 응답에 대해 각각 0.67, 1.27 및 0.41이었습니다.
- 이러한 결과가 생성된 모든 음성 샘플이 부적절하다는 것을 보장하지는 않습니다.
- 그러나 우리가 가정할 수 있는 것은 황금 응답을 조작하는 방법이 황금 응답보다 더 부적절한 부정적인 샘플을 생성한다는 것입니다.
- 이게 진짜로 생성된 ours에 적절함이 껴있어서 중간점수가 나오는건지, adversarial 하기 때문에 중간 점수가 나오는지 궁금
- 근데, 사람이 평가한거니까 ours에 false-negative가 있는것이 아닐까?
- 표 3은 설문 조사 결과와 함께 주어진 대화 기록에 대한 세 가지 다른 유형의 응답 중 두 가지 예를 보여줍니다.
- 적절한 응답과 부적절한 응답의 차이를 찾는 모델 학습의 경우 우리의 방법으로 생성된 부정적인 샘플을 황금 응답과 구별하는 작업이 무작위로 선택된 부정적인 샘플을 황금 응답과 구별하는 작업보다 더 어려울 것이라고 추측합니다. .
- 생성된 부정적인 샘플이 완전히 관련이 없는 응답보다 더 미묘한 방식으로 부적절할 수 있기 때문이라고 생각합니다.
- 우리는 이 더 도전적인 설정을 사용한 학습이 4.2.1절에서 논의한 성능 향상을 가져왔다고 생각합니다.
- 그러나 제안된 방법에 따라 원래 황금 응답과 수정된 음성 샘플 간의 의미 관계에 대한 더 많은 양적 분석과 추가 해석을 수행하는 등 각 경우에 대한 보다 심층적인 의미 분석이 필요하다고 생각합니다.
- (예를 들어 광범위한 인간 연구를 통해)
- 앞으로의 과제로 남겨두겠습니다.
5 Conclusion
- 본 논문에서는 비지도 및 비참조 응답 평가 모델을 훈련하는 데 사용할 수 있는 음성 샘플을 자동으로 생성하는 방법을 제안했습니다.
- 제안된 방법이 응답 평가 모델의 비지도 학습을 향상시킬 수 있음을 입증하기 위해 실험을 수행했습니다.
- 실험 결과를 정량적으로 분석하고 제안한 방법의 독특한 특성을 보여주는 몇 가지 예를 살펴보았다.
Reference
댓글
댓글 쓰기