0 Abstract

Personalized response selection 시스템들은 일반적으로 persona을 기반으로 한다.
그러나, 이러한 시스템들이 잘 탐색하지 못하는 empathy와 persona 사이의 연관성이 존재한다.
또한, topic밖이거나 모순된 response가 선택되면 대화 맥락에 대한 충실도가 떨어진다.
이 논문은 발화의 페르소나, 감정 및 entailment 정보 간의 상호 작용을 포착하는 일련의 융합 전략을 제안하여 이러한 문제를 해결하려고 시도합니다.
Persona-Chat에 대한 abalation은 emotion과 entailment의 결합이 response selection의 정확도를 향상시켜주는 것을 보여준다.
우리는 융합 전략과 개념 흐름 인코딩을 결합하여 기존 페르소나에서 2.3%, 수정된 페르소나에서 1.9% 이상의 마진으로 이전 방법을 능가하는 BERT 기반 모델을 훈련합니다. Persona-Chat 데이터 세트에서 새로운 최첨단 성능을 달성했습니다.

1 Introduction

현재 대부분의 응답 선택 시스템은 대부분의 경우 잘 수행되는 경향이 있습니다.
그러나 이러한 순위 재지정 시스템은 contradictory responses을 감지하고 회피하는 능력이 부족합니다.
이러한 시스템에 의해 선택된 응답은 종종 이전 발언과 모순되며 어떤 형태의 모순이든 대화의 흐름을 방해할 수 있습니다.
이전 연구에서는 일관성을 유지하기 위해 응답을 선택하거나 생성하면서 페르소나를 통합하려고 시도했습니다.
또한 페르소나와 성격 사이에는 상관 관계가 존재하며 이는 공감에 영향을 미칩니다.
Zhong은 persona-based empathetic conversations에 기여하는 여러 공감 Reddit 스레드에서 수집한 다중 도메인 데이터 세트를 제시했습니다.
그럼에도 불구하고 더 자연스러운 형태로 제공된 데이터에서 감정-페르소나 상호작용을 연구한 사람은 아무도 없습니다.
그림 1은 상황에 따른 감정이 응답 선택에서 챗봇의 페르소나보다 더 선호되는 경우를 보여줍니다.
반대로, 다른 성격 특성은 감정 조절 어려움과 관련이 있습니다.
이로 인해 사람의 페르소나에 따라 기대하는 감정이 다를 수 있습니다.
그 외에도 대화 흐름에서 논의된 개념이 응답 선택에서 중요한 역할을 한다는 것도 관찰했습니다.
그러나 아무도 이것을 응답 선택에 통합하지 않았습니다.
우리는 표 1에서 이러한 문제의 중요성을 유추할 수 있습니다.

자기 페르소나 원본 및 파트너 페르소나 원본 페르소나-채팅 세트에서 무작위로 선택된 500개의 데이터 포인트에 대해 수행된 인간 평가에서 얻은 통찰력

따라서 개인화 응답 선택 시스템의 유용성을 높이려면 이러한 모든 근본적인 문제를 해결해야 합니다.
일련의 분류기 및 규칙 기반 모듈을 사용하여 Persona-Chat 데이터 세트에 자동으로 주석을 추가합니다.
우리는 주석을 사용하여 감정-페르소나 상호 작용, 컨텍스트 응답 수반 및 개념 흐름을 모델링합니다.
emotion-persona interaction, contradiction avoidance 및 adherence to the concept flow를 향상시키는 annotated features의 능력을 비교하기 위해 BERT를 기반으로 하는 독립적인 인코더를 고안하여 예비 실험을 수행합니다.
우리의 기준 모델은 봇 발언을 더 잘 표현하기 위해 추가 봇 인코더를 도입하는 BERT-CRA를 확장합니다.
다음으로 emotion-aware(EmA), entailment-aware(EnA), persona-entailment-aware(P-EmA)의 3가지 융합 전략을 제안한다.
이러한 융합 전략은 emotion-persona interaction 또는 persona-entailment information를 기반으로 설계되었습니다.
이러한 융합 전략을 사용하여 컨텍스트 및 후보 응답에서 관련 개념을 일치시키는 개념 흐름 인코딩 기법을 제안합니다.
automatic annotation을 사용하여 Persona-Chat 데이터 세트에서 제안된 방법을 테스트합니다.
결과는 제안된 융합 전략의 조합으로 훈련된 모델이 상위 1개 정확도 hit@1 측면에서 2.3%의 마진으로 현재 최첨단 모델을 능가한다는 것을 보여줍니다.
요약하면, 이 논문의 기여는 세 가지입니다.

(1) 추가 감독을 제공하기 위해 발화 수준 emotion, entailment, and concept information로 Persona-Chat 데이터 세트에 자동으로 주석을 추가합니다.
(2) 일련의 모델로 설계 및 구현된 일련의 융합 전략 및 concept-flow encoder는 response selection 작업에서 감정, 수반 및 개념 흐름의 영향을 탐구하는 것을 목표로 합니다.
(3) 실험 결과는 우리가 제안한 모델이 널리 사용되는 Persona-Chat 응답 선택 벤치마크에서 상당한 마진으로 기존의 최첨단 모델을 능가하는 것으로 나타났습니다.

2 Related Works

2.1 Personalized Response Selection

일반적으로 다양한 화자와의 많은 대화를 통해 훈련된 잡담 모델은 일관된 성격과 명시적인 장기 기억이 부족합니다.
이러한 모델은 최근 대화 이력만을 고려하여 발화를 생성합니다.
Li는 background information and speaking style과 같은 개인의 특성을 포착하기 위해 페르소나 기반 신경 대화 모델을 제안했습니다.
Zhang은 개인화된 대화 시스템을 구축하기 위해 Persona-Chat 데이터 세트를 구성했습니다.

이것은 페르소나를 조건으로 하는 백만 턴의 대화를 포함하는 가장 큰 공개 데이터 세트입니다.

이 데이터 세트에 대해 많은 벤치마크가 설정되었습니다.
예를 들어, Mazaré는 미세 조정된 Persona-Chat(FT-PC) 모델을 제안했습니다.

먼저 Reddit을 기반으로 하는 대규모 코퍼스를 사용하여 페르소나를 기반으로 하는 가치 있는 대화를 추출하기 위해 사전 훈련된 모델을 만든 다음 Persona-Chat 데이터 세트에서 사전 훈련된 모델을 미세 조정했습니다.

(Wolf et al., 2019; Liu et al., 2020) 또한 개인화된 대화 에이전트를 구축하기 위해 사전 훈련된 언어 모델(GPT)을 사용했습니다.
(Gu et al., 2020c)는 대화를 주어진 지식에 기초한 다음 심층적이고 반복적인 매칭을 수행하기 위해 반복적으로 참조(FIRE)하기 전에 필터링을 제안했습니다.
(Gu et al., 2021b)는 4가지 페르소나 융합 전략을 제안하여 새로운 방향을 모색하여 응답 선택에 파트너 페르소나를 통합했습니다.

2.2 Faithfulness to Context

대화 시스템에서 conversation context or knowledge에 대한 충실도는 매우 넓은 주제이다.

fact hallucination부터 모순된 response 감소, topic 유지 등 매우 넓은 주제이다.

Rashkin은 모델이 제공된 evidence or knowledge에 충실한 응답을 생성하도록 장려하는 stylistic controls 역할을 하기 위해 추가 입력을 사용했습니다.
그러나 현재의 personalized response selection 시스템이 대화 기록에 대해 나타내는 충실도 수준을 연구한 사람은 아무도 없습니다.
따라서 본 논문에서는 발화 수준의 감정, 함의 및 개념 활용이 개인화 응답 선택의 수행에 미치는 영향을 철저히 조사합니다.
따라서 본 논문에서는 발화 수준의 emotions, entailment 및 concepts 활용이 개인화 응답 선택의 수행에 미치는 영향을 철저히 조사합니다.

3 Dataset

이 작업에서 우리는 Persona-Chat(Zhang 2018)을 확장하고 일련의 주석으로 이를 확장합니다.
데이터 세트는 훈련을 위한 8939개의 완전한 대화, 검증을 위한 1000개, 테스트를 위한 968개의 대화로 구성됩니다.
응답은 대화 시퀀스의 매 턴마다 선택되어 교육용으로 65719개의 컨텍스트-응답 쌍, 검증용으로 7801개, 테스트용으로 7512개가 생성됩니다.
양성 및 음성 응답 비율은 훈련, 검증 및 테스트 세트에서 1:19입니다.
3~5개의 프로필 문장으로 구성된 훈련용 페르소나는 955개, 검증용 100개, 테스트용 100개가 있습니다.
페르소나 설명의 수정된 버전은 이 작업을 더 어렵게 만들기 위해 원래 설명을 다시 말하거나 일반화하거나 전문화하여 제공됩니다.

4 Automatic Dataset Annotation

우리는 Persona-Chat을 자동 annotation 스키마의 시리즈의 도움으로 어노테이트한다.
우리가 personalized response selection에서 emotions의 효과를 연구하기 때문에, 우리는 emotion labels을 peronsa, context-utterances, candidate response에 감정 분류기를 사용하여 할당한다.
페르소나와 발화는 응답을 선택하는 동안 entailment information를 통합하기 위해 entailment classifier를 사용하여 주석을 달았습니다.
마지막으로 컨텍스트 및 응답에 나타나는 의미 있는 개념을 일치시키기 위해 multi-layer keyword mining strategy을 따릅니다.

4.1 Emotion

GoEmotions 데이터 세트에서 감정 분류기를 훈련했습니다(Demszky et al., 2020).
이 데이터 세트에는 27개의 감정 범주 또는 중립으로 레이블이 지정된 58,000개의 영어 Reddit 댓글이 포함되어 있습니다.
이 데이터 세트를 사용하여 RoBERTa를 미세 조정했습니다.
우리는 49.4%의 최고의 매크로 F1(최신 기술 상태와 동일)으로 체크포인트를 저장하고 이를 각 발언에 annotating을 추가하는 데 사용했습니다.
감정 분류는 어려운 작업이고 말뭉치의 영향 어휘가 복잡하기 때문에 90% 이상의 신뢰도(즉, 90% 이상의 확률)로 예측할 수 있는 레이블만 고려합니다.

그러면 컨피던스가 낮은 감정은 뭘로 레이블링하지?

여기서 목표는 개인화된 응답 선택에서 감정의 효과를 연구하는 것입니다.
매우 정확한 감정 분류기를 개발하는 것은 이 작업의 범위를 벗어납니다.

4.2 Entailment

entailment에 주석을 달기 위해 두 모델의 앙상블을 사용했습니다.
첫 번째는 AllenAI에서 발표한 Stanford Natural Language Inference(SNLI) 코퍼스(MacCartney and Manning, 2008)에서 훈련된 RoBERTa 기반 모델입니다.
두 번째 모델도 DECODE에서 미세 조정된 RoBERTa 기반 모델입니다(Nie et al., 2020).
추론하는 동안 두 가지 확률의 두 모델의 가중 평균을 취합니다.
두 번째 모델은 대화 데이터에 대해 학습되므로 80% 가중치로 더 높은 선호도를 갖습니다.
entailment 레이블은 모든 페르소나-응답 및 발화-응답 쌍에 할당됩니다.

4.3 Concept Mining

우리는 각각 {pci} , {uci} , {rci} 로 표시된 페르소나 문장, 발화 및 응답에서 키워드와 핵심 문구를 마이닝합니다.
(Tang et al., 2019)에서 제안된 기술을 따라 첫 번째 수준의 키워드를 추출합니다.
이후 RAKE를 이용하여 핵심어를 추출하여 개념 목록을 확장한다.
우리는 응답에 나타나는 개념이 화자의 페르소나를 따라야 한다고 가정합니다.
따라서 페르소나 키워드와 응답/컨텍스트 키워드간의 Point-wise Mutual Information 점수 $\sum^{N_{pc}}_{j=1} PMI(pc_j , rc_i)/N_{pc}$의 평균을 계산하고 임계값(λ) 미만인 개념을 거부하여 응답/컨텍스트 키워드 중 일부를 프루닝합니다.
마찬가지로 RAKE를 사용하여 추출한 응답/개념 핵심 구문의 경우 상위 N개의 핵심 구문만 유지합니다.
마지막으로 페르소나와 컨텍스트 키워드를 결합하여 컨텍스트 키워드(uci)로 취급합니다.

5 Methodology

5.1 Problem Definition

주어진 데이터세트 D = {(Ci , uci , pi , ri , rci , yi)}는 N개의 튜플로, context Ci, persona of the speaker or the partner pi, response to the context ri, ground truth yi로 구성된다.

컨텍스트와 응답에 나타나는 일련의 concepts을 각각 uci 및 rci 로 표시합니다.
concetps라는 것은 4.3에 있듯이, 문장의 키워드 및 핵심 문구를 의미하는 것..
persona concepts pc와 rc간의 PMI라는 point-wise mutual information을 계산하여 점수가 낮은 PMI에 해당하는 키워드는 버린다?

context는 $C_i = \{ (U_j , Emo_j , Entail_j ) \}^{L}_{j=1}$으로 표현되고, 여기서 $U_j$는 utterance, $Emo_j$는 $U_j$에 존재하는 지배적인 emotion이고, $Entail_j$은 ri에 관한 $U_j$의 entailment label이다.
The j th utterance Uj is denoted by Uj = {u1j, u2j, ..., uMj} which consists of M tokens.
Each response ri contains single utterance, yi ∈ {0, 1}, Emoj ∈ {0, 1, ...P} , and Entailj ∈ {entailment, neutral, contradiction} where P are the total number of emotion types possible in the D.
The task is to train a matching model for D, g(C, uc, p, rc, r).

컨텍스트-페르소나-응답의 트리플이 주어지면 매칭 모델 g(C, uc, p, rc, r)의 목표는 (C, uc, p)와 (rc, r) 사이의 일치 정도를 계산하는 것입니다.

5.2 Bot Context Encoding

두 명의 사용자가 통신할 때 많은 주제가 동시에 논의되는 경우가 많으며 때로는 몇 가지 발화가 응답 선택과 관련이 없을 수 있습니다.
화자 변경 정보를 인식하는 모델을 설명하기 위해 Gu는 원래 토큰 임베딩과 융합된 화자 임베딩 형태의 화자 분리 전략을 도입했습니다.
이 기술은 응답 선택 성능을 향상시키는 것으로 입증되었습니다.
그러나 위치 임베딩의 최대 길이 문제는 여전히 존재합니다.
이를 피하기 위해 우리는 사용자의 턴을 무시하면서 컨텍스트에서 봇의 턴 표현을 캡처하는 봇 컨텍스트 인코딩을 만들었습니다.
의도는 응답 선택 중에 일관성을 유지하기 위해 봇의 차례를 사용하는 것입니다.
봇 컨텍스트를 인코딩하기 위해 BERT로 전송되는 입력 시퀀스는 다음과 같이 구성됩니다.
여기서 u1, u4, ...un-1은 컨텍스트에서 봇의 발화이고 [EOU]는 발화의 끝을 나타내는 특수 토큰입니다.
결과 토큰 xsi는 bert-base-uncased를 통해 전달되며 k 레이어의 마지막 숨겨진 상태, 즉 {h}, l = 1, 2, ..k는 다운스트림 작업에서 사용됩니다.

5.3 Fusion Strategies

페르소나, 감정 및 수반 정보의 상호 의존성을 모델링하기 위해 몇 가지 융합 전략을 사용합니다. 기본 문장 인코더로 BERT(Devlin et al., 2019)를 사용합니다.
Biencoder(Humeau et al., 2020)와 마찬가지로 컨텍스트 발언을 BERT에 전달하기 전에 단일 컨텍스트 문장으로 연결합니다.

5.3.1 Baseline

BERT-CRA

5.3.2 BERT-EmA Emotion Aware Fusion:

이 전략에서는 감정 통합 프레임워크가 도입됩니다.
BERT-CRA와 유사하게 이중 파이프라인 매칭 네트워크를 따릅니다.
첫 번째 파이프라인은 맥락에서 화자와 청자의 감정 및 성격 특성을 인코딩합니다.
다른 하나는 섹션 5.2에 설명된 대로 봇 컨텍스트를 인코딩합니다.
우리는 BERT 문맥 표현에 감정 기능을 통합하기 위해 각 발화에 가장 가능성이 높은 감정 태그를 첨부합니다.
그런 다음 감정이 주입된 컨텍스트 표현은 섹션 5.3.1에 설명된 대로 원래 페르소나 표현과 연결됩니다.
이러한 방식으로 컨텍스트를 표현하는 주요 목표는 각 발화의 감정이 화자의 페르소나와 어떻게 상호 작용하는지 이해하는 것입니다.
감정 인코더에 대한 입력은 다음과 같습니다.

5.3.3 BERT-EnA-P: Entailment Aware Fusion

이 융합 전략에서 intent는 각 발화 및 페르소나에 대한 함의 정보를 응답으로 모델링하는 것입니다.
BERT-EmA와 마찬가지로 우리는 이중 인코더 파이프라인을 따르며 첫 번째는 수반 기능을 인코딩하고 두 번째는 봇 컨텍스트를 인코딩합니다.
함의 기능을 BERT 컨텍스트 표현에 통합하기 위해 모든 발화 및 페르소나의 시작 부분에 함의 태그 즉 및 를 첨부합니다.
응답은 [SEP] 토큰을 사용하여 컨텍스트 수반 표현과 연결됩니다. 인테일먼트 인코더에 대한 입력은 다음과 같습니다.

5.4 Concept-Flow(CF) Interaction

섹션 4.3에서는 컨텍스트 및 응답에서 관련 개념을 추출하는 방법을 설명합니다.
적절한 응답에는 종종 컨텍스트에서 가장 최근에 논의된 개념이 있습니다.
따라서 이를 모델링하기 위해 컨텍스트 개념과 응답 개념 간의 상호 작용을 측정하고 응답 관련성 분류의 기능으로 사용하는 개념 흐름 상호 작용 네트워크를 구성합니다.
{CC1, CC2, ..., CCn}이 컨텍스트에서 추출된 개념이고 {RC1, RC2, ..., RCn}이 응답에서 추출된 개념이라고 가정해 보겠습니다.
이제 변환기 기반 개념 인코더 fc를 통해 이러한 각 개념을 전달하여 컨텍스트 및 응답에 대한 개념 임베딩 {ec1, ec2, ..., ecn} 및 {rc1, rc2, ..., rcn}의 두 세트를 얻습니다.
각 개념 집합에 대한 컨텍스트 흐름 표현을 학습하기 위해 양방향 GRU 네트워크를 적용하여 대화 상황에서 후속 개념 간의 순차적 종속성을 캡처합니다.
컨텍스트 개념 및 응답 개념 표현 hci , hri 는 다음과 같이 공식화할 수 있습니다.