NL-166, Using Multi-Encoder Fusion Strategies to Improve Personalized Response Selection, COLING 2022

0 Abstract

  • Personalized response selection 시스템들은 일반적으로 persona을 기반으로 한다.
  • 그러나, 이러한 시스템들이 잘 탐색하지 못하는 empathy와 persona 사이의 연관성이 존재한다.
  • 또한, topic밖이거나 모순된 response가 선택되면 대화 맥락에 대한 충실도가 떨어진다.
  • 이 논문은 발화의 페르소나, 감정 및 entailment 정보 간의 상호 작용을 포착하는 일련의 융합 전략을 제안하여 이러한 문제를 해결하려고 시도합니다.
  • Persona-Chat에 대한 abalation은 emotion과 entailment의 결합이 response selection의 정확도를 향상시켜주는 것을 보여준다.
  • 우리는 융합 전략과 개념 흐름 인코딩을 결합하여 기존 페르소나에서 2.3%, 수정된 페르소나에서 1.9% 이상의 마진으로 이전 방법을 능가하는 BERT 기반 모델을 훈련합니다. Persona-Chat 데이터 세트에서 새로운 최첨단 성능을 달성했습니다.

1 Introduction

  • 현재 대부분의 응답 선택 시스템은 대부분의 경우 잘 수행되는 경향이 있습니다.
  • 그러나 이러한 순위 재지정 시스템은 contradictory responses을 감지하고 회피하는 능력이 부족합니다. 
  • 이러한 시스템에 의해 선택된 응답은 종종 이전 발언과 모순되며 어떤 형태의 모순이든 대화의 흐름을 방해할 수 있습니다. 
  • 이전 연구에서는 일관성을 유지하기 위해 응답을 선택하거나 생성하면서 페르소나를 통합하려고 시도했습니다. 
  • 또한 페르소나와 성격 사이에는 상관 관계가 존재하며 이는 공감에 영향을 미칩니다. 
  • Zhong은 persona-based empathetic conversations에 기여하는 여러 공감 Reddit 스레드에서 수집한 다중 도메인 데이터 세트를 제시했습니다.
  • 그럼에도 불구하고 더 자연스러운 형태로 제공된 데이터에서 감정-페르소나 상호작용을 연구한 사람은 아무도 없습니다. 
  • 그림 1은 상황에 따른 감정이 응답 선택에서 챗봇의 페르소나보다 더 선호되는 경우를 보여줍니다.
  • 반대로, 다른 성격 특성은 감정 조절 어려움과 관련이 있습니다.
  • 이로 인해 사람의 페르소나에 따라 기대하는 감정이 다를 수 있습니다. 
  • 그 외에도 대화 흐름에서 논의된 개념이 응답 선택에서 중요한 역할을 한다는 것도 관찰했습니다. 
  • 그러나 아무도 이것을 응답 선택에 통합하지 않았습니다.
  • 우리는 표 1에서 이러한 문제의 중요성을 유추할 수 있습니다.
    • 자기 페르소나 원본 및 파트너 페르소나 원본 페르소나-채팅 세트에서 무작위로 선택된 500개의 데이터 포인트에 대해 수행된 인간 평가에서 얻은 통찰력
  • 따라서 개인화 응답 선택 시스템의 유용성을 높이려면 이러한 모든 근본적인 문제를 해결해야 합니다.
  • 일련의 분류기 및 규칙 기반 모듈을 사용하여 Persona-Chat 데이터 세트에 자동으로 주석을 추가합니다.
  • 우리는 주석을 사용하여 감정-페르소나 상호 작용, 컨텍스트 응답 수반 및 개념 흐름을 모델링합니다.
  • emotion-persona interaction, contradiction avoidance 및 adherence to the concept flow를 향상시키는 annotated features의 능력을 비교하기 위해 BERT를 기반으로 하는 독립적인 인코더를 고안하여 예비 실험을 수행합니다.
  • 우리의 기준 모델은 봇 발언을 더 잘 표현하기 위해 추가 봇 인코더를 도입하는 BERT-CRA를 확장합니다.
  • 다음으로 emotion-aware(EmA), entailment-aware(EnA), persona-entailment-aware(P-EmA)의 3가지 융합 전략을 제안한다.
  • 이러한 융합 전략은 emotion-persona interaction 또는 persona-entailment information를 기반으로 설계되었습니다.
  • 이러한 융합 전략을 사용하여 컨텍스트 및 후보 응답에서 관련 개념을 일치시키는 개념 흐름 인코딩 기법을 제안합니다.
  • automatic annotation을 사용하여 Persona-Chat 데이터 세트에서 제안된 방법을 테스트합니다. 
  • 결과는 제안된 융합 전략의 조합으로 훈련된 모델이 상위 1개 정확도 hit@1 측면에서 2.3%의 마진으로 현재 최첨단 모델을 능가한다는 것을 보여줍니다.
  • 요약하면, 이 논문의 기여는 세 가지입니다.
    • (1) 추가 감독을 제공하기 위해 발화 수준 emotion, entailment, and concept information로 Persona-Chat 데이터 세트에 자동으로 주석을 추가합니다.
    • (2) 일련의 모델로 설계 및 구현된 일련의 융합 전략 및 concept-flow encoder는 response selection 작업에서 감정, 수반 및 개념 흐름의 영향을 탐구하는 것을 목표로 합니다.
    • (3) 실험 결과는 우리가 제안한 모델이 널리 사용되는 Persona-Chat 응답 선택 벤치마크에서 상당한 마진으로 기존의 최첨단 모델을 능가하는 것으로 나타났습니다.

2 Related Works

2.1 Personalized Response Selection

  • 일반적으로 다양한 화자와의 많은 대화를 통해 훈련된 잡담 모델은 일관된 성격과 명시적인 장기 기억이 부족합니다.
  • 이러한 모델은 최근 대화 이력만을 고려하여 발화를 생성합니다. 
  • Li는 background information and speaking style과 같은 개인의 특성을 포착하기 위해 페르소나 기반 신경 대화 모델을 제안했습니다.
  • Zhang은 개인화된 대화 시스템을 구축하기 위해 Persona-Chat 데이터 세트를 구성했습니다. 
    • 이것은 페르소나를 조건으로 하는 백만 턴의 대화를 포함하는 가장 큰 공개 데이터 세트입니다.
  • 이 데이터 세트에 대해 많은 벤치마크가 설정되었습니다.
  • 예를 들어, Mazaré는 미세 조정된 Persona-Chat(FT-PC) 모델을 제안했습니다.
    • 먼저 Reddit을 기반으로 하는 대규모 코퍼스를 사용하여 페르소나를 기반으로 하는 가치 있는 대화를 추출하기 위해 사전 훈련된 모델을 만든 다음 Persona-Chat 데이터 세트에서 사전 훈련된 모델을 미세 조정했습니다.
  • (Wolf et al., 2019; Liu et al., 2020) 또한 개인화된 대화 에이전트를 구축하기 위해 사전 훈련된 언어 모델(GPT)을 사용했습니다. 
  • (Gu et al., 2020c)는 대화를 주어진 지식에 기초한 다음 심층적이고 반복적인 매칭을 수행하기 위해 반복적으로 참조(FIRE)하기 전에 필터링을 제안했습니다. 
  • (Gu et al., 2021b)는 4가지 페르소나 융합 전략을 제안하여 새로운 방향을 모색하여 응답 선택에 파트너 페르소나를 통합했습니다.

2.2 Faithfulness to Context

  • 대화 시스템에서 conversation context or knowledge에 대한 충실도는 매우 넓은 주제이다.
    • fact hallucination부터 모순된 response 감소, topic 유지 등 매우 넓은 주제이다.
  • Rashkin은 모델이 제공된 evidence or knowledge에 충실한 응답을 생성하도록 장려하는 stylistic controls 역할을 하기 위해 추가 입력을 사용했습니다.
  • 그러나 현재의 personalized response selection 시스템이 대화 기록에 대해 나타내는 충실도 수준을 연구한 사람은 아무도 없습니다.
  • 따라서 본 논문에서는 발화 수준의 감정, 함의 및 개념 활용이 개인화 응답 선택의 수행에 미치는 영향을 철저히 조사합니다.
  • 따라서 본 논문에서는 발화 수준의 emotions, entailment 및 concepts 활용이 개인화 응답 선택의 수행에 미치는 영향을 철저히 조사합니다.

3 Dataset

  • 이 작업에서 우리는 Persona-Chat(Zhang 2018)을 확장하고 일련의 주석으로 이를 확장합니다.
  • 데이터 세트는 훈련을 위한 8939개의 완전한 대화, 검증을 위한 1000개, 테스트를 위한 968개의 대화로 구성됩니다.
  • 응답은 대화 시퀀스의 매 턴마다 선택되어 교육용으로 65719개의 컨텍스트-응답 쌍, 검증용으로 7801개, 테스트용으로 7512개가 생성됩니다.
  • 양성 및 음성 응답 비율은 훈련, 검증 및 테스트 세트에서 1:19입니다.
  • 3~5개의 프로필 문장으로 구성된 훈련용 페르소나는 955개, 검증용 100개, 테스트용 100개가 있습니다.
  • 페르소나 설명의 수정된 버전은 이 작업을 더 어렵게 만들기 위해 원래 설명을 다시 말하거나 일반화하거나 전문화하여 제공됩니다.

4 Automatic Dataset Annotation

  • 우리는 Persona-Chat을 자동 annotation 스키마의 시리즈의 도움으로 어노테이트한다.
  • 우리가 personalized response selection에서 emotions의 효과를 연구하기 때문에, 우리는 emotion labels을 peronsa, context-utterances, candidate response에 감정 분류기를 사용하여 할당한다.
  • 페르소나와 발화는 응답을 선택하는 동안 entailment information를 통합하기 위해 entailment classifier를 사용하여 주석을 달았습니다.
  • 마지막으로 컨텍스트 및 응답에 나타나는 의미 있는 개념을 일치시키기 위해 multi-layer keyword mining strategy을 따릅니다.

4.1 Emotion 

  • GoEmotions 데이터 세트에서 감정 분류기를 훈련했습니다(Demszky et al., 2020).
  • 이 데이터 세트에는 27개의 감정 범주 또는 중립으로 레이블이 지정된 58,000개의 영어 Reddit 댓글이 포함되어 있습니다.
  • 이 데이터 세트를 사용하여 RoBERTa를 미세 조정했습니다.
  • 우리는 49.4%의 최고의 매크로 F1(최신 기술 상태와 동일)으로 체크포인트를 저장하고 이를 각 발언에 annotating을 추가하는 데 사용했습니다.
  • 감정 분류는 어려운 작업이고 말뭉치의 영향 어휘가 복잡하기 때문에 90% 이상의 신뢰도(즉, 90% 이상의 확률)로 예측할 수 있는 레이블만 고려합니다.
    • 그러면 컨피던스가 낮은 감정은 뭘로 레이블링하지?
  • 여기서 목표는 개인화된 응답 선택에서 감정의 효과를 연구하는 것입니다. 
  • 매우 정확한 감정 분류기를 개발하는 것은 이 작업의 범위를 벗어납니다.

4.2 Entailment

  • entailment에 주석을 달기 위해 두 모델의 앙상블을 사용했습니다.
  • 첫 번째는 AllenAI에서 발표한 Stanford Natural Language Inference(SNLI) 코퍼스(MacCartney and Manning, 2008)에서 훈련된 RoBERTa 기반 모델입니다.
  • 두 번째 모델도 DECODE에서 미세 조정된 RoBERTa 기반 모델입니다(Nie et al., 2020).
  • 추론하는 동안 두 가지 확률의 두 모델의 가중 평균을 취합니다.
  • 두 번째 모델은 대화 데이터에 대해 학습되므로 80% 가중치로 더 높은 선호도를 갖습니다.
  • entailment 레이블은 모든 페르소나-응답 및 발화-응답 쌍에 할당됩니다.

4.3 Concept Mining

  • 우리는 각각 {pci} , {uci} , {rci} 로 표시된 페르소나 문장, 발화 및 응답에서 키워드와 핵심 문구를 마이닝합니다.
  • (Tang et al., 2019)에서 제안된 기술을 따라 첫 번째 수준의 키워드를 추출합니다.
  • 이후 RAKE를 이용하여 핵심어를 추출하여 개념 목록을 확장한다.
  • 우리는 응답에 나타나는 개념이 화자의 페르소나를 따라야 한다고 가정합니다.
  • 따라서 페르소나 키워드와 응답/컨텍스트 키워드간의 Point-wise Mutual Information 점수 $\sum^{N_{pc}}_{j=1} PMI(pc_j , rc_i)/N_{pc}$의 평균을 계산하고 임계값(λ) 미만인 개념을 거부하여 응답/컨텍스트 키워드 중 일부를 프루닝합니다.
  • 마찬가지로 RAKE를 사용하여 추출한 응답/개념 핵심 구문의 경우 상위 N개의 핵심 구문만 유지합니다.
  • 마지막으로 페르소나와 컨텍스트 키워드를 결합하여 컨텍스트 키워드(uci)로 취급합니다.

5 Methodology 

5.1 Problem Definition

  • 주어진 데이터세트 D = {(Ci , uci , pi , ri , rci , yi)}는 N개의 튜플로, context Ci, persona of the speaker or the partner pi, response to the context ri, ground truth yi로 구성된다.
    • 컨텍스트와 응답에 나타나는 일련의 concepts을 각각 uci 및 rci 로 표시합니다.
    • concetps라는 것은 4.3에 있듯이, 문장의 키워드 및 핵심 문구를 의미하는 것..
    • persona concepts pc와 rc간의 PMI라는 point-wise mutual information을 계산하여 점수가 낮은 PMI에 해당하는 키워드는 버린다?
  • context는 $C_i = \{ (U_j , Emo_j , Entail_j ) \}^{L}_{j=1}$으로 표현되고, 여기서 $U_j$는 utterance, $Emo_j$는 $U_j$에 존재하는 지배적인 emotion이고, $Entail_j$은 ri에 관한 $U_j$의 entailment label이다.
  • The j th utterance Uj is denoted by Uj = {u1j, u2j, ..., uMj} which consists of M tokens. 
  • Each response ri contains single utterance, yi ∈ {0, 1}, Emoj ∈ {0, 1, ...P} , and Entailj ∈ {entailment, neutral, contradiction} where P are the total number of emotion types possible in the D. 
  • The task is to train a matching model for D, g(C, uc, p, rc, r). 
    • 컨텍스트-페르소나-응답의 트리플이 주어지면 매칭 모델 g(C, uc, p, rc, r)의 목표는 (C, uc, p)와 (rc, r) 사이의 일치 정도를 계산하는 것입니다.

5.2 Bot Context Encoding

  • 두 명의 사용자가 통신할 때 많은 주제가 동시에 논의되는 경우가 많으며 때로는 몇 가지 발화가 응답 선택과 관련이 없을 수 있습니다.
  • 화자 변경 정보를 인식하는 모델을 설명하기 위해 Gu는 원래 토큰 임베딩과 융합된 화자 임베딩 형태의 화자 분리 전략을 도입했습니다.
  • 이 기술은 응답 선택 성능을 향상시키는 것으로 입증되었습니다.
  • 그러나 위치 임베딩의 최대 길이 문제는 여전히 존재합니다.
  • 이를 피하기 위해 우리는 사용자의 턴을 무시하면서 컨텍스트에서 봇의 턴 표현을 캡처하는 봇 컨텍스트 인코딩을 만들었습니다.
  • 의도는 응답 선택 중에 일관성을 유지하기 위해 봇의 차례를 사용하는 것입니다.
  • 봇 컨텍스트를 인코딩하기 위해 BERT로 전송되는 입력 시퀀스는 다음과 같이 구성됩니다.
  • 여기서 u1, u4, ...un-1은 컨텍스트에서 봇의 발화이고 [EOU]는 발화의 끝을 나타내는 특수 토큰입니다.
  • 결과 토큰 xsi는 bert-base-uncased를 통해 전달되며 k 레이어의 마지막 숨겨진 상태, 즉 {h}, l = 1, 2, ..k는 다운스트림 작업에서 사용됩니다.

5.3 Fusion Strategies

  • 페르소나, 감정 및 수반 정보의 상호 의존성을 모델링하기 위해 몇 가지 융합 전략을 사용합니다. 기본 문장 인코더로 BERT(Devlin et al., 2019)를 사용합니다.
  • Biencoder(Humeau et al., 2020)와 마찬가지로 컨텍스트 발언을 BERT에 전달하기 전에 단일 컨텍스트 문장으로 연결합니다.

5.3.1 Baseline 

  • BERT-CRA

5.3.2 BERT-EmA Emotion Aware Fusion:

  • 이 전략에서는 감정 통합 프레임워크가 도입됩니다. 
  • BERT-CRA와 유사하게 이중 파이프라인 매칭 네트워크를 따릅니다. 
  • 첫 번째 파이프라인은 맥락에서 화자와 청자의 감정 및 성격 특성을 인코딩합니다. 
  • 다른 하나는 섹션 5.2에 설명된 대로 봇 컨텍스트를 인코딩합니다. 
  • 우리는 BERT 문맥 표현에 감정 기능을 통합하기 위해 각 발화에 가장 가능성이 높은 감정 태그를 첨부합니다.
  • 그런 다음 감정이 주입된 컨텍스트 표현은 섹션 5.3.1에 설명된 대로 원래 페르소나 표현과 연결됩니다. 
  • 이러한 방식으로 컨텍스트를 표현하는 주요 목표는 각 발화의 감정이 화자의 페르소나와 어떻게 상호 작용하는지 이해하는 것입니다. 
  • 감정 인코더에 대한 입력은 다음과 같습니다.

5.3.3 BERT-EnA-P: Entailment Aware Fusion

  • 이 융합 전략에서 intent는 각 발화 및 페르소나에 대한 함의 정보를 응답으로 모델링하는 것입니다. 
  • BERT-EmA와 마찬가지로 우리는 이중 인코더 파이프라인을 따르며 첫 번째는 수반 기능을 인코딩하고 두 번째는 봇 컨텍스트를 인코딩합니다. 
  • 함의 기능을 BERT 컨텍스트 표현에 통합하기 위해 모든 발화 및 페르소나의 시작 부분에 함의 태그 즉 및 를 첨부합니다. 
  • 응답은 [SEP] 토큰을 사용하여 컨텍스트 수반 표현과 연결됩니다. 인테일먼트 인코더에 대한 입력은 다음과 같습니다. 

5.4 Concept-Flow(CF) Interaction

  • 섹션 4.3에서는 컨텍스트 및 응답에서 관련 개념을 추출하는 방법을 설명합니다. 
  • 적절한 응답에는 종종 컨텍스트에서 가장 최근에 논의된 개념이 있습니다. 
  • 따라서 이를 모델링하기 위해 컨텍스트 개념과 응답 개념 간의 상호 작용을 측정하고 응답 관련성 분류의 기능으로 사용하는 개념 흐름 상호 작용 네트워크를 구성합니다.
  • {CC1, CC2, ..., CCn}이 컨텍스트에서 추출된 개념이고 {RC1, RC2, ..., RCn}이 응답에서 추출된 개념이라고 가정해 보겠습니다. 
  • 이제 변환기 기반 개념 인코더 fc를 통해 이러한 각 개념을 전달하여 컨텍스트 및 응답에 대한 개념 임베딩 {ec1, ec2, ..., ecn} 및 {rc1, rc2, ..., rcn}의 두 세트를 얻습니다. 
  • 각 개념 집합에 대한 컨텍스트 흐름 표현을 학습하기 위해 양방향 GRU 네트워크를 적용하여 대화 상황에서 후속 개념 간의 순차적 종속성을 캡처합니다. 
  • 컨텍스트 개념 및 응답 개념 표현 hci , hri 는 다음과 같이 공식화할 수 있습니다.
























































Reference

댓글