NL-097, Towards Persona-Based Empathetic Conversational Models (2020-EMNLP)

◼️ Comment

  • 이 논문은 2가지 핵심이 있는데, 첫 째는 PEC라는 데이터를 릴리즈한다.
    • 이 데이터는 persona-empathetic-dialog의 데이터세트이다.
    • 이 논문이전에는 empathetic-dialog 나 persona-chat과 같은 방법으로 구축된 데이터만 릴리즈되어있다.
    • 여기서는 persona가 emapathetic 대화에 큰 도움을 줄 수 있다는 개념으로 데이터를 제작하고 이를 실험하였다.
  • 두 번째는 CoBERT을 제시한다.
    • 이 모델이 이전의 poly-encoder, bi-encoder 등보다 response selection에서 좋은 성능을 낸다고한다.
    • 근데, 방법론적으로는 큰 novelty가 있다는 느낌은 아니다.
  • 6번 디스커션부터 결과는 간략히보았지만 주장을 뒷받침하기에 흥미로운 부분이 많은 것 같다.
    • 1) CASUAL 데이터로 테스트할 때, persona가 있으면 성능이 올라간다. CASUAL 데이터는 여기서 제공하는 non-empathetic 데이터인데, 여기에 PEC 데이터를 이용하여 fine-tune을 하면 성능이 올라간다는 것이다.
    • 2) 1)에서도 알 수 있고, persona의 수의 영향을 따로 실험하기도 했는데, response selection에 활용되는 persona가 많아질수록 성능이 올라간다고 한다. (물론 속도는 느려진다)
    • 3) case study에서 이의 특정 예시를 보여준다.
  • 어쨌든 기억해야할 결론은 persona가 empathetic 대화에 도움이 된다! 이것이다.
    • 이 논문에서는 생성이 아닌, response selection이고 사람<->사람 대화이기 때문에 각 사람의 persona가 있는 환경이다.
    • 실제 챗봇 모델을 만든다고하면 상황은 달라질 것이다.
    • 실제 시스템을 구현한다면, 모델<->사람이 대화한다.
    • 여기서 persona가 부여되는 모델이라면 사람<->사람과 비슷할 것이다.
    • 하지만 일반적으로 모델에게 persona가 있기 보다는, 상대방인 사람에게 persona가 있는 환경일 것이고 모델은 그에따른 적절한 답변을 하게끔 제작된다.
    • 따라서 이 논문처럼 본인의 persona에 맞는 응답을 하는 것외에도
    • 상대방의(사용자의) persona을 반영한 모델의 응답을 generation or selection을 하는 방식의 연구도 해볼 필요가 있을 것 같다.
    • 전에 간단히 본 Listener’s Social Identity Matters in Personalised Response Generation도 이와 비슷한 맥락이다.

0 Abstract

  • 공감 대화 모델들은 다양한 도메인에서 사용자의 만족과 작업결과를 향상시키는 것을 보여주어왔다.
  • 심리학에서, persona는 personality와 높은 연관성을 보여주고, 이는 공감에 순차적으로 영향을 끼친다.
  • 추가적으로, 우리의 실험적인 분석들은 persona가 공감적인 대화에도 중요한 역할을 한다고 제안한다.
  • 끝으로, 우리는 persona-based empathetic conversations의 새로운 테스크를 제안하고 공감에 해당하는 persona의 영향에 대한 실험적 연구를 먼저 한다.
  • 구체적으로, 우리는 먼저 persona-based empathetic conversations을 위한 novel large-scale multi-domain dataset을 보여준다.
  • 우리는 CoBERT을 제안하는데, 이는 효과적인 BERT-based response selection 모델로 우리의 데이터세트에서 SoTA을 달성한다.
  • 마지막으로, 우리는 페르소나가 공감적인 응답에 미치는 영향을 조사하기 위해 광범위한 실험을 수행합니다.
  • 우리의 결과는 CoBERT가 공감 대화로 학습이 되면, 공강 대화으로 학습 안될 때보다 persona가 공감 반응을 향상시킴을 보여주고, 사람 대화에서 persona와 공감 사이를 경험적으로 연결한다.

1 Introduction

  • 공감은, 구체적으로 affective empathy(정서적 공감), 다른이의 정신적 상태에 맞는 적절한 감정을 가지고 응답하는 능력을 가리킨다.
  • NLP에서, 공감적인 대화 모델들은 다양한 도메인에서 사용자의 만족과 테스크 성능향상을 보여주어왔다.
  • 예를 들어, 공감적인 에이전트는 좀 더 긍정적인 사용자의 평가를 받았고, 이는 더 높은 호감도와 신뢰도를 받았다. 
  • 최근, 대화형 모델 기반의 뉴럴 네트워크가 지배적이다.
  • Zhou et al. (2018a)는 소통, 애정, 사회적 소속에 대한 인간의 니즈를 충족시키기 위해 감정적 연결을 가진 유명한 AI 동반자 XiaoIce를 설계했습니다.
  • 최근, Rashkin et al. (2019)가 empathetic conversations에대한 새로운 데이터세트와 벤치마크를 제안했고 Transformer-based 생성 모델과 BERT-based retrieval 모델들 모두 이러한 데이터세트에서 더 강한 공감을 하는 것이 발견되었다. (ED 데이터세트 논문 말하는 것)
  • 그러나, 기존의 연구들 대부분에서, Rashkin은 공감 반응을 생성할 때, persona을 고려하지 않는다.
  • 심리학적으로, persona은 개인적으로 세상에 표현하는 소셜 얼굴을 언급한다.
  • Persona has been shown to be highly correlated with personality (Leary and Allen, 2011), which in turn influences empathy (Richendoller and Weaver III, 1994; Costa et al., 2014). 
  • 또한 (ED데이터세트) Rashkin의 공감 대화에 대한 경험적 분석은 그림 1에 표시된 것처럼 대부분의 감정에 대해 서로 다른 두 사람의 공감 반응이 서로 다른 두 무작위 응답 세트 간의 공감 반응보다 더 많은 차이가 있음을 보여줍니다.
    • (같은 감정에 대해) 랜덤으로 두 문장의 공감 반응 차이보다, 다른 두사람에 의한 공감 반응이 차이가 더 크다!!
  • 심리학의 이론과 우리의 경험적 분석의 증거는 페르소나가 우리가 아는 한 이전에 조사되지 않은 공감 대화에서 중요한 역할을 한다는 것을 시사합니다.
  • 끝으로, 우리는 persona-based 공감 대화라는 새로운 테스크를 제안하고, persona가 공감 반응에 대한 영향을 실험적으로 연구하여 소개한다.
  • 우리의 연구는 대화 시스템에 대한 연구자, Psycholinguistics들에게 유익할 것이다.
  • 그러나, 이 연구의 한 가지 챌린저는 관련된 데이터세트가 부족하다는 것이다.
    • 기존의 데이터세트는 오직 persona 혹은 공감에 대해서만 포커싱하고 있다.
  • 이 논문에서는 우리의 연구를 활용하게하기 위해 소셜 미디어 Reddit에서 얻은 대조적 인 sentiment을 가진 두 영역의 novel large-scale mutli-turn Persona-based 공감 대화 (PEC) 데이터 세트를 제시합니다.
  • 우리는 CoBERT을 제안하는데, 이는 효과적인 BERTbased response selection 모델로 multi-hop coattention을 사용하여 higher-level interactive matching을 배우도록 한다.
  • CoBERT는 PEC에서 여러개의 경쟁적인 베이스라인보다 성능이 좋다.
    • 베이스라인으로는 Poly-encoder을 포함하고, SoTA BERT-based response selection model보다 크게 좋다.
  • 우리는 여러 개의 BERT을 적용한 모델들과 추가적인 비교를 하고 광범위한 ablation 연구들을 통하여 CoBERT와 추가 비교를 한다.
  • 마침내, PEC와 CoBERT기반으로, 우리는 persona가 공감 응답에 미치는 영향을 조사한다.
  • 추가적으로, 우리는 얼마나 persona의 한계 데이터가 모델 성능을 올려주는지 분석하고 얼마나 우리의 모델이 새로운 persona에 대해 일반화되는지 분석한다.
  • 컨트리뷰션
    • 우리는 페르소나 기반 공감 대화를 위해 새로운 작업과 새로운 대규모 다중 도메인 데이터 세트 인 PEC을 제안합니다. 
    • PEC에 대한 최신 성능을 획득 한 BERT 기반 응답 선택 모델 인 CoBERT를 제안합니다. 
      • 광범위한 실험 평가는 CoBERT가 효과적이고 효율적이라는 것을 보여줍니다.
    • 우리는 페르소나가 공감 반응에 미치는 영향에 대한 첫 번째 경험적 연구를 제시합니다. 
      • 결과는 CoBERT가 비 공감 적 대화보다 공감 적 대화에 대해 훈련 될 때 페르소나가 공감 적 반응을 더 향상시켜 인간 대화에서 페르소나와 공감 사이의 경험적 연결을 설정한다는 것을 보여줍니다.

2 Related Work (번역)

  • Empathetic Conversational Models
    • 신경 대화 모델에 대한 연구가 증가하고 있음에도 불구하고 최근까지 대화를 공감하는 데 관심을 기울이지 않았습니다 (Siddique et al., 2017; Morris et al., 2018; Shi and Yu, 2018; Lin et al., 2019b; Shin et al., 2019; Rashkin et al., 2019; Li et al., 2019; Lin et al., 2019a; Zandie and Mahoor, 2020), 아마도 공감 적 대화 데이터 세트가 없기 때문일 수 있습니다. 
    • Rashkin et al. (2019)는 32 개의 감정으로 구성된 25K 대화로 구성된 최초의 공감 대화 데이터 세트 인 EMPATHETICDIALOGUES (ED)를 제안했습니다. 
    • 데이터 세트에서 청취자의 역할에 대해 훈련 된 대화 형 모델은 비 공감 데이터 세트에서 훈련 된 모델보다 더 강한 공감을 나타 냈습니다. 
    • 섹션 3의 마지막 단락에서 ED와 PEC을 비교합니다.
  • Persona-Based Conversational Models
    • 최근에는 개인화 된 대화 형 모델이 등장하고 있습니다 (Li et al., 2016; Zhang et al., 2018a; Wolf et al., 2019; Chan et al., 2019; Madotto et al., 2019; Zheng et al., 2019). 
    • Li et al. (2016)은 응답 생성 모델에 페르소나 임베딩을 제안하고 개선 된 생성 품질과 페르소나 일관성을 달성했습니다.
    • Zhang et al. (2018a)는 모델 참여 도와 일관성을 개선하기 위해 페르소나 정보가 포함 된 크라우드 소싱 대화 데이터 세트 인 PERSONA-CHAT (PC)를 제안했습니다. 
    • Mazare et al. (2018)은 Reddit (PCR)에서 수집 한 훨씬 더 큰 페르소나 기반 대화 데이터 세트를 추가로 발표했으며 학습에 사용할 수있는 대화가 많은 경우에도 페르소나가 지속적으로 모델 성능을 향상 시킨다는 것을 보여주었습니다. 
    • 섹션 3의 마지막 단락에서 PC, PCR, PEC을 비교합니다. 
    • 최근 Gu et al. (2019)는 대화 형 매칭 및 계층 적 집계 기능이있는 개인화 된 응답 선택 모델 인 DIM을 제안하고 PC에서 최첨단 성능을 달성했습니다.
  • Retrieval-based Conversational Models 
    • 최근 신경 검색 기반 대화 모델에는 일반적으로 encoding, matching and aggregation의 세 가지 모듈이 있습니다 (Lowe et al., 2015; Zhou et al., 2016; Wu et al., 2017; Zhou et al., 2018b; Zhang et al. , 2018b; Chen and Wang, 2019; Feng et al., 2019; Yuan et al., 2019).
    • 인코딩 모듈은 LSTM, Transformer 또는 BERT와 같은 인코더를 사용하여 텍스트를 벡터 표현으로 인코딩합니다.
    • 매칭 모듈은 서로 다른 세분성에서 다양한주의 메커니즘을 사용하여 컨텍스트-응답 연관성을 측정합니다.
    • 집계 모듈은 시퀀스 차원에 따라 일치하는 정보를 요약하여 최종 표현을 얻습니다.
    • 최근 작업 Humeau et al. (2020)은 다중 대화 데이터 세트에서 최신 성능을 얻은 효율적인 BERT 기반 응답 선택 모델 인 Poly-encoder를 제안했습니다.

3 The PEC Dataset

  • persona-based empathetic conversation (PEC) dataset의 통계와 모은 과정을 설명한다.
  • Data Source 
    • happy와 offmychest에 해당하는 subreddits의 공감대화를 Reddit에서 수집한다.
      • https://www.reddit.com/r/happy/
      • https://www.reddit.com/r/offmychest/
    • happy subreddit은 사용자가 따뜻하고 행복한 이야기에 대한 생각을 공유하고 공간하는 곳이다.
    • offmychest subreddit은 사용자가 아는 사람들에게 말할 수없는 깊은 감정을 공유하고 지원하는 곳입니다.
    • 이 두 하위 레딧을 데이터 소스로 선택했는데, 게시물에는 대조적인 감정이 있고 댓글이 평범한 대화(casual conversations) (예 : 표 2)보다 훨씬 더 공감하기 때문이다.
  • Conversation Collection 
    • Reddit에 대한 디스커션은 threads으로 구성되고 각 thread는 하나의 포스트와 많은 direc and indirect 코멘트들이 있다.
    • 각 thread 폼은 tree이고 이의 post는 root node이고 모든 코멘트 nodes는 그들의 paraent comment nodes 혹은 직접적으로 root node에 응답해야한다.
      • 일반적인 댓글 창 개념임
    • 그래서 n개의 nodes을 가진 thread가 주어지면, 우리는 n-1 conversation을 추출할 수 있고 각 conversation은 root node로 부터 시작하여 n-1 non-root nodes에서 끝난다.
    • training, validation, and test sets 세트에 대해 각각 8 : 1 : 1의 비율에 따라 스레드별로 대화를 무작위로 분할했습니다.
  • Persona Collection
    • 다음으로 (Mazare et al., 2018) 대화의 각 사용자에 대해 사용자가 Reddit에 작성한 모든 게시물과 댓글에서 페르소나 문장을 수집합니다.
    • 게시물과 댓글은 문장으로 나뉘며 각 문장은 페르소나 문장으로 선정 되려면 다음 규칙을 만족해야합니다. 1) 4 ~ 20 단어 사이; 2) 첫 번째 단어는 "i"입니다. 3) 적어도 하나의 동사; 4) 적어도 하나의 명사 또는 형용사; 및 5) 적어도 하나의 콘텐츠 단어.
    • 우리의 규칙은 (Mazare et al., 2018)의 규칙보다 더 엄격하여 덜 시끄러운 페르소나 문장을 추출 할 수 있습니다.
    • 각 사용자에 대해 최대 100 개의 페르소나 문장을 추출합니다.
    • 개인 정보 수집에 대한 접근 방식을 선택하는 이유는 다음과 같습니다. 
      • 1) 잘 확립된 작업(Mazare et al., 2018)은 이 접근방식을 사용하여 개인화된 대리인을 성공적으로 훈련시켰다. 
      • 2) 이러한 접근 방식은 군중 보호 방식보다 훨씬 더 확장 가능하고 비용 효율적입니다. 
      • 3) 우리는 군중 노동자에게 인위적인 사람을 할당하고, 그들에게 할당된 사람을 기반으로 공감적으로 대화하도록 요청하는 등, 군중 노동자가 할당된 사람이 적합하다고 간주하는 피상적인 공감 응답 패턴을 단지 모델들이 학습할 수 있도록 노동자와 관련된 소음을 도입하는 것을 우려한다.
  • Data Processing
    • We keep a maximum of 6 most recent turns for each conversation. 
    • 대화를 필터링하여 다음을 확인한다.
      • 1) 각 게시물이 2 ~ 90 단어 사이인지 
      • 2) 각 코멘트가 2-30 단어 사이인지
      • 3) 모든 화자는 적어도 하나의 페르소나 문장을 가지고 있는지
      • 4) 마지막 화자는 각 대화에서 첫 번째 화자와 다른지
    • 사항 4)은 마지막 발화가 포스터의 답변이 아니라 공감하는 반응인지 최대한 확인하는 것입니다.
    • 또한 대화 응답에 나타나는 페르소나 문장을 제거하여 데이터 유출을 방지합니다.
    • 마지막으로 모든 데이터를 소문자로 지정하고 각 문장에서 특수 기호, URL 및 이미지 캡션을 제거합니다.
    • PEC의 통계는 표 1에 나와 있습니다. PEC의 두 가지 예가 표 3에 나와 있습니다.
    • 통계를 보면, persona 문장이 엄청 많다. persona-chat 데이터는 4~6문장인데 이 데이터와는 차이가 상당히 크다..
    • 예시를 보고 잘 이해가 안되서, 한 번 데이터를 직접 까보았다.
    • 위 예시를 찾아보니 발화A, 발화B, 발화A, 발화C 등의 식으로 되어있다.
    • 각 스피커에 해당하는 persona.txt가 제공되어있다.
    • 위 예시에서의 persona는 C에 대한 persona의 일부이다. 
    • C을 표현하는 persona 문장은 20문장이 넘는다.
    • 위의 data processing에서 최대 turn은 6이라한다.
      • 통계에서는 안보여주지만, 눈으로 봤을 때는 대화 turn이 길지 않다. 대부분 2~3정도?
    • 표 3에서 명시적인 연결을 하는 것은 쉽지 않을 수 있지만, 이것이 바로 실제 사용자 데이터를 사용하여 페르소나와 공감 간의 암시 적 (그리고 예상치 못한) 링크를 밝히기 위해 연구중인 것입니다. 
    • 예를 들어, "“I hope I look that young"라는 말은 표 3의 "I like actively healthy"라는 페르소나와 암시 적으로 연결될 수 있습니다.
  • Data Annotations 
    • 각 도메인에서 무작위로 추출 된 100 개의 대화에 수동으로 주석을 달아 그들의 sentiment and empathy을 추정합니다.
    • 어노테이션 편향을 피하기 위해 casualconversations 서브레딧에서 무작위로 샘플링 된 casual chat 100 개로 구성된 control group을 추가한다.
      • CasualConversation은 사용자가 모든 주제에 대해 자연스럽게 채팅 할 수 있습니다.
      • 즉 일반 대화를 넣어서 사람평가를 해서 분명한 비교를 보여준다는 것
    • 마지막으로이 300 개의 대화를 혼합하고 섞어서 3명의 어노 테이터에게 제시합니다.
    • 주석 결과는 표 2에 나와 있습니다.
    • happy 및 offmychest 도메인의 게시물은 각각 대부분 positive and negative입니다.
    • 두 도메인 모두 대조군보다 훨씬 더 empathetic합니다 (p <0.001, 단측 t- 검정).
  • Conversation 
    • 분석 우리는 그림 1의 ED (Rashkin et al., 2019)에 대한 분석과 유사하게 PEC에 대한 대화 분석을 수행합니다.
    • 특히, 서로 다른 두 사람의 응답 사이의 TF-IDF 유사성은 행복 함과 기절함의 경우 각각 0.25 및 0.17 인 반면, 두 개의 분리 된 무작위 응답 세트 간의 TF-IDF 유사성은 0.38 (± 0.05) 및 0.31 (± 0.05)입니다. 각각 5 점을 넘게 행복하고 기쁘다.
    • 결과들은 PEC의 무작위로 뽑은 공감반응들 사이보다 다른 사람 사이의 공감 반응이 더욱 다르다는 것을 보여주며, 이는 PEC에서 다른 화자들이 다른 "styles"을 가지고 공감반응을 하는 것을 보여준다.
  • Comparisons with Related Datasets 
    • 표 4는 PEC와 관련 데이터 세트 간의 비교를 보여줍니다.

    • PEC은 페르소나 기반과 공감이라는 독특한 장점이 있습니다.
    • 또한 PEC은 소셜 미디어에서 수집되므로 수백 개에서 수집 된 ED (Rashkin et al., 2019) 및 PC (Zhang et al., 2018a)보다 훨씬 다양한 화자 및 언어 패턴이 생성됩니다. 크라우드 소싱 작업자.
    • 마지막으로 PEC은 다른 두 공개 데이터 세트보다 2 배 이상 크기 때문에 향후 연구에서 더 큰 신경 모델을 탐색 할 수 있습니다.

4 Our CoBERT Model

  • 이 섹션에서는, response selection과 제안한 CoBERT 모델을 소개한다. (생성 방식은 아닌 듯)

4.1 Task Definition 

  • 대화 dataset D개가 있고 각각 (X, P, y)의 구성으로 된다.
  • X=으로 n_X은 컨텍스트 발화들이고
  • P=으로 응답자의 n_P persona sentences 이다. (persona만 모아둔 데이터가 있다는 것)
  • 그리고 y는 X에 대한 응답을 말한다. 
  • response selection의 task는 f(X,P,y) 함수를 배우는 형식이고 이는 가장 높은 점수를 true candidate y에 할당하고 X, P가 주어졌을 때 negative candidates에 낮은 점수를 부여한다.
  • 인퍼런스 동안, 학습된 모델은 candidates로부터 가장 높은 점수를 가지는 response candidate을 선택한다.

4.2 BERT Representation

  • We use BERT (Devlin et al., 2019) as our sentence encoders. 
  • Bi-encoder (Humeau et al., 2020)와 유사하게 컨텍스트 발화를 BERT를 통과시키기 전에 단일 컨텍스트 문장으로 연결합니다.
  • persona sentences 사이에는 순서가 없기 때문에, 우리는 랜덤으로 persona sentences을 연결한다.
  • context, persona, response을 BERT encoders에 통과시키고 난후, 우리는 vector representation을 각각 마지막 layer에서 X ∈ R(m×d) , P ∈ R(q×d) and Y ∈ R(n×d)을 얻는다.
    • d는 BERT의 임베딩 사이즈고, m,q,n은 context, persona, response의 시퀀스 길이다.
  • 서로 다른 세그먼트 ID는 컨텍스트에서 화자와 응답자의 발화를 구별하는 데 사용됩니다.

4.3 Hop-1 Co-attention

  • Given X and Y, we learn the first-order matching information using co-attention (Lu et al., 2016). 
  • Specifically, we first compute the word-word affinity matrix  ∈ R m×n :
    • : response-to-context

    • : context-to-response
  • 여기서 softmax는 2차원에 대해 수행한다는 것이다.
  • 최종 출력은 다음과 같다.
  • context representation: X′ =  Y ∈ R(m×d) 
  • response representation: Y_ X =  X ∈ R(n×d)
  • 그 후 max-pooling을 하여 다음과 같이 얻는다.
  •  ∈ R_d and  ∈ R_d .

4.4 Hop-2 Co-attention

  • 우리는 second-order interactive matching을 배우기 위해 hop-2 co-attention를 제안한다. 
  • attention-over-attention MRC(Cui et al., 2017)과는 달리, 우리의 방법은 response selection을 위해 bidirectional matching을 학습한다.
  • 특히 attention matrices에 대해 주의를 적용한다.
  • (R_{1 x m})와  (R_{1 x n})는 X와 Y에 대한 2차 attention이다.
    • mean denotes mean pooling along the first dimension.
  •  =  X (R_d)
  •  =  Y (R_d)
  • P, Y에 대해서도 마찬가지로 진행한다.
  • 직관적으로 우리의 hop-1 co-attention는 X와 Y에 대한 attended representations을 배우고, 우리의 hop-2 co-attention는 attentions over attentions부터 가중치가 계산되는 X와 Y에 대한 “ truly” attended representations을 학습합니다.
  • hop-1 vs hop2 정리
    • 내가 느낀 것은 hop-1은 자주 보던 방법이다. 즉 두 개의 시퀀스 표현 매트릭스가 있는 상황에서, attention weight을 구하여 두 개의 정보를 합치는 것이다.
    • 그리고 max-pooling을 통하여 하나의 벡터로 만들어 준다.
    • hop-2는 attention matrix 두 개를 이용하여 representation vector을 만드는 것으로 여기서는 attention over attention의 개념을 든다.
    • 아마 attention matrix끼리 또 attention을 해서 그런 것인 것 같다.

4.5 Loss

  •  = [ ]의 4d 차원이 최종 context representation이다.
  •  = []이 최종 response selection이다.
  • 매칭 스코어로는 다음과 같다.
  • N(X) denotes a set of randomly sampled negative candidates for the context X.

5 Experiments 

  • In this section we present the datasets, baselines, experimental settings, model comparisons and ablation studies.

5.1 Datasets and Baselines

  • BoW: 
    • 컨텍스트, 페르소나 및 응답 인코더는 평균 단어 임베딩을 계산합니다.
  • HLSTM (Lowe et al., 2015): 
    • 컨텍스트 인코더에는 발화 수준의 BiLSTM 및 컨텍스트 수준의 BiLSTM가 있습니다. 모든 인코더는 동일한 발화 수준 BiLSTM를 공유합니다.
  • DIM (Gu et al., 2019): 
    • 페르소나 기반 응답 선택을위한 최첨단 비 선행 모델입니다. DIM은보다 세밀한 일치 및 계층 적 집계를 채택하여 풍부한 일치 표현을 학습합니다.
  • Bi-encoder (Humeau et al., 2020): 
    • 공감 반응 선택을위한 최첨단 BERT 기반 모델 (Rashkin et al., 2019).
  • Poly-encoder (Humeau et al., 2020): 
    • 응답 선택을위한 최첨단 BERT 기반 모델입니다. Poly-encoder는 세밀한 일치를 위해 잠재주의 코드를 학습합니다.
    • Cross-encoder (Humeau et al., 2020)는 추론에서 Poly-encoder보다 2 배 더 느리게 수행하여 실시간 응용 프로그램에서 다루기 어렵 기 때문에 적절한 기준선으로 간주하지 않습니다.

5.2 Experimental Settings

  • 다음 (Zhou et al., 2018b; Gu et al., 2019; Humeau et al., 2020)에 따라 Recall @ k를 사용하여 모델을 평가합니다. 
  • 여기서 각 테스트 예제에는 선택할 수있는 C 후보가 있으며 R @ k로 축약됩니다. 
  • 평균 상호 순위 (MRR). 실험에서 C = 100 및 k = 1, 10, 50으로 설정했습니다. 
  • 각 테스트 예의 후보 세트에는 실제 응답과 테스트 세트에서 무작위로 샘플링 된 다른 C-1 응답이 포함됩니다.

5.3 Comparison with Baselines

5.4 Comparison with BERT-adapted Models

5.5 Ablation Study

6 Discussion 

6.1 Empathetic vs. Non-empathetic

  • 우리는 CoBERT가 non-empathetic conversation보다 empathetic conversation로 학습되었을 때 persona가 공감 반응을 향상시키는지를 조사한다.
  • 먼저, 우리는 non-empathetic conversation dataset으로 control group을 소개하고, 이는 CASUAL를 가리키는데, 이는 섹션 3에서 말하는 것과 같지만, 사이즈가 큰 것이다.
    • 즉, 데이터세트가 공감반응류 인지 아닌지에 따른 결과를 비교하는 것
  • CASUAL 데이터세트는 PEC와 같은 방법으로 수집되나, PEC보다 공감이 현저히 낮다 (테이블 2)
  • CASUAL의 training, validation, testing 사이즈는 150K, 20K, 20K로 각각 나뉜다.
  • 그리고나서, 우리는 학습 예제의 랜덤 서브셋을
  • 그런 다음 CASUAL의 훈련 예제의 무작위 하위 집합을 PEC의 동일한 수의 무작위 훈련 예제로 대체합니다.
  • 그런 다음 PEC 검증 세트와 서로 다른 대체 비율에 대한 CASUAL 검증 세트에서 페르소나 개선, 즉 R @ 1 (nP = 10)-R @ 1 (nP = 0)을 비교합니다.
    • 여기서 nP는 persona 문장 수를 말한다.
  • 결과는 그림 3에 나와 있습니다.
  • 두 경우 모두, 즉 nP = 0 및 nP = 10에서 PEC에 대한 유효성 검사 R @ 1이 증가하고 훈련 데이터 세트에서 PEC의 비율이 증가함에 따라 CASUAL에 대한 유효성 검사 R @ 1이 감소한다는 것은 놀라운 일이 아닙니다.
  • 또한 페르소나는 모든 비율에 대해 두 검증 세트 모두에서 성능을 지속적으로 향상시키는 것으로 나타났습니다.
  • 그림 3에서 음영 처리 된 두 영역의 너비를 조사하면 더 많은 CASUAL 교육 예제가 사용됨에 따라 캐주얼 응답에 대한 페르소나 개선이 거의 일정하게 유지된다는 것을 알 수 있습니다 (모든 150K PEC 대화에 대해 교육을받은 경우 3.31 %, 모두에 대해 교육을받은 경우 3.44 %). 150K CASUAL 대화).
  • 그러나 공감 반응에 대한 페르소나 개선은 더 많은 PEC 훈련 예제가 사용됨에 따라 지속적으로 증가하여 CoBERT가 공감이없는 대화보다 공감 대화에 대해 훈련 될 때 페르소나가 공감 반응을 상당히 향상 시킨다는 것을 보여줍니다 (p <0.001, 단측 t-test). (모든 150K CASUAL 대화에 대해 훈련 된 경우 3.77 % 대 모든 150K PEC 대화에 대해 훈련 된 경우 6.32 %)
  • 이 결과는 인간 대화에서 페르소나와 공감 사이의 경험적 연관성을 보여 주며, 페르소나는 비 공감 대화보다 공감 대화에 더 큰 영향을 미친다는 것을 시사 할 수 있습니다. 
  • 결과는 또한 CoBERT가 훈련 중에이 링크를 학습하고이를 사용하여 테스트 중에 더 나은 공감 반응을 수행 할 수 있음을 보여줍니다. 
  • 이 연결 고리의 한 가지 가능한 심리적 뿌리는 페르소나가 성격과 높은 상관 관계를 가지고 있다는 것입니다 (Leary and Allen, 2011), 이는 차례로 공감과 공감 반응에 영향을줍니다 (Costa et al., 2014). 
  • 이 경험적 연결에 대한 더 자세한 분석은 향후 작업을 위해 남겨집니다.

6.2 Number of Persona Sentences

  • 표 8과 같이 페르소나 문장의 수(nP)에 따른 페르소나 개선을 분석합니다. 
  • 표 8에서 볼 수 있습니다. 
  • 모델 성능, 추론 시간 및 메모리 사용량은 모두 페르소나 문장이 통합 될수록 증가하는 것이 분명합니다. 
  • 메모리 사용량은 BERT의 자체주의 작업으로 인해 nP와 함께 2 차적으로 증가합니다. 
  • 합리적인 비용으로 경쟁력있는 성능을 달성하기 때문에 실험에서 nP = 10을 선택했습니다.
    • 이 10개는 랜덤으로 선택한 건가?

6.3 Performance on New Personas

  • 새로운 페르소나를 예로 들어 CoBERT 성능을 분석합니다. 
  • PEC 테스트 세트에서 42.1 %의 예는 새로운 화자에서 나온 것입니다. 
  • 표 9에는 보거나 보이지 않는 (신규) 화자를 사용한 테스트 예제에 대한 CoBERT의 성능이 나와 있습니다. 
  • 결과는 
    • 1) CoBERT는 보이지 않는 페르소나가있는 예에서 합리적으로 잘 수행하여 CoBERT가 보이지 않는 페르소나를 잘 일반화하고 새로운 화자에 대한 올바른 응답을 정확하게 검색 할 수 있음을 시사합니다.
    • 2) CoBERT는 보이는 페르소나보다 보이지 않는 페르소나가있는 예에서 더 나쁩니다. 
    • 3) 모델 훈련 및 테스트 중에 페르소나를 활용하면 보이거나 보이지 않는 페르소나가있는 예제에서 CoBERT가 향상됩니다. 
    • 4) 페르소나 개선은 보이지 않는 페르소나보다 페르소나가 보이는 예에서 더 두드러집니다.
  • 즉, 여기서 학습할 때 못봤던 persona들로 테스트를 해본 것인데 잘 작동함을 보여주는 것이다.

6.4 Case Study

  • 우리는 표 10과 같이 페르소나가 공감 반응에 어떤 영향을 미치는지에 대한 사례 연구를 수행합니다. 
  • 모델 반응은 CoBERT가 1K 후보 중에서 선택합니다. (학습할 때는 C=100이었음)
  • 동일한 맥락에서 페르소나가 다르면 페르소나 기반의 공감 반응이 달라지는 것이 분명합니다. 
  • 예를 들어 페르소나가 "나는 의사입니다."인 경우 모델 응답은 화자의 건강에 대한 칭찬과 배려를 모두 표현합니다.

7 Conclusion

  • 페르소나 기반 공감 대화를위한 새로운 작업과 대규모 다중 도메인 데이터 세트 PEC을 제시합니다.
  • 그런 다음 최신 Poly-encoder 및 여러 BERT 적응 모델을 포함하여 PEC의 경쟁 기준보다 훨씬 우수한 성능을 얻는 효과적이고 효율적인 모델인 CoBERT를 제안합니다.
  • CoBERT는 하이퍼 파라미터 튜닝이 없으며 모든 도메인에서 응답 선택 작업에 보편적으로 적용 할 수 있습니다.
  • 마지막으로, 우리는 페르소나가 공감 반응에 미치는 영향에 대한 첫 번째 경험적 연구를 제시합니다.
  • 결과는 인간 대화에서 페르소나와 공감 사이의 경험적 연관성을 보여 주며, 페르소나가 비 공감 대화보다 공감 대화에 더 큰 영향을 미친다는 것을 시사 할 수 있습니다.
Reference

댓글