◼️ Comment

이 논문은 2가지 핵심이 있는데, 첫 째는 PEC라는 데이터를 릴리즈한다.

이 데이터는 persona-empathetic-dialog의 데이터세트이다.
이 논문이전에는 empathetic-dialog 나 persona-chat과 같은 방법으로 구축된 데이터만 릴리즈되어있다.
여기서는 persona가 emapathetic 대화에 큰 도움을 줄 수 있다는 개념으로 데이터를 제작하고 이를 실험하였다.

두 번째는 CoBERT을 제시한다.

이 모델이 이전의 poly-encoder, bi-encoder 등보다 response selection에서 좋은 성능을 낸다고한다.
근데, 방법론적으로는 큰 novelty가 있다는 느낌은 아니다.

6번 디스커션부터 결과는 간략히보았지만 주장을 뒷받침하기에 흥미로운 부분이 많은 것 같다.

1) CASUAL 데이터로 테스트할 때, persona가 있으면 성능이 올라간다. CASUAL 데이터는 여기서 제공하는 non-empathetic 데이터인데, 여기에 PEC 데이터를 이용하여 fine-tune을 하면 성능이 올라간다는 것이다.
2) 1)에서도 알 수 있고, persona의 수의 영향을 따로 실험하기도 했는데, response selection에 활용되는 persona가 많아질수록 성능이 올라간다고 한다. (물론 속도는 느려진다)
3) case study에서 이의 특정 예시를 보여준다.

어쨌든 기억해야할 결론은 persona가 empathetic 대화에 도움이 된다! 이것이다.

이 논문에서는 생성이 아닌, response selection이고 사람<->사람 대화이기 때문에 각 사람의 persona가 있는 환경이다.
실제 챗봇 모델을 만든다고하면 상황은 달라질 것이다.
실제 시스템을 구현한다면, 모델<->사람이 대화한다.
여기서 persona가 부여되는 모델이라면 사람<->사람과 비슷할 것이다.
하지만 일반적으로 모델에게 persona가 있기 보다는, 상대방인 사람에게 persona가 있는 환경일 것이고 모델은 그에따른 적절한 답변을 하게끔 제작된다.
따라서 이 논문처럼 본인의 persona에 맞는 응답을 하는 것외에도
상대방의(사용자의) persona을 반영한 모델의 응답을 generation or selection을 하는 방식의 연구도 해볼 필요가 있을 것 같다.
전에 간단히 본 Listener’s Social Identity Matters in Personalised Response Generation도 이와 비슷한 맥락이다.

0 Abstract

공감 대화 모델들은 다양한 도메인에서 사용자의 만족과 작업결과를 향상시키는 것을 보여주어왔다.
심리학에서, persona는 personality와 높은 연관성을 보여주고, 이는 공감에 순차적으로 영향을 끼친다.
추가적으로, 우리의 실험적인 분석들은 persona가 공감적인 대화에도 중요한 역할을 한다고 제안한다.
끝으로, 우리는 persona-based empathetic conversations의 새로운 테스크를 제안하고 공감에 해당하는 persona의 영향에 대한 실험적 연구를 먼저 한다.
구체적으로, 우리는 먼저 persona-based empathetic conversations을 위한 novel large-scale multi-domain dataset을 보여준다.
우리는 CoBERT을 제안하는데, 이는 효과적인 BERT-based response selection 모델로 우리의 데이터세트에서 SoTA을 달성한다.
마지막으로, 우리는 페르소나가 공감적인 응답에 미치는 영향을 조사하기 위해 광범위한 실험을 수행합니다.
우리의 결과는 CoBERT가 공감 대화로 학습이 되면, 공강 대화으로 학습 안될 때보다 persona가 공감 반응을 향상시킴을 보여주고, 사람 대화에서 persona와 공감 사이를 경험적으로 연결한다.

1 Introduction

공감은, 구체적으로 affective empathy(정서적 공감), 다른이의 정신적 상태에 맞는 적절한 감정을 가지고 응답하는 능력을 가리킨다.
NLP에서, 공감적인 대화 모델들은 다양한 도메인에서 사용자의 만족과 테스크 성능향상을 보여주어왔다.
예를 들어, 공감적인 에이전트는 좀 더 긍정적인 사용자의 평가를 받았고, 이는 더 높은 호감도와 신뢰도를 받았다.
최근, 대화형 모델 기반의 뉴럴 네트워크가 지배적이다.
Zhou et al. (2018a)는 소통, 애정, 사회적 소속에 대한 인간의 니즈를 충족시키기 위해 감정적 연결을 가진 유명한 AI 동반자 XiaoIce를 설계했습니다.
최근, Rashkin et al. (2019)가 empathetic conversations에대한 새로운 데이터세트와 벤치마크를 제안했고 Transformer-based 생성 모델과 BERT-based retrieval 모델들 모두 이러한 데이터세트에서 더 강한 공감을 하는 것이 발견되었다. (ED 데이터세트 논문 말하는 것)
그러나, 기존의 연구들 대부분에서, Rashkin은 공감 반응을 생성할 때, persona을 고려하지 않는다.
심리학적으로, persona은 개인적으로 세상에 표현하는 소셜 얼굴을 언급한다.
Persona has been shown to be highly correlated with personality (Leary and Allen, 2011), which in turn influences empathy (Richendoller and Weaver III, 1994; Costa et al., 2014).
또한 (ED데이터세트) Rashkin의 공감 대화에 대한 경험적 분석은 그림 1에 표시된 것처럼 대부분의 감정에 대해 서로 다른 두 사람의 공감 반응이 서로 다른 두 무작위 응답 세트 간의 공감 반응보다 더 많은 차이가 있음을 보여줍니다.

(같은 감정에 대해) 랜덤으로 두 문장의 공감 반응 차이보다, 다른 두사람에 의한 공감 반응이 차이가 더 크다!!

심리학의 이론과 우리의 경험적 분석의 증거는 페르소나가 우리가 아는 한 이전에 조사되지 않은 공감 대화에서 중요한 역할을 한다는 것을 시사합니다.
끝으로, 우리는 persona-based 공감 대화라는 새로운 테스크를 제안하고, persona가 공감 반응에 대한 영향을 실험적으로 연구하여 소개한다.
우리의 연구는 대화 시스템에 대한 연구자, Psycholinguistics들에게 유익할 것이다.
그러나, 이 연구의 한 가지 챌린저는 관련된 데이터세트가 부족하다는 것이다.

기존의 데이터세트는 오직 persona 혹은 공감에 대해서만 포커싱하고 있다.

이 논문에서는 우리의 연구를 활용하게하기 위해 소셜 미디어 Reddit에서 얻은 대조적 인 sentiment을 가진 두 영역의 novel large-scale mutli-turn Persona-based 공감 대화 (PEC) 데이터 세트를 제시합니다.
우리는 CoBERT을 제안하는데, 이는 효과적인 BERTbased response selection 모델로 multi-hop coattention을 사용하여 higher-level interactive matching을 배우도록 한다.
CoBERT는 PEC에서 여러개의 경쟁적인 베이스라인보다 성능이 좋다.

베이스라인으로는 Poly-encoder을 포함하고, SoTA BERT-based response selection model보다 크게 좋다.

우리는 여러 개의 BERT을 적용한 모델들과 추가적인 비교를 하고 광범위한 ablation 연구들을 통하여 CoBERT와 추가 비교를 한다.
마침내, PEC와 CoBERT기반으로, 우리는 persona가 공감 응답에 미치는 영향을 조사한다.
추가적으로, 우리는 얼마나 persona의 한계 데이터가 모델 성능을 올려주는지 분석하고 얼마나 우리의 모델이 새로운 persona에 대해 일반화되는지 분석한다.
컨트리뷰션

우리는 페르소나 기반 공감 대화를 위해 새로운 작업과 새로운 대규모 다중 도메인 데이터 세트 인 PEC을 제안합니다.

데이터와 코드는 여기에서 확인할 수 있습니다: https://github.com/zhongpeixiang/PEC

PEC에 대한 최신 성능을 획득 한 BERT 기반 응답 선택 모델 인 CoBERT를 제안합니다.

광범위한 실험 평가는 CoBERT가 효과적이고 효율적이라는 것을 보여줍니다.

우리는 페르소나가 공감 반응에 미치는 영향에 대한 첫 번째 경험적 연구를 제시합니다.

결과는 CoBERT가 비 공감 적 대화보다 공감 적 대화에 대해 훈련 될 때 페르소나가 공감 적 반응을 더 향상시켜 인간 대화에서 페르소나와 공감 사이의 경험적 연결을 설정한다는 것을 보여줍니다.

2 Related Work (번역)

Empathetic Conversational Models

신경 대화 모델에 대한 연구가 증가하고 있음에도 불구하고 최근까지 대화를 공감하는 데 관심을 기울이지 않았습니다 (Siddique et al., 2017; Morris et al., 2018; Shi and Yu, 2018; Lin et al., 2019b; Shin et al., 2019; Rashkin et al., 2019; Li et al., 2019; Lin et al., 2019a; Zandie and Mahoor, 2020), 아마도 공감 적 대화 데이터 세트가 없기 때문일 수 있습니다.
Rashkin et al. (2019)는 32 개의 감정으로 구성된 25K 대화로 구성된 최초의 공감 대화 데이터 세트 인 EMPATHETICDIALOGUES (ED)를 제안했습니다.
데이터 세트에서 청취자의 역할에 대해 훈련 된 대화 형 모델은 비 공감 데이터 세트에서 훈련 된 모델보다 더 강한 공감을 나타 냈습니다.
섹션 3의 마지막 단락에서 ED와 PEC을 비교합니다.

Persona-Based Conversational Models

최근에는 개인화 된 대화 형 모델이 등장하고 있습니다 (Li et al., 2016; Zhang et al., 2018a; Wolf et al., 2019; Chan et al., 2019; Madotto et al., 2019; Zheng et al., 2019).
Li et al. (2016)은 응답 생성 모델에 페르소나 임베딩을 제안하고 개선 된 생성 품질과 페르소나 일관성을 달성했습니다.
Zhang et al. (2018a)는 모델 참여 도와 일관성을 개선하기 위해 페르소나 정보가 포함 된 크라우드 소싱 대화 데이터 세트 인 PERSONA-CHAT (PC)를 제안했습니다.
Mazare et al. (2018)은 Reddit (PCR)에서 수집 한 훨씬 더 큰 페르소나 기반 대화 데이터 세트를 추가로 발표했으며 학습에 사용할 수있는 대화가 많은 경우에도 페르소나가 지속적으로 모델 성능을 향상 시킨다는 것을 보여주었습니다.
섹션 3의 마지막 단락에서 PC, PCR, PEC을 비교합니다.
최근 Gu et al. (2019)는 대화 형 매칭 및 계층 적 집계 기능이있는 개인화 된 응답 선택 모델 인 DIM을 제안하고 PC에서 최첨단 성능을 달성했습니다.

Retrieval-based Conversational Models

최근 신경 검색 기반 대화 모델에는 일반적으로 encoding, matching and aggregation의 세 가지 모듈이 있습니다 (Lowe et al., 2015; Zhou et al., 2016; Wu et al., 2017; Zhou et al., 2018b; Zhang et al. , 2018b; Chen and Wang, 2019; Feng et al., 2019; Yuan et al., 2019).
인코딩 모듈은 LSTM, Transformer 또는 BERT와 같은 인코더를 사용하여 텍스트를 벡터 표현으로 인코딩합니다.
매칭 모듈은 서로 다른 세분성에서 다양한주의 메커니즘을 사용하여 컨텍스트-응답 연관성을 측정합니다.
집계 모듈은 시퀀스 차원에 따라 일치하는 정보를 요약하여 최종 표현을 얻습니다.
최근 작업 Humeau et al. (2020)은 다중 대화 데이터 세트에서 최신 성능을 얻은 효율적인 BERT 기반 응답 선택 모델 인 Poly-encoder를 제안했습니다.

3 The PEC Dataset

persona-based empathetic conversation (PEC) dataset의 통계와 모은 과정을 설명한다.
Data Source

happy와 offmychest에 해당하는 subreddits의 공감대화를 Reddit에서 수집한다.

https://www.reddit.com/r/happy/
https://www.reddit.com/r/offmychest/

happy subreddit은 사용자가 따뜻하고 행복한 이야기에 대한 생각을 공유하고 공간하는 곳이다.
offmychest subreddit은 사용자가 아는 사람들에게 말할 수없는 깊은 감정을 공유하고 지원하는 곳입니다.
이 두 하위 레딧을 데이터 소스로 선택했는데, 게시물에는 대조적인 감정이 있고 댓글이 평범한 대화(casual conversations) (예 : 표 2)보다 훨씬 더 공감하기 때문이다.

Conversation Collection

Reddit에 대한 디스커션은 threads으로 구성되고 각 thread는 하나의 포스트와 많은 direc and indirect 코멘트들이 있다.
각 thread 폼은 tree이고 이의 post는 root node이고 모든 코멘트 nodes는 그들의 paraent comment nodes 혹은 직접적으로 root node에 응답해야한다.

일반적인 댓글 창 개념임

그래서 n개의 nodes을 가진 thread가 주어지면, 우리는 n-1 conversation을 추출할 수 있고 각 conversation은 root node로 부터 시작하여 n-1 non-root nodes에서 끝난다.
training, validation, and test sets 세트에 대해 각각 8 : 1 : 1의 비율에 따라 스레드별로 대화를 무작위로 분할했습니다.

Persona Collection

다음으로 (Mazare et al., 2018) 대화의 각 사용자에 대해 사용자가 Reddit에 작성한 모든 게시물과 댓글에서 페르소나 문장을 수집합니다.
게시물과 댓글은 문장으로 나뉘며 각 문장은 페르소나 문장으로 선정 되려면 다음 규칙을 만족해야합니다. 1) 4 ~ 20 단어 사이; 2) 첫 번째 단어는 "i"입니다. 3) 적어도 하나의 동사; 4) 적어도 하나의 명사 또는 형용사; 및 5) 적어도 하나의 콘텐츠 단어.
우리의 규칙은 (Mazare et al., 2018)의 규칙보다 더 엄격하여 덜 시끄러운 페르소나 문장을 추출 할 수 있습니다.
각 사용자에 대해 최대 100 개의 페르소나 문장을 추출합니다.
개인 정보 수집에 대한 접근 방식을 선택하는 이유는 다음과 같습니다.

1) 잘 확립된 작업(Mazare et al., 2018)은 이 접근방식을 사용하여 개인화된 대리인을 성공적으로 훈련시켰다.
2) 이러한 접근 방식은 군중 보호 방식보다 훨씬 더 확장 가능하고 비용 효율적입니다.
3) 우리는 군중 노동자에게 인위적인 사람을 할당하고, 그들에게 할당된 사람을 기반으로 공감적으로 대화하도록 요청하는 등, 군중 노동자가 할당된 사람이 적합하다고 간주하는 피상적인 공감 응답 패턴을 단지 모델들이 학습할 수 있도록 노동자와 관련된 소음을 도입하는 것을 우려한다.

Data Processing

We keep a maximum of 6 most recent turns for each conversation.
대화를 필터링하여 다음을 확인한다.

1) 각 게시물이 2 ~ 90 단어 사이인지
2) 각 코멘트가 2-30 단어 사이인지
3) 모든 화자는 적어도 하나의 페르소나 문장을 가지고 있는지
4) 마지막 화자는 각 대화에서 첫 번째 화자와 다른지

사항 4)은 마지막 발화가 포스터의 답변이 아니라 공감하는 반응인지 최대한 확인하는 것입니다.
또한 대화 응답에 나타나는 페르소나 문장을 제거하여 데이터 유출을 방지합니다.
마지막으로 모든 데이터를 소문자로 지정하고 각 문장에서 특수 기호, URL 및 이미지 캡션을 제거합니다.
PEC의 통계는 표 1에 나와 있습니다. PEC의 두 가지 예가 표 3에 나와 있습니다.
통계를 보면, persona 문장이 엄청 많다. persona-chat 데이터는 4~6문장인데 이 데이터와는 차이가 상당히 크다..
예시를 보고 잘 이해가 안되서, 한 번 데이터를 직접 까보았다.
위 예시를 찾아보니 발화A, 발화B, 발화A, 발화C 등의 식으로 되어있다.
각 스피커에 해당하는 persona.txt가 제공되어있다.
위 예시에서의 persona는 C에 대한 persona의 일부이다.
C을 표현하는 persona 문장은 20문장이 넘는다.
위의 data processing에서 최대 turn은 6이라한다.

통계에서는 안보여주지만, 눈으로 봤을 때는 대화 turn이 길지 않다. 대부분 2~3정도?

표 3에서 명시적인 연결을 하는 것은 쉽지 않을 수 있지만, 이것이 바로 실제 사용자 데이터를 사용하여 페르소나와 공감 간의 암시 적 (그리고 예상치 못한) 링크를 밝히기 위해 연구중인 것입니다.
예를 들어, "“I hope I look that young"라는 말은 표 3의 "I like actively healthy"라는 페르소나와 암시 적으로 연결될 수 있습니다.

Data Annotations

각 도메인에서 무작위로 추출 된 100 개의 대화에 수동으로 주석을 달아 그들의 sentiment and empathy을 추정합니다.
어노테이션 편향을 피하기 위해 casualconversations 서브레딧에서 무작위로 샘플링 된 casual chat 100 개로 구성된 control group을 추가한다.

CasualConversation은 사용자가 모든 주제에 대해 자연스럽게 채팅 할 수 있습니다.
즉 일반 대화를 넣어서 사람평가를 해서 분명한 비교를 보여준다는 것

마지막으로이 300 개의 대화를 혼합하고 섞어서 3명의 어노 테이터에게 제시합니다.
주석 결과는 표 2에 나와 있습니다.
happy 및 offmychest 도메인의 게시물은 각각 대부분 positive and negative입니다.
두 도메인 모두 대조군보다 훨씬 더 empathetic합니다 (p <0.001, 단측 t- 검정).

Conversation

분석 우리는 그림 1의 ED (Rashkin et al., 2019)에 대한 분석과 유사하게 PEC에 대한 대화 분석을 수행합니다.
특히, 서로 다른 두 사람의 응답 사이의 TF-IDF 유사성은 행복 함과 기절함의 경우 각각 0.25 및 0.17 인 반면, 두 개의 분리 된 무작위 응답 세트 간의 TF-IDF 유사성은 0.38 (± 0.05) 및 0.31 (± 0.05)입니다. 각각 5 점을 넘게 행복하고 기쁘다.
결과들은 PEC의 무작위로 뽑은 공감반응들 사이보다 다른 사람 사이의 공감 반응이 더욱 다르다는 것을 보여주며, 이는 PEC에서 다른 화자들이 다른 "styles"을 가지고 공감반응을 하는 것을 보여준다.

Comparisons with Related Datasets

표 4는 PEC와 관련 데이터 세트 간의 비교를 보여줍니다.
PEC은 페르소나 기반과 공감이라는 독특한 장점이 있습니다.
또한 PEC은 소셜 미디어에서 수집되므로 수백 개에서 수집 된 ED (Rashkin et al., 2019) 및 PC (Zhang et al., 2018a)보다 훨씬 다양한 화자 및 언어 패턴이 생성됩니다. 크라우드 소싱 작업자.
마지막으로 PEC은 다른 두 공개 데이터 세트보다 2 배 이상 크기 때문에 향후 연구에서 더 큰 신경 모델을 탐색 할 수 있습니다.

4 Our CoBERT Model

이 섹션에서는, response selection과 제안한 CoBERT 모델을 소개한다. (생성 방식은 아닌 듯)

4.1 Task Definition

대화 dataset D개가 있고 각각 (X, P, y)의 구성으로 된다.
X= $\{ X_1, X_2, \cdots, X_{n_X} \}$ 으로 n_X은 컨텍스트 발화들이고
P= $\{ P_1, P_2, \cdots, P_{n_P} \}$ 으로 응답자의 n_P persona sentences 이다. (persona만 모아둔 데이터가 있다는 것)
그리고 y는 X에 대한 응답을 말한다.
response selection의 task는 f(X,P,y) 함수를 배우는 형식이고 이는 가장 높은 점수를 true candidate y에 할당하고 X, P가 주어졌을 때 negative candidates에 낮은 점수를 부여한다.
인퍼런스 동안, 학습된 모델은 candidates로부터 가장 높은 점수를 가지는 response candidate을 선택한다.

4.2 BERT Representation

We use BERT (Devlin et al., 2019) as our sentence encoders.
Bi-encoder (Humeau et al., 2020)와 유사하게 컨텍스트 발화를 BERT를 통과시키기 전에 단일 컨텍스트 문장으로 연결합니다.
persona sentences 사이에는 순서가 없기 때문에, 우리는 랜덤으로 persona sentences을 연결한다.
context, persona, response을 BERT encoders에 통과시키고 난후, 우리는 vector representation을 각각 마지막 layer에서 X ∈ R(m×d) , P ∈ R(q×d) and Y ∈ R(n×d)을 얻는다.

d는 BERT의 임베딩 사이즈고, m,q,n은 context, persona, response의 시퀀스 길이다.

서로 다른 세그먼트 ID는 컨텍스트에서 화자와 응답자의 발화를 구별하는 데 사용됩니다.

4.3 Hop-1 Co-attention

Given X and Y, we learn the first-order matching information using co-attention (Lu et al., 2016).
Specifically, we first compute the word-word affinity matrix $\textbf{A}_{\textbf{XY}}$ ∈ R m×n :

$\textbf{A}_{\textbf{X2Y}}$ : response-to-context

$\textbf{A}_{\textbf{Y2X}}$ : context-to-response

여기서 softmax는 2차원에 대해 수행한다는 것이다.
최종 출력은 다음과 같다.
context representation: X′ = $\textbf{A}_{\textbf{X2Y}}$ Y ∈ R(m×d)
response representation: Y_ X = $\textbf{A}_{\textbf{Y2X}}$ X ∈ R(n×d)
그 후 max-pooling을 하여 다음과 같이 얻는다.
$\textbf{X}'_{max}$ ∈ R_d and $\textbf{Y}'_{\mathbf{X},max}$ ∈ R_d .

4.4 Hop-2 Co-attention

우리는 second-order interactive matching을 배우기 위해 hop-2 co-attention를 제안한다.
attention-over-attention MRC(Cui et al., 2017)과는 달리, 우리의 방법은 response selection을 위해 bidirectional matching을 학습한다.
특히 attention matrices에 대해 주의를 적용한다.
$\textbf{A}_{\mathbf{X}}'$ (R_{1 x m})와 $\textbf{A}_{\mathbf{Y}}'$ (R_{1 x n})는 X와 Y에 대한 2차 attention이다.

mean denotes mean pooling along the first dimension.

$\textbf{X}''$ = $\textbf{A}_{\mathbf{X}}'$ X (R_d)
$\textbf{Y}''_{\textbf{X}}$ = $\textbf{A}_{\mathbf{Y}}'$ Y (R_d)
P, Y에 대해서도 마찬가지로 진행한다.
직관적으로 우리의 hop-1 co-attention는 X와 Y에 대한 attended representations을 배우고, 우리의 hop-2 co-attention는 attentions over attentions부터 가중치가 계산되는 X와 Y에 대한 “ truly” attended representations을 학습합니다.
hop-1 vs hop2 정리

내가 느낀 것은 hop-1은 자주 보던 방법이다. 즉 두 개의 시퀀스 표현 매트릭스가 있는 상황에서, attention weight을 구하여 두 개의 정보를 합치는 것이다.
그리고 max-pooling을 통하여 하나의 벡터로 만들어 준다.
hop-2는 attention matrix 두 개를 이용하여 representation vector을 만드는 것으로 여기서는 attention over attention의 개념을 든다.
아마 attention matrix끼리 또 attention을 해서 그런 것인 것 같다.

4.5 Loss

$\textbf{X}_f$ = [ $\textbf{X}'_{max}$ ; $\textbf{X}''$ ; $\textbf{P}'_f$ ; $\textbf{P}''$ ]의 4d 차원이 최종 context representation이다.
$\textbf{Y}_{f}$ = [ $\textbf{Y}'_{\mathbf{X},max}$ ; $\textbf{Y}''_{\textbf{X}}$ ; $\textbf{Y}'_{\textbf{P}, max}$ ; $\textbf{Y}''_{\textbf{P}}$ ]이 최종 response selection이다.
매칭 스코어로는 다음과 같다.
N(X) denotes a set of randomly sampled negative candidates for the context X.

5 Experiments

In this section we present the datasets, baselines, experimental settings, model comparisons and ablation studies.

5.1 Datasets and Baselines

BoW:

컨텍스트, 페르소나 및 응답 인코더는 평균 단어 임베딩을 계산합니다.

HLSTM (Lowe et al., 2015):

컨텍스트 인코더에는 발화 수준의 BiLSTM 및 컨텍스트 수준의 BiLSTM가 있습니다. 모든 인코더는 동일한 발화 수준 BiLSTM를 공유합니다.

DIM (Gu et al., 2019):

페르소나 기반 응답 선택을위한 최첨단 비 선행 모델입니다. DIM은보다 세밀한 일치 및 계층 적 집계를 채택하여 풍부한 일치 표현을 학습합니다.

Bi-encoder (Humeau et al., 2020):

공감 반응 선택을위한 최첨단 BERT 기반 모델 (Rashkin et al., 2019).

Poly-encoder (Humeau et al., 2020):

응답 선택을위한 최첨단 BERT 기반 모델입니다. Poly-encoder는 세밀한 일치를 위해 잠재주의 코드를 학습합니다.
Cross-encoder (Humeau et al., 2020)는 추론에서 Poly-encoder보다 2 배 더 느리게 수행하여 실시간 응용 프로그램에서 다루기 어렵 기 때문에 적절한 기준선으로 간주하지 않습니다.

5.2 Experimental Settings

다음 (Zhou et al., 2018b; Gu et al., 2019; Humeau et al., 2020)에 따라 Recall @ k를 사용하여 모델을 평가합니다.
여기서 각 테스트 예제에는 선택할 수있는 C 후보가 있으며 R @ k로 축약됩니다.
평균 상호 순위 (MRR). 실험에서 C = 100 및 k = 1, 10, 50으로 설정했습니다.
각 테스트 예의 후보 세트에는 실제 응답과 테스트 세트에서 무작위로 샘플링 된 다른 C-1 응답이 포함됩니다.

5.3 Comparison with Baselines

5.4 Comparison with BERT-adapted Models

5.5 Ablation Study

6 Discussion

6.1 Empathetic vs. Non-empathetic

우리는 CoBERT가 non-empathetic conversation보다 empathetic conversation로 학습되었을 때 persona가 공감 반응을 향상시키는지를 조사한다.
먼저, 우리는 non-empathetic conversation dataset으로 control group을 소개하고, 이는 CASUAL를 가리키는데, 이는 섹션 3에서 말하는 것과 같지만, 사이즈가 큰 것이다.

즉, 데이터세트가 공감반응류 인지 아닌지에 따른 결과를 비교하는 것

CASUAL 데이터세트는 PEC와 같은 방법으로 수집되나, PEC보다 공감이 현저히 낮다 (테이블 2)
CASUAL의 training, validation, testing 사이즈는 150K, 20K, 20K로 각각 나뉜다.
그리고나서, 우리는 학습 예제의 랜덤 서브셋을
그런 다음 CASUAL의 훈련 예제의 무작위 하위 집합을 PEC의 동일한 수의 무작위 훈련 예제로 대체합니다.
그런 다음 PEC 검증 세트와 서로 다른 대체 비율에 대한 CASUAL 검증 세트에서 페르소나 개선, 즉 R @ 1 (nP = 10)-R @ 1 (nP = 0)을 비교합니다.

여기서 nP는 persona 문장 수를 말한다.

결과는 그림 3에 나와 있습니다.
두 경우 모두, 즉 nP = 0 및 nP = 10에서 PEC에 대한 유효성 검사 R @ 1이 증가하고 훈련 데이터 세트에서 PEC의 비율이 증가함에 따라 CASUAL에 대한 유효성 검사 R @ 1이 감소한다는 것은 놀라운 일이 아닙니다.
또한 페르소나는 모든 비율에 대해 두 검증 세트 모두에서 성능을 지속적으로 향상시키는 것으로 나타났습니다.
그림 3에서 음영 처리 된 두 영역의 너비를 조사하면 더 많은 CASUAL 교육 예제가 사용됨에 따라 캐주얼 응답에 대한 페르소나 개선이 거의 일정하게 유지된다는 것을 알 수 있습니다 (모든 150K PEC 대화에 대해 교육을받은 경우 3.31 %, 모두에 대해 교육을받은 경우 3.44 %). 150K CASUAL 대화).
그러나 공감 반응에 대한 페르소나 개선은 더 많은 PEC 훈련 예제가 사용됨에 따라 지속적으로 증가하여 CoBERT가 공감이없는 대화보다 공감 대화에 대해 훈련 될 때 페르소나가 공감 반응을 상당히 향상 시킨다는 것을 보여줍니다 (p <0.001, 단측 t-test). (모든 150K CASUAL 대화에 대해 훈련 된 경우 3.77 % 대 모든 150K PEC 대화에 대해 훈련 된 경우 6.32 %)
이 결과는 인간 대화에서 페르소나와 공감 사이의 경험적 연관성을 보여 주며, 페르소나는 비 공감 대화보다 공감 대화에 더 큰 영향을 미친다는 것을 시사 할 수 있습니다.
결과는 또한 CoBERT가 훈련 중에이 링크를 학습하고이를 사용하여 테스트 중에 더 나은 공감 반응을 수행 할 수 있음을 보여줍니다.
이 연결 고리의 한 가지 가능한 심리적 뿌리는 페르소나가 성격과 높은 상관 관계를 가지고 있다는 것입니다 (Leary and Allen, 2011), 이는 차례로 공감과 공감 반응에 영향을줍니다 (Costa et al., 2014).
이 경험적 연결에 대한 더 자세한 분석은 향후 작업을 위해 남겨집니다.

6.2 Number of Persona Sentences

표 8과 같이 페르소나 문장의 수(nP)에 따른 페르소나 개선을 분석합니다.
표 8에서 볼 수 있습니다.
모델 성능, 추론 시간 및 메모리 사용량은 모두 페르소나 문장이 통합 될수록 증가하는 것이 분명합니다.
메모리 사용량은 BERT의 자체주의 작업으로 인해 nP와 함께 2 차적으로 증가합니다.
합리적인 비용으로 경쟁력있는 성능을 달성하기 때문에 실험에서 nP = 10을 선택했습니다.

이 10개는 랜덤으로 선택한 건가?

6.3 Performance on New Personas

새로운 페르소나를 예로 들어 CoBERT 성능을 분석합니다.
PEC 테스트 세트에서 42.1 %의 예는 새로운 화자에서 나온 것입니다.
표 9에는 보거나 보이지 않는 (신규) 화자를 사용한 테스트 예제에 대한 CoBERT의 성능이 나와 있습니다.
결과는

1) CoBERT는 보이지 않는 페르소나가있는 예에서 합리적으로 잘 수행하여 CoBERT가 보이지 않는 페르소나를 잘 일반화하고 새로운 화자에 대한 올바른 응답을 정확하게 검색 할 수 있음을 시사합니다.

2) CoBERT는 보이는 페르소나보다 보이지 않는 페르소나가있는 예에서 더 나쁩니다.
3) 모델 훈련 및 테스트 중에 페르소나를 활용하면 보이거나 보이지 않는 페르소나가있는 예제에서 CoBERT가 향상됩니다.
4) 페르소나 개선은 보이지 않는 페르소나보다 페르소나가 보이는 예에서 더 두드러집니다.

즉, 여기서 학습할 때 못봤던 persona들로 테스트를 해본 것인데 잘 작동함을 보여주는 것이다.

6.4 Case Study

우리는 표 10과 같이 페르소나가 공감 반응에 어떤 영향을 미치는지에 대한 사례 연구를 수행합니다.
모델 반응은 CoBERT가 1K 후보 중에서 선택합니다. (학습할 때는 C=100이었음)
동일한 맥락에서 페르소나가 다르면 페르소나 기반의 공감 반응이 달라지는 것이 분명합니다.
예를 들어 페르소나가 "나는 의사입니다."인 경우 모델 응답은 화자의 건강에 대한 칭찬과 배려를 모두 표현합니다.

7 Conclusion

페르소나 기반 공감 대화를위한 새로운 작업과 대규모 다중 도메인 데이터 세트 PEC을 제시합니다.
그런 다음 최신 Poly-encoder 및 여러 BERT 적응 모델을 포함하여 PEC의 경쟁 기준보다 훨씬 우수한 성능을 얻는 효과적이고 효율적인 모델인 CoBERT를 제안합니다.
CoBERT는 하이퍼 파라미터 튜닝이 없으며 모든 도메인에서 응답 선택 작업에 보편적으로 적용 할 수 있습니다.
마지막으로, 우리는 페르소나가 공감 반응에 미치는 영향에 대한 첫 번째 경험적 연구를 제시합니다.
결과는 인간 대화에서 페르소나와 공감 사이의 경험적 연관성을 보여 주며, 페르소나가 비 공감 대화보다 공감 대화에 더 큰 영향을 미친다는 것을 시사 할 수 있습니다.

Reference

https://www.aclweb.org/anthology/2020.emnlp-main.531.pdf

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-097, Towards Persona-Based Empathetic Conversational Models (2020-EMNLP)

◼️ Comment

0 Abstract

1 Introduction

2 Related Work (번역)

3 The PEC Dataset

4 Our CoBERT Model

4.1 Task Definition

4.2 BERT Representation

4.3 Hop-1 Co-attention

4.4 Hop-2 Co-attention

4.5 Loss

5 Experiments

5.1 Datasets and Baselines

5.2 Experimental Settings

5.3 Comparison with Baselines

5.4 Comparison with BERT-adapted Models

5.5 Ablation Study

6 Discussion

6.1 Empathetic vs. Non-empathetic

6.2 Number of Persona Sentences

6.3 Performance on New Personas

6.4 Case Study

7 Conclusion

댓글

댓글 쓰기