◼️ Comment

이 논문은 ED 데이터로 공감 대화를 생성하는 것이다.
이 논문에서 주장하는 컨트리뷰션중에는 coarse-grained dialogue-level과 fine-grained token-level emotions을 이용하였다는 것이다.

coarse는 흔한 방법인 대화 히스토리를 이용한다는 것이고 fine은 이전 발화에서 감정에 관련된 토큰을 뽑아서 따로 이용한다는 것이다.

모델은 2가지 모듈로 구성되는데, 본문에서 모델 설명을 자세하게 했지만, 쉽게 말해서 generator와 discriminator로 이루어져있다.

첫 번째 모듈인 generator은 encoder-decoder 구조이다.

encoder은 또 2가지로 구성되는데 coarse버전과 fine버전으로 Transformer encoder을 통과시킨다.
그럼 각각 나온 token vector을 연결시켜 ep(감정)예측을 한다.
ep을 emotion embedding으로 차원을 맞춰서 (style transfer에서 style 넣는 것처럼) 이것을 초기로 하여 decoder가 진행된다.
즉 loss는 emotion loss와 LM loss가 있다. 즉 생성부분은 style transfer과 상당히 유사한 느낌이다.

두 번째 모듈은 discriminator인데 CNN 구조이다.

분류기의 입력으로는 그림보면 알듯이, user feedback, y, c가 입력이다.
수식보면 c는 직접쓰이는 것은 아니고, y는 생성 문장인데 이를 분류기를 태운다. 정확히는 LSTM+CNN 식
여기서 핵심은 user feedback이다. 쉽게 말해서 next 문장 혹은 감정 token이다.
즉 현재 스텝에서 제대로 문장을 생성하는 것만 바라보는 게 아니고, next 문장을 고려하여 학습하겠다는 것이다.
따라서 분류기 입력에 user feedback을 LSTM 통과시킨 최종 벡터를 이용하여 사용하게 된다.
분류기에는 2가지가 있는데 semantic과 emotional이 있다.
semantic은 정답 문장과 비슷한지를 판별하고 emotional은 제대로 감정이 담겨있는지를 판별한다.
emotional 부분은 style transfer에서 쓰는 테크닉이라 볼 수 있고, semantic loss도 판별하는 아이디어는 기억해두면 좋을 것 같다.
단, 여기서 semantic을 어떻게 판별할지는 여러 방법이 있겠지만, 1-Lipschitz의 개념을 가져왔다.
꼭 이 개념이 아니더라도 미분가능한 semantic 구조를 이용해도 상관없을 것이다.

학습할 때는, GAN처럼 D와 G을 번갈아 가면서 학습한다. 자세한 것은 5.4을 참고하면 될 것 같다.
실제 테스트 결과를 보면 성능이 SoTA라고 하고 케이스 스터디를 봤을 때 user feedback을 잘 반영한다고 한다.

물론 인퍼런스는 user feedback을 입력으로 받지는 않지만 next 상대방의 반응을 고려하여 응답한다는 것으로 볼 수 있다.
이 부분에 대한 아이디어는 사실 전에 INLG의 Listener’s Social Identity Matters in Personalised Response Generation의 논문도 비슷한 관점이다.

0 Abstract

사람과 같은 대화 시스템은 공감적인 응답 생성을 기대하고 있으며, 이는 사용자의 표현된 감정에 민감할 것이다.
공감 대화 생성 테스크는 이 문제를 해결하려고 한다.
근본적인 챌린지는 정확하게 사람 감정의 뉘앙스를 잡아내고, 기존의 연구에서 간과하는 사용자의 피드백의 잠재성을 고려하는 것이다.
이 문제에 응답하여, 우리는 multi-resolution adversarial model - EmpDG을 제안하여 공감적인 반응을 생성하도록 한다.
EmpDG은 coarse-grained 대화 레벨과 fine-grained token-level 감정들을 모두 이용하여, fine-grained 토큰레벨 감정이 사용자의 감정의 뉘앙스를 잘 캡쳐하게 도와준다.
추가적으로, 우리는 사용자의 피드백을 이용하는 interactive adversarial learning 프레임워크를 소개하여 생성된 반응이 대화속의 감정을 떠올리게하는지를 식별한다.
실험적인 결과들은 제안된 접근법이 SoTA 베이스라인들보다 context quality과 emotion perceptivity 모두에서 크게 좋은 성능을낸다.

1 Introduction

사회 심리학의 연구들에서 "empathy"는 좀 더 사람다운 human-machine 대화쪽으로의 중요한 스텝으로, 이는 emotion 유대 사회 활동에서 감정적인 지각에 대해 향상시킨다.
똑똑한 자동 대화 시스템을 설계하기 위해, chatbot이 대화 상호관계에서 공감적이게 만드는 것은 중요하다.
그래서, 이 논문에서, 우리는 공감적인 대화 생성의 테스크에 포커스를 맞추고, 이는 자동적으로 멀티턴 대화 시나리오에서 사용자의 감정 정보를 track하고 understand한다.
성공을 달성함에도 불구하고, 공감적인 대화 시스템을 설계하는 것은 현재 진행상황에서 여전히 먼 것이다.

(1) 감정 대화 생성에서 정확히 사람 감정의 뉘앙스를 캡쳐하는 것은 여전히 어렵다. (Ghosal et al., 2019)
(2) 생성된 반응을 위해 단지 대화 히스토리에 의존하고 사용자의 피드백의 잠재력을 간과하면, 앞서 언급한 결함이 더욱 악화되고, 이는 원하지않는 응답을 유발한다.

그림1에서 우리는 벤치마크 ED(EMPATHETIC-DIALOGUES) 데이터세트의 한 예제를 볼 수 있다.

발화 시쿼스들에서 감정적인 단어들은 (그림 1에서, 그것들은 발화 1에서 new, job이고 발화 2에서 amazing, excited이고, 발화 3에서 excited 임) fine-grained emotional connections이다.

fine-grained 감정적인 단어들을 고려하지 않고, 기존의 방법으로 생성된 반응들은 적절한 감정들을 표현함에도 불구하고 사소하고 정보를 담지않는다.
따라서, fine-grained 감정적인 요소를 모델링하는 것은 필수적이다.
이 논문에서, 우리는 mutli-resolution adversarial 공감 대화 생성 모델을 제안하고, 이름은 EmpDG로 위의 챌린지들을 더 적절하고 공감적인 반응을 생성을 통하여 해결한다.
사용자의 감정들의 뉘앙스를 충분하게 캡쳐하기 위해, EmpDG는 coarse-grained 대화 레벨 감정들과 fine-grained token-level 감정들을 같이 고려하여 응답을 생성한다.
multi-resolution 감정들은 사용자의 뉘앙스의 감정 상태를 인지하여 응답 생성하는데 전제 조건이다.
게다가, 우리는 interactive adversarial learning framework을 제안하여, 사용자의 피드백을 신중하게 보완하고, 이의 두 iteractive discriminators은 대화 히스토리와 사용자의 감정들 모두에 관하여 생성된 반응이 감정을 지각하는지를 식별한다.
벤치마크 데이터세트 ED에서 수행하고, 광범위한 실험 결과들은 EmpDG의 효과성을 content quality와 empathy quality 모두에서 입증한다.
우리는 EmpDG가 SoTA 베이스라인보다 현저히 좋음을 알아낸다.
컨트리뷰션

우리는 multi-resolution adversarial 뉴럴 네트워크를 제안하고, 이는 대화 컨텍스트에서 multi-granularity emotion 요소를 고려한다.
사용자의 피드백으로부터 응답 생성을 유도하기 위해, 우리는 interactive adversarial learning 네트워크를 두개의 interactive discriminators와 함께 제안한다.
실험들은 EmpDG가 공감 대화 생성에서 content quality and empathy quality 측면에서 SoTA 달성함을 보여준다.

2 Related Work

우리의 연구는 인간-컴퓨터 상호 작용을 통한 공감 적 대화 생성과 일치하며, 이는 대화 중 반응에 감정을 할당하는 추가 단계를 피합니다 (Skowron et al., 2013).
여러 작업 (Lubis et al., 2018; Rashkin et al., 2018; Zhong et al., 2019; Wei et al., 2019; Shin et al., 2019; Chatterjee et al., 2019; Rashkin et al., 2019; Santhanam과 Shaikh, 2019; Lin et al., 2019; Zhong et al., 2020; Lin et al., 2020) 대화 모델을 더 공감하기 위해 시도했습니다.
Rashkin은 기존 모델을 다양한 방식으로 결합하여 공감하는 반응을 생성합니다.
Lin (2019)은 여러 전문가의 가능한 정서적 반응을 부드럽게 결합하여 최종 공감 반응을 생성합니다.
Lin (2020)은 여러 목표를 가진 대규모 사전 훈련 된 언어 모델을 미세 조정합니다.

그러나 기존의 모든 접근 방식은 대화 맥락에서 단일 입자 감정만을 고려합니다.

이에 비해 EmpDG는 highly correlated coarse-grained emotional labels와 fine-grained emotional terms를 공동으로 고려합니다.
또한 새로운 상호 작용 적대 메커니즘을 통해 사용자 피드백의 효과를 명시 적으로 고려하므로 EmpDG가 대화에서 더 많은 감정 지각을 유발할 수 있습니다.
공감 적 대화 모델의 발전 외에도 DAILYDIALOG (Li et al., 2017b) 및 EMOTIONLINES (Hsu et al., 2018)와 같은 새로운 감정 표시 대화 말뭉치의 출현도이 연구 분야에 기여했습니다.
그러나 DAILYDIALOG의 발화의 5 %와 EMOTIONLINES의 발화의 16.68 %만이 다양한 감정적 레이블을 가지고 있으며 다른 것들은 "없음"또는 "행복한"레이블입니다.

데이터 분포가 매우 불균형하기 때문에 공감 대화 생성의 벤치 마크로 사용하기에 적합하지 않습니다.

Rashkin은 더 풍부하고 균등하게 분산 된 감정 세트를 고려하고 청취자가 감정적 상황에 처한 화자에게 공감하는 방식으로 반응하는 EMPATHETIC-DIALOGUES 데이터 세트를 출시합니다.
또한 몇 가지 감정 어휘집(emotion lexicons) (Mohammad and Turney, 2013; Sedoc et al., 2020)도 텍스트에서 감정을 추적하는 데 효과적인 것으로 나타났습니다.
우리의 작업에서 우리는 EMPATHETIC-DIALOGUES 데이터 세트와 감정 어휘집(emotion lexicons)에 대한 공감 대화 생성 작업에 초점을 맞 춥니 다 (Mohammad and Turney, 2013).
우리 관련 작업의 두 번째 라인은 감성적 대화 생성으로, 감성 요인을 다루기 위해 점점 더 많은 관심을 받고 있습니다 (Zhou et al., 2018; Huang et al., 2018; Colombo et al., 2019).
감정 관련 대화 시스템에 대한 이전 연구는 주로 손으로 만든 기능에 크게 의존하는 규칙 기반 시스템에 중점을 두었습니다 (Prendinger and Ishizuka, 2005).
최근에는 표적 반응에서 감정 표현을 제어하기 위해 많은 신경 감정 대화 생성 접근법이 탐구되었습니다.
그러나 Li는 기존의 감성 대화 시스템이 주어진 특정 사용자 입력 감정에 따라 더 많은 감정이 풍부한 반응을 생성하는 것을 목표로하여 필연적으로 정서적 불일치 문제를 유발한다고 밝혔습니다.
우리의 연구는 또한 개방형 대화 생성 모델의 최근 발전과 일치합니다 (Vinyals and Le, 2015; Li et al., 2016b; Zhang et al., 2018b; Hancock et al., 2019; Li et al., 2020; Song et al., 2020).
이러한 대화 모델은 일반적으로 시퀀스 대 시퀀스 (Seq2Seq) (Sutskever et al., 2014) 방식을 채택합니다.
적대적 학습은 고품질 반응을 생성하는 데 상당한 성공을 거두지 만 (Goodfellow et al., 2014; Li et al., 2017a) 종종 discriminator saturates에 따라 gradient vanishing이 발생한다. (Gulrajani et al., 2017)
이 문제를 해결하기 위해 Gao et al. (2019) Wasserstein GAN (Arjovsky et al., 2017)을 활용하여 외부 사실과의 응답 일관성을 향상시킵니다.
Romanov et al. (2019)은 세분화 된 텍스트 표현을위한 적대적 분해 방법을 제안합니다.
이전 작업과 달리 우리는 신경 대화 모델의 공감 품질을 향상시키기위한 적대적 접근 방식을 조사합니다.

3 Problem Formulation

우리의 방법의 세부설명 전에, 우리의 key notations과 concepts을 소개한다.
multi-turn 대화 context은 두 참여자 사이의 M개의 발화로 구성된다.
우리는 각 대화에서 semantic context와 emotional context가 모두 존재한다고 가정한다.
semantic context U은 발화들의 시퀀스를 의마한다. (예. U = [U1, ..., UM])
Lin (2019)에 따라, 우리는 U을 긴 token sequence로 피고, CLS 토큰을 시작점에 넣는다.

U = [CLS, x1, . . . , xm]
x는 U1, U2, ... UM의 토큰들
대화 히스토리 개념

감정적인 context E는 다른 세분성을 가진 감정들을 고려한다.

예. E = [LAB, w1, ..., we]
여기서 wi는 semantic context U안에 있는 감정적인 단어들이고, LAB는 special emotion toekn으로 대화 컨텍스트의 감정 상태를 끌어내기 위해 사용된다.
ERC에서 speaker 상태 개념

우리는 감정적인 단어를 external emotional vocabulary VE을 통하여 추출한다.

delete 할 때 썼던 방법으로 추출해도 될 듯

여기서 x0=CLS, w0=LAB을 가리킨다.
U와 E가 주어질 때 모델은 U,E를 조건으로 Y = {y1, ..., yn}을 생성하도록 초점을 맞춘다. (LM 방식의 확률 최대로)

4 EmpDG

이 섹션에서는, 우리는 multi-resolutional adversarial model을 제안한다. (EmpDG)
The overview of EmpDG is illustrated in Figure 2.
EmpDG에는 2가지 메인 요소가 있다.

the empathetic generator and the interactive discriminators.

요약하기 위해, empathetic generator는 encoder-decoder 구조 기반으로 되고, 이는 Transformer로 실행된다.
인코딩 과정에서, semantic context와 multi-resolution emotional context가 인코딩된다.

반면에 디코더는 semantic context와 emotional context을 융합하여 응답을 생성합니다.

generator의 공감을 강화시키기 위해, 우리는 두 개의 CNN-based discriminators을 디자인한다. (예. the semantic discriminator and the emotional discriminator)
학습 과정에서, 두 판별자는 추가적으로 사용자의 피드백과 상호작용한다. (다음 발화 및 다음 발화의 해당 감정 단어)
discriminators을 Wasserstein-1을 최소화하도록 최적화함으로써, 우리는 학습 시그널로써 classification 결과들의 합을 사용하여 response generator가 좀 더 감정 인지를 하도록 독려할 수 있다.

4.1 Empathetic Generator

우리는 empathetic generator을 제안하여 response Y을 생성한다.
다중 세분화 감정들을 잘 모델링하기 위해서, 우리는 우리의 encoding-decdoing 프로세스를 개별적으로 3개의 페이즈로 나눈다.

semantic understanding
multi-resolution emotion perception
empathetic response generation.

Semantic Understanding

ew는 word embedding, ep는 positional embedding, ed는 대화 state embedding이다.
FFN에서 activation function은 ReLU이다.
$\textbf{C}_\textbf{u}$ = [ $\tilde{\textbf{x}}_0, ..., \tilde{\textbf{x}}_e$ ]
그냥 Transformer 통과시킨 것과 똑같은 듯

Multi-resolution Emotion Perception

$\textbf{C}_\textbf{e}$ = [ $\tilde{\textbf{w}}_0, ..., \tilde{\textbf{w}}_e$ ]
다음은 그림에서 emotion identifying 부분이다.
여기서 loss하나가 생긴다.
The final dialogue context representations C is the concatenation of the semantic context vectors Cu and emotional context vectors

$\textbf{C}$ = [ $\textbf{C}_\textbf{u}$ ; $\textbf{C}_\textbf{e}$ ]

Empathetic Response Generation

위에서 ep는 1xq 차원으로 q는 감정 클래수 개수다.
여기에 matrix을 곱해서 e'p을 1xd로 만든다.
e'p=y0으로 간주하고 생성되는 yi들을 연결한것을 Y라고 보는 것.
C는 위에서 말한 Cu와 Ce을 연결한 것으로 (1xd) 벡터가 length만큼 있는 것이다.
즉, 직관적으로 Y,C을 연결해서 multi-head attention을 통과시키고 매트릭스 Wm을 곱하고 Y을 더하여 다음의 token을 예측하게하는 것이다.
loss는 LM의 일반적인 negative log likelihood 손실함수를 사용한다.

4.2 Interactive Discriminators

응답이 공감적이고 상황에 맞는 방식으로 생성되는지 평가하기 위해 empathetic generator에 대한 추가 훈련 신호를 제공하는 두 가지 discriminators를 도입합니다.
semantic discriminator는 생성된 응답에서 gold response까지의 semantic distance를 측정합니다.
emotional discriminator는 생성된 응답이 충분히 공감하는지 여부를 지정합니다.
특히, 다음 응답 발화는 사용자의 함축적인 피드백 역할을 할 수 있으며 대상 응답에 대한 semantic와 emotional guidance을 제공 할 수 있습니다 (Zhang et al., 2018a).
따라서 우리는 다음 응답 발화를 사용자 semantic 피드백으로 간주하고, 포함된 감성 단어를 사용자 emotional 피드백으로 간주합니다.
훈련 과정에서 우리는 사용자 의미 피드백과 감정적 피드백을 활용하여 각각 공감 생성자의 내용과 공감 능력을 최적화합니다.
의미 판별 자와 감정 판별자는 모두 CNN (Convolutional Neural Network) 기반 분류기를 기반으로하므로 편의를 위해 먼저 semantic 판별자를 자세히 설명합니다.
Semantic Discriminator

먼저, 우리는 LSTM 인코더로 generated response와 gold response을 인코딩하여 hidden representations을 만든다. ( $\textbf{d}^{N}_{t}$ , $\textbf{d}^{P}_{t}$ )
우리는 $\textbf{d}^{N}_{t}$ 을 negative vectors과 (생성 응답) $\textbf{d}^{P}_{t}$ 을 positive vectors으로 (gold 응답) 간주한다.
그리고난후, 2차원의 conv layer로 hidden vector $\textbf{d}^{*}_{t}$ 와 다른 width을 가지는 convolutional kernels와 곱한다 (∗ ∈ {N, P}).
각 kernel은 linguistic feature detector에 대응되는 것으로 multi-grained n-grams의 specific pattern을 검출한다.
convolutional fitler $\textbf{W}_{s}$ 은 receptive filed의 hidden states을 하나의 feature로 매핑한다.
negative 또는 positive 을 따라서 filter을 슬라이드하면, 새로운 featurese $\textbf{F}^{*}$ =[..., $\textbf{f}^{*}_{t}$ , ...]을 얻을 수 있다.

즉 $\textbf{d}^{*}_{t}$ 에 10개 토큰이 있다고 하면 10xd 2차원일 것이다.
여기서 $\textbf{W}_{s}$ 이 k x d 형태일 것이고 그러면 conv 결과는, $\textbf{f}^{*}_{t}$ 는 (10-k+1) 차원의 벡터가 될 것이다.
Ws ∈ R(d×k) and bs ∈ R(k) are learnable parameters in the convolutional filter. 여기서 $\textbf{b}_{s}$ 의 차원은 궁금, $\textbf{d}^{*}_{t}$ 와 $\textbf{W}_{s}$ 의 conv 연산결과와 차원이 같아야 하는 것임.
$\textbf{F}^{*}$ 사이에서 maximal value가 fixed-size $\textbf{f}^{*}$ 가 된다.

그리고나서, 우리는 semantic feedback representation $\textbf{d}^{F}$ 와 dialogue context vector ˜x0, $\textbf{f}^{*}$ 사이에서 semantic classification Dsem( $\textbf{d}^{*}_{t}$ ) ∈ R을 얻는다.
˜x0: we use emotional context vector ˜w0 in emotional discriminator
$\textbf{d}^{F}$ 은 여기서 위에서 말한 LSTM encoder의 last hidden state이다.
즉 f*는 conv의 결과 dF는 LSTM last hidden의 결과 x0은 Transformer CLS 결과이고 이걸더한 벡터를 하나의 실수(R)로 만듬.
feedback이라함은 next 발화라고 생각하면 될듯

Wasserstein-1 거리를 최소화하도록 한다.
따라서 여기서 D는 1-Lipschitz function가 된다고 한다. (참고)
판별 기 D의 1-Lipschitz 제약 조건을 충족하기 위해 판별 기 목적 함수에 대한 입력과 관련하여 D 출력의 기울기 패널티를 통합합니다.
그래디언트 패널티는 음의 표현 $\textbf{d}^{N}_{t}$ 와 양의 표현 $\textbf{d}^{P}_{t}$ 에서 샘플링 된 점 사이의 직선을 따라 균일하게 샘플링됩니다.
그런 다음 의미 식별기의 손실 함수는 다음과 같이 계산됩니다.

Emotional Discriminator

감성 판별 자의 구조는 의미 판별 자의 구조와 동일합니다.
가장 큰 차이점은 감성 차별자는 생성 된 응답, 금 응답 및 사용자 피드백 (즉, 사용자 감성 피드백)의 감성 단어에 대해 수행한다는 것입니다.
L^emo_d를 사용하여 정서적 차별 자의 상실 기능을 나타냅니다.
총 손실 함수는 L^sem_d과 L^emo_d을 더한 것이다.

4.3 Training

훈련을 시작할 때 공감 생성기를 사전 훈련하기 위해 MLE (최대 가능성 추정)를 사용합니다 (식 15).
사전 훈련 된 판별자는 공감 생성기를 조정하는 데 효과적이므로 (Yu et al., 2017), 대화 형 판별 자도 사전 훈련합니다.
사전 훈련 후, 공감 생성기와 대화 형 판별자는 교대로 훈련됩니다.

5 Experiment

5.1 Dataset (번역)

Amazon Mechanical Turk 플랫폼에서 수집 한 대규모 다중 회전 공감 대화 데이터 세트 인 EMPATHETICDIALOGUES 데이터 세트 (Rashkin et al., 2019)에서 EmpDG를 평가하며 약 25,000 개의 일대일 오픈 도메인 대화를 포함합니다.
특히 Rashkin et al. (2019) 두 명의 크라우드 워커 (연사와 청취자)를 페어링합니다. 연사는 개인적인 감정 상황에 대해 이야기하도록 요청받습니다.
청취자는 화자가 말하는 것을 통해 근본적인 감정을 추론하고 공감 적으로 반응합니다.
이 데이터 세트는 거친 대화 수준의 감정 역할을하는 32 개의 고르게 분산 된 감정 레이블을 제공합니다.
NRC Emotion Lexicons (NRC) (Mohammad and Turney, 2013)를 사용하여 대화 컨텍스트에서 감정적 인 단어를 추출하여 세분화 된 토큰 수준의 감정을 수행합니다.
훈련 데이터와 NRC 간의 언어 격차를 보완하기 위해 NRC에 포함되지 않은 모든 형용사를 NRC 감성 단어와 함께 추출합니다.
우리는 대화 맥락과 세분화 된 정서적 맥락을 시스템 입력으로 취급합니다. 대상 출력은 거친 감정 레이블과 청취자의 반응입니다.
모델의 경우 학습 절차에서 사용자 피드백으로 대상 응답의 다음 발화를 예약합니다.
마지막으로 훈련 세트에서 20,724 개의 대화, 검증 세트에서 2,972 개, 테스트 세트에서 2,713 개의 대화를 얻습니다.

5.2 Evaluation Methods

Automatic Evaluation.

Liu et al. (2016) BLEU는 응답 품질에 대한 인간의 판단과 약한 상관 관계가 있기 때문에 대화 생성 문제를 평가하는 데 부적절 할 수 있음을 확인했습니다. METEOR (Banerjee and Lavie, 2005)와 ROUGE (Lin, 2004)는 같은 문제를 가지고 있습니다.
따라서 이전의 감정 관련 연구에 따라 EmpDG의 성능을 자동으로 평가하기 위해 세 가지 평가 메트릭을 사용합니다.

Perplexity (Serban et al., 2015)는 세대 모델의 높은 수준의 일반 품질을 측정합니다.
Distinct-1 및 Distinct-2 (Li et al., 2016a)는 생성 된 모든 결과에서 고유한 유니 그램 / 바이그램의 비율을 측정하여 다양성을 나타냅니다.

감성 수준에서 모델을 평가하기 위해 감정 정확도를 공감 생성기에 의해 예측 된 감정 레이블과 지상 진실 감정 레이블 간의 합의로 채택합니다.

Human Evaluation.

콘텐츠 및 공감 관점에서 모델 성능을 정 성적으로 검사하기 위해 널리 채택 된 인간 평가도 수행합니다. 우리는 우리 모델과 기준선에서 무작위로 100 개의 대화와 그에 상응하는 세대를 샘플링합니다.
다른 모델에서 생성 된 응답을 평가하기 위해 타사에서 3 명의 전문 어노 테이터를 모집합니다.
모든 모델은 Empathy, Relevance and Fluency (Rashkin et al., 2019; Lin et al., 2019)의 3 가지 메트릭으로 평가됩니다.

Empathy은 듣는 사람의 반응이 말하는 사람의 감정을 이해하는지 여부를 측정합니다.
Relevance은 생성 된 응답이 대화 컨텍스트와 관련이 있는지 여부를 평가합니다.
Fluency은 생성 된 응답의 문법적 정확성과 가독성을 측정합니다.

각 측정 항목은 5 단계로 평가되며 1, 3, 5는 각각 허용되지 않음, 보통, 우수한 성능을 나타냅니다.

5.3 Baselines

Transformer (Vaswani et al., 2017)
EmoPrepend-1 (Rashkin et al., 2019)
MoEL (Lin et al., 2019)

5.4 Implementation Details

Pytorch (Paszke et al., 2017)
Adam (Kingma and Ba, 2015) with a mini-batch size of 16
pre-trained Glove vectors (Pennington et al., 2014) to initialize the word embedding.
During the training of empathetic generator, the learning rate is initialled as 0.0001 and we vary the learning rate following Vaswani et al. (2017).
Early stopping is applied when training.
When inference, we set the maximum decoding step as 30.
All common hyperparameters are the same as the work in (Lin et al., 2019).
During the interactive adversarial training, D-steps (for two interactive discriminators) is set to 1 and G-steps (for empathetic generator) is set to 5.
Hyper-parameter β in interactive discriminators is set to 0.1.
Meanwhile, we employ the teacher-forcing technique from Li et al. (2017a) to increase adversarial training efficiency

5.5 Performance Comparisons

Automatic Evaluation Results
Human Evaluation Results

5.6 Analysis of Emotion Interactions

얼마나 감정이 생성된 응답에서 잘 표현되는지 인사이트를 얻기 위해, 우리는 테이블 4에서 대화 컨텍스트의 cross-attention weights을 (empathetic generator의 encoder와 decoder사이의) 설명하는 2가지 예시를 본다.
첫 번째 케이스를 보면, 추가적인 multi-resolution emotional information의 attention이 주어지면, EmpDG의 응답은 더욱 유익한 empathetic을 보여준다. (good and incident와 같은)
2 번째 케이스를 보면, MoEL은 감정적인 단어들에 (예. scary) 대해 주요 attention을 하였지만, 생성된 응답의 content는 부적절하고, 이는 충분히 공감하지 못했기 때문이다.
EmpDG은 emotional 표현보다 나은 더욱 contentful response을 생성한다.

예로 sorry, happened들은 user의 피드백과 관련이있다.

우리는 adversarial training에서 user feedback을 고려하면, 이는 모델이 더욱 적절한 empathetic 반응을 생성할 수 있다고 결론지을 수 있다.
전체적으로, multi-resolution 메커니즘과 interactive discriminators의 효과성은 어느정도 입증되었다.

5.7 Case Study

표 5는 EmpDG 및 다른 베이스라인 모델에서 생성된 두 가지 예를 보여줍니다.
첫 번째 경우 EmpDG는 "미안하다", "희망", "가져온다", "좋아요"라는 단어로 응답하여 적절한 "희망적인"감정으로 일관되고 유익한 응답을 생성합니다.

반면 베이스라인선은 부정적인 감정을 이해하지 못하거나 적절한 내용을 표현하지 못합니다.

두 번째 경우에서 EmpDG는 컨텍스트 관련 단어 ( "do", "great") 및 감정 등급 단어 ( "amazing")를 포함하는 가장 컨텍스트 일관성있는 응답을 생성합니다.

6 Conclusion

이 논문에서, 우리는 multi-resolution interactive empathetic 대화 모델 EmpDG을 제안하여 조금더 공감을 인지하는 대화 생성을 모델링한다.
두 개 요소들은 공감 응답 생성의 성능을 향상시킨다.
multi-resolution empathetic generator은 coarse-grained dialogue-level과 fine-grained token-level emotions을 결합하여 대화에서 감정표현과 좀 더 감정 인지를 깨닫도록 캡쳐한다.
두 interactive discriminators은 user feedback을 추가적인 context로 간주하여 생성된 반응과 상호작용하고 대화 컨텍스트는 공감 대화 생성의 long-term goal을 옵티파이즈한다.
automatic과 manual evaluation은 EmpDG가 content뿐만 아니라 empathy에서도 적절한 반응을 생성할 수 있음을 보여준다.
이 설정에 대한 몇 가지 향후 방향이 있습니다.

첫 째로, EmpDG의 잠재적인 확장은 external knowledge와 결합하여 감정인지를 도우는 것이다. (user porifle 혹은 commonsense knowledge)
둘 째로, 우리의 세팅에서, emotional feedback과 semantic feedback은 분리되어있다. 근데 semantic과 emotional 피드백을 결합하는 모델링이 좋을 수 있고 우리는 미래의 연구로 남겨둔다.

Reference

https://www.aclweb.org/anthology/2020.coling-main.394.pdf

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-098, EmpDG: Multi-resolution Interactive Empathetic Dialogue Generation (2020-COLING)

◼️ Comment

0 Abstract

1 Introduction

2 Related Work

3 Problem Formulation

4 EmpDG

4.1 Empathetic Generator

4.2 Interactive Discriminators

4.3 Training

5 Experiment

5.1 Dataset (번역)

5.2 Evaluation Methods

5.3 Baselines

5.4 Implementation Details

5.5 Performance Comparisons

5.6 Analysis of Emotion Interactions

5.7 Case Study

6 Conclusion

댓글

댓글 쓰기