NL-098, EmpDG: Multi-resolution Interactive Empathetic Dialogue Generation (2020-COLING)
◼️ Comment
- 이 논문은 ED 데이터로 공감 대화를 생성하는 것이다.
- 이 논문에서 주장하는 컨트리뷰션중에는 coarse-grained dialogue-level과 fine-grained token-level emotions을 이용하였다는 것이다.
- coarse는 흔한 방법인 대화 히스토리를 이용한다는 것이고 fine은 이전 발화에서 감정에 관련된 토큰을 뽑아서 따로 이용한다는 것이다.
- 모델은 2가지 모듈로 구성되는데, 본문에서 모델 설명을 자세하게 했지만, 쉽게 말해서 generator와 discriminator로 이루어져있다.
- 첫 번째 모듈인 generator은 encoder-decoder 구조이다.
- encoder은 또 2가지로 구성되는데 coarse버전과 fine버전으로 Transformer encoder을 통과시킨다.
- 그럼 각각 나온 token vector을 연결시켜 ep(감정)예측을 한다.
- ep을 emotion embedding으로 차원을 맞춰서 (style transfer에서 style 넣는 것처럼) 이것을 초기로 하여 decoder가 진행된다.
- 즉 loss는 emotion loss와 LM loss가 있다. 즉 생성부분은 style transfer과 상당히 유사한 느낌이다.
- 두 번째 모듈은 discriminator인데 CNN 구조이다.
- 분류기의 입력으로는 그림보면 알듯이, user feedback, y, c가 입력이다.
- 수식보면 c는 직접쓰이는 것은 아니고, y는 생성 문장인데 이를 분류기를 태운다. 정확히는 LSTM+CNN 식
- 여기서 핵심은 user feedback이다. 쉽게 말해서 next 문장 혹은 감정 token이다.
- 즉 현재 스텝에서 제대로 문장을 생성하는 것만 바라보는 게 아니고, next 문장을 고려하여 학습하겠다는 것이다.
- 따라서 분류기 입력에 user feedback을 LSTM 통과시킨 최종 벡터를 이용하여 사용하게 된다.
- 분류기에는 2가지가 있는데 semantic과 emotional이 있다.
- semantic은 정답 문장과 비슷한지를 판별하고 emotional은 제대로 감정이 담겨있는지를 판별한다.
- emotional 부분은 style transfer에서 쓰는 테크닉이라 볼 수 있고, semantic loss도 판별하는 아이디어는 기억해두면 좋을 것 같다.
- 단, 여기서 semantic을 어떻게 판별할지는 여러 방법이 있겠지만, 1-Lipschitz의 개념을 가져왔다.
- 꼭 이 개념이 아니더라도 미분가능한 semantic 구조를 이용해도 상관없을 것이다.
- 학습할 때는, GAN처럼 D와 G을 번갈아 가면서 학습한다. 자세한 것은 5.4을 참고하면 될 것 같다.
- 실제 테스트 결과를 보면 성능이 SoTA라고 하고 케이스 스터디를 봤을 때 user feedback을 잘 반영한다고 한다.
- 물론 인퍼런스는 user feedback을 입력으로 받지는 않지만 next 상대방의 반응을 고려하여 응답한다는 것으로 볼 수 있다.
- 이 부분에 대한 아이디어는 사실 전에 INLG의 Listener’s Social Identity Matters in Personalised Response Generation의 논문도 비슷한 관점이다.
0 Abstract
- 사람과 같은 대화 시스템은 공감적인 응답 생성을 기대하고 있으며, 이는 사용자의 표현된 감정에 민감할 것이다.
- 공감 대화 생성 테스크는 이 문제를 해결하려고 한다.
- 근본적인 챌린지는 정확하게 사람 감정의 뉘앙스를 잡아내고, 기존의 연구에서 간과하는 사용자의 피드백의 잠재성을 고려하는 것이다.
- 이 문제에 응답하여, 우리는 multi-resolution adversarial model - EmpDG을 제안하여 공감적인 반응을 생성하도록 한다.
- EmpDG은 coarse-grained 대화 레벨과 fine-grained token-level 감정들을 모두 이용하여, fine-grained 토큰레벨 감정이 사용자의 감정의 뉘앙스를 잘 캡쳐하게 도와준다.
- 추가적으로, 우리는 사용자의 피드백을 이용하는 interactive adversarial learning 프레임워크를 소개하여 생성된 반응이 대화속의 감정을 떠올리게하는지를 식별한다.
- 실험적인 결과들은 제안된 접근법이 SoTA 베이스라인들보다 context quality과 emotion perceptivity 모두에서 크게 좋은 성능을낸다.
1 Introduction
- 사회 심리학의 연구들에서 "empathy"는 좀 더 사람다운 human-machine 대화쪽으로의 중요한 스텝으로, 이는 emotion 유대 사회 활동에서 감정적인 지각에 대해 향상시킨다.
- 똑똑한 자동 대화 시스템을 설계하기 위해, chatbot이 대화 상호관계에서 공감적이게 만드는 것은 중요하다.
- 그래서, 이 논문에서, 우리는 공감적인 대화 생성의 테스크에 포커스를 맞추고, 이는 자동적으로 멀티턴 대화 시나리오에서 사용자의 감정 정보를 track하고 understand한다.
- 성공을 달성함에도 불구하고, 공감적인 대화 시스템을 설계하는 것은 현재 진행상황에서 여전히 먼 것이다.
- (1) 감정 대화 생성에서 정확히 사람 감정의 뉘앙스를 캡쳐하는 것은 여전히 어렵다. (Ghosal et al., 2019)
- (2) 생성된 반응을 위해 단지 대화 히스토리에 의존하고 사용자의 피드백의 잠재력을 간과하면, 앞서 언급한 결함이 더욱 악화되고, 이는 원하지않는 응답을 유발한다.
- 그림1에서 우리는 벤치마크 ED(EMPATHETIC-DIALOGUES) 데이터세트의 한 예제를 볼 수 있다.
- 발화 시쿼스들에서 감정적인 단어들은 (그림 1에서, 그것들은 발화 1에서 new, job이고 발화 2에서 amazing, excited이고, 발화 3에서 excited 임) fine-grained emotional connections이다.
- fine-grained 감정적인 단어들을 고려하지 않고, 기존의 방법으로 생성된 반응들은 적절한 감정들을 표현함에도 불구하고 사소하고 정보를 담지않는다.
- 따라서, fine-grained 감정적인 요소를 모델링하는 것은 필수적이다.
- 이 논문에서, 우리는 mutli-resolution adversarial 공감 대화 생성 모델을 제안하고, 이름은 EmpDG로 위의 챌린지들을 더 적절하고 공감적인 반응을 생성을 통하여 해결한다.
- 사용자의 감정들의 뉘앙스를 충분하게 캡쳐하기 위해, EmpDG는 coarse-grained 대화 레벨 감정들과 fine-grained token-level 감정들을 같이 고려하여 응답을 생성한다.
- multi-resolution 감정들은 사용자의 뉘앙스의 감정 상태를 인지하여 응답 생성하는데 전제 조건이다.
- 게다가, 우리는 interactive adversarial learning framework을 제안하여, 사용자의 피드백을 신중하게 보완하고, 이의 두 iteractive discriminators은 대화 히스토리와 사용자의 감정들 모두에 관하여 생성된 반응이 감정을 지각하는지를 식별한다.
- 벤치마크 데이터세트 ED에서 수행하고, 광범위한 실험 결과들은 EmpDG의 효과성을 content quality와 empathy quality 모두에서 입증한다.
- 우리는 EmpDG가 SoTA 베이스라인보다 현저히 좋음을 알아낸다.
- 컨트리뷰션
- 우리는 multi-resolution adversarial 뉴럴 네트워크를 제안하고, 이는 대화 컨텍스트에서 multi-granularity emotion 요소를 고려한다.
- 사용자의 피드백으로부터 응답 생성을 유도하기 위해, 우리는 interactive adversarial learning 네트워크를 두개의 interactive discriminators와 함께 제안한다.
- 실험들은 EmpDG가 공감 대화 생성에서 content quality and empathy quality 측면에서 SoTA 달성함을 보여준다.
2 Related Work
- 우리의 연구는 인간-컴퓨터 상호 작용을 통한 공감 적 대화 생성과 일치하며, 이는 대화 중 반응에 감정을 할당하는 추가 단계를 피합니다 (Skowron et al., 2013).
- 여러 작업 (Lubis et al., 2018; Rashkin et al., 2018; Zhong et al., 2019; Wei et al., 2019; Shin et al., 2019; Chatterjee et al., 2019; Rashkin et al., 2019; Santhanam과 Shaikh, 2019; Lin et al., 2019; Zhong et al., 2020; Lin et al., 2020) 대화 모델을 더 공감하기 위해 시도했습니다.
- Rashkin은 기존 모델을 다양한 방식으로 결합하여 공감하는 반응을 생성합니다.
- Lin (2019)은 여러 전문가의 가능한 정서적 반응을 부드럽게 결합하여 최종 공감 반응을 생성합니다.
- Lin (2020)은 여러 목표를 가진 대규모 사전 훈련 된 언어 모델을 미세 조정합니다.
- 그러나 기존의 모든 접근 방식은 대화 맥락에서 단일 입자 감정만을 고려합니다.
- 이에 비해 EmpDG는 highly correlated coarse-grained emotional labels와 fine-grained emotional terms를 공동으로 고려합니다.
- 또한 새로운 상호 작용 적대 메커니즘을 통해 사용자 피드백의 효과를 명시 적으로 고려하므로 EmpDG가 대화에서 더 많은 감정 지각을 유발할 수 있습니다.
- 공감 적 대화 모델의 발전 외에도 DAILYDIALOG (Li et al., 2017b) 및 EMOTIONLINES (Hsu et al., 2018)와 같은 새로운 감정 표시 대화 말뭉치의 출현도이 연구 분야에 기여했습니다.
- 그러나 DAILYDIALOG의 발화의 5 %와 EMOTIONLINES의 발화의 16.68 %만이 다양한 감정적 레이블을 가지고 있으며 다른 것들은 "없음"또는 "행복한"레이블입니다.
- 데이터 분포가 매우 불균형하기 때문에 공감 대화 생성의 벤치 마크로 사용하기에 적합하지 않습니다.
- Rashkin은 더 풍부하고 균등하게 분산 된 감정 세트를 고려하고 청취자가 감정적 상황에 처한 화자에게 공감하는 방식으로 반응하는 EMPATHETIC-DIALOGUES 데이터 세트를 출시합니다.
- 또한 몇 가지 감정 어휘집(emotion lexicons) (Mohammad and Turney, 2013; Sedoc et al., 2020)도 텍스트에서 감정을 추적하는 데 효과적인 것으로 나타났습니다.
- 우리의 작업에서 우리는 EMPATHETIC-DIALOGUES 데이터 세트와 감정 어휘집(emotion lexicons)에 대한 공감 대화 생성 작업에 초점을 맞 춥니 다 (Mohammad and Turney, 2013).
- 우리 관련 작업의 두 번째 라인은 감성적 대화 생성으로, 감성 요인을 다루기 위해 점점 더 많은 관심을 받고 있습니다 (Zhou et al., 2018; Huang et al., 2018; Colombo et al., 2019).
- 감정 관련 대화 시스템에 대한 이전 연구는 주로 손으로 만든 기능에 크게 의존하는 규칙 기반 시스템에 중점을 두었습니다 (Prendinger and Ishizuka, 2005).
- 최근에는 표적 반응에서 감정 표현을 제어하기 위해 많은 신경 감정 대화 생성 접근법이 탐구되었습니다.
- 그러나 Li는 기존의 감성 대화 시스템이 주어진 특정 사용자 입력 감정에 따라 더 많은 감정이 풍부한 반응을 생성하는 것을 목표로하여 필연적으로 정서적 불일치 문제를 유발한다고 밝혔습니다.
- 우리의 연구는 또한 개방형 대화 생성 모델의 최근 발전과 일치합니다 (Vinyals and Le, 2015; Li et al., 2016b; Zhang et al., 2018b; Hancock et al., 2019; Li et al., 2020; Song et al., 2020).
- 이러한 대화 모델은 일반적으로 시퀀스 대 시퀀스 (Seq2Seq) (Sutskever et al., 2014) 방식을 채택합니다.
- 적대적 학습은 고품질 반응을 생성하는 데 상당한 성공을 거두지 만 (Goodfellow et al., 2014; Li et al., 2017a) 종종 discriminator saturates에 따라 gradient vanishing이 발생한다. (Gulrajani et al., 2017)
- 이 문제를 해결하기 위해 Gao et al. (2019) Wasserstein GAN (Arjovsky et al., 2017)을 활용하여 외부 사실과의 응답 일관성을 향상시킵니다.
- Romanov et al. (2019)은 세분화 된 텍스트 표현을위한 적대적 분해 방법을 제안합니다.
- 이전 작업과 달리 우리는 신경 대화 모델의 공감 품질을 향상시키기위한 적대적 접근 방식을 조사합니다.
3 Problem Formulation
- 우리의 방법의 세부설명 전에, 우리의 key notations과 concepts을 소개한다.
- multi-turn 대화 context은 두 참여자 사이의 M개의 발화로 구성된다.
- 우리는 각 대화에서 semantic context와 emotional context가 모두 존재한다고 가정한다.
- semantic context U은 발화들의 시퀀스를 의마한다. (예. U = [U1, ..., UM])
- Lin (2019)에 따라, 우리는 U을 긴 token sequence로 피고, CLS 토큰을 시작점에 넣는다.
- U = [CLS, x1, . . . , xm]
- x는 U1, U2, ... UM의 토큰들
- 대화 히스토리 개념
- 감정적인 context E는 다른 세분성을 가진 감정들을 고려한다.
- 예. E = [LAB, w1, ..., we]
- 여기서 wi는 semantic context U안에 있는 감정적인 단어들이고, LAB는 special emotion toekn으로 대화 컨텍스트의 감정 상태를 끌어내기 위해 사용된다.
- ERC에서 speaker 상태 개념
- 우리는 감정적인 단어를 external emotional vocabulary VE을 통하여 추출한다.
- delete 할 때 썼던 방법으로 추출해도 될 듯
- 여기서 x0=CLS, w0=LAB을 가리킨다.
- U와 E가 주어질 때 모델은 U,E를 조건으로 Y = {y1, ..., yn}을 생성하도록 초점을 맞춘다. (LM 방식의 확률 최대로)
4 EmpDG
- 이 섹션에서는, 우리는 multi-resolutional adversarial model을 제안한다. (EmpDG)
- The overview of EmpDG is illustrated in Figure 2.
- EmpDG에는 2가지 메인 요소가 있다.
- the empathetic generator and the interactive discriminators.
- 요약하기 위해, empathetic generator는 encoder-decoder 구조 기반으로 되고, 이는 Transformer로 실행된다.
- 인코딩 과정에서, semantic context와 multi-resolution emotional context가 인코딩된다.
- 반면에 디코더는 semantic context와 emotional context을 융합하여 응답을 생성합니다.
- generator의 공감을 강화시키기 위해, 우리는 두 개의 CNN-based discriminators을 디자인한다. (예. the semantic discriminator and the emotional discriminator)
- 학습 과정에서, 두 판별자는 추가적으로 사용자의 피드백과 상호작용한다. (다음 발화 및 다음 발화의 해당 감정 단어)
- discriminators을 Wasserstein-1을 최소화하도록 최적화함으로써, 우리는 학습 시그널로써 classification 결과들의 합을 사용하여 response generator가 좀 더 감정 인지를 하도록 독려할 수 있다.
4.1 Empathetic Generator
- 우리는 empathetic generator을 제안하여 response Y을 생성한다.
- 다중 세분화 감정들을 잘 모델링하기 위해서, 우리는 우리의 encoding-decdoing 프로세스를 개별적으로 3개의 페이즈로 나눈다.
- semantic understanding
- multi-resolution emotion perception
- empathetic response generation.
- Semantic Understanding
- ew는 word embedding, ep는 positional embedding, ed는 대화 state embedding이다.
- FFN에서 activation function은 ReLU이다.
= [
]
- 그냥 Transformer 통과시킨 것과 똑같은 듯
- Multi-resolution Emotion Perception
= [
]
- 다음은 그림에서 emotion identifying 부분이다.
- 여기서 loss하나가 생긴다.
- The final dialogue context representations C is the concatenation of the semantic context vectors Cu and emotional context vectors
- Empathetic Response Generation
4.2 Interactive Discriminators
- 응답이 공감적이고 상황에 맞는 방식으로 생성되는지 평가하기 위해 empathetic generator에 대한 추가 훈련 신호를 제공하는 두 가지 discriminators를 도입합니다.
- semantic discriminator는 생성된 응답에서 gold response까지의 semantic distance를 측정합니다.
- emotional discriminator는 생성된 응답이 충분히 공감하는지 여부를 지정합니다.
- 특히, 다음 응답 발화는 사용자의 함축적인 피드백 역할을 할 수 있으며 대상 응답에 대한 semantic와 emotional guidance을 제공 할 수 있습니다 (Zhang et al., 2018a).
- 따라서 우리는 다음 응답 발화를 사용자 semantic 피드백으로 간주하고, 포함된 감성 단어를 사용자 emotional 피드백으로 간주합니다.
- 훈련 과정에서 우리는 사용자 의미 피드백과 감정적 피드백을 활용하여 각각 공감 생성자의 내용과 공감 능력을 최적화합니다.
- 의미 판별 자와 감정 판별자는 모두 CNN (Convolutional Neural Network) 기반 분류기를 기반으로하므로 편의를 위해 먼저 semantic 판별자를 자세히 설명합니다.
- Semantic Discriminator
- 먼저, 우리는 LSTM 인코더로 generated response와 gold response을 인코딩하여 hidden representations을 만든다. (
,
)
- 우리는
을 negative vectors과 (생성 응답)
을 positive vectors으로 (gold 응답) 간주한다.
- 그리고난후, 2차원의 conv layer로 hidden vector
와 다른 width을 가지는 convolutional kernels와 곱한다 (∗ ∈ {N, P}).
- 각 kernel은 linguistic feature detector에 대응되는 것으로 multi-grained n-grams의 specific pattern을 검출한다.
- convolutional fitler
은 receptive filed의 hidden states을 하나의 feature로 매핑한다.
- negative 또는 positive 을 따라서 filter을 슬라이드하면, 새로운 featurese
=[...,
, ...]을 얻을 수 있다.
- 즉
에 10개 토큰이 있다고 하면 10xd 2차원일 것이다.
- 여기서
이 k x d 형태일 것이고 그러면 conv 결과는,
는 (10-k+1) 차원의 벡터가 될 것이다.
- Ws ∈ R(d×k) and bs ∈ R(k) are
learnable parameters in the convolutional filter. 여기서
의 차원은 궁금,
와
의 conv 연산결과와 차원이 같아야 하는 것임.
사이에서 maximal value가 fixed-size
가 된다.
- 그리고나서, 우리는 semantic feedback representation
와 dialogue context vector ˜x0,
사이에서 semantic classification Dsem(
) ∈ R을 얻는다.
- ˜x0: we use emotional context vector ˜w0 in emotional discriminator
은 여기서 위에서 말한 LSTM encoder의 last hidden state이다.
- 즉 f*는 conv의 결과 dF는 LSTM last hidden의 결과 x0은 Transformer CLS 결과이고 이걸더한 벡터를 하나의 실수(R)로 만듬.
- feedback이라함은 next 발화라고 생각하면 될듯
- Wasserstein-1 거리를 최소화하도록 한다.
- 따라서 여기서 D는 1-Lipschitz function가 된다고 한다. (참고)
- 판별 기 D의 1-Lipschitz 제약 조건을 충족하기 위해 판별 기 목적 함수에 대한 입력과 관련하여 D 출력의 기울기 패널티를 통합합니다.
- 그래디언트 패널티는 음의 표현
와 양의 표현
에서 샘플링 된 점 사이의 직선을 따라 균일하게 샘플링됩니다.
- 그런 다음 의미 식별기의 손실 함수는 다음과 같이 계산됩니다.
- Emotional Discriminator
- 감성 판별 자의 구조는 의미 판별 자의 구조와 동일합니다.
- 가장 큰 차이점은 감성 차별자는 생성 된 응답, 금 응답 및 사용자 피드백 (즉, 사용자 감성 피드백)의 감성 단어에 대해 수행한다는 것입니다.
- L^emo_d를 사용하여 정서적 차별 자의 상실 기능을 나타냅니다.
- 총 손실 함수는 L^sem_d과 L^emo_d을 더한 것이다.
4.3 Training
- 훈련을 시작할 때 공감 생성기를 사전 훈련하기 위해 MLE (최대 가능성 추정)를 사용합니다 (식 15).
- 사전 훈련 된 판별자는 공감 생성기를 조정하는 데 효과적이므로 (Yu et al., 2017), 대화 형 판별 자도 사전 훈련합니다.
- 사전 훈련 후, 공감 생성기와 대화 형 판별자는 교대로 훈련됩니다.
5 Experiment
5.1 Dataset (번역)
- Amazon Mechanical Turk 플랫폼에서 수집 한 대규모 다중 회전 공감 대화 데이터 세트 인 EMPATHETICDIALOGUES 데이터 세트 (Rashkin et al., 2019)에서 EmpDG를 평가하며 약 25,000 개의 일대일 오픈 도메인 대화를 포함합니다.
- 특히 Rashkin et al. (2019) 두 명의 크라우드 워커 (연사와 청취자)를 페어링합니다. 연사는 개인적인 감정 상황에 대해 이야기하도록 요청받습니다.
- 청취자는 화자가 말하는 것을 통해 근본적인 감정을 추론하고 공감 적으로 반응합니다.
- 이 데이터 세트는 거친 대화 수준의 감정 역할을하는 32 개의 고르게 분산 된 감정 레이블을 제공합니다.
- NRC Emotion Lexicons (NRC) (Mohammad and Turney, 2013)를 사용하여 대화 컨텍스트에서 감정적 인 단어를 추출하여 세분화 된 토큰 수준의 감정을 수행합니다.
- 훈련 데이터와 NRC 간의 언어 격차를 보완하기 위해 NRC에 포함되지 않은 모든 형용사를 NRC 감성 단어와 함께 추출합니다.
- 우리는 대화 맥락과 세분화 된 정서적 맥락을 시스템 입력으로 취급합니다. 대상 출력은 거친 감정 레이블과 청취자의 반응입니다.
- 모델의 경우 학습 절차에서 사용자 피드백으로 대상 응답의 다음 발화를 예약합니다.
- 마지막으로 훈련 세트에서 20,724 개의 대화, 검증 세트에서 2,972 개, 테스트 세트에서 2,713 개의 대화를 얻습니다.
5.2 Evaluation Methods
- Automatic Evaluation.
- Liu et al. (2016) BLEU는 응답 품질에 대한 인간의 판단과 약한 상관 관계가 있기 때문에 대화 생성 문제를 평가하는 데 부적절 할 수 있음을 확인했습니다. METEOR (Banerjee and Lavie, 2005)와 ROUGE (Lin, 2004)는 같은 문제를 가지고 있습니다.
- 따라서 이전의 감정 관련 연구에 따라 EmpDG의 성능을 자동으로 평가하기 위해 세 가지 평가 메트릭을 사용합니다.
- Perplexity (Serban et al., 2015)는 세대 모델의 높은 수준의 일반 품질을 측정합니다.
- Distinct-1 및 Distinct-2 (Li et al., 2016a)는 생성 된 모든 결과에서 고유한 유니 그램 / 바이그램의 비율을 측정하여 다양성을 나타냅니다.
- 감성 수준에서 모델을 평가하기 위해 감정 정확도를 공감 생성기에 의해 예측 된 감정 레이블과 지상 진실 감정 레이블 간의 합의로 채택합니다.
- Human Evaluation.
- 콘텐츠 및 공감 관점에서 모델 성능을 정 성적으로 검사하기 위해 널리 채택 된 인간 평가도 수행합니다. 우리는 우리 모델과 기준선에서 무작위로 100 개의 대화와 그에 상응하는 세대를 샘플링합니다.
- 다른 모델에서 생성 된 응답을 평가하기 위해 타사에서 3 명의 전문 어노 테이터를 모집합니다.
- 모든 모델은 Empathy, Relevance and Fluency (Rashkin et al., 2019; Lin et al., 2019)의 3 가지 메트릭으로 평가됩니다.
- Empathy은 듣는 사람의 반응이 말하는 사람의 감정을 이해하는지 여부를 측정합니다.
- Relevance은 생성 된 응답이 대화 컨텍스트와 관련이 있는지 여부를 평가합니다.
- Fluency은 생성 된 응답의 문법적 정확성과 가독성을 측정합니다.
- 각 측정 항목은 5 단계로 평가되며 1, 3, 5는 각각 허용되지 않음, 보통, 우수한 성능을 나타냅니다.
5.3 Baselines
- Transformer (Vaswani et al., 2017)
- EmoPrepend-1 (Rashkin et al., 2019)
- MoEL (Lin et al., 2019)
5.4 Implementation Details
- Pytorch (Paszke et al., 2017)
- Adam (Kingma and Ba, 2015) with a mini-batch size of 16
- pre-trained Glove vectors (Pennington et al., 2014) to initialize the word embedding.
- During the training of empathetic generator, the learning rate is initialled as 0.0001 and we vary the learning rate following Vaswani et al. (2017).
- Early stopping is applied when training.
- When inference, we set the maximum decoding step as 30.
- All common hyperparameters are the same as the work in (Lin et al., 2019).
- During the interactive adversarial training, D-steps (for two interactive discriminators) is set to 1 and G-steps (for empathetic generator) is set to 5.
- Hyper-parameter β in interactive discriminators is set to 0.1.
- Meanwhile, we employ the teacher-forcing technique from Li et al. (2017a) to increase adversarial training efficiency
5.5 Performance Comparisons
- 얼마나 감정이 생성된 응답에서 잘 표현되는지 인사이트를 얻기 위해, 우리는 테이블 4에서 대화 컨텍스트의 cross-attention weights을 (empathetic generator의 encoder와 decoder사이의) 설명하는 2가지 예시를 본다.
- 첫 번째 케이스를 보면, 추가적인 multi-resolution emotional information의 attention이 주어지면, EmpDG의 응답은 더욱 유익한 empathetic을 보여준다. (good and incident와 같은)
- 2 번째 케이스를 보면, MoEL은 감정적인 단어들에 (예. scary) 대해 주요 attention을 하였지만, 생성된 응답의 content는 부적절하고, 이는 충분히 공감하지 못했기 때문이다.
- EmpDG은 emotional 표현보다 나은 더욱 contentful response을 생성한다.
- 예로 sorry, happened들은 user의 피드백과 관련이있다.
- 우리는 adversarial training에서 user feedback을 고려하면, 이는 모델이 더욱 적절한 empathetic 반응을 생성할 수 있다고 결론지을 수 있다.
- 전체적으로, multi-resolution 메커니즘과 interactive discriminators의 효과성은 어느정도 입증되었다.
5.7 Case Study
- 표 5는 EmpDG 및 다른 베이스라인 모델에서 생성된 두 가지 예를 보여줍니다.
- 첫 번째 경우 EmpDG는 "미안하다", "희망", "가져온다", "좋아요"라는 단어로 응답하여 적절한 "희망적인"감정으로 일관되고 유익한 응답을 생성합니다.
- 반면 베이스라인선은 부정적인 감정을 이해하지 못하거나 적절한 내용을 표현하지 못합니다.
- 두 번째 경우에서 EmpDG는 컨텍스트 관련 단어 ( "do", "great") 및 감정 등급 단어 ( "amazing")를 포함하는 가장 컨텍스트 일관성있는 응답을 생성합니다.
6 Conclusion
- 이 논문에서, 우리는 multi-resolution interactive empathetic 대화 모델 EmpDG을 제안하여 조금더 공감을 인지하는 대화 생성을 모델링한다.
- 두 개 요소들은 공감 응답 생성의 성능을 향상시킨다.
- multi-resolution empathetic generator은 coarse-grained dialogue-level과 fine-grained token-level emotions을 결합하여 대화에서 감정표현과 좀 더 감정 인지를 깨닫도록 캡쳐한다.
- 두 interactive discriminators은 user feedback을 추가적인 context로 간주하여 생성된 반응과 상호작용하고 대화 컨텍스트는 공감 대화 생성의 long-term goal을 옵티파이즈한다.
- automatic과 manual evaluation은 EmpDG가 content뿐만 아니라 empathy에서도 적절한 반응을 생성할 수 있음을 보여준다.
- 이 설정에 대한 몇 가지 향후 방향이 있습니다.
- 첫 째로, EmpDG의 잠재적인 확장은 external knowledge와 결합하여 감정인지를 도우는 것이다. (user porifle 혹은 commonsense knowledge)
- 둘 째로, 우리의 세팅에서, emotional feedback과 semantic feedback은 분리되어있다. 근데 semantic과 emotional 피드백을 결합하는 모델링이 좋을 수 있고 우리는 미래의 연구로 남겨둔다.
Reference
댓글
댓글 쓰기