◼️ Comment

이 논문은 제목이 흥미로워 적용한 스킬들이 도움될 것 같아 읽어보았다.
크게 2가지 기술을 기억하면 될텐데, Dual learning과 Curriculum learning이다.

이 두 개념은 이 논문에서 처음 제안한 것은 아니고 가끔 봤던 기술들이지만 논문의 요지는 감정컨트롤 생성하는데 적용했다는 것이다.

기술전에, 테스크를 정리하자면

(q, 감정) --> (r, 감정) 이렇게 된 중국어 데이트세트이다.
즉 다른 감정 대화 데이터들과 다른 점은, 싱글턴이고 query에 감정 레이블이 주어진 경우이다.
물론 기존의 멀티턴 데이터에서도 싱글턴으로 샘플링해서 구축할 수는 있겠다.

강화 학습

보통 이런 대화모델 학습할 때, q->r 생성후 r을 discriminator에 통과시켜 backpropagation으로 학습할 수 있다.
하지만 이때, r과 discriminator 사이가 미분이 되어야하므로 soft embedding 등의 기법을 사용해볼 수 있다.
또 다른 방법으로는 강화학습으로 학습할 수가 있고 이 논문에서는 강화학습을 사용한 것이다.
즉, 여기서 reward을 선정해야된다.
먼저 감정 discriminator을 학습시킨다.
식 2,3: 감정 discriminator을 통해 레이블 감정이라고 판단하는 확률이 하나의 reward가 되고 다른 하나는 문장에 감정에 해당하는 단어가 얼마나 있는지가 된다.
여기서 문장에 감정 단어가 얼마나 있는지를 판단하는 것은 데이터 구성이 그렇게 되어있는것인가? 라는 의문이 있긴하다.
식 4: 생성된 response로부터 query을 재구성하는 확률을 reward로 사용한다. 이 reward는 generic한 반응등을 회피하려고 하는 것이다.

기술1) Dual Learning

Dual Learning은 q->r 뿐아니라 r->q로 고려한다는 의미로 위에서 말한 것을 반대로 한다는 것이다.
즉 r을 입력으로 q를 생성해서 강화학습을 하겠다는 것이다.
근데 이 backward 모델을 학습하면 무슨의미가 있는지 생각해보면 (본 목적인) forward 모델을 학습할 때 (식 4) reward로 backward 모델을 쓰기 때문에 연관성이 생기는 것이다.
추가적으로 알고리즘 1을 보면 강화학습 후, MLE로 학습을 더해준다.

기술2) Curriculum Learning

이것은 쉬운 샘플부터 어려운 샘플 순으로 학습한다는 개념이다.
그럼 쉽고 어렵고는 무엇으로 판단하는지가 핵심인데, 여기서는 감정 분류기로 정답 감정의 확률이 낮게 나오는 것이 어려운 샘플로 판단한다.
Neutral을 쉬운 샘플로 취급하는 방법은 실제로 성능이 낮았다고 하고 생각해보면 다른 방법도 있을 거 같은데...?

아무튼 위의 스킬들로 모델을 학습하면 성능이 좋다고 한다.

0 Abstract

Emotion-controllable response generation은 매력적이고 가치있는 테스크로 open-domain 대화를 좀 더 공감적이고 매력있게 만드는데 목적이 있다.
그러나, content 일관성에 대한 추가적인 고려가 부족하기 때문에, 일반적인 생성 테스크 응답의 흔한 문제인 safe response가 강화되었다.
게다가, query emotions은 query와 response 사이의 관게를 모델링하는 것에 도움을 줄 수 있고, 이들은 간단히 이전의 모델들에서 무시되었고, 이는 더 나아가 coherence을 해친다.
이러한 문제들을 줄이기 위해, 우리는 novel framework인 Curriculum Dual learning (CDL)을 제안하고, 이는 emotion-controllabel response generation으로 확장시켜서 dual task가 감정적인 반응과 감정적인 query들을 교대로 생성하도록 한다.
CDL은 emotion과 content에 관한 두 개의 rewards을 활용하여 duality을 향상시킨다.
추가적으로, curriculum learning을 적용하여 다양한 감정들을 표현하는 어려움에 따라 점진적으로 높은 품질의 response을 생성하도록 한다.
실험적인 결과들은 CDL이 coherence, diversity 그리고 감정 요소들간의 관계들에서 baselines보다 높은 성능을 보여준다.

1 Introduction

대화 시스템에 감정들을 넣으면 대화 에이전트가 좀 더 사람다워지고 사람과 기계사이의 상호작용에 도움이 될 수 있다. (Prendinger and Ishizuka, 2005; Prendinger et al., 2005; Partala and Surakka, 2004)
몇 개의 실제세계 시나리오에서, 우리는 커스터마이즈가 필요하고 에이전트의 감정을 컨트롤 해서 에이전트가 구체적인 것을 표현해야한다.
예를 들어, 심리상담에서, 에이전트는 슬픔을 표현해서 공감을 보여주고 환자에게 격려하여 행복을 전달해야한다.
최근에, emotional chatting machine (ECM)이라 불리는 프레임워크는 감정 요소를 통제된 방법으로 다루기 위한 목적이었고, 이는 구체적인 감정을 가지는 response을 생성하는데 집중한다. (테이블1의 예제1)

이 논문에서 다루는 것은 멀티턴이 아닌 싱글턴인 듯

emotion-controllable response generation 연구 영역에서, ECM과 그것의 연속적인 방법들은 주로 주어진 감정의 카테고리를 벡터로 표현하고, 이를 decoding steps에 추가하여 반응 생성의 과정에 영향을 주고, 이는 safe response 문제를 악화시킨다.
응답 생성 테스크에서, safe response는 악명이 높고, 모델은 generic한 것을 생성하는 경향이 있으나 의미없는 response들이다. (마치 Thank you, I don't know, Yes 등과 같은)
emotion 요소의 제약 때문에, 적절한 response의 규모는 줄어들고 모델은 어떠한 query든지 감정 카테고리에서 자주 발생하는 응답에 매칭할 가능성이 높다.

즉, "Disgust"가 주어지면, 반응은 아마 "You are so bad"이 일반적으로 될 것이고 "Happy"가 주어지면 "Haha, you too"가 될 것이다. (테이블1의 예제2)

직관적으로, 좋은 query와 response의 쌍을 위해, 그들은 긴밀한 관계를 가져야하며, 동일한 품질을 가져야 한다.

그리고나서, query-to-response 매핑과 response-to-query 매핑은 쉬워야하고 자연스러워야 한다.

반면에, content level과 emotion level이아닌 back-generation을 통하여 original query에 도달하는 safe response은 어렵다.
동시에, 특별히 noisy하고 퀄리티가 일정하지 않는 데이터세트에서 다양한 감정들을 생성하는 어렴움이 있다.
그래서, 우리는 backward process을 통한 피드백을 기반으로 response을 평가할 수 있게해서 coherence을 향상시키고 (Zhang et al., 2018; Cui et al., 2019; Luo et al., 2019b) easy to hard 데이터로 배우도록 시도해서 적절하고 감정이 풍부한 response을 생성한다.
이 논문에서, 우리는 새로운 프레임워크인 emotion-controllable response 생성으로 Curriculum Dual Learning (CDL)으로 이름을 지었다.
우리는 감정을 가지는 response와 query 생성을 학습을 dual task로 취하고 duality를 사용하여 그들사이를 mutual relation 모델링한다.
forward와 backward 모델들은 reinforcement learning (RL)으로 교대로 학습이 된다.

Rewards은 여기서 emotion 표현과 content 일관성을 격려하도록 디자인되었다.

구체적으로 감정 표현은 명확하거나 (명백한 감정 단어들로 구체화) 함축적이어야 한다 (전체 문장의 구성에 반영됨).

예를 들어, "I am happy to meet her again"은 명확한 단어인 "happy"가 있으나, "It seems like I have eaten the honey"은 함축적이지만, happiness은 우리가 문장 전체를 보면 알 수 있다.
이러한 특징들을 기반으로, 우리는 문장의 감정 분류 정확도와 감정 단어들의 비율을 피드백드로간주하여 명확하고 함축적인 감정들을 각각 사용한다.
즉 감정 분류 정확도가 전체 문장을 본다는 개념으로 접근한 듯

content 일관성을 위해, 우리는 reconstruction 확률을 coherence의 측정치로 적용한다. (섹션 3.1)
게다가, noisy하고 퀄리티가 균일하지 못한 데이터세트에서 여러 감정들의 샘플들을 활용하기 위해, 우리는 curriculum learning (section 3.2)을 우리의 dual learning framework에 결합한다.
automatic과 human evaluation에 대한 실험 결과들은 query와 emotion 카테고리가 주어졌을 때, 우리의 CDL이 원하는 감정을 잘표현할 뿐 아니라 response 정보성과 query에 대한 coherent을 잘 유지한다.

2 Background

emotion-controllable response 생성을 위해, query q와 emotion 카테고리 $e_r$ 가 주어졌을 때, 목표는 response r'을 생성하고 이는 의미있고 원하는 감정에 일치해야한다.
Emotional Chatting Machine (ECM)은 감정 요소를 3개의 새로운 메커니즘을 이용하여 설명한다: 1) Emotion Category Embedding, 2) Internal Memory, and 3) External Memory.
구체적으로,

1) Emotion Category Embedding 모델은 감정 카테고리로 임베딩함으로써 감정 표현의 high-level 요약을 모델링하고 각 디코팅 스텝에서 입력에 해당 임베딩을 concat한다.
2) Internal Memory은 함죽적인 내부의 감정 상태의 변화를 gates을 read와 write 을 하면서 캡쳐한다.
3) External memory는 감정 명확성을 표현하기위해 외부의 감정 사전을 적용하고 마침내 다른 생성 확률로 감정과 일반적인 단어들을 할당한다.

The loss function on one training sample (q, r) (q = q1, q2, ..., qn, r = r1, r2, ..., rm) is defined as:

$\textbf{o}_t$ 와 $\textbf{p}_t$ 는 예측 token 분포와 gold 분포이다.
αt는 선택한 감정 단어 혹은 generic word의 분포이고, $q_t$ ∈ {0, 1}는 r에서의 true choice이다.

αt는 rt가 감정 단어일 확률을 말하는 것인가? 그리고 그것이 실제로 감정 단어이면 qt가 1로 2번째 loss term을 계산하는 것?

$M^{I}_{e,m}$ 은 마지막 step m에서 internal emotion state이다.

첫 번째 term은 cross-entropy loss이고, 두 번째 term은 감정 또는 generic 단어를 선택할 확률로 supervise하는데 사용되며, 마지막 term은 생성이 완료되면 내부 감정 상태가 완전히 표현되었는지 확인하는 데 사용됩니다.

3 CDL for Emotion-Controllable Response Generation

우리의 CDL 방법은 dual learning (DL)과 curriculum learning (CL)의 조합이기 때문에, 우리는 먼저 DL의 주요요소인 states, actions, policy, reward을 설명하고 curriculum learning의 타당성을 소개한다.
마지막으로 우리는 CDL의 알고리즘을 설명한다.
Since our CDL method is a combination of dual learning (DL) and curriculum learning (CL), we first present the main components of DL, including states, actions, policy and reward, then introduce the plausibility of curriculum learning. Finally, we describe the training algorithm of CDL.

3.1 DL Architecture

The architecture of DL is illustrated in Figure 1.

forward model $M_f$ 와 backward model 둘 다 독립적인 파라미터들을 가지는 ECMs이고 maximum likelihood estimation (MLE)에 따라 초기화 된다.
CLS은 pre-trained classifier로 함축적인 감정 표현의 점수를 계산한다.
일반적으로, $M_f$ 은 query q와 감정 카테고리 $e_r$ 가 주어졌을 떄 response r'을 생성하고나서 CLS으로부터의 $R_e$ 와 $M_b$ 으로부터의 $R_c$ 로 구성된 reward R을 획득한다.
유사하게, Mb은 response r와 감정 카테고리 query q' $e_q$ 가 주어졌을 때, query q'을 생성하고 CLS와 $M_f$ 로부터 $R_e$ 와 $R_c$ 로 구성된 reward R을 획득한다.
이러한 두 모델들은 reinforcement learning (RL)을 통하여 교대로 학습이 된다.
구체적으로, action은 생성할 dialogue response이다.
action space은 임의의 길이를 가지는 시퀀스들이 생성될 수 있기 때문에 무한하다.
state는 query로 표시되며, 이는 인코더를 통해 vector representation으로 변환된다.
policy는 GRU 인코더 디코더의 형태이며 그것의 파라미터들도 정의된다.

사실 RL로 LM 학습할 때, 이 부분이 핵심임

Li et al. (2016c); Zhang et al. (2018)을 따라서, 우리는 policy의 stochastic representation을 사용하며, 즉 주어진 states에서 actions에 해당하는 확률 분포를 사용한다.
content consistency와 emotion expression 둘다를 위해, 우리는 두 개의 reward을 소새하고 $M_f$ 와 $M_b$ 을 학습하는데 사용한다.
$M_f$ 모델을 위한 두 rewards의 정의는 다음과 같다.
The definition of the two rewards for model $M_f$ is introduced as follows1 .
Reward for emotion expression

함축적인 감정 표현을 위해, straightforward 방법은 pre-trained classifier CLS로 생성된 response r'의 감정 카테고리를 측정하고 classification accuracy을 reward로 사용하는 것이다.

$\varphi$ 은 CLS의 파라미터이고, 학습되면서 수정된다. (고정 X)
문장이 얼마나 감정을 잘 표현하는지를 판단하는 개념임

정확한 감정 표현을 위한 reward은 다음과 같이 수식화된다.

n(w_er)은 카테고리 $e_r$ 에 속하는 감정 단어들의 수이고 |r'|은 r'의 길이이다.
즉 감정 단어들을 얼마나 가지고 있는지를 판단하는 개념임

그리고 나서, emotion reward는 다음과 같다.

$\lambda$ 은 명시적과 함축적인 rewards의 관계적인 중요성을 컨트롤하는 것이다.

Reward for content consistency

만약 response가 일관되고 query와 연관된다면, back generation을 통해 query을 reproduce하기 쉬울 것이다.
Inspired by Zhang et al. (2018); Cui et al. (2019); Luo et al. (2019b), 우리는 r'을 조건으로하여 q을 재구성하여 일관성을 측정한다.
수식적으로 content consistency reward는 다음과 같다.

η은 backward model $M_b$ 의 파라미터이고, $M_f$ 을 학습하면서 수정이 된다.
조건으로 r'와 e_q가(실제 label 말하는 것일 듯) 들어가게 되고 실제로 이것을 계산할 때, LM으로 나온 gold token prob의 곱으로 될 듯?

Overall reward

We use the weighted sum of the above two rewards as the final reward:

3.2 Curriculum Plausibility

직관적으로, 적은 noisy와 동일한 퀄리티 데이터세트에서 학습하는 것이 간단하지만, 이 테스크에서는 데이터는 여러 감정들이 섞여 있기 때문에 본질적으로 복잡하다.
데이터를 더 잘 활용하기 위해, 우리는 curriculum learning을 dual learning 프레임워크와 결합한다.
(Bengio et al., 2009) curriculum learning의 핵심은 복잡성을 평가하는 것을 설계하여 모델에게 쉬운 샘플을 먼저 제공하고 점진적으로 어려움을 증가시키는 것이다.
curriculum은 특정 순위 표준에 따라서 학습 세트에 있는 각 샘플을 정렬을 통해 재구성한다.
여기서는 감정 분류의 정확도가 높은 쉬운 것에서 어려운 것으로 샘플을 재정렬합니다.
다른 직관적인 방법은 감정이 없는 샘플들을 (Neutral로 레이블링된) 먼저 넣고나서 감정적인 것을 넣는 것이다. 그러나 우리의 실험들에서 성능이 낮았다.
학습 스텝 t에서 정렬된 전체 훈련 샘플의 top f(t) 부분에서 훈련 샘플의 배치를 얻습니다.
Following Platanios et al. (2019) and Cai et al. (2020), we define the function f(t) as:

$c^{2}_{0}$ 은 0.01으로 세팅되고, 이는 모델이 학습 샘플들의 쉬운것 1%을 사용하여 학습을 시작한다는 의미이다.
T는 hyper-parameter로 curriculum learning의 기간을 표현한다. (curriculum length)
학습 프로세스의 초기 스테이지에서는, 모델은 curriculum의 쉬운 부분의 샘플들로부터 학습이되고, 그것은 오직 하나의 감정 카테고리를 가지고 있다.
커리큘럼이 발전함에 따라 더 다양한 범주의 복잡한 훈련 샘플이 나타나기 때문에 난이도가 점차 증가한다.
T batches가 학습이 된 후, 각 배치의 학습 샘플은 전체 학습 세트에서 가져오는데, 이는 conventional 학습 과정이랑 같다.
정확한 수식 배경은 모르겠지만..

직관적으로 t가 step인데 step이 지날 수록 f(t)가 커지는 개념으로 정렬된 샘플들에서 어려운 샘플들로 간다는 것이다.
여기서 curriculum learning 기간인 T가 길수록 t의 증가함에 따라 움직이는 batch가 작아진다. 즉 천천히 진행이 된다는 의미이다.
$c^{2}_{0}$ 은 앞에서 말햇듯이, 몇%을 사용할지에 대한 초기값 개념이다.

3.3 Training of CDL

Optimization

우리는 policy gradient method로 더 큰 기대 reward을 이끌도록 파라미터들을 찾는다.
forward learning process에서, 생성 response r'의 기대 reward와 예측 gradient는 다음과 같이 정의된다.

$\theta$ 는 forward model $M_f$ 의 파라미터이다.
$R'_{(q,r')}= R_{(q,r')}-b_f$ 에서 $b_f$ 는 $M_f$ 에 대한 greedy search decoding을 위한 baseline으로 estimation의 분산을 줄이는데 사용된다.
마찬가지로, backward learning process에서 생성된 query q'의 기대 reward와 해당하는 예상 gradient는 다음과 같다.

η은 backward model $M_b$ 의 파라미터이다.
$R'_{(q,q')}= R_{(q,q')}-b_b$ 에서 $b_b$ 는 $M_b$ 의 greedy search decoding 방법을 위한 baseline 값이다.

즉 다시 말해서, 식(6)으로 forward 모델의 reward을 구한다.

그것의 기댓값이 식(8)로 표현을 하는데 이 reward을 최대화 해야한다.
다시말해 -식(8)을 최소화 하므로 -식(8)을 loss는 아니지만 비슷한 개념으로 생각하면 되는데, 여기서 reward라는게 미분도 안될뿐더러 식(8)은 기댓값이기 때문에 샘플값과는 조금 다르다.
강화학습에서는 Expect(reward)을 최대화하는 것을 일반 loss 최소화하는 것처럼 하지 않고 식(9)처럼 reward*policy미분을 이용해서 업데이트한다. (이유는 강화학습 공부할 때, 수식적으로 전개하면 reward*policy가 objective가 됨)
즉 정리하면 -reward*p(theta)가 우리가 일반 학습하는 loss로 생각하고 최소화하도록 optimization하면 된다.
근데 여기서 분산을 줄이기 위해 REINFORCEMENT 알고리즘처럼 baseline을 빼준다.
baseline은 어떤 값을 사용하지? 전체 샘플 혹은 배치의 평균 reward인가?

Teacher Forcing (번역)

Mf와 Mb가 이중 작업의 보상만으로 훈련되면 높은 보상을 얻을 수있는 예상치 못한 방법을 찾을 수 있지만 생성 된 텍스트의 유창함이나 가독성을 보장하지 못하기 때문에 훈련 과정이 쉽게 무너질 수 있습니다 (Ranzato et al. , 2015; Pasunuru 및 Bansal, 2018; Luo et al., 2019b).
훈련 과정을 안정화하기 위해 Eq. 9 또는 11에서 Mf 또는 Mb는 실제 query-response쌍에 노출되며 Teacher Forcing (Li et al., 2017; Lamb et al., 2016)이라고도하는 MLE를 통해 훈련됩니다.
CDL의 훈련 절차는 알고리즘 1에 요약되어 있습니다.
먼저 MLE를 사용하여 훈련 세트의 쿼리-응답 쌍과 감정 레이블로 Mf, Mb 및 CLS를 사전 훈련합니다.
사전 훈련 단계가 끝나면 섹션 3.2의 순위 표준에 따라 훈련 세트의 샘플을 정렬합니다.
forward 학습 프로세스의 경우 순위는 응답을 기반으로하고, backward 학습 프로세스의 경우 쿼리를 기반으로합니다.
그런 다음 각 방향에 대해 두 개의 정렬 된 훈련 세트 Df 및 Db를 얻을 수 있습니다.
마지막으로 Mf와 Mb는 rewards과 regularization of Teacher Forcing로 최적화됩니다.

4 Experiments

In this section, we conduct experiments to evaluate our proposed method.
우리는 먼저 몇 가지 실험적인 세팅으로 데이터세트, 하이퍼파라미터, baselinses, 평가 방법들을 소개한다.
그리고나서, 우리는 automatic과 human evaluations의 결과들을 설명한다.
마침내, 우리는 다른 모델들에의해 생성된 몇 가지 케이스들을 보여주고 우리의 방법에대한 분석을 한다.

4.1 Dataset (중국어 데이터세트임)

우리는 Zhou가 수집 한 데이터 세트의 확장 버전 인 NLPCC 2017 Emotional Conversation Generation Challenge, 즉 NLPCC2017 Dataset의 말뭉치에 우리의 방법을 적용합니다.
제공된 데이터 세트는 이미 중국어 단어로 분할되어 있습니다.
100 만 개가 넘는 쿼리-응답 쌍이 있으며, 쿼리와 응답 모두 "행복", "화난", "혐오", "슬픔", "좋아요"및 "중립"중 하나의 감정 태그로 레이블이 지정됩니다.
데이터 세트는 단어로 토큰화되었습니다.
전체 데이터 세트를 1,105,487 / 11,720 / 2,000의 숫자로 훈련 / 검증 / 테스트 세트로 무작위로 분할했습니다.
학습 세트의 자세한 통계는 표 2에 나와 있습니다.

4.2 Hyper-parameter Settings (번역)

Mf 및 Mb의 설정은 원본 ECM 논문 (Zhou et al., 2018a)의 기본 구현 세부 정보를 따릅니다.
여기서 인코더와 디코더는 각 계층에 대해 256 개의 숨겨진 셀이있는 2 계층 GRU 구조, 단어의 임베딩 크기 및 감정 카테고리는 100으로 설정되고 어휘 크기는 40,000으로 제한됩니다.
최소 및 최대 문장 길이는 각각 3과 30으로 설정됩니다.
TextCNN 기반 분류기 (Kim, 2014)를 훈련하고 분류 정확도는 테스트 세트에서 65.6 %에 도달하여 (Zhou et al., 2018a) 및 (Song et al., 2019)에서 사용하는 것과 유사한 성능을 보입니다.
커리큘럼 이중 학습 이전에 모델 Mf 및 Mb는 MLE를 통해 10 에포크를 사전 훈련합니다.
최적화 프로그램은 Adam (Kingma and Ba, 2015)이며 사전 훈련의 경우 0.05 초기 학습률과 커리큘럼 이중 학습의 경우 10-5입니다.
배치 크기는 64로 설정됩니다. λ in Eq. 4는 0.5, γ입니다. 6은 1이고 T는 Eq. 7은 10 만입니다.
커리큘럼 이중 학습 중에는 검증 세트의 성능이 개선되지 않을 때까지 훈련이 실행됩니다.

4.3 Baselines

We compare our approach with four representative baselines:

(1) S2S-Attn: The Seq2Seq model with attention mechanism as in Shang et al. (2015).
(2) EmoEmb: A Seq2Seq variant which takes the embedding of emotion categories as additional input at each decoding position (Ficler and Goldberg, 2017; Li et al., 2016b).
(3) EmoDS: An emotional dialogue system with lexicon-based attention and a word-based classifier (Song et al., 2019).
(4) ECM: Emotional Chatting Machine proposed by Zhou et al. (2018a).

Additionally, we also conduct ablation study to better analyze our method as follows:

(5) CDLemo: CDL with emotion reward only;
(6) CDLcon: CDL with content reward only, which is similar to the work of Zhang et al. (2018);
(7) CDL-DL: CDL with both rewards but without curriculum learning.

4.4 Evaluation Measures

우리의 결과들을 더 잘 평가하기 위해, 정량적 metrics와 사람 판단을 모두 사용한다.

4.4.1 Automatic Metrics

For automatic evaluation, we mainly choose four kinds of metrics:

1) Embedding scores (Average, Greedy, Extrema and Coherence) (Liu et al., 2016; Xu et al., 2018);
2) BLEU scores (Papineni et al., 2002) in 0 to 1 scale;
3) Dist-1, Dist-2 (Li et al., 2016a) and
4) Emotion-acc, Emotion-word (Zhou et al., 2018a; Song et al., 2019).

Embedding scores와 BLEU scores는 생성된 response을 content relevance 관점에서의 측정에 사용된다.
반면에 Dist-1와 Dist-2는 responses의 다양성을 평가하는데 사용된다.
Emotion-acc and Emotion-word은 감정 표현을 테스트하는데 활용된다.

구체적으로, Emo-acc는 ground truth labels와 이전에 훈련된 TextCNN 분류기를 통해 predicted labels 사이의 동의율을 말하는 것이다.
Emo-word는 생성된 응답이 대응하는 emotion words을 얼마나 포함하는지를 말하는 것이다.
근데 생각해보니, reward 계산할 때나 여기서나 문장에서 감정단어들이 뭔지 태깅이 되어있는 데이터세트인가 보네?

테스트세트에서는 multi-emotion 정답이 없기 때문에, 우리는 오직 ground truth로 레이블링된 감정 e와 label e가 주어졋을떄의 생성된 응답 사이만을 계산한다.

인퍼런스할때, query의 감정표현의 정답을 알려주고 응답을 생성하는 것인가?

4.4.2 Human Evaluation Settings

Zhou et al. (2018a); Song et al. (2019)에서 영감받아, 사람 평가는 생성된 응답들의 퀄리티를 더 잘 분석하기위해 실행된다.
먼저 우리는 랜덤으로 200개의 쿼리들을 테스트세트에서 샘플링한다.
S2S-Attn을 제외한 각 방법에서, 그들은 6개 응답카테고리에 해당하는 6개 응답들을 생성하고 S2S-Attn은 각 쿼리들에 대해 beam search decoding으로 top 6개 응답들을 생성한다.
그리고나서, 우리는 triples (query, response, emotion)을 3명의 사람 어노테이터에게 순서없이 보내고 그들에게 각 response을 content level과 emotion level을 독립적으로 평가를 요청한다.
content와 emotion은 3-scale rating (0, 1, 2)로 측정되고 2-scale rating은 (0, 1)으로 측정이된다.
content level은 response가 유창하고 일관성있고 쿼리에 대해 의미있는지를 평가하고 emotion level 평가는 response가 원하느 감정을 드러내는지를 결정한다.

4.5 Experimental Results

Now we demonstrate our experimental results on both automatic evaluation and human evaluation.
결과는 가볍게만 번역으로 살펴보자

4.5.1 Automatic Evaluation Results

자동 결과는 표 3에 나와 있습니다.
맨 위 부분은 모든 기준 모델의 결과이며 CDL이 모든 메트릭 (t-test, p-value <0.05)에서 다른 방법보다 성능이 우수하다는 것을 알 수 있습니다.
Coherence, Emotion-acc 및 Emotion-word에 대한 CDL의 개선은 중요하여 콘텐츠 일관성과 감정 표현을 동시에 향상시킬 수 있음을 나타냅니다.
EmoDS와 ECM은 둘 다 감정 요인에 더 많은주의를 기울이기 위해 앞으로 방법을 사용하기 때문에 비슷한 성능을 가지고 있습니다.
S2S-Attn은 시맨틱 매핑을 기반으로 유창한 응답 만 생성 할 수 있지만 다양한 응답을 표현하지 못합니다.
표 3의 하단 부분은 우리의 절제 연구 결과를 보여줍니다.
CDL-emo, CDL-con 및 CDL 간의 비교는 감정 표현과 콘텐츠 일관성에 대한 결합 보상의 효과를 보여줍니다.
또한 커리큘럼 학습의 지원으로 CDL이 CDL-DL보다 더 나은 결과를 얻을 수 있음을 알 수 있습니다.

4.5.2 Human Evaluation Results

결과는 표 4에 나와 있습니다. (3-scaling 점수인듯)
CDL은 감정 표현 (0.582)과 내용 일관성 (1.286) 모두에서 최고의 성능 (t- 검정, p- 값 <0.05)을 얻습니다.
보시다시피 EmoDS와 ECM 사이에는 분명한 차이가 없습니다.
“Anger”(쿼리 79,611 개, 응답 138,198 개)의 교육 데이터가 부족하여 S2S-Attn은 Zhou의 결과와 유사한 최고의 콘텐츠 점수를 달성했습니다.
표 4의 감정과 내용의 결과는 독립적입니다.
생성된 응답의 전반적인 품질을 더 잘 평가하기 위해 내용과 감정 점수를 동시에 고려하여 결과를 표 6에 제시합니다.
CDL에 의해 생성 된 응답의 32.5 %는 감정 점수 2와 콘텐츠 점수 1로 주석 처리되어 CDL이 감정이 풍부한 응답뿐만 아니라 일관된 응답을 생성하는 데 더 효과적임을 보여줍니다.
세 어노 테이터 간의 일관성을 측정하기위한 동의는 Fleiss의 카파로 계산됩니다 (Fleiss and Cohen, 1973).
내용과 감성에 대한 Fleiss의 카파는 0.497과 0.825로 각각“중간 동의”와“상당한 동의”를 나타냅니다.

4.6 Case Study (번역)

Table 5 shows the examples generated by S2S-Attn, ECM and CDL.
표 5는 S2S-Attn, ECM 및 CDL에 의해 생성 된 예를 보여줍니다.
그것에서 알 수 있듯이, 주어진 게시물에 대해 대화에서 반응에 적합한 여러 감정 범주가 있습니다.
S2S-Attn은 임의의 감정으로 응답을 생성하고 ECM과 CDL은 특정 감정 라벨을 활용할 수 있습니다.
ECM과 비교하여 CDL은 원하는 감정으로 일관되고 유익한 응답을 생성 할 수 있습니다.
또한 감정은 명시 적 또는 암시 적 방식으로 표현 될 수 있습니다.
예를 들어, (You do not understand life at all!) 이 문장을 전체적으로 읽을 때 분노를 표현하는 반면, "beautiful"또는 "happy"는 "Like"또는 "Happy"를 나타내는 강한 감정 단어입니다.

4.7 Further Analysis of CDL

여기에서는이 작업의 일부 특성과 CDL의 효과를 보여주기 위해 추가 분석을 수행합니다.
각 카테고리 (N (정확한 예측) ÷ 카테고리 크기)의 사전 훈련 후 감정 어휘 크기와 분류 정확도는 표 7에 나열되어 있습니다.
classification 정확도는 감정 표현이 부분적으로 함축적이거나 명시적임을 나타내는 감정 어휘집 크기와 완전히 관련이 없음을 알 수 있습니다.
CDL의 학습 효율성을 더 잘 설명하기 위해 검증 세트에 Emotion-acc의 변경 사항을 플로팅합니다.
그림 2에서 볼 수 있듯이 CDL은 학습을 효과적으로 가속화하고 지속적으로 CDL-DL을 능가합니다.

5 Related Work

전통적인 오픈 도메인 대화 시스템에서 생성된 응답은 일반적으로 safe하고 generic입니다.
다양하고 유익한 응답을 생성하기 위해, 연구자들은 latent variables을 모델 구성에 넣거나 (Zhao et al., 2017; Serban et al., 2017; Shen et al., 2019) extra knowledge을 (sentence types, personas, emotions, documents and knowledge triples/graphs) 활용한다. (Ke et al., 2018; Li et al., 2016b; Zhou et al., 2018a; Meng et al., 2019; Zhou et al., 2018b; Niu et al., 2019)
이 논문에서는 주로 emotional response generation과 NLP의 dual learning이라는 두 가지 연구 분야를 다룹니다.

5.1 Emotional Response Generation (번역)

초기 연구에서는 적절한 감정 표현과 반응을 가진 대화 시스템이 사용자 만족도를 직접적으로 향상시키고 효과적인 사용자의 성능에 기여할 수 있음이 입증되었습니다.
Polzin과 Waibel은 대화 말뭉치에서 감정적 반응을 선택하기 위해 규칙 기반 방법을 적용하지만 이러한 규칙은 큰 말뭉치로 확장하기가 어렵습니다.
딥 러닝의 출현으로 일부 연구자들은이 문제를 해결하기 위해 신경망을 활용합니다.
게다가 VAD (Valence, Arousal, and Dominance) 어휘집은 추가적인 정서적 정보를 제공하기 위해 sequence-to-sequence 모델에 포함되어 있습니다.
위의 연구를 통해 생성된 응답은 단순히 쿼리의 감정을 계속할 수 있습니다.
감정 제어 가능한 응답을 생성하기 위해 Zhou는 대규모 대화에서 감정 요소를 다루고 주어진 다른 감정을 기반으로 응답을 생성하는 ECM을 제안합니다.
그 후 Colombo는 VAD 임베딩으로 ECM을 보강하고 손실 함수 및 디코딩 절차를 수정했습니다.
Song는 어휘 기반 주의력과 단어 기반 분류기를 사용하여 감정 표현 능력을 향상시킵니다.

5.2 Dual Learning in NLP

He et al. (2016)은 Dual Learning (DL)을 기계번역에서 제안하고 먼저 이는 source에서 target 언어 번역과 target에서 source 언어 번역을 dual task로 고려했다.
그 이후, Tang (2017)은 dual framework을 question answering 시스템에서 수행한다.
Zhang et al. (2018) and Cui et al. (2019)은 둘 다 비슷한 아이디어를 대화 생성 테스크에서 사용하여 일관되지만 안전하지 않은 응답을 생성한다.

왜냐하면 그들은 좀 더 다양하고 구체적인 응답이 주어진 query로 변환되어 돌아갈 확률이 높다는 것을 알아냈기 때문이다.

Luo et al. (2019b) 및 Luo et al. (2019a) parallel data의 필요성을 줄이기 위해 unsupervised text style transfer에서 DL을 활용합니다.
The differences between our method and those in Section 5.1 and Section 5.2 are:

(1) We consider the emotion expression and content consistency simultaneously via a DL method.
(2) Instead of regarding the query as an emotionless sentence, we utilize the emotion of query, which can help model the emotion shifting and coherence to improve the quality of response.
(3) To better model the changes in emotion and content between the query and response, we combine the DL method with curriculum learning, which is known to improve effectiveness and generalization.

6 Conclusion

이 논문에서, 우리는 새로운 프레임워크 Curriculum Dual Learning (CDL)을 컨트롤 방식으로 공감적 반응 생성에 제안한다.
이 분야에서 기존의 방법들은 오직 target label의 감정 표현에 집중했지만, queries의 감정을 고려하는데 실패했고 safe 반응 문제를 악화시키고 content consistency을 해친다.
CDL은 두 종류의 rewards로 감정과 content을 dual learning을 통해 동시에 강화시킨다.
게다가, curriculum learning의 서포터와 함께 이것은 더욱 효과적이게 된다.
실험적인 결과들은 CDL이 공감적인 반응뿐만 아니라 fluent하고 coherent하고 유익하게 생성할 수 있음을 보여준다.

Reference

CDL: Curriculum Dual Learning for Emotion-Controllable Response Generation

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-101, CDL: Curriculum Dual Learning for Emotion-Controllable Response Generation (ACL-2020)

◼️ Comment

0 Abstract

1 Introduction

2 Background

3 CDL for Emotion-Controllable Response Generation

3.1 DL Architecture

3.2 Curriculum Plausibility

3.3 Training of CDL

4 Experiments

4.1 Dataset (중국어 데이터세트임)

4.2 Hyper-parameter Settings (번역)

4.3 Baselines

4.4 Evaluation Measures

4.4.1 Automatic Metrics

4.4.2 Human Evaluation Settings

4.5 Experimental Results

4.5.1 Automatic Evaluation Results

4.5.2 Human Evaluation Results

4.6 Case Study (번역)

4.7 Further Analysis of CDL

5 Related Work

5.1 Emotional Response Generation (번역)

5.2 Dual Learning in NLP

6 Conclusion

댓글

댓글 쓰기