◼️ Comment

일단, 이 논문은 ERC 여러 벤치마크에서 SoTA 찍은 논문이다.
이 논문의 저자 및 그룹은 지속적으로 ERC 연구를 해온 분들이고 많은 논문들을 낸 것으로 보여지고 관련 깃허브는 다음과 같다.

이 논문의 전체적인 느낌은 DialogueRNN과 비슷하고, 실제로 이 논문또한 이 그룹이 쓴 것이다.
핵심은 speaker tracking / listener tracking / context tracking 이라고 보면 된다.
즉 한 turn에서 A가 말했을 때, A의 state 업데이트는 speaker 방식으로 업데이트하면되고 listener인 B,C,.. 등의 state 업데이트는 listener 방식으로 업데이트한다.
업데이트 하는데 사용되는 features은 크게 두 분류이다.
1) 하나는 문장 단위의 RoBERTa feature인데 pretrained RoBERTa을 문장단위의 감정분석을 하는데 fine-tune하여 학습시킨다.

이 학습된 RoBERTa의 feature을 context independent feature라고 명명한다.

2) 두번째는 commonsense feature로 ATOMIC이라는 상식 그래프?에 해당하는 데이터세트로 학습한 모델의 feature을 말한다.

이 데이터에 대해서는 아래 본문과 링크를 참고하면 되는데, 발화가 어떤 의도를 가지는 등에 대한 9가지 정보를 매칭시켜준 데이터세트이다.
방식은 pretrinaed GPT모델로 문장/어떤정보 두 가지를 입력으로 받아 어떤정보에 대한 설명을 생성하도록 학습시킨다.
학습시킨 후, 생성(디코더) 부분이전의 vector을 feature로 사용하게 된다.
즉, 이 데이터세트에서 총 9가지 commonsense feature을 뽑을 수 있지만, Table 1처럼 5개만 사용한다.
논문 마지막 부분에, 나머지 4개부분을 사용했을 때 성능향상은 크지 않다고 언급한다.

결합) 1,2의 feature을 가지고 state 업데이트 하는 방식은 GRU cell을 이용하여 모델 그림을 참고하자.
실험 성능 생각) 아래 실험 결과 분석을 보면 되는데, commonsense feature을 써서 성능이 좋아질 것이란 생각은 리즈너블하다.

어떻게 결합하냐에 따라 조금씩 성능이 달라지겠지만, 뭐어쨌든 external 정보이므로 문장을 분석하는데 효과가 있을 것이라 생각된다.
근데 생각보다 성능차이가 크지 않다는 생각이 든다.
여기서는 어떻게 보면 GPT, RoBERTa, ATOMIC이라는 pretrained 혹은 외부코퍼스를 이용한 데이터 등을 가져다 쓴 것이다.
근데 ATOMIC은 데이터 형식이므로 이것으로 학습한 vector을 추가적으로 사용한 것으로 생각이 드는데, 이 부분의 효과가 드라마틱한 것은 아니다.
이런 식이면 단순히, context feature로 여러 pretrained model을 사용하여 여러 vector을 뽑아서 이용하는 것도 하나의 방법일 수 있지 않을까? 싶다.

0. Abstract

이 논문에서는, 우리는 commonsense knowledge을 (상식) 이용하여 ERC level utterance의 테스크를 설명한다.
우리는 새로운 프레임워크 COSMIC을 제안한다.

COSMIC는 mental states, events, causal relations와 같은 다른 상식요소들을 결합하고, 이를 바탕으로 대화에 참여하는 자들 사이의 관계를 배우도록 설계된다.

현재 SoTA 방법들은 종종 context propagation, emotion shift detection 그리고 연관있는 감정 클래스들을 분리하는 것으로부터 어려움을 겪고 있다.
고유한 commonsense representations을 배움으로써, COSMIC은 이러한 챌린지를 설명하고 4개의 다른 벤치마크 ERC 대화형 데이터세트에서 새로운 SoTA을 달성한다.
Our code is available at https://github.com/declare-lab/conv-emotion.

1 Introduction

ERC는 AI에서 오랫동안 관심받는 연구문제이다.
대화형 AI 연구의 성장과함께, ERC는 연구 커뮤니티에서 많은 관심을 받고 있다. (Li et al., 2020; Ghosal et al., 2019; Zhang et al., 2019)
대화에서 감정을 식별하는 것은 더 나은 대화를 이해하기 위한 중요한 스텝이고, emotion-aware chat agents, VQA, 헬스 대화 등과 같은 다운스트림 테스크에 필수적이다.
대화의 흐름과 참여자의 감정 변화에 영향을 미치는 여러 구별되는 변수때문에 자연스러운 대화는 복잡하다.
이러한 변수들은 topic, viewpoint, spekaer personality, argumentation logic, intent 등을 포함한다 (Poria et al., 2019b).
추가적으로, 참여자가 말할 때, 개별적인 utterances는 mental state, intent, emotional state에 영향을 받게 된다.
이 대화 모델에서, 오직 담화들은 대화 시작할때만 관찰이 되며, 다른 참여자의 화자의 상태 및 의도 등은 직접관찰되지 않고 latent로 남아있다.
유사하게, 화자의 감정 상태는 직접적으로 관찰될 수 없으나, 관측된 utterances을 통해 유추될 수 있다.
대화의 참여자들의 상식은 대화의 latent varibales을 추론하는데 중심적인 역할을 한다.

대화 내용, dialog planning, decision making, 기타 많은 추론 테스크에 대한 추론은 참가자에게 가이드로 사용된다.
또한 반복을 피하고, 질문을하고, 관련없는 답변을하지 않는 등 대화의 다른 세분화 된 요소를 인식하는데도 사용됩니다.
그리고 fluency, interestingness, inquisitiveness(알고 싶은 것), or empathy와 같은 대화의 관점을 컨트롤 한다.
상식은 그래서 자연스럽고 대화의 흐름과 참여자의 감정 변화를 모델링하는데 필수적이다.

그림 1에서, 우리는 상식이 대화의 담화의 감정을 추론하는데 활용되는 하나의 시나리오를 설명한다.

상식적인 지식은 설명 가능한 대화 이해로 이어질 수 있습니다. 모델이 사건과 상황을 이해하고 추론하고 설명하는 데 도움이됩니다.
이 특정 예에서 상식 추론은 쌍방 대화의 일련의 발화에 적용됩니다.
사람 A의 첫 발화는 사람 B와 논쟁하는 데 지 쳤음을 나타냅니다.
또한 발화의 어조는 사람 B가 사람 A에 의해 소리를 지르고 있다는 것을 의미하며, 이는 사람 B에게 짜증의 반응을 불러 일으 킵니다.
그런 다음 사람 B는 무엇을 묻습니다. 화를 내면서 도와 줄 수 있고 이렇게 말합니다.
이것은 다시 사람 A를 짜증나게 만들고 그 / 그녀가 분노로 반응하도록 영향을줍니다.
화자와 청자의 반응, 효과 및 의도에 대한 이러한 종류의 추론 된 상식적 지식은 참가자의 정서적 역학을 예측하는 데 도움이됩니다.

자연어는 종종 한 사람의 감정을 나타낸다.

그래서, 감정 인식은 추천시스템, 헬스케어, opinion mining(=감성분석)과 같은 넓은 어플리케이션 때문에 NLP에서 인기가 있다.

지난 몇 년 동안, 공개 대화 데이터의 사용가능함 증가함에 따라 NLP 커뮤니티에서 ERC (대화 감정 인식)가 주목을 받아왔다.
ERC는 소셜미디어에서 일어난 대화를 분석하는데 사용될 수 있다.
이것은 실시간 대화를 분석하는데 도움이 될 수 있고, 이는 법적 재판, 인터뷰, 헬스케어 서비스 등에 유용할 수 있다.
일반적인 문장단위의 감정인식과 달리, ERC는 이상적으로 개별 발화의 컨텍스트 모델링을 요구한다.

컨텍스트는 이전의 발화들에게 기여할 수 있고 발화의 시간적 순서에 의존적이다.

ERC의 최근 연구들과 비교하여, lexicon-based와 modern deep learning-based 일반적인 감정인식은 ERC 데이터세트에서 잘 작동하지 못한다.

contextual cues의 존재, 화자의 턴의 시간성 또는 화자별 정보와 같은 대화 특정 요소를 무시하기 때문입니다.

매우 큰 상식에서 설계된, 우리의 제안된 프레임워크는 personality, events, mental state, intents 그리고 감정들사이의 복잡한 관계를 캡쳐하여 감정적인 변화와 대화의 다른 관점을 더 잘 이해하게 한다.
4가지 다른 대화 데이터세트와 여러 개의 SoTA 모델들의 베이스라인에 대해 광범위한 평가를 통하여, 우리는 상식을 명시적으로 설명하는 모델의 효과를 보여준다.
게다가, feature ablation 실험들은 대화에서 감정을 식별하는 역할에 대한 지식의 역할을 강조한다.

2 Related Work (번역)

감정 인식은 수년 동안 활발한 연구 분야였으며 기계 학습, 신호 처리, 사회 및인지 심리학 등과 같은 학제 간 분야에서 탐구되었습니다 (Picard, 2010).
Ekman (1993)의 주요 연구는 표정, 표정 측정 방법 및 인간 감정과의 관계에 대한 연구 결과를 발표했습니다.
음향 정보와 시각 신호는 나중에 Datcu와 Rothkrantz (2014)에 의해 감정 인식에 사용되었습니다.
그러나 대화에서 감정 인식은 소셜 미디어 플랫폼에서 수집 된 공개적으로 사용 가능한 대화 데이터 세트와 영화 및 TV 쇼와 같은 스크립트 상황의 출현으로 인해 최근에야 인기를 얻었습니다 (Poria et al., 2019a; Zahiri and Choi, 2018).
대화형 감정 인식에 대한 주요 접근 방식은 딥 러닝 기반 알고리즘을 사용하여 텍스트 또는 다중 모드 설정에서 상황 별 모델링을 수행하는 것입니다.
Poria et al. (2017)은 다중 모드 감정 인식을 위해 반복 신경망을 사용했으며 그 뒤를 이어 Majumder et al., 2019의 파티 및 글로벌 상태는 감정 변화를 모델링하는 사용되었습니다.

여기서 Majumder가 DialogueRNN이다.

감정 인식을 수행하기 위해 변압기 네트워크와 함께 외부 지식 기반 (Zhong et al., 2019)이 사용되었습니다.

Zhong : Knowledge-enriched transformer for emotion detection in textual conversations

Some of the other important works include (Hazarika et al., 2018a,b; Zadeh et al., 2018b; Chen et al., 2017; Zadeh et al., 2018a).

3 Methodology

3.1 Task definition

구성된 담화에 speaker 정보에 맞는 대화가 주어지면, ERC는 미리 정의된 감정들로부터 각 담화에 맞는 감정을 식별하는 것이다.
그림 1은 두 사람 사이의 하나의 대화를 설명하고, 각 담화는 아래의 감정으로 레이블링 되어 있다.
형식적으로, N개 담하의 입력 시퀀스 [(u1, p1),(u2, p2), . . . ,(uN , pN )] 가 주어졌을 때, 각 담화 $u_i = [u_{i,1}, u_{i,2}, ... , u_{i,T}]$ 는 party $p_i$ 가 말한 T개 단어들 $u_{i,j}$ 로 구성되어져 있고, 테스크는 담화 $u_i$ 의 감정 레이블 $e_i$ 을 예측하는 것이다.
ERC에서, 테스크는 구성된 담하들을 각각 적절한 감정 카테고리로 분류하는 것이다.
여기서, 주요 접근법은 이 문제가 먼저 context independent representations을 생성하게하고 contextual modeling을 수행한다.
우리는 두 개의 분리된 모델링 phases을 식별하고 그들을 제안한 COSMIC 프레임워크를 통하여 향상시키는 목표를 가진다.
Our framework consists of three main stages: (핵심)

1. Context independent feature extraction from pretrained transformer language models.
2. Commonsense feature extraction from a commonsense knowledge graph.
3. Incorporating commonsense knowledge to design better contextual representations and using it for the final emotion classification.

전체적인 흐름은 그림2와 같다.

3.2 Context Independent Feature Extraction

우리는 RoBERTa 모델로 context independent utterance level feature vectors을 추출한다.

즉 문장 단위로 feature을 추출한다는 거군!

담화의 기록에서 감정 레이블 예측을 위해 RoBERTa large 모델을 fine-tune한다.
RoBERTa Large는 기존 BERT Large 구조를 따른다.

24 layers / 각 블락에서 16 self-attention heads / hidden dimension: 1024 / total 355M 파라미터들

utterance x은 BPE toeknized tokens x1, x2, ..., xN와 감정 레이블 Ex로 구성된다.
이 세팅에서, pretrained RoBERTa의 fine-tuning은 문장 분류 테스크를 통해 실행된다.
special token [CLS]는 다음과 같이 문장 앞에 붙게 된다.

[CLS], x1, x2, . . . , xN

이 시퀀스가 모델에 들어가고 [CLS] token에 해당하는 last layer의 활성값이 small feedforward network에 사용되어 emotion class Ex을 분류하도록 한다.
모델이 감정 레이블 분류에 fine-tuned 하고나면, 우리는 [CLS]가 추가된 BPE tokenized 담화를 패스시켜서 [CLS] token에 해당하는 마지막 4개의 layers의 activation을 추출한다.

이 4개의 vectors은 그리고 나서 평균취하여 1024차원의 context independent utterance feature vector 을 얻게된다.
즉, fien-tuned RoBERTa의 CLS token의 hidden 값을 context에 상관없는 담화 feature vector라고 판단한다!

3.3 Commonsense Feature Extraction

이 연구에서, 우리는 commonsense transformer model COMET으로 상식 특징(commonsense features)을 추출한다.
COMET은 여러 개의 commonsense knowledge graphs으로 학습이 되어서 자동적으로 knowledge base construction을 수행한다.
모델에게 그래프로부터 triplet {s, r, o}이 주어지고 subject(주어) phrase s와 relation(관계) phrase r을 연결하여 object(목적) phrase o을 생성하도록 훈련된다.
COMET은 인코더 디코더 모델로 pretrained autoregressive LM GPT을 기본 생성 모델로 사용한다.
상식 지식 구성을 생성하는 테스크를 하기 위해서, COMET는 ATOMIC (The Atlas of Machine Commonsense) (Sap et al., 2019)으로 학습이된다.

ATOMIC: 텍스트 설명을 통해 구성된 일상적인 추론적 if-then 상식 지식의 모음입니다.
https://homes.cs.washington.edu/~msap/atomic/media/2019-02_AAAI_ATOMICv12.pptx
위 pptx을 보면 직관적인 이해가 가능한듯..

ATOMIC은 9개의 다른 if-then 관계 타입으로 구성되어져서 (agent vs themes), (causes vs effects), (voluntary vs non-voluntary events), (actions vs mental states)을 구별하게 된다.
X가 참여하는 이벤트가 주어졌을 때, 9개의 relation types (r)은 다음과 같이 추론된다.

i) intent of X,
ii) need of X,
iii) attribute of X,
iv) effect on X,
v) wanted by X,
vi) reaction of X,
vii) effect on others,
viii) wanted by others,
ix) reaction of others.

하나의 예시로, event or subject phrase (s)가 다음과 같이 주어지지면: “Person X gives Person Y a compliment” (사람 X가 사람 Y에게 칭찬을 한다)

COMET의 relation phrase (r) 추론은 다음과 같다.
X의 의도와 다른 사람의 반응은 다음과 같을 것이다.
"X는 nice하고 싶었다"와 "Y는 우쭐한 기분이 들 것이다"
ATOMIC: https://homes.cs.washington.edu/~msap/atomic/ 을 참고하면 좀 더 많은 예시가 있는 듯 함.

COMNET은 생성 모델이고 위의 예제에서 설명한 것처럼, 이것이 subject와 relation phrase을 조건으로 상식지식의 discrete sequence을 생성한다.

즉 위 (퍼온)그림에서 subject와 아래의 relation 조건(ex. Because PersonX wanted)를 가지고 discrete sequence(to be trusting; ~~~) 을 만든다는 것?

우리의 모델에서 그러나, 우리는 commonsense representation들의 연속적인 벡터를 사용한다.
이를 위해 ATOMIC 지식 그래프에서 pretrained COMET 모델을 사용하고 phrase generating decoder module은 버린다.

즉 압축하는 인코딩 부분만 사용하는 것 같은데?
to be trusting; ~~ 을 생성하도록 학습은 하지만, 사용할 것은 인코딩 벡터?

우리는 (주제)subject phrase을 담화 U로 취급하고 relation phrase r과 concat 시킨다.

다음으로, 우리는 concat한 {U ⊕ r}을 COMET의 인코더를 통하여 태워서 final time-step의 activation을 추출한다.

특별히, 우리는 Table1에 설명되어있는 relations 을 사용한다.

intent of X,
effect on X,
reaction of X,
effect on others and reaction of others (X는 speaker이고 나머지는 listeners이다.).
즉 원래 ATOMIC은 위에 있는 것처럼 9개의 관계 정보가 있는데, 이를 table 1에서 정의한 5개로 압축해서 사용한다?

이 feature extraction을 수행하면 대화의 각 발화에 대해 5개의 다른 벡터 (5개의 다른 관계에 따라)가 생성됩니다.

이 벡터는 768 차원입니다.

여기서 5개의 다른 관계라는 것은 table1에 있는 것처럼 intent/effect/reaction에 대한 정보라는 것이다.

ATOMIC의 다양한 relation types의 특성이 자연스럽게 대화형 프레임워크로 확장하게끔 한다.
relations은 content(event, persona, mental states)와 causal relation (cause, effect, stative) 같은 형상의 모델링을 가능하게하고, 이는 대화형 컨텍스트를 이해하는데 필수적이다.
이런 다른 relations은 중요한 키이다.

왜냐하면 일반적으로 대화과정에서 거의 모든것들 사이에 중요한 상호작용을 하기 때문이다..

예를 들어, i)-vi) 관계는 모두 본질적으로 화자와 관련이 있고 vii)-ix)는 모두 청취자와 유사합니다.
보다 세분화된 수준에서 speaker와 listener의 의도, 효과 및 반응 구성 요소는 모두 대화의 본질을 이해하는 데 필요한 요소입니다.
우리는 통합 프레임 워크에서 이러한 관계형 변수를 채택하는 것이 대화의 향상된 표현을 만드는 데 매우 유용 할 것이라고 생각합니다.

3.4 Commonsense Conversational Model

우리는 먼저 우리의 notations과 COSMIC 모델 구조의 중요한 high-level 관점을 소개한다.
대화는 N개의 utterances u1, u2, . . . , uN로 구성되고, M개의 다른 speakers/참여자들인 p1, p2, ..., pM이 있다.
담화 $u_t$ 는 참여자 $p_{s(u_t)}$ 에 의해 말해진다.
각 t ∈ {1, 2, . . . , N}에 대해, 우리는 context independent RoBERTa vectors을 $x_t$ 로 표기한다.
X의 intent, effect, reaction와 otthers의 effect, reaction에 해당하는 Commonsense vectors는 $IS_{cs}(u_t)$ , $ES_{cs}(u_t)$ , $RS_{cs}(u_t)$ , $EL_{cs}(u_t)$ , $RL_{cs}(u_t)$ 로 표기한다.
X는 speaker로 가정하고 others은 listeners로 가정하는 것이다.
대화는 본질적으로 매우 순차적이고 컨텍스트 정보가 시퀀스를 따라 흐르기 때문에, context 상태 $c_t$ 및 attention 벡터 $a_t$ 가 공식화되어 발화 간의 순차적 종속성을 모델링합니다.
context state와 attention vector는 항상 대화의 모든 참여자 사이를 공유한다.
internal state, external state and intent state들은 다른 mental state, actions, 참여자들의 이벤트를 모델링하는데 사용된다.

이러한 표현은 참여자 k ∈ [1, 2, . . . , M]에 대해 $q_{k,t}$ , $r_{k,t}$ , $i_{k,t}$ 으로 표현된다.

internal state와 external state는 합쳣허 speaker state으로 간주할 수 있다.

이 states는 참여자의 complex mental과 emotional 변화를 캡쳐하는데 필수적이다.

emotion state et는 이 3개 states와 즉각적인 이전의 감정 state의 조합으로 모델링된다.

마침내, 담화의 적절한 emotion class는 emotion state에 의해 추론된다.

우리의 프레임 워크에서 컨텍스트 및 상식 모델링은 GRU 셀을 사용하여 수행됩니다 (Chung et al., 2014).
GRU 셀은 입력 $y_t$ 를 취하고 $h_t$ =GRU ( $h_{t-1}$ , $y_t$ ) 변환을 사용하여 $h_{t-1}$ 에서 ht로 숨겨진 상태를 업데이트합니다.
새로운 은닉 상태 $h_t$ 는 현재 단계의 출력 역할도합니다.
셀은 입력 $y_t$ 및 출력 $h_t$ 에 따라 적절한 크기의 가중치 W 및 편향 b로 매개 변수화됩니다.
컨텍스트 상태, 내부 상태, 외부 상태, 의도 상태 및 감정 상태를 모델링하기 위해 각각 5 개의 양방향 GRU 셀 GRU_C, GRU_Q, GRU_R, GRU_I 및 GRU_E를 사용합니다.
표현의 용이성을 위해 여기에서는 단방향 GRU 셀로 다양한 상태를 공식화합니다.
사실 여기까지가 핵심을 포함한 부분이라고 생각하고 이 다음부터는 간단하게만 봐도 된다.

핵심은 1. RoBERTa featrue vector 2. 상식 데이터로 학습한 모델로 5개의 vector을 뽑고 감정인식에 활용한다는 것이다.
이 두 feature을 활용해서 감정인식 모델링을 할 때, 3가지 internal / external / intent state라는 것을 설정하여 화자의 상태를 끌고가고 중앙에서 context state을 끌고간다.
speaker state 3개를 활용해서 emotion state을 만들어 감정인식을 하게끔 되어있다.
그림을 보면 좀더 이해하기 쉬운데, A,B,C가 대화한다고 하면 A가 말할 때는 A가 speaker이니까 그림에서 speaker 방식으로 상태가 업데이트되고 B,C는 listener이니까 listener방식으로 상태가 업데이트 된다.

listener 방식 업데이트에서는 GTU_I(intent state)는 업데이트 안시킨다.

즉 총 3*party_num+1(context)+1(emotion) state가 있다고 생각할 수 있다.

Context State (GRU_C):

컨텍스트 상태는 대화 흐름의 순서에 따라 전체 발화 수준 정보를 저장하고 전파합니다.

Internal State (GRU_Q):

참가자의 내부 상태는 개인이 느끼는 감정과 다른 참가자가인지 한 효과에 따라 달라집니다.
참가자가 외부 입장이나 반응을 통해 자신의 감정이나 전망을 항상 명시 적으로 표현하지 못할 수 있으므로이 상태는 숨겨져있을 수 있습니다.
감정과는 별도로이 상태는 참가자가 적극적으로 표현하지 않으려는 측면이나 상식으로 간주되며 명시적인 의사 소통이 필요하지 않은 특징을 포함하는 것으로 간주 될 수 있습니다.
따라서 자신에 대한 영향은 참가자의 내부 상태를 나타내는 기본입니다.

External State (GUR_R):

내부 상태와 달리 참가자의 외부 상태는 표현, 반응 및 응답에 관한 것입니다.
당연히이 상태는 다른 참여자들이 쉽게 보거나 느끼거나 이해할 수 있습니다.
예를 들어 실제 발화, 표현 방식, 말 및 기타 음향 적 특징, 시각적 표현, 제스처 및 자세는 모두 외부 상태의 체제에 속하는 것으로 느슨하게 간주 될 수 있습니다.

Intent State (GRU_I):

의도는 특정 일련의 행동을 수행하겠다는 약속을 나타내는 정신 상태입니다.
화자의 의도는 대화의 정서적 역학을 결정하는 데 항상 중요한 역할을합니다.
그러나 청취자의 의도는 변경되지 않습니다.
침묵하는 참가자의 의도가 바뀌면 안되기 때문입니다. 특정 참가자가 다시 말할 때만 변경해야합니다.

Emotion State:

감정 상태는 화자의 감정적 분위기와 발화의 감정 등급을 결정합니다.
감정 상태는 내부, 외부 및 의도 상태를 고려한 화자의 발화 및 합성 상태에 따라 달라진다고 가정합니다.
당연히 현재의 감정 상태는 화자의 이전 감정 상태에 따라 달라집니다.

Emotion Classification:

Finally all the utterances in the conversation are classified with a fully connected network from et

4 Experimental Setup

4.1 Datasets

4.2 Training Setup

For context independent feature extraction, the RoBERTa model is fine-tuned on the set of all utterances and their emotion labels in the training data.
We fine-tune the RoBERTa model for a batch size of 32 utterances with Adam optimizer with learning rate of 1e-5.
In the case of MELD and EmoryNLP datasets, we use a residual connection between the first and the penultimate layer which brings more stability in the training in the emotion recognition model.
The emotion recognition model is trained with Adam optimizer having a learning rate of 1e-4.

5 Results and Analysis

5.1 Baseline and State-of-the art Methods

COSMIC의 포괄적인 평가를 위해, 우리는 다음의 방법과 비교한다.
1) pretrained Glove embedding + CNN

filter size는 표준을 따른다.
모델은 emotion class을 예측하도록 담화레벨에서 학습이된다.

2) ICON은 두개의 GRU 네트워크를 사용하여 두 참여자 사이의 대화를 위한 utternace representation을 학습한다.

두 speaker GRUs의 출력은 다른 GRU을 사용하여 연결되고 분명하게 inter-speaker modeling을 수행하도록 한다.
ICON은 오직 두 명의 참여자에 대한 대화로 한계가 있다.

3) KET (Zhong et al., 2019) or Knowledge enriched transformers은 동적으로 외부 commonsense knowledge을 hierarachical self-attention and context aware graph attention을 사용하여 활용한다.
4) ConGCN (Zhang et al., 2019)은 utterances와 대화의 참여자들을 graph network의 nodes로 간주하고 context와 emotion detection을 위한 speaker sensitive dependence을 모두 모델링한다.
5) BERT DCR-Net (Qin et al., 2020)은 deep co-interactive relation network이고, 이는 BERT based features을 dialogue act recognition과 emotion (sentiment) 분류를 동시에 하기 위해 사용한다.

relation layer은 멀티테스크 세팅속의 이러한 두 가지 사이의 relation and interaction을 모델링을 명시적으로 배운다.

6) BERT+MTL (Li et al., 2020)은 multi-task learning 프레임워크로 BERT로부터 features을 추출하여 감정인식과 화자식별을 위해 RNN에 사용한다.
7) DialogueRNN (Majumder et al., 2019)은 화자와의 대화에서 발화의 감정, context and emotion information을 모델링합니다.

이러한 요소들은 세 개의 GRU 네트워크를 사용하여 각 speaker states을 트래킹을 유지한다.

우리는 표 4의 테스트 데이터에 대한 COSMIC의 성능을보고하고 비교합니다.
최신 모델은 GloVe 임베딩을 사용하여 컨텍스트 독립적 기능을 추출합니다.
BERT 및 RoBERTa와 같은 변환기 기반 네트워크에서 추출 된 기능은 일반적으로 word2vec 및 GloVe와 같은 기존 단어 임베딩보다 성능이 우수하므로 BERT 또는 RoBERTa 기능과 함께 사용할 때 모델의 결과도 보고합니다.

5.2 Comparison with the State-of-the-Art Methods (번역)

IEMOCAP and DailyDialog

IEMOCAP 및 DailyDialog에는 대부분 자연스럽고 일관된 발화가 포함 된 일관된 대화가 포함되어 있습니다.
RoBERTa 기능이 DialogueRNN 모델을 개선하고 다른 BERT 기반 모델이 비슷한 성능을 발휘하는 것을 관찰합니다.
COSMIC은 모든 모델에서 개선되었지만 IEMOCAP의 개선은 DailyDialog에서만큼 크지 않습니다.
COSMIC은 IEMOCAP에서 65.28, 두 가지 다른 평가 메트릭에 대해 DailyDialog에서 51.05 및 58.48의 새로운 최신 점수를 획득했습니다.

MELD and EmoryNLP

이 두 데이터 세트는 TV 쇼 Friends에서 주석을 달았으며 발화는 종종 매우 짧습니다.
대화에는 때때로 감정에 특정한 단어가 포함되어 있지만 이는 발화 수준에서 자주 발생하지 않습니다.
당연히 감정 역학은 본질적으로 매우 맥락 적이며 거의 항상 주변 발화에 의존합니다.
이전 작업에서 MELD의 감정 모델링은 종종 각 대화에 많은 화자가 있지만 발화 횟수가 적기 때문에 어렵다는 것이 관찰되었습니다.
DialogueRNN과 같은 정교한 모델은 IEMOCAP 에서처럼 CNN에 비해 많은 개선을 가져 오지 않습니다.
우리는 COSMIC이 두 데이터 세트에 대한 세분화 된 (7 클래스) 분류 설정에서 다른 모델에 비해 크게 향상되었음을 관찰합니다.
3 가지 등급 분류에서 최신 가중 F1 점수 73.20 및 56.51을 획득했습니다.
MELD 및 EmoryNLP의 7 개 등급 분류에 대한 65.21 및 38.11.

5.3 The Role of Commonsense

표 4에서는 청취자 별 및 화자 별 상식 요소를 제거하여 절제 연구 결과를보고합니다.
speaker ablation의 경우 $IS_{cs}(u_t)$ , $ES_{cs}(u_t)$ , $RS_{cs}(u_t)$ 를 버리고 대부분의 경우 성능이 급격히 떨어집니다.
listener ablation를 위해 우리는 $EL_{cs}(u_t)$ 와 $RL_{cs}(u_t)$ 를 버리고 성능도 떨어졌지만 speaker ablation만큼 떨어지는 것을 발견했습니다.
사실, listener ablation는 EmoryNLP의 성능을 약간 향상시킵니다.
결과는 speaker-specific commonsense이 COSMIC의 전반적인 성능에 더 큰 영향을 미친다는 것을 시사하는데, 이는 우리가 각 발화에서 화자의 감정 등급을 예측하고 있기 때문입니다.
마지막으로, 동시에 두 구성 요소에 대한 절제가 자연스럽게 전체 성능이 더 많이 저하됩니다.

5.4 Case Study

우리는 IEMOCAP 데이터세트에 대한 대화 테스트 예시를 그림 3에서 설명한다.
대화는 두 개의 neutral 발화로 시작하지만 상황은 빠르게 확대되고 마지막으로 두 화자의 많은 화(angry)와 좌절한(frustrated) 발화로 끝납니다.
DialogueRNN와 같은 SoTA 모델들은 종종 이러한 시나이로가 어렵다는 것을 알아내고, 그 사이에 다시 감정이 바뀌기도 합니다. (중립 -> 좌절 -> 중립 식)
이러한 모델들은 또한 frustrated and angry와 같은 감정 클래스에서 미묘한 차이가 있는 담화를 오분류하는 경향도 있다.
COSMIC에서, 상식지식의 propagation은 모델이 갑작스런 전환과 유사한 감정 클래스 사이의 미묘한 차이를 이해하여 다루기 쉽게한다.
그림 3에서 첫 번째 발화의 경우 commonsense model은 화자의 반응이 짜증나고, 이 정보의 전파는 화자의 다음 발화가 실제로 좌절된 클래스에 속한다고 예측하는 데 도움이됩니다.
나머지 설명된 발화와 유사하게, 화자에 대한 영향과 청취자의 반응에 대한 상식 지식은 모델이 분노와 좌절 된 클래스를 정확하게 구별하고 예측하는 데 도움이됩니다.

5.5 Strategies to Incorporate Commonsense

테이블 1에서, COSMIC에 사용한 5가지 commonsense features을 제외하고는, COMET에서 추출한 다른 4가지 features가 있다.

attribute of speaker, need of speaker, wanted by speaker, and wanted by listeners.

우리는 프레임 워크에 복잡성을 추가하지만 궁극적으로 성능을 크게 향상 시키지는 않는 다양한 전략을 사용하여 통합합니다.
우리는 다음과 같은 방향으로 실험했습니다.
Attribute of speaker is loosely considered as a personality trait.

This latent variable influenced the internal, external and intent states.
We find that the discrete attribute features from COMET are mostly a single word like ‘stubborn’, ‘patient’, ‘argumentative’, ‘calm’, etc and they change quite abruptly for the same participant in continuing utterances.
Hence, we find that their vectorized representations do not help much.

Need of speaker, wanted by speaker, and wanted by listeners are considered as output variables that are to be predicted from the input utterance and the five basic commonsense features (Table 1).

We add auxiliary output functions and jointly optimize the emotion classification loss with mean-squared loss between predictions and reference commonsense vectors.
This strategy also does not help much in improving the emotion classification performance.

성능 향상은 데이터 세트 전반에 걸쳐 상식적인 지식을 사용하여 관찰되지만, 이 향상은 그다지 크지 않습니다.
앞으로 우리는 더 나은 상식 지식 소스를 식별하고이 지식을 딥러닝 모델에보다 효율적으로 주입할 수있는 모델을 개발할 계획입니다.

6 Conclusion

이 연구에서 설명한 COSMIC 프레임워크는 다양한 commonsense 지식의 관점을 모델링하고, ERC을 위한 mental states, events, actions, cause-effect relation을 고려한다.
commonsense representations을 이용하여, 우리의 모델은 현재 RNN 및 GCN 기반 방법에 종종 존재하는 1) relation emotion classes 사이의 오분류, 2) 감정 이동을 검출하는 어려움과 같은 이슈를 줄여준다.
COSMIC achieves new state-of-the-art results for emotion recognition across several benchmark datasets.

Reference

https://arxiv.org/pdf/2010.02795.pdf

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-093, COSMIC: COmmonSense knowledge for eMotion Identification in Conversations (2020-EMNLP Findings)

◼️ Comment

0. Abstract

1 Introduction

2 Related Work (번역)

3 Methodology

3.1 Task definition

3.2 Context Independent Feature Extraction

3.3 Commonsense Feature Extraction

3.4 Commonsense Conversational Model

4 Experimental Setup

4.1 Datasets

4.2 Training Setup

5 Results and Analysis

5.1 Baseline and State-of-the art Methods

5.2 Comparison with the State-of-the-Art Methods (번역)

5.3 The Role of Commonsense

5.4 Case Study

5.5 Strategies to Incorporate Commonsense

6 Conclusion

댓글

댓글 쓰기