◼️ Comment

일단, 이 논문은 제출 당시에 SoTA였겠지만 현재 SoTA는 아니다.

사실 개인적으로 pretrained model로 간단히 해본 실험보다도 성능이 좋다고 볼 수 없다.

방법은 pretrained model을 쓰지 않고, GRU을 이용한 모델이라고 볼 수 있다.
GRU중 AGRU라는 것을 제안한다.

쉽게 말해, memory vectors을 현재 query vector와 어떻게 결합하냐? 로부터 나온 방법인데
기존에는 soft attention이라고, 내적해서 weight을 구해서 weighted sum을 구하는 방법이 많다.
여기서는 그렇게 하면, position, order 정보를 잃어버리기 때문에 GRU으로 대체하고, 대신 내적해서 구한 weight을 attention 값으로 사용하여 AGRU라는 것을 제안한다.
그래서 성능이 올라감을 보여주고 나중에 soft attention 대신 한 번 시도해볼 수 있을 것 같다.
그리고 컨텍스트와 입력의 벡터를 highway net처럼 더해줘서 처리하는데 아무튼 이런거는 참고하기에 좋은 것 같다.

근데 논문에서 세부적인 내용으로 궁금한점은

position, order 정보를 잃지 않으려고 GRU을 쓴다고 한다.
근데 UniGRU는 과거 정보를 잃어버리는 것이 있으니 먼 memory도 균형적으로 반영하고자 BiGRU을 채택한다.
근데 현재 query의 감정에는 당연히 현재의 정보가 더 중요하기 때문에 과거 정보와 굳이 맞춰줄 필요가 있을까? 싶은 생각이다.
Bi or Uni을 memory을 만들 때, AGRU을 통과할 때, 모두 고려해서 총 4가지 방법으로 해볼 수 있다.
논문 논리라면 Bi memory + BiAGRU가 가장 성능이 좋아야하는데, 성능이 best가 아니다. 그에 대한 이유로 모델 복잡성에 비해 데이터가 적다라고 하는데..흠..?
개인적으로는 하나만 memory에 Bi로 써서 양방향 정보를 담고 AGRU는 uni로 쓰는게 가장 리즈너블하지 않나 생각이든다.

모듈 analysis도 여러 가지 시도했는데 이 부분은 논문을 직접 읽어보시길..
모델 analysis에서 attention을 이용해서 어디 부분을 참고하는지 확인해보는 것도 좋은 분석인 것 같다.

또한, 틀린 label을 보면 사람의 label이 틀린 경우도 있음을 주장한다.

0. Abstract

대화속에서 실시간 감정 인식 (Real-time emotion recognition (RTER))은 감정적인 고도화 채팅머신을 위해 중요하다.
RTER에서 future context없이, historical context을 캡쳐하기위해 메모리 bank을 신중하게 설계해야하고 관련 정보를 검색하기 위해, 적절하게 memories을 요약해야한다.
우리는 Attention Gated Hierarchical Memory Network (AGHMN)을 제안하여 이전의 연구 문제를 해결하려고 한다.

(1) Commonly used convolutional neural networks (CNNs) for utterance feature extraction are less compatible in the memory modules;
(2) Unidirectional gated recurrent units (GRUs) only allow each historical utterance to have context before it, preventing information propagation in the opposite direction;
(3) The Soft Attention for summarizing loses the positional and ordering information of memories, regardless of how the memory bank is built.

특별히, 우리는 utterance reader로써 BiGRU을 사용하는 Hierarchical Memory Network (HMN)와 historical utterances사이의 상호작용을 위한 BiGRU fusion layer을 제안한다.
메모리 요약을 위해 attention weights를 활용하여 GRU의 internal state를 업데이트하는 attention GRU (AGRU)를 제안합니다.
우리는, 더 나아가 AGRU을 BiAGRU로 향상시켜, 최근 메모리들로부터의 contextual information와 먼(distant) memories 사이를 밸런싱있게한다.
우리는 두 개의 ERC데이터로 실험하고 분석하여 AGHMN models의 효율성을 입증한다.

1. Real-Time Emotion Recognition via Attention Gated Hierarchical Memory Network

감정 인식은 현재 AI 영역에서 공감적인 기계를 개발하는 잠재적인 어플리케이션때문에 중요한 연구분야이다.
우리는 발화수준의 진행중인 시나리오에서 실제 시나리오에서 speakers의 감정을 검출하는데 집중한다.
(Olson 1977)에 따르면 발화는 호흡과 멈춤으로 묶인 말의 단위입니다.
이 작업을 실시간 감정 인식 (RTER)이라고합니다.
본질적으로 감정 인식은 텍스트, 비디오 및 오디오 기능을 포함 할 수있는 multi-modal 학습 작업이지만 텍스트 기능이 가장 중요한 역할을합니다 (Chen et al. 1998; Poria, Cambria, and Gelbukh 2015; Poria et al. 2017; Hazarika et al. 2018b.
Thus, in this paper, we tackle the RTER task in text conversations.
future context 없이, RTER에서 이전 발화들로부터 contextual 정보를 활용하는 것이 중요해진다.
이를 위해서, 두 가지 요소에 관심을 가져야 한다.

memory bank for capturing historical context, and
the summarizing technique for the query to extract relevant information from the memory bank.

memory bank은 보통 two-level fashion으로 설계되어서 계층적인 대화 구조를 시뮬레이션한다.

즉, words-to-utternace와 utterances-to-conversation 형태이다.

특별히, 기존의 모델들은 그들의 memory banks을 CNNs을 활용하여 발화 features을 학습하고 unidirectional gated recurrent units으로부터 발화의 관계를 캡쳐하려고 한다.
그러나, 우리의 탐구를 통하여, 우리는 BiGRU로 발화 features을 배우는 것이 CNNs을 사용하는 것보다 나음을 발견한다.
게다가, unidirectional GRU는 각 historical utterance이 전후가 아닌 컨텍스트를 가질 수 있도록 허용하므로 반대 방향으로 정보 전파를 방지 할 수 있습니다.
summarizing techniques에 관해서는 일반적으로 사용되는 Soft Attention이 weighted sum of the memories를 생성하며 이는 bag-of-memories으로 간주 될 수 있습니다.

단지 word 표현 영역에서 bag-of-words은 word order의 민감성에 대해 부족하고, memory bank가 어떻게 구축되는지 상관없이 bag-of-memories는 메모리의 정보를 순서와 가능성을 상실할 수 있다.

이러한 요소를 결합하여, 이 논문에서, 우리는 Attention Gated Hierarchical Memory Network (AGHMN)을 제안하여 더 좋은 발화 features와 contextual information을 RTER task에서 추출한다.
구체적으로, 컨트리뷰션은 다음과 같다.
(1) 우리는 Hierarchical Memory Network (HMN)을 제안하여 utterance features을 향상시키고 contextual information을 위한 memory bank을 제안한다.

HMN은 two-level GRU encoder이 필수적이고, utterance reader와 fusion layer을 포함하고 있다.
utterance reader은 BiGRU을 적용하여 각 발화의 word sequence을 모델링하고, 이는 우리가 계층적 구조와 더 잘 호환됨을 보여준다.
fusion layer은 BiGUR을 수용하여 historical utternaces을 읽고, 이는 그들 사이의 충분한 상호작용을 가능하게 한다.

(2) 메모리를 요약하면서 위치 및 순서 정보를 유지하고보다 포괄적인 컨텍스트를 캡처하기 위해 BiAGRU와 같은 양방향 변형으로 승격 할 수있는 AGRU (Attention GRU)를 제안합니다.

AGRU은 normal GRU의 internal state을 업데이트하기위해 메모리에 대한 query의 attention weights을 활용한 형태이다.
AGRU의 final hidden state은 query의 representation을 구체화하는데 contextual vector 역할을 한다.
BiAGRU은 최근 memories로부터 먼 memories까지 밸런싱을 맞추는 역할을 한다.

(3) 우리는 두 개의 감정 대화 데이터세로 실험하여 광범위한 분석을 해서, AGHMN 모델이 효과적임을 보여준다.

2. Related Work (번역)

Text Classification.

텍스트 기반 감정 인식은 일반적으로 텍스트 분류 문제로 처리됩니다.
이전에 제안 된 방법은 크게 키워드 기반 방법 (Wilson, Wiebe, Hwa 2004), 학습 기반 방법 (Yang, Lin, Chen 2007), 하이브리드 방법 (Wu, Chuang, Lin 2006)으로 나눌 수 있습니다. ).
오늘날 딥 러닝은 잠재 기능을 학습하는 강력한 기능으로 인해 텍스트 분류 영역을 지배하고 있습니다. 대표적인 방법으로는 컨볼 루션 신경망 (CNN) (Kim 2014), RNN (Recurrent Neural Network) (Abdul-Mageed and Ungar 2017), 계층 적주의 네트워크 (HAN) (Tang, Qin, Liu 2015)가 있습니다.
이러한 작업은 컨텍스트가없는 데이터 단위에 맞게 사용자 정의됩니다. 독립적 인 검토 또는 문서.

Context-Dependent Models.

대화에서 화자의 감정 상태를 인식하려면 정확한 정보를 전달하기 위해 쿼리에서 컨텍스트를 고려해야합니다.
기존 작업은 정적 모델과 동적 모델의 두 가지 스트림으로 나눌 수 있습니다.
정적 모델에는 시퀀스 기반 및 그래프 기반 (Zhang et al. 2019; Ghosal et al. 2019)이 포함되며, 전자는 각 발화가 역사와 미래의 발화를 컨텍스트로 갖도록합니다.
시퀀스 기반 정적 모델 중에서 cLSTM (Poria et al. 2017)은 발화 간의 순차적 관계를 포착하기 위해 장단기 기억 네트워크 (LSTM) (Hochreiter and Schmidhuber 1997) 만 채택합니다.
HiGRU (Jiao et al. 2019)는 컨텍스트 가중치 및 요약을위한 자기주의 메커니즘과 기능 융합을위한 잔여 연결을 사용합니다. BiDialogueRNN (Majumder et al. 2019)은 대화 전반에 걸쳐 개별 당사자 상태를 추적하고이 정보를 감정 인식에 사용하는 RNN을 기반으로합니다.
이러한 static 모델은 unidirectional variants을 사용하는 경우 RTER 작업에 적응할 수 있습니다.
동적 모델은 생성 된 순서대로 발화를 읽으므로 각 수신 발화, 즉 쿼리는 과거 발화에만 의존합니다.
이러한 모델에는 CMN (Hazarika et al. 2018b), DialogueRNN 및 ICON (Hazarika et al. 2018a)이 포함됩니다.
그중 CMN과 ICON은 기억 네트워크 (Sukhbaatar et al. 2015)를 통합하여 상황 정보를 개선하고 자기 및 화자 간 감정적 영향을 고려하는 이원 적 대화에 맞게 사용자 정의됩니다.

우리의 AGHMN 모델은 우리가 제안한 HMN에 의해 더 나은 발화 기능과 메모리 표현을 생성하고 우리가 제안한 AGRU 및 BiAGRU에 의해 더 나은 방식으로 메모리를 요약한다는 점에서 이러한 접근 방식과 다릅니다.
우리는 DialogueRNN 에서처럼 화자를 명시 적으로 구별하지 않지만 모델 자체가 화자 간의 차이를 인식할 수 있음을 발견했습니다 (사례 연구 참조).

이 부분은 신기한듯?

3. Task Specification

We first specify the task of Real-Time Emotion Recognition (RTER) as below:
Real-Time Emotion Recognition.

이전의 발화 시퀀스 C_t = {u1, · · · , ut} turns가 진행된 대화라고 가정하고, t-th 발화는 query utterance q이고 다른 것들은 historical ones이다.
그림 1에서 설명하듯이, 각 발화는 emotions E의 세트사이에 주요 감정을 표현한다. (joy, sadness, neutral과 같은)
우리의 목표는 model M을 디자인하고 학습하여 historical utterances가 조건일 때, 표현되는 감정을 예측하는 것이다.

4. Architecture

In this section, we will introduce the AGHMN model as illustrated in Fig 2, which consists of a Word Embedding Layer, a Hierarchical Memory Network, an Attention GRU, and a Classifier.

4.1 Word Embedding Layer

$C_t$ utterance는 words의 시퀀스인 $u_{t'}= \{ w_1, w_2, ..., w_N \}$ 으로 구성된다.

$t' \in [1,t]$ , $w_n \in u_{t'}$ (vocab에 있는 단어의 index)

utterance은 word embedding layer에 들어가 dense vector $\mathbf{x}$ 을 각 단어에 대해 얻고 word vector의 size는 $d_w$ 이다.
word embedding layer의 weights는 일반적으로 사용가능한 300-dimensional word2vec으로 초기화된다. (Google News로부터 100 billion으로 학습된)
word2vec vocab에 없는 단어들은 랜덤으로 초기화한다.

4.2 Hierarchical Memory Network

HMN은 two-level encoder로 lower one는 utterance reader이고 upper one은 fusion layer이다.
Utterance Reader

현재 작업 (Hazarika et al. 2018a; Hazarika et al. 2018b; Majumder et al. 2019)은 항상 CNN을 사용하여 발화 특성을 추출하지만 BiGRU를 채택하기로 결정했습니다.
BiGRU는 두 방향으로 각 단어에 대한 문맥 정보를 수집하면서 단어 시퀀스를 모델링 할 수 있으므로 문장을 충분히 이해하는 데 도움이됩니다.
실제로 BiGRU가 발화 판독기로 일반적으로 사용되는 1-D CNN보다 훨씬 더 나은 성능을 발휘합니다 (표 4 참조).
즉 먼저 문장을 벡터화 시키는 것으로 그림에서 Utterance reader에 해당한다.

Fusion Layer

t-step에서 query의 representation을 utterance encoder에서 가져온다: qt=ut
각 query qt에 대해, 우리는 memory bank Mt을 most recent K historical utterance을 기반으로 구축하였다.
K개 발화는 시퀀스를 유지하므로 서로 상호 작용하여 메모리 표현을 개선 할 수 있기를 바랍니다.
그림 2에서 볼 수 있듯이 여기서는 두 가지 유형의 메모리 뱅크를 고려합니다.
Unidirectional Fusion (UniF)

첫째, unidirectional GRU를 사용하여 이러한 K 발화를 읽고 이들 사이의 순차적 관계를 모델링합니다.
독립적인 utterance embedidng $\{ \mathbf{u}_{t-K+1+k} \}^{K}_{k=1}$ 은 GRU에 들어가서, memory bank형태의 GRU 출력과 concat된다.

memory bank M_t={UniGRU( $\mathbf{u}_{t-K+1+k}$ )+ $\mathbf{u}_{t-K+1+k}$ }^{K}_{k=1}

Bidirectional Fusion (BiF)

UniF 메모리 뱅크는 각 메모리가 이전이 아닌 컨텍스트를 가질 수 있도록 허용하므로 반대 방향에서 정보 전파를 방지 할 수 있습니다.
이러한 문제를 해결하기 위해 BiGRU를 통해 K 발화를 읽고 출력과 입력을 결합하여 메모리 뱅크를 구성 할 것을 제안합니다.
M_t={BiGRU( $\mathbf{u}_{t-K+1+k}$ )+ $\mathbf{u}_{t-K+1+k}$ }^{K}_{k=1}

k에따라 GRU을 통과할 때, hidden state vector와 입력 vector을 더해서 Memory bank을 구축한다. (꼭 더할필요는 없겠지만, 간단히 더해서 진행했다고 함.)

그림에서 Fusion Layer와 Memory bank layer에 연결되는 부분까지 해당한다.

4.3 Attention GRU

일반적으로 대화의 query는 따르는 context에 의존적이다.
그래서, query의 representation을 구체화하기 위해 context을 요약하고 가중치를 부여하는 것은 중요하다.
이 프로세스는, 보통 attention layer에 의해 구현되며, 이것은 query가 memory bank와 상호작용하게하여 contextual vector $\mathbf{c}_t$ 을 생성한다.
Context Weighting

attention layer은 memory bank에서부터 관련있는 context을 검색할 수 있어서 query에서 표현된 감정을 예측하는데 도움을 주어야 한다.
query에 해당하는 각 memory의 중요성에 가중치를 부여하기 위해, 우리는 dot-product attention with a softmax normalization을 적용한다.
그 결과로써, t-step에서, k-th memory $M_{t,k}$ 는 다음과 같다.

Context Summarizing.

일반적으로, contextual vector $\mathbf{c}_t$ 는 Soft Attention에 의해 메모리 가중치 합으로 다음과 같이 구해진다: $\mathbf{c}_t = \sum^{K}_{k=1}a_k\mathbf{M}_{t,k}$
이 방법은 계산하는데 효율적이다, 그러나 word representation area의 단지 bag-of-words는 positional과 memories의 ordering information을 잃어버린다.

생각해보니 저번에 간단히 실험했던 방법도 이 말과 같은 단점이 있었군..
근데 또 fusion layer을 UniF을 사용하면 memory에 위치정보가 애초에 포함되어 있기 때문에 상관이 없을 것 같기도 함.

그래서, 우리는 Attention GRU (AGRU)을 제안하고, 이는 query의 attention weight을 사용하여 메모리가 noraml GRU의 internal state $\mathbf{\tilde{h}}_t$ 을 업데이트하게한다.

여기서 weight는 query와 내적해서 얻은 결과이다.

AGRU의 출력은 다음과 같다.

GRU는 memories의 positional과 ordering 정보를 유지하는데 유리하고 attention weight는 다음 step으로 정보의 양을 조절한다.

그냥 GRU보다 AGRU가 나을 것 같기는 한데 따로 구현해야되는 귀찮은 점이 있긴할 듯

우리는 AGRU의 final hidden state을 contextual vector로 취한다: $\mathbf{c}_t = \mathbf{h}_K$
그리고 query representation을 다음과 같이 재구성한다.

게다가, RNN이 최근 입력들의 표현을 더 잘나타내는 것을 고려할 때, AGRU의 contextual vector 또한 최신 memories에 대한 정보를 더 많이 전달하는 경향이 있다.

이렇게 작동하는 것이 더 리즈너블 한 것아닌가?
화자의 감정에는 최신 발화들이 당연히 더 많은 영향을 미칠 것 같은데..

따라서, (자연스럽게) backward AGRU는 query에서 멀리 떨어진 memories을 더 잘 표현할 수 있다.
따라서 AGRU를 bidirectional variant, 즉 BiAGRU로 향상시켜 최근 기억의 정보와 먼 기억의 정보간의 균형을 맞춥니다.

근데, BiAGRU을 쓴다는 것은 position, ordering 정보가 다시 문제가 되는 것 아닌가?
양뱡향이면 어디가 앞이고 뒤인지를 모르는 상황일텐데..

BiAGRU는 특히 긴 대화를 위한 메모리 뱅크에서보다 포괄적인 컨텍스트를 캡처 할 수 있다고 믿는다.
결과적으로 BiAGRU에 의해 생성된 컨텍스트 벡터는 다음과 같이 표현됩니다.

query도 비슷하게 재구성됩니다.

4.4 Classifier

The refined representation of the query from the AGRU is used for prediction by a softmax layer:

cross-entropy loss

5. Experimental Setup

(간단히만 보자)
이 섹션에서는 데이터 세트, 비교 방법, 구현 및 교육을 포함하여 실험 설정에 대한 세부 정보를 제공합니다.

5.1 Datasets

IEMOCAP: https://sail.usc.edu/iemocap/

The IEMOCAP dataset contains the acts of 10 speakers in a dyadic conversation fashion, providing text, audio, and video features.
We follow the previous work (Hazarika et al. 2018a) to use the first four sessions of transcripts as the training set, and the last one as the testing set.
The validation set is extracted from the randomly shuffled training set with the ratio of 80:20.
Also, we focus on recognizing six emotion classes, namely, happy, sad, neutral, angry, excited, and frustrated.

MELD: https://github.com/declare-lab/MELD/

The MELD dataset (Poria et al. 2019a) is an extended version of the EmotionLines dataset (Hsu et al. 2018).
The data comes from the Friends TV series with multiple speakers involved in the conversations.
It is split into training, validation, and testing sets with 1039, 114, and 280 conversations, respectively.
Each utterance has been labelled by one of the seven emotion types, namely, anger, disgust, sadness, joy, neutral, surprise and fear.

5.2 Compared Methods.

Memory banks와 AGRUs 부분을 조합하여 총 4가지 모델을 제시

UniF-AGRU, UniF-BiAGRU, BiF-AGRU, and BiF-BiAGRU.

비교 베이스라인

scLSTM

scLSTM (Poria et al. 2017)은 과거 발화를 사용하여 발화를 LSTM에 의해 실현 된 컨텍스트로 분류하는 단방향 변형입니다.

CMN (Hazarika et al. 2018b) 모델은 발화에 대해 화자와 청취자 모두에 대해 별도의 컨텍스트를 제공합니다.
이러한 컨텍스트는 들어오는 발화의 예측을 돕기 위해 메모리로 저장됩니다.

DialogueRNN

DialogueRNN (Majumder et al. 2019)은 대화 전체에 걸쳐 개별 당사자 상태를 추적하고 이 정보를 감정 분류에 사용하는주의 레이어가있는 단방향 변형입니다.

ICON

ICON (Hazarika et al. 2018a)은 발화의 정서적 방향을 예측하는 데 도움이되도록 자기 및 화자 간 정서적 영향을 글로벌 기억에 통합합니다.
역사적 맥락 만있는 단방향 모델입니다.

IEMOCAP의 경우 memnet (Sukhbaatar et al. 2015), CMN, DialogueRNN (Majumder et al. 2019), (Hazarika et al. 2018a)의 ICON 결과를 참조합니다.
MELD의 경우 CNN 결과를 참조합니다 (Poria et al. 2019b).
두 데이터 세트에 대해 scLSTM 및 DialogueRNN을 다시 실행합니다.
CMN 및 ICON은 두명의 대화에 맞게 사용자 지정되고 다자간 대화 데이터 세트에 대한 확장 성 문제가 발생할 수 있으므로 MELD에 맞게 조정할 수 없습니다. (Poria et al. 2019b).

5.3. Training.

We choose Adam (Kingma and Ba 2015) optimizer with an initial learning rate lr = 5 × 10−4 .
To regulate the models, we clip the gradients of model parameters with a max norm of 5 and apply dropout with a drop rate of 0.3.
We monitor the macro-averaged F1-score (mF1) of the validation sets during training and decay the learning rate by 0.95 once the mF1 stops increasing.
The training process is terminated by early stopping with a patience of 10.

6. Results

표 2와 표 3은 각각 IEMOCAP 및 MELD 테스트 세트에 대한 결과를 보여줍니다.
두 데이터 세트에 대해 각 감정 클래스에 대한 정확도와 F1 점수 (Tong et al. 2017)를 보고하고 모든 감정 클래스의 가중 평균을 사용하여 전체 분류 성능을 평가합니다.

그냥 F1 = weighted F1 인 거 같음 (COSMIC과 비교할 땐 이 점수)

또한 가중 평균이 대다수 클래스에 의해 손상되기 때문에 소수 감정 클래스에 대한 모델 성능을 반영하기 위해 macro-F1 점수 (mF1)의 평균을 보고합니다.
표에서 우리가 제공 한 각 결과는 반복 실험의 10회 평균값입니다.
우리의 모델은 대부분의 감정 등급, 특히 두 개의 소수 계층 fear and disgust에서 가장 잘 수행되지만, 이는 anger에 대한 성능 저하를 동반합니다.
그러나 mF1 값을 참조하면 우리 모델이 훨씬 더 균형 잡힌 결과를 생성한다고 말하는 것이 안전합니다.
Baseline Methods.

우리가 구현 한 bcLSTM 모델은 매우 강력하여 IEMOCAP의 DialogueRNN4를 제외한 두 데이터 세트의 다른 모든 기준보다 성능이 뛰어납니다.
그러나 우리가 운영하는 DialogueRNN의 결과는 DialogueRNN4보다 약간 나쁩니다.
BiDialogueRNN에 맞게 사용자 정의 된 제공된 코드의 기본 설정을 따르기 때문일 수 있습니다.
어쨌든 AGHMN 모델은 두 데이터 세트에서 성능을 능가하여 컨텍스트 모델링 체계의 효율성을 시사합니다.

AGHMN variants.

UniF-AGRU는 두 데이터 세트에서 네 가지 변형 모두에서 최악의 성능을 보입니다.
일관되게 UniFBiAGRU 및 BiF-AGRU는 UniF-AGRU보다 성능이 우수하여 각각 AGRU보다 BiAGRU 및 UniF보다 BiF의 우월성을 보여줍니다.
그러나 BiF-BiAGRU는 최상의 성능을 얻지 못하여 모델이 너무 깊어 두 데이터 세트에서 학습 할 수 없다고 추측합니다.

BiG-BiAGRU는 위에서 말햇듯 나의 궁금즘이 있는데, 그것 때문에 성능이 낮은거 아닌가 싶은데..

사실, MELD의 변형 간의 성능 차이는 제한적입니다.
이는 주로 MELD의 대화가 IEMOCAP의 대화보다 훨씬 적은 턴을 포함하여 다른 모듈에 덜 민감하기 때문입니다.

6.1 Model Analysis

Utterance Readers.

BiLSTM 및 BiGRU의 경우 GRU가 일반적으로 작은 데이터 세트에서 LSTM보다 강력하기 때문에 후자의 성능이 더 좋습니다.
이 결과는 RNN이이 계층 적 메모리 네트워크에서 더 호환된다는 것을 나타냅니다.

Attention Choices & Memory Banks.

여기서 soft는 soft attention으로 내적해서 단순 weighted sum을 하는 방식이다.
표 5에서 볼 수 있듯이 UniF 메모리 뱅크를 사용하면 AGRU가 두 데이터 세트 모두에서 Soft Attention보다 더 나은 결과를 얻습니다.
그리고 BiAGRU가 AGRU보다 낫다는 것을 보여주기도 한다.

Context-Window Size

메모리 뱅크 구축을 위해 컨텍스트 창 크기 K를 변경하는 경우 두 데이터 세트에서 UniF-BiAGRU 및 BiF-AGRU의 성능 추세를 플로팅합니다.
두 데이터 세트에서 두 모델은 성능이 처음에 증가한 다음 K가 증가함에 따라 감소하는 유사한 추세를 따릅니다.
IEMOCAP에서 BiF-AGRU의 경우 K = 40, UniFBiAGRU의 경우 K = 50에서 최상의 결과를 얻습니다.
데이터 세트의 평균 대화 길이에 맞 춥니 다 (표 1 참조). MELD에서 K의 가장 좋은 값은 각각 5와 10으로 IEMOCAP보다 훨씬 낮습니다.
MELD의 데이터는 더 빠른 감정 변동이있는 프렌즈 TV 시트콤에서 나왔기 때문이라고 추측합니다.
따라서 컨텍스트가 길면 모델 혼동이 발생할 수 있습니다.
반대로 IEMOCAP의 감정 상태는 훨씬 더 부드럽게 진화합니다.

6.2 Case Study (번역)

Attention Evolution.

우리는 모델에서 화자를 명시 적으로 구별하지 않지만 대화가 진행됨에 따라 화자마다 기억 선택이 다르다는 것을 발견했습니다.
그림 4에서는 IEMOCAP 및 MELD의 대화 조각에서 각각 테스트 된 BiF-AGRU의주의 가중치를 시각화합니다.
IEMOCAP의 경우 남성은 처음부터 흥분되어 여기에 제시된 네 가지 발화가 대화의 첫 발화에 가장 많은 관심을 기울입니다.
대조적으로, 여성의 관심은 그녀를 좌절하게 만드는 첫 번째 발언과 중간 발언 (그림 5 참조)을 포함하여 여러 역사적 발언에 분산되어 있습니다.
MELD의 경우 Joey는 항상 즐겁고 마지막으로 즐거운 발언에 관심을 기울입니다.
Monica는 Chandler에게 단서를 제공하면서 Joey와의 대화에 가장 많은 관심을 기울입니다.
Chandler는 Joey와 Joey의 위치에 중점을 둡니다.

Attention Comparison.

기억의 선택은주의 메커니즘에 따라 다릅니다.
그림 5에서 여성이 답답한 감정을 표현한 질의 발화가 주어지면 Soft Attention은 답답함을 표현하는 발화에 초점을 맞춘다.
AGRU는 여성의 답답한 감정의 원인이 될 수있는 한 가지 발화에 가장 많은주의를 기울이지 만이 예에서는 질의 감정을 분노로 분류합니다.
BiAGRU는 두 종류의 단서를 감지하여보다 포괄적 인 메모리를 제공합니다.
BiF는 메모리 표현을 향상시키고 AGRU가 UniF-BiAGRU만큼 포괄적으로 메모리를 추출하도록 도와줍니다.

Error Analysis.

그림 4에서 IEMOCAP의 33 번째 발화는 중립이 아닌 좌절 된 것으로 인식됩니다. 우리는 원래 주석이 정확하지 않을 수 있다고 주장합니다.
몇 차례의 좌절과 남성의 최근 반응 (34 번째)을 감안할 때 여성은 다시 좌절감을 표현할 수있었습니다.
그래도 우리는 disgust과 같은 MELD에서 minority 클래스를 잘 다룰 수 없습니다.
다른 감정과 명확하게 구분할 수있는 더 많은 데이터 또는 다중 모드 기능을 사용하면이 문제를 더 잘 해결할 수 있습니다.

7. Conclusions

우리는 RTER을 위한 Attention Gated Hierarchical Memory Network (AGHMN)을 제안한다. (근데 꼭 real-time이 붙는 것인가 굳이?)
먼저, 제안한 HMM은 발화 features와 memories의 질을 향상시켰다.
그리고나서, 제안한 Attention GRU는 Soft Attention보다 더 나은 contextual information을 제안한다.
우리는, 광범위한 실험을 두 개의 대화 데이터세트에 대해 실험을하고, 우리의 모델이 SoTA을 달성함을 보여준다. (지금은 아니지만..)
마지막으로, ablation studies와 attention visualization은 AGHMN 모델들의 각 컴포넌트의 효율성을 증명한다.

Reference

https://arxiv.org/pdf/1911.09075.pdf

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-094, Real-Time Emotion Recognition via Attention Gated Hierarchical Memory Network (2020-AAAI)

◼️ Comment

0. Abstract

1. Real-Time Emotion Recognition via Attention Gated Hierarchical Memory Network

2. Related Work (번역)

3. Task Specification

4. Architecture

4.1 Word Embedding Layer

4.2 Hierarchical Memory Network

4.3 Attention GRU

4.4 Classifier

5. Experimental Setup

5.1 Datasets

5.2 Compared Methods.

5.3. Training.

6. Results

6.1 Model Analysis

6.2 Case Study (번역)

7. Conclusions

댓글

댓글 쓰기