NL-094, Real-Time Emotion Recognition via Attention Gated Hierarchical Memory Network (2020-AAAI)
◼️ Comment
- 일단, 이 논문은 제출 당시에 SoTA였겠지만 현재 SoTA는 아니다.
- 사실 개인적으로 pretrained model로 간단히 해본 실험보다도 성능이 좋다고 볼 수 없다.
- 방법은 pretrained model을 쓰지 않고, GRU을 이용한 모델이라고 볼 수 있다.
- GRU중 AGRU라는 것을 제안한다.
- 쉽게 말해, memory vectors을 현재 query vector와 어떻게 결합하냐? 로부터 나온 방법인데
- 기존에는 soft attention이라고, 내적해서 weight을 구해서 weighted sum을 구하는 방법이 많다.
- 여기서는 그렇게 하면, position, order 정보를 잃어버리기 때문에 GRU으로 대체하고, 대신 내적해서 구한 weight을 attention 값으로 사용하여 AGRU라는 것을 제안한다.
- 그래서 성능이 올라감을 보여주고 나중에 soft attention 대신 한 번 시도해볼 수 있을 것 같다.
- 그리고 컨텍스트와 입력의 벡터를 highway net처럼 더해줘서 처리하는데 아무튼 이런거는 참고하기에 좋은 것 같다.
- 근데 논문에서 세부적인 내용으로 궁금한점은
- position, order 정보를 잃지 않으려고 GRU을 쓴다고 한다.
- 근데 UniGRU는 과거 정보를 잃어버리는 것이 있으니 먼 memory도 균형적으로 반영하고자 BiGRU을 채택한다.
- 근데 현재 query의 감정에는 당연히 현재의 정보가 더 중요하기 때문에 과거 정보와 굳이 맞춰줄 필요가 있을까? 싶은 생각이다.
- Bi or Uni을 memory을 만들 때, AGRU을 통과할 때, 모두 고려해서 총 4가지 방법으로 해볼 수 있다.
- 논문 논리라면 Bi memory + BiAGRU가 가장 성능이 좋아야하는데, 성능이 best가 아니다. 그에 대한 이유로 모델 복잡성에 비해 데이터가 적다라고 하는데..흠..?
- 개인적으로는 하나만 memory에 Bi로 써서 양방향 정보를 담고 AGRU는 uni로 쓰는게 가장 리즈너블하지 않나 생각이든다.
- 모듈 analysis도 여러 가지 시도했는데 이 부분은 논문을 직접 읽어보시길..
- 모델 analysis에서 attention을 이용해서 어디 부분을 참고하는지 확인해보는 것도 좋은 분석인 것 같다.
- 또한, 틀린 label을 보면 사람의 label이 틀린 경우도 있음을 주장한다.
0. Abstract
- 대화속에서 실시간 감정 인식 (Real-time emotion recognition (RTER))은 감정적인 고도화 채팅머신을 위해 중요하다.
- RTER에서 future context없이, historical context을 캡쳐하기위해 메모리 bank을 신중하게 설계해야하고 관련 정보를 검색하기 위해, 적절하게 memories을 요약해야한다.
- 우리는 Attention Gated Hierarchical Memory Network (AGHMN)을 제안하여 이전의 연구 문제를 해결하려고 한다.
- (1) Commonly used convolutional neural networks (CNNs) for utterance feature extraction are less compatible in the memory modules;
- (2) Unidirectional gated recurrent units (GRUs) only allow each historical utterance to have context before it, preventing information propagation in the opposite direction;
- (3) The Soft Attention for summarizing loses the positional and ordering information of memories, regardless of how the memory bank is built.
- 특별히, 우리는 utterance reader로써 BiGRU을 사용하는 Hierarchical Memory Network (HMN)와 historical utterances사이의 상호작용을 위한 BiGRU fusion layer을 제안한다.
- 메모리 요약을 위해 attention weights를 활용하여 GRU의 internal state를 업데이트하는 attention GRU (AGRU)를 제안합니다.
- 우리는, 더 나아가 AGRU을 BiAGRU로 향상시켜, 최근 메모리들로부터의 contextual information와 먼(distant) memories 사이를 밸런싱있게한다.
- 우리는 두 개의 ERC데이터로 실험하고 분석하여 AGHMN models의 효율성을 입증한다.
1. Real-Time Emotion Recognition via Attention Gated Hierarchical Memory Network
- 감정 인식은 현재 AI 영역에서 공감적인 기계를 개발하는 잠재적인 어플리케이션때문에 중요한 연구분야이다.
- 우리는 발화수준의 진행중인 시나리오에서 실제 시나리오에서 speakers의 감정을 검출하는데 집중한다.
- (Olson 1977)에 따르면 발화는 호흡과 멈춤으로 묶인 말의 단위입니다.
- 이 작업을 실시간 감정 인식 (RTER)이라고합니다.
- 본질적으로 감정 인식은 텍스트, 비디오 및 오디오 기능을 포함 할 수있는 multi-modal 학습 작업이지만 텍스트 기능이 가장 중요한 역할을합니다 (Chen et al. 1998; Poria, Cambria, and Gelbukh 2015; Poria et al. 2017; Hazarika et al. 2018b.
- Thus, in this paper, we tackle the RTER task in text conversations.
- future context 없이, RTER에서 이전 발화들로부터 contextual 정보를 활용하는 것이 중요해진다.
- 이를 위해서, 두 가지 요소에 관심을 가져야 한다.
- memory bank for capturing historical context, and
- the summarizing technique for the query to extract relevant information from the memory bank.
- memory bank은 보통 two-level fashion으로 설계되어서 계층적인 대화 구조를 시뮬레이션한다.
- 즉, words-to-utternace와 utterances-to-conversation 형태이다.
- 특별히, 기존의 모델들은 그들의 memory banks을 CNNs을 활용하여 발화 features을 학습하고 unidirectional gated recurrent units으로부터 발화의 관계를 캡쳐하려고 한다.
- 그러나, 우리의 탐구를 통하여, 우리는 BiGRU로 발화 features을 배우는 것이 CNNs을 사용하는 것보다 나음을 발견한다.
- 게다가, unidirectional GRU는 각 historical utterance이 전후가 아닌 컨텍스트를 가질 수 있도록 허용하므로 반대 방향으로 정보 전파를 방지 할 수 있습니다.
- summarizing techniques에 관해서는 일반적으로 사용되는 Soft Attention이 weighted sum of the memories를 생성하며 이는 bag-of-memories으로 간주 될 수 있습니다.
- 단지 word 표현 영역에서 bag-of-words은 word order의 민감성에 대해 부족하고, memory bank가 어떻게 구축되는지 상관없이 bag-of-memories는 메모리의 정보를 순서와 가능성을 상실할 수 있다.
- 이러한 요소를 결합하여, 이 논문에서, 우리는 Attention Gated Hierarchical Memory Network (AGHMN)을 제안하여 더 좋은 발화 features와 contextual information을 RTER task에서 추출한다.
- 구체적으로, 컨트리뷰션은 다음과 같다.
- (1) 우리는 Hierarchical Memory Network (HMN)을 제안하여 utterance features을 향상시키고 contextual information을 위한 memory bank을 제안한다.
- HMN은 two-level GRU encoder이 필수적이고, utterance reader와 fusion layer을 포함하고 있다.
- utterance reader은 BiGRU을 적용하여 각 발화의 word sequence을 모델링하고, 이는 우리가 계층적 구조와 더 잘 호환됨을 보여준다.
- fusion layer은 BiGUR을 수용하여 historical utternaces을 읽고, 이는 그들 사이의 충분한 상호작용을 가능하게 한다.
- (2) 메모리를 요약하면서 위치 및 순서 정보를 유지하고보다 포괄적인 컨텍스트를 캡처하기 위해 BiAGRU와 같은 양방향 변형으로 승격 할 수있는 AGRU (Attention GRU)를 제안합니다.
- AGRU은 normal GRU의 internal state을 업데이트하기위해 메모리에 대한 query의 attention weights을 활용한 형태이다.
- AGRU의 final hidden state은 query의 representation을 구체화하는데 contextual vector 역할을 한다.
- BiAGRU은 최근 memories로부터 먼 memories까지 밸런싱을 맞추는 역할을 한다.
- (3) 우리는 두 개의 감정 대화 데이터세로 실험하여 광범위한 분석을 해서, AGHMN 모델이 효과적임을 보여준다.
2. Related Work (번역)
- Text Classification.
- 텍스트 기반 감정 인식은 일반적으로 텍스트 분류 문제로 처리됩니다.
- 이전에 제안 된 방법은 크게 키워드 기반 방법 (Wilson, Wiebe, Hwa 2004), 학습 기반 방법 (Yang, Lin, Chen 2007), 하이브리드 방법 (Wu, Chuang, Lin 2006)으로 나눌 수 있습니다. ).
- 오늘날 딥 러닝은 잠재 기능을 학습하는 강력한 기능으로 인해 텍스트 분류 영역을 지배하고 있습니다. 대표적인 방법으로는 컨볼 루션 신경망 (CNN) (Kim 2014), RNN (Recurrent Neural Network) (Abdul-Mageed and Ungar 2017), 계층 적주의 네트워크 (HAN) (Tang, Qin, Liu 2015)가 있습니다.
- 이러한 작업은 컨텍스트가없는 데이터 단위에 맞게 사용자 정의됩니다. 독립적 인 검토 또는 문서.
- Context-Dependent Models.
- 대화에서 화자의 감정 상태를 인식하려면 정확한 정보를 전달하기 위해 쿼리에서 컨텍스트를 고려해야합니다.
- 기존 작업은 정적 모델과 동적 모델의 두 가지 스트림으로 나눌 수 있습니다.
- 정적 모델에는 시퀀스 기반 및 그래프 기반 (Zhang et al. 2019; Ghosal et al. 2019)이 포함되며, 전자는 각 발화가 역사와 미래의 발화를 컨텍스트로 갖도록합니다.
- 시퀀스 기반 정적 모델 중에서 cLSTM (Poria et al. 2017)은 발화 간의 순차적 관계를 포착하기 위해 장단기 기억 네트워크 (LSTM) (Hochreiter and Schmidhuber 1997) 만 채택합니다.
- HiGRU (Jiao et al. 2019)는 컨텍스트 가중치 및 요약을위한 자기주의 메커니즘과 기능 융합을위한 잔여 연결을 사용합니다. BiDialogueRNN (Majumder et al. 2019)은 대화 전반에 걸쳐 개별 당사자 상태를 추적하고이 정보를 감정 인식에 사용하는 RNN을 기반으로합니다.
- 이러한 static 모델은 unidirectional variants을 사용하는 경우 RTER 작업에 적응할 수 있습니다.
- 동적 모델은 생성 된 순서대로 발화를 읽으므로 각 수신 발화, 즉 쿼리는 과거 발화에만 의존합니다.
- 이러한 모델에는 CMN (Hazarika et al. 2018b), DialogueRNN 및 ICON (Hazarika et al. 2018a)이 포함됩니다.
- 그중 CMN과 ICON은 기억 네트워크 (Sukhbaatar et al. 2015)를 통합하여 상황 정보를 개선하고 자기 및 화자 간 감정적 영향을 고려하는 이원 적 대화에 맞게 사용자 정의됩니다.
- 우리의 AGHMN 모델은 우리가 제안한 HMN에 의해 더 나은 발화 기능과 메모리 표현을 생성하고 우리가 제안한 AGRU 및 BiAGRU에 의해 더 나은 방식으로 메모리를 요약한다는 점에서 이러한 접근 방식과 다릅니다.
- 우리는 DialogueRNN 에서처럼 화자를 명시 적으로 구별하지 않지만 모델 자체가 화자 간의 차이를 인식할 수 있음을 발견했습니다 (사례 연구 참조).
- 이 부분은 신기한듯?
3. Task Specification
- We first specify the task of Real-Time Emotion Recognition (RTER) as below:
- Real-Time Emotion Recognition.
- 이전의 발화 시퀀스 C_t = {u1, · · · , ut} turns가 진행된 대화라고 가정하고, t-th 발화는 query utterance q이고 다른 것들은 historical ones이다.
- 그림 1에서 설명하듯이, 각 발화는 emotions E의 세트사이에 주요 감정을 표현한다. (joy, sadness, neutral과 같은)
- 우리의 목표는 model M을 디자인하고 학습하여 historical utterances가 조건일 때, 표현되는 감정을 예측하는 것이다.
4. Architecture
- In this section, we will introduce the AGHMN model as illustrated in Fig 2, which consists of a Word Embedding Layer, a Hierarchical Memory Network, an Attention GRU, and a Classifier.
4.1 Word Embedding Layer
- HMN은 two-level encoder로 lower one는 utterance reader이고 upper one은 fusion layer이다.
- Utterance Reader
- 현재 작업 (Hazarika et al. 2018a; Hazarika et al. 2018b; Majumder et al. 2019)은 항상 CNN을 사용하여 발화 특성을 추출하지만 BiGRU를 채택하기로 결정했습니다.
- BiGRU는 두 방향으로 각 단어에 대한 문맥 정보를 수집하면서 단어 시퀀스를 모델링 할 수 있으므로 문장을 충분히 이해하는 데 도움이됩니다.
- 실제로 BiGRU가 발화 판독기로 일반적으로 사용되는 1-D CNN보다 훨씬 더 나은 성능을 발휘합니다 (표 4 참조).
- 즉 먼저 문장을 벡터화 시키는 것으로 그림에서 Utterance reader에 해당한다.
- Fusion Layer
- t-step에서 query의 representation을 utterance encoder에서 가져온다: qt=ut
- 각 query qt에 대해, 우리는 memory bank Mt을 most recent K historical utterance을 기반으로 구축하였다.
- K개 발화는 시퀀스를 유지하므로 서로 상호 작용하여 메모리 표현을 개선 할 수 있기를 바랍니다.
- 그림 2에서 볼 수 있듯이 여기서는 두 가지 유형의 메모리 뱅크를 고려합니다.
- Unidirectional Fusion (UniF)
- 첫째, unidirectional GRU를 사용하여 이러한 K 발화를 읽고 이들 사이의 순차적 관계를 모델링합니다.
- 독립적인 utterance embedidng
은 GRU에 들어가서, memory bank형태의 GRU 출력과 concat된다.
- Bidirectional Fusion (BiF)
- UniF 메모리 뱅크는 각 메모리가 이전이 아닌 컨텍스트를 가질 수 있도록 허용하므로 반대 방향에서 정보 전파를 방지 할 수 있습니다.
- 이러한 문제를 해결하기 위해 BiGRU를 통해 K 발화를 읽고 출력과 입력을 결합하여 메모리 뱅크를 구성 할 것을 제안합니다.
- k에따라 GRU을 통과할 때, hidden state vector와 입력 vector을 더해서 Memory bank을 구축한다. (꼭 더할필요는 없겠지만, 간단히 더해서 진행했다고 함.)
- 그림에서 Fusion Layer와 Memory bank layer에 연결되는 부분까지 해당한다.
4.3 Attention GRU
- 일반적으로 대화의 query는 따르는 context에 의존적이다.
- 그래서, query의 representation을 구체화하기 위해 context을 요약하고 가중치를 부여하는 것은 중요하다.
- 이 프로세스는, 보통 attention layer에 의해 구현되며, 이것은 query가 memory bank와 상호작용하게하여 contextual vector
을 생성한다.
- Context Weighting
- attention layer은 memory bank에서부터 관련있는 context을 검색할 수 있어서 query에서 표현된 감정을 예측하는데 도움을 주어야 한다.
- query에 해당하는 각 memory의 중요성에 가중치를 부여하기 위해, 우리는 dot-product attention with a softmax normalization을 적용한다.
- 그 결과로써, t-step에서, k-th memory
는 다음과 같다.
- Context Summarizing.
- 일반적으로, contextual vector
는 Soft Attention에 의해 메모리 가중치 합으로 다음과 같이 구해진다:
- 이 방법은 계산하는데 효율적이다, 그러나 word representation area의 단지 bag-of-words는 positional과 memories의 ordering information을 잃어버린다.
- 생각해보니 저번에 간단히 실험했던 방법도 이 말과 같은 단점이 있었군..
- 근데 또 fusion layer을 UniF을 사용하면 memory에 위치정보가 애초에 포함되어 있기 때문에 상관이 없을 것 같기도 함.
- 그래서, 우리는 Attention GRU (AGRU)을 제안하고, 이는 query의 attention weight을 사용하여 메모리가 noraml GRU의 internal state
을 업데이트하게한다.
- 여기서 weight는 query와 내적해서 얻은 결과이다.
- AGRU의 출력은 다음과 같다.
- GRU는 memories의 positional과 ordering 정보를 유지하는데 유리하고 attention weight는 다음 step으로 정보의 양을 조절한다.
- 그냥 GRU보다 AGRU가 나을 것 같기는 한데 따로 구현해야되는 귀찮은 점이 있긴할 듯
- 우리는 AGRU의 final hidden state을 contextual vector로 취한다:
- 그리고 query representation을 다음과 같이 재구성한다.
- 게다가, RNN이 최근 입력들의 표현을 더 잘나타내는 것을 고려할 때, AGRU의 contextual vector 또한 최신 memories에 대한 정보를 더 많이 전달하는 경향이 있다.
- 이렇게 작동하는 것이 더 리즈너블 한 것아닌가?
- 화자의 감정에는 최신 발화들이 당연히 더 많은 영향을 미칠 것 같은데..
- 따라서, (자연스럽게) backward AGRU는 query에서 멀리 떨어진 memories을 더 잘 표현할 수 있다.
- 따라서 AGRU를 bidirectional variant, 즉 BiAGRU로 향상시켜 최근 기억의 정보와 먼 기억의 정보간의 균형을 맞춥니다.
- 근데, BiAGRU을 쓴다는 것은 position, ordering 정보가 다시 문제가 되는 것 아닌가?
- 양뱡향이면 어디가 앞이고 뒤인지를 모르는 상황일텐데..
- BiAGRU는 특히 긴 대화를 위한 메모리 뱅크에서보다 포괄적인 컨텍스트를 캡처 할 수 있다고 믿는다.
- 결과적으로 BiAGRU에 의해 생성된 컨텍스트 벡터는 다음과 같이 표현됩니다.
4.4 Classifier
- The refined representation of the query from the AGRU is used for prediction by a softmax layer:
- cross-entropy loss
5. Experimental Setup
- (간단히만 보자)
- 이 섹션에서는 데이터 세트, 비교 방법, 구현 및 교육을 포함하여 실험 설정에 대한 세부 정보를 제공합니다.
5.1 Datasets
- IEMOCAP: https://sail.usc.edu/iemocap/
- The IEMOCAP dataset contains the acts of 10 speakers in a dyadic conversation fashion, providing text, audio, and video features.
- We follow the previous work (Hazarika et al. 2018a) to use the first four sessions of transcripts as the training set, and the last one as the testing set.
- The validation set is extracted from the randomly shuffled training set with the ratio of 80:20.
- Also, we focus on recognizing six emotion classes, namely, happy, sad, neutral, angry, excited, and frustrated.
- MELD: https://github.com/declare-lab/MELD/
- The MELD dataset (Poria et al. 2019a) is an extended version of the EmotionLines dataset (Hsu et al. 2018).
- The data comes from the Friends TV series with multiple speakers involved in the conversations.
- It is split into training, validation, and testing sets with 1039, 114, and 280 conversations, respectively.
- Each utterance has been labelled by one of the seven emotion types, namely, anger, disgust, sadness, joy, neutral, surprise and fear.
5.2 Compared Methods.
- Memory banks와 AGRUs 부분을 조합하여 총 4가지 모델을 제시
- UniF-AGRU, UniF-BiAGRU, BiF-AGRU, and BiF-BiAGRU.
- 비교 베이스라인
- scLSTM
- scLSTM (Poria et al. 2017)은 과거 발화를 사용하여 발화를 LSTM에 의해 실현 된 컨텍스트로 분류하는 단방향 변형입니다.
- CMN
- CMN (Hazarika et al. 2018b) 모델은 발화에 대해 화자와 청취자 모두에 대해 별도의 컨텍스트를 제공합니다.
- 이러한 컨텍스트는 들어오는 발화의 예측을 돕기 위해 메모리로 저장됩니다.
- DialogueRNN
- DialogueRNN (Majumder et al. 2019)은 대화 전체에 걸쳐 개별 당사자 상태를 추적하고 이 정보를 감정 분류에 사용하는주의 레이어가있는 단방향 변형입니다.
- ICON
- ICON (Hazarika et al. 2018a)은 발화의 정서적 방향을 예측하는 데 도움이되도록 자기 및 화자 간 정서적 영향을 글로벌 기억에 통합합니다.
- 역사적 맥락 만있는 단방향 모델입니다.
- IEMOCAP의 경우 memnet (Sukhbaatar et al. 2015), CMN, DialogueRNN (Majumder et al. 2019), (Hazarika et al. 2018a)의 ICON 결과를 참조합니다.
- MELD의 경우 CNN 결과를 참조합니다 (Poria et al. 2019b).
- 두 데이터 세트에 대해 scLSTM 및 DialogueRNN을 다시 실행합니다.
- CMN 및 ICON은 두명의 대화에 맞게 사용자 지정되고 다자간 대화 데이터 세트에 대한 확장 성 문제가 발생할 수 있으므로 MELD에 맞게 조정할 수 없습니다. (Poria et al. 2019b).
5.3. Training.
- We choose Adam (Kingma and Ba 2015) optimizer with an initial learning rate lr = 5 × 10−4 .
- To regulate the models, we clip the gradients of model parameters with a max norm of 5 and apply dropout with a drop rate of 0.3.
- We monitor the macro-averaged F1-score (mF1) of the validation sets during training and decay the learning rate by 0.95 once the mF1 stops increasing.
- The training process is terminated by early stopping with a patience of 10.
6. Results
- 표 2와 표 3은 각각 IEMOCAP 및 MELD 테스트 세트에 대한 결과를 보여줍니다.
- 두 데이터 세트에 대해 각 감정 클래스에 대한 정확도와 F1 점수 (Tong et al. 2017)를 보고하고 모든 감정 클래스의 가중 평균을 사용하여 전체 분류 성능을 평가합니다.
- 그냥 F1 = weighted F1 인 거 같음 (COSMIC과 비교할 땐 이 점수)
- 또한 가중 평균이 대다수 클래스에 의해 손상되기 때문에 소수 감정 클래스에 대한 모델 성능을 반영하기 위해 macro-F1 점수 (mF1)의 평균을 보고합니다.
- 표에서 우리가 제공 한 각 결과는 반복 실험의 10회 평균값입니다.
- 우리의 모델은 대부분의 감정 등급, 특히 두 개의 소수 계층 fear and disgust에서 가장 잘 수행되지만, 이는 anger에 대한 성능 저하를 동반합니다.
- 그러나 mF1 값을 참조하면 우리 모델이 훨씬 더 균형 잡힌 결과를 생성한다고 말하는 것이 안전합니다.
- Baseline Methods.
- 우리가 구현 한 bcLSTM 모델은 매우 강력하여 IEMOCAP의 DialogueRNN4를 제외한 두 데이터 세트의 다른 모든 기준보다 성능이 뛰어납니다.
- 그러나 우리가 운영하는 DialogueRNN의 결과는 DialogueRNN4보다 약간 나쁩니다.
- BiDialogueRNN에 맞게 사용자 정의 된 제공된 코드의 기본 설정을 따르기 때문일 수 있습니다.
- 어쨌든 AGHMN 모델은 두 데이터 세트에서 성능을 능가하여 컨텍스트 모델링 체계의 효율성을 시사합니다.
- AGHMN variants.
- UniF-AGRU는 두 데이터 세트에서 네 가지 변형 모두에서 최악의 성능을 보입니다.
- 일관되게 UniFBiAGRU 및 BiF-AGRU는 UniF-AGRU보다 성능이 우수하여 각각 AGRU보다 BiAGRU 및 UniF보다 BiF의 우월성을 보여줍니다.
- 그러나 BiF-BiAGRU는 최상의 성능을 얻지 못하여 모델이 너무 깊어 두 데이터 세트에서 학습 할 수 없다고 추측합니다.
- BiG-BiAGRU는 위에서 말햇듯 나의 궁금즘이 있는데, 그것 때문에 성능이 낮은거 아닌가 싶은데..
- 사실, MELD의 변형 간의 성능 차이는 제한적입니다.
- 이는 주로 MELD의 대화가 IEMOCAP의 대화보다 훨씬 적은 턴을 포함하여 다른 모듈에 덜 민감하기 때문입니다.
6.1 Model Analysis
- Utterance Readers.
- BiLSTM 및 BiGRU의 경우 GRU가 일반적으로 작은 데이터 세트에서 LSTM보다 강력하기 때문에 후자의 성능이 더 좋습니다.
- 이 결과는 RNN이이 계층 적 메모리 네트워크에서 더 호환된다는 것을 나타냅니다.
- Attention Choices & Memory Banks.
- 여기서 soft는 soft attention으로 내적해서 단순 weighted sum을 하는 방식이다.
- 표 5에서 볼 수 있듯이 UniF 메모리 뱅크를 사용하면 AGRU가 두 데이터 세트 모두에서 Soft Attention보다 더 나은 결과를 얻습니다.
- 그리고 BiAGRU가 AGRU보다 낫다는 것을 보여주기도 한다.
- Context-Window Size
- 메모리 뱅크 구축을 위해 컨텍스트 창 크기 K를 변경하는 경우 두 데이터 세트에서 UniF-BiAGRU 및 BiF-AGRU의 성능 추세를 플로팅합니다.
- 두 데이터 세트에서 두 모델은 성능이 처음에 증가한 다음 K가 증가함에 따라 감소하는 유사한 추세를 따릅니다.
- IEMOCAP에서 BiF-AGRU의 경우 K = 40, UniFBiAGRU의 경우 K = 50에서 최상의 결과를 얻습니다.
- 데이터 세트의 평균 대화 길이에 맞 춥니 다 (표 1 참조). MELD에서 K의 가장 좋은 값은 각각 5와 10으로 IEMOCAP보다 훨씬 낮습니다.
- MELD의 데이터는 더 빠른 감정 변동이있는 프렌즈 TV 시트콤에서 나왔기 때문이라고 추측합니다.
- 따라서 컨텍스트가 길면 모델 혼동이 발생할 수 있습니다.
- 반대로 IEMOCAP의 감정 상태는 훨씬 더 부드럽게 진화합니다.
6.2 Case Study (번역)
- Attention Evolution.
- 우리는 모델에서 화자를 명시 적으로 구별하지 않지만 대화가 진행됨에 따라 화자마다 기억 선택이 다르다는 것을 발견했습니다.
- 그림 4에서는 IEMOCAP 및 MELD의 대화 조각에서 각각 테스트 된 BiF-AGRU의주의 가중치를 시각화합니다.
- IEMOCAP의 경우 남성은 처음부터 흥분되어 여기에 제시된 네 가지 발화가 대화의 첫 발화에 가장 많은 관심을 기울입니다.
- 대조적으로, 여성의 관심은 그녀를 좌절하게 만드는 첫 번째 발언과 중간 발언 (그림 5 참조)을 포함하여 여러 역사적 발언에 분산되어 있습니다.
- MELD의 경우 Joey는 항상 즐겁고 마지막으로 즐거운 발언에 관심을 기울입니다.
- Monica는 Chandler에게 단서를 제공하면서 Joey와의 대화에 가장 많은 관심을 기울입니다.
- Chandler는 Joey와 Joey의 위치에 중점을 둡니다.
- Attention Comparison.
- 기억의 선택은주의 메커니즘에 따라 다릅니다.
- 그림 5에서 여성이 답답한 감정을 표현한 질의 발화가 주어지면 Soft Attention은 답답함을 표현하는 발화에 초점을 맞춘다.
- AGRU는 여성의 답답한 감정의 원인이 될 수있는 한 가지 발화에 가장 많은주의를 기울이지 만이 예에서는 질의 감정을 분노로 분류합니다.
- BiAGRU는 두 종류의 단서를 감지하여보다 포괄적 인 메모리를 제공합니다.
- BiF는 메모리 표현을 향상시키고 AGRU가 UniF-BiAGRU만큼 포괄적으로 메모리를 추출하도록 도와줍니다.
- Error Analysis.
- 그림 4에서 IEMOCAP의 33 번째 발화는 중립이 아닌 좌절 된 것으로 인식됩니다. 우리는 원래 주석이 정확하지 않을 수 있다고 주장합니다.
- 몇 차례의 좌절과 남성의 최근 반응 (34 번째)을 감안할 때 여성은 다시 좌절감을 표현할 수있었습니다.
- 그래도 우리는 disgust과 같은 MELD에서 minority 클래스를 잘 다룰 수 없습니다.
- 다른 감정과 명확하게 구분할 수있는 더 많은 데이터 또는 다중 모드 기능을 사용하면이 문제를 더 잘 해결할 수 있습니다.
7. Conclusions
- 우리는 RTER을 위한 Attention Gated Hierarchical Memory Network (AGHMN)을 제안한다. (근데 꼭 real-time이 붙는 것인가 굳이?)
- 먼저, 제안한 HMM은 발화 features와 memories의 질을 향상시켰다.
- 그리고나서, 제안한 Attention GRU는 Soft Attention보다 더 나은 contextual information을 제안한다.
- 우리는, 광범위한 실험을 두 개의 대화 데이터세트에 대해 실험을하고, 우리의 모델이 SoTA을 달성함을 보여준다. (지금은 아니지만..)
- 마지막으로, ablation studies와 attention visualization은 AGHMN 모델들의 각 컴포넌트의 효율성을 증명한다.
Reference
댓글
댓글 쓰기