NL-096, Relation-aware Graph Attention Networks with Relational Position Encodings for Emotion Recognition in Conversations (2020-EMNLP)
◼️ Comment
- 레퍼논문으로 빠르게 볼려다, 나름 2020-EMNLP에 나왔고 본인들이 SoTA라고 주장하길래 읽어보았다. (귀찮은 부분은 번역기로 속독...ㅋㅋ)
- 이 논문은 RGCN과 GCT에서 감명받아서 한 연구라고 한다.
- 감정 인식에 사용되는 정보로는 speaker dependency와 sequential information라고 생각하는 것 같다.
- 이것을 그러면 어떻게 반영할것인가?를 relational position encodings을 제안하여 해결한 것이다.
- 이 position encodigs은 결국 relational graph structure을 구축하는 개념이라고 보는 것 같다.
- 추가 실험중에는, 일반적인 position encodings와 (절대 위치, 상대 위치) 비교하여 성능이 뛰어남을 보여준다.
- 방법론
- pretrained uncased BERT-base을 이용하여 토큰의 벡터를 뽑아 max-pooling을 하여 문장의 표현을 뽑아낸다.
- 그것과 relational position encodings을 엮어서 한 방법이다.. (자세한 건 스킵하였음. 그림 1 참조)
- 실험 분석을 보면 도움될만한 내용들이 좀 있는 것 같다.
- 가능한 설명은 이러한 레이블의 발화가 주로 바로 직전 발화의 영향을 받는다는 것입니다.
- 따라서 GRU와 같은 RNN 기반 모델이이 두 레이블에 더 적합 할 수 있습니다.
- speaker dependency와 context information의 효율성은 사실 당연한 것 처럼 보인다.
- 시퀀스 정보도 당연하지만 굳이 레퍼를 단다면 이 논문을 레퍼달면 되지 않을까 싶다.
- 윈도우 사이즈 실험도 보면, 여기서 제안한 방법은 윈도우 사이즈가 크게 영향을 안미친다고 주장한다.
- 한 가지 가능한 이유는 우리의 위치 인코딩이 즉각적인 발화와 원거리 발화를 명확하게 구분하므로 이러한 먼 발화의 영향을 줄일 수 있다는 것입니다.
- 즉 다른 방법론에서는 윈도우 사이즈가 영향을 미칠 수 있지만, 여기서는 멀리있는 정보를 희석시키기 때문에 괜찮다고 한다.
- 이거 관련 실험도 개인적으로 해보면 될 것 같다.
0 Abstract
- 대화에서 감정 인식 (ERC)에 대한 관심은 사용자의 행동을 분석하고 가짜 뉴스를 탐지하는 데 사용할 수 있기 때문에 다양한 분야에서 증가하고 있습니다.
- 많은 최근 ERC 방법들은 graph-based 뉴럴 네트워크로 speakers의 utterances의 사이의 관계를 고려한 것이다.
- 특별히 SoTA 방법은(DialogueGCN) 대화속의 self-와 inter-speaker dependencies을 relational graph attention networks (RGAT)을 사용하여 고려한다.
- 그러나, graph-based 뉴럴 네트워크들은 순차적인 정보를 고려하지 않는다.
- 이 논문에서, 우리는 relational 그래프 구조를 반영한 sequential 정보인 RGAT을 제공하는 relational position encodings을 제안한다.
- 따라서, 우리의 RGAT 모델은 speaker dependency와 sequential information을 모두 캡쳐할 수 있다.
- 4개의 ERC 데이터세트에서 우리의 모델은 대화에 표현된 감정을 인식하는데 도움이 됨을 보여준다.
- 추가적으로, 우리의 접근법은 경험적으로 모든 벤치마크의 데이터세트에서 SoTA을 달성한다.
1 Introduction
- 많은 분야에서의 ERC의 관심은 증가하고 있다. 왜냐하면 이는 사용자의 행동과 fake news을 분석하는데 사용될 수 있기 때문이다.
- 최근 Facebook, Twitter, YouTube와 같은 소셜 미디어 플랫폼과 Amazon Alexa와 같은 대화형 어시스턴트가 확산됨에 따라 자연스러운 대화에서 감정이 어떻게 표현되는지 연구 할 필요가 있다.
- ERC의 최근 연구는 RNN 기반 뉴럴네트워크 방법들을 사용하여 대화의 담화들을 순서대로 처리한다.
- 그러나, 이러한 방법들은 긴 시리즈의 정보들에 접근할 수 없다.
- DialogueRNN은 어텐션 케머니즘을 사용하여 전체 대화의 관련있는 대화에 집중하는 것을 통해 이 문제를 보완하려고 한다.
- 그러나, 이러한 방법들은 self-dependency 혹은 inter-speaker dependency을 고려하지 못한다.
- 테이블 1은 이러한 dependencies의 중요성을 보여준다. (예시 대화: 직업찾는 대화)
- speaker A는 오랫동안 job을 찾을 수 없었고, 그의 감정 상태는 지속적으로 부정적이다.
- 이 경우에, self-denpendency는 대화에서 그의 고유한 감정 이동을 이해하는데 중요하다.
- 반면에, #4 대화에서 A의 상황을 가엽게 여기면서 B의 감정들은 이동한다.
- 이런 inter-speaker dependency는 다른 화자의 발화들이 어떻게 감정에 영향을 미치는지 포착한다.
- SoTA 방법인 DialogueGCN (Ghosal et al., 2019)은 relational graph attention networks (RGAT)를 사용하여 dependency을 고려합니다.
- RGCN (Relational Graph Convolutional Network) (Schlichtkrull et al., 2018) 및 그래프주의 네트워크 (GAT) (Velickovi ˇ c et al. ´, 2017)에서 영감을 받았습니다.
- 이 방법은 directed graph을 사용하여 대화형 컨텍스트를 고려한다.
- directed graph의 노드들은 개인의 담화들을 가리키고, 엣지들은 노드(담화) 쌍들의 관계를 표현하고 엣지들의 레이블은 관계의 타입을 표현한다.
- 그러나 그래프 기반 신경망은 발화에 포함 된 순차적 정보를 고려하지 않습니다.
- 테이블 1은 또한 순차적 정보의 중요성을 표현한다.
- B의 감정 변화는 #4 발화에서 #2 또는 #1보다는 #3때문에 변화한다.
- 이 방법에서, 사람 감정들은 아마도 순차적인 순서의 즉각적인 발화에 더 의존할 것이고 그래서 발화의 순서를 고려하는 것이 필수적이다.
- 이 문제에 대한 일반적인 응답은 absolute position features (Vaswani et al., 2017) 또는 relative position features (Shaw et al., 2018)에 대한 정보를 인코딩하는 것입니다.
- 여기서 이러한 인코딩은 nodes (utterances) or edges (relationships)에 추가된다.
- 그러나, self- 와 inter-speaker dependency을 고려하여, 우리의 모델은 nodes(담화들)와 edges(관계들) 보다는 relation types에 포커싱 맞춘다.
- 그래서 우리의 position encoding은 또한 relation types에 포커싱한다.
- 본 논문에서는 RGAT 모델에 관계 유형을 반영한 position encodings (relational position encodings)을 제안한다.
- relational position encodings을 사용함으로써, 우리의 RGAT 모델은 speaker dependency and the sequential information 모두 캡쳐할 수 있다.
- 4 개의 ERC 벤치 마크 데이터 세트에 대한 실험에서 우리의 relational position encoding이 기준선과 최첨단 방법을 능가하는 것으로 나타났습니다.
- 또한, 우리의 방법은 absolute and relative position encodings 모두를 능가했습니다.
- In summary, our contributions are as follows:
- (1) 처음으로, 순차적 정보를 고려해서 RGAT에 position encodings을 적용한다.
- (2) 우리는 relational graph structure을 위한 relational position encodings을 제안하여 대화의 발화와 화자의 dependency와 순착적 정보를 반영한다.
- (3) 우리는 광범위환 실험을 수행하여 relational position encodings을 가지는 graphical model이 실용성있고 우리의 방법이 4개의 ERC 데이터세트에서 SoTA을 달성함을 보여준다.
- (4) 우리는 또한 경험적으로 absolute 혹은 relative position encodings을 통하여 우리의 모델이 효과적인 다른 positional 변화의 representation임을 입증한다.
2 Related Work (번역)
- Emotion Recognition in Conversation
- 여러 연구에서 ERC 작업을 다루었습니다.
- Hazarika et al. (2018a, b)는 대화에서 인간의 감정을 인식하기 위해 메모리 네트워크를 사용했습니다. 여기서 두 개의 서로 다른 메모리 네트워크는 화자 간 상호 작용을 고려합니다.
- DialogueRNN (Majumder et al., 2019)은 전체 대화에서 관련 발화를 파악하기 위해주의 메커니즘을 사용합니다.
- 우리의 방법과 더 관련이있는 것은 Ghosal 등이 제안한 DialogueGCN 모델입니다. (2019), 여기서 RGAT는 자기 의존성과 화자 간 의존성을 모델링하는데 사용됩니다.
- 이 모델은 여러 대화 형 데이터 세트에서 최첨단 성능을 달성했습니다.
- 반면에 상황 정보를 고려하는 방법으로 Luo and Wang (2019)은 각 발화를 임베디드 벡터로 전파 할 것을 제안했습니다.
- 마찬가지로 사전 훈련 된 BERT 모델 (Devlin et al., 2018)은 별도의 토큰을 삽입하여 여러 발화를 결합하는 대화 기능을 생성하는 데 사용되었습니다 (Yang et al., 2019).
- Graph Neural Network
- 그래프 기반 신경망은 다양한 작업에 사용됩니다.
- 기본 모델은 엣지 가중치로 고정 인접 행렬을 사용하는 그래프 컨볼 루션 네트워크 (GCN) (Kipf and Welling, 2016)입니다.
- 우리의 방법은 RGCN (Schlichtkrull et al., 2018) 및 GAT (Velickovi c et al. 2017)를 기반으로합니다.
- RGCN 모델은 각 관계 유형에 대해 서로 다른 구조를 준비하므로 자기 의존성과 화자 간 종속성을 별도로 고려합니다.
- GAT 모델은주의 메커니즘을 사용하여 이웃의 발화 표현에주의를 기울입니다.
- Position Encodings
- 우리 작업에서 위치 정보는 그래픽 구조에 추가됩니다.
- 여러 연구에서 자체주의 네트워크 (SAN) 및 GCN과 같은 여러 구조에 위치 인코딩을 추가합니다.
- SAN (Vaswani et al., 2017)은 입력 위치가 무시되는 위치 인식 가정하에주의 작업을 수행합니다.
- 이 문제에 대응하여 절대 위치 (Vaswani et al., 2017) 또는 상대 위치 (Shaw et al., 2018) 또는 구조 위치 (Wang et al., 2019)를 사용하여 입력의 순차적 순서를 캡처합니다. .
- 마찬가지로 그래프 기반 신경망은 순차 정보를 사용하지 않습니다. 단백질 설계에서 단백질 서열의 복잡한 종속성을 설명하기 위해 단백질 간의 상대적 공간 구조를 모델링하고 그래프 표현의 가장자리에 적용합니다 (Ingraham et al., 2019).
3 Method
- 우리는 ERC 테스크의 문제를 정의한다.
- 테스크는 담화 u의 emotion labels (Happy, Sad, Neutral, Angry, Excited, and Frustrated)을 인식하는 것이다.
- u1, u2, ..., uN (N: 담화수)
- sm은 주어진 대화 세트의 화자들을 말하고 M은 화자의 수이다.
- 담화 ui는 speaker sm에의해 발화되고 m은 발화와 화자 사이의 일치성을 말한다.
- 우리의 프레임워크는 3가지 요소로 구성된다.
- contextual utterance embedding,
- speaker dependency modeling with position encodings and
- emotion classification.
- 우리의 방법은 DialogueGCN (Ghosal et al., 2019) 모델을 기반으로하지만 섹션 3.2.3에 설명 된대로 순차적 대화에서 발화에 포함 된 위치 정보를 고려하는 반면 DialogueGCN 모델은 그렇지 않습니다.
3.1 Contextual Utterance Embedding
- We generate contextual utterance features from the tokens by following the method in (Luo and Wang, 2019).
- 발화 ui을 pretrained uncased BERT-base 으로 벡터를 뽑고 이를 max-pooling을 하여 contextual utternace embeddings을 추출한다고 한다.
- h^(0)_i ∈ R^{Dm} for i = 1, · · · , M,
- This BERT model is fine-tuned through a training process.
3.2 Speaker Dependency Modeling with Position Encodings
- 그래프 기반 신경망은 대화의 화자 종속성 기능을 캡처하는 데 사용됩니다.
- 우리는 발화의 자기 의존성과 화자 간 의존성을 모두 포착하기 위해 관계형 그래프주의 네트워크를 설계합니다.
- 또한 이웃의 발화 표현에주의를 기울이는주의 메커니즘을 도입합니다.
- 또한, 발화에 포함 된 순차적 정보를 설명하기 위해 새로운 위치 인코딩 (관계형 위치 인코딩)이 그래프에 추가됩니다.
3.2.1 Graphical Structure
3.2.2 Edge Weight
3.2.3 Position Encoding
3.2.4 RGAT
3.3 Emotion Classification
4 Experimental Settings
4.1 Datasets
- 테이블 2와 같이 4개의 데이터세트에 대해 실험한다.
- IEMOCAP (Busso et al., 2008) is an audiovisual database consisting of recordings of ten speakers in dyadic conversations. The utterances are annotated with one of six emotional labels: happy, sad, neutral, angry, excited, or frustrated.
- MELD (Poria et al., 2018) is a multimodal multi-party emotional conversational database created from scripts of the TV series Friends. The utterances are annotated with one of seven labels: neutral, happiness, surprise, sadness, anger, disgust, or fear.
- EmoryNLP (Zahiri and Choi, 2018) was also collected from Friends’ TV scripts. It contains different sizes and different types of annotations from those of MELD. The emotion labels include neural, sad, mad, scared, powerful, peaceful, and joyful.
- DailyDialog (Li et al., 2017) is a multi-turn daily dialogue dataset, which contains humanwritten daily communications. The emotion labels are the same as the ones used in MELD.
4.2 Evaluation Metrics
- (이전 방법들과 똑같이 진행하였는데 COSMIC 보다는 적은 평가방법이라고 볼 수 있음)
- For DailyDialog, following (Zhong et al., 2019), we calculated the micro-averaged F1 score excluding the majority class (neutral), due to it being an extremely high majority (over 80% occupancy in both training and test sets).
- For the rest of the datasets, we followed (Zhong et al., 2019; Ghosal et al., 2019) and used the weighted-average F1 score.
4.3 Baselines and State-of-the-Art
- CNN (Kim, 2014)
- This is a convolutional neural network trained at the utterance-level without contextual information.
- CNN+cLSTM (Poria et al., 2017)
- This model extracts utterance features by using a CNN and captures contextual information from surrounding utterances by using a bi-directional long short term memory (LSTM).
- BERT_BASE (Devlin et al., 2018)
- This BERTbased model extracts contextual information from single sentences and uses it as input. After obtaining the sentence feature, it is classified with emotion labels.
- We used this model as a contextual utterance feature extractor (Section 3.1).
- KET (Zhong et al., 2019)
- This is the state-of-the-art model for the EmoryNLP and DailyDialog benchmark datasets.
- KET considers contextual information by using hierarchical self-attention and leverages external commonsense knowledge by using a context-aware graph attention mechanism.
- DialogueRNN (Majumder et al., 2019)
- This model uses a CNN to extract textual information. It uses three GRUs to account for the context and the speakers’ features and track the emotional state.
- DialogueGCN (Ghosal et al., 2019)
- This is the state-of-the-art model for the IEMOCAP and MELD datasets.
- DialogueGCN extracts textual utterance features by using a CNN and extracts sequential contextual features by using a GRU.
- Further, it captures self-dependency and inter-speaker dependency by using two-layer graph neural networks, which consists of one layer RGAT and one layer GCN.
4.4 Other Setting
- cross entropy으로 학습
- learning rate was decreased in accordance with a cosine annealing schedule (Loshchilov and Hutter, 2016)
- BERT 구조: initial learning rates of 4e-5
- RGAT 구조: 2e-3
- used the Adam optimizer (Kingma and Ba, 2014) under the scheduled learning rate with a batch size of 1
- contextual embeddings와 utterance representations 차원은 768
- size of the internal hidden layer in the emotion classification module was set to 384
- 8-head attention for calculating the edge weight of RGAT and set 0.1 as the dropout rate in the BERT structure
- ...
5 Results and Discussion
5.1 Comparison with Baselines and State-of-the-Art
- 접근 방식의 성능을 표 3에 나열된 기준 및 최첨단 방법과 비교했습니다.
- IEMOCAP에 대한 BERT BASE의 결과를 제외하고 (Zhong et al., 2019; Ghosal et al., 2019)에보고 된 기준선 및 최첨단 결과에 대한 결과를 인용했습니다.
- 이 결과에서 위치 인코딩을 추가하면 모든 데이터 세트에서 기준선, KET 및 DialogueGCN이 개선되었음을 알 수 있습니다.
- 또한 교육 데이터 크기, 대화 길이 및 화자 수가 다양한 데이터 세트에서 우리의 접근 방식이 강력하다는 것이 분명합니다.
5.2 Analysis of the Experimental Results (번역)
- 표에서 볼 수 있듯이 우리의 방법은 거의 모든 레이블에서 최고 점수를 얻지 못했습니다.
- 그러나 흥미롭게도 데이터 세트의 목표 메트릭 인 최신 평균 F1 점수를 달성했습니다.
- 이 성능의 가능한 이유는 우리의 방법이 효과적인 구성 요소로 구성되어 있기 때문입니다.
- 위치 인코딩이있는 BERT 및 RGAT의 각 구성 요소는 각 레이블에 대해 잘 작동했습니다.
- 결과적으로 이러한 구성 요소는 강력한 평균 성능으로 이어졌습니다.
- 각 유효 구성 요소는 다음과 같이 설명됩니다.
- Effect of Speaker Dependency
- 우리는 DialogueGCN과 우리 (PE 유무에 관계없이)가 Frustrated에서 다른 방법보다 높은 60 % 이상의 F1 점수를 획득 한 것을 관찰했습니다.
- 이는 잘 작동하는 RGAT 모델 때문일 수 있습니다.
- IEMOCAP 데이터 세트에서 발화는 종종 자기 및 화자 간 종속성을 통해 다른 발화에 계속 영향을 미칩니다. 따라서 동일한 레이블이 이러한 발화에서 계속됩니다.
- 이 경우 대부분의 레이블은 Frustrated로 주석 처리됩니다.
- 화자 종속성 모델링으로 인해 이러한 연속 발화는 RGAT를 사용하여 잘 분류 될 수 있습니다.
- Effect of Contextual Information
- 우리는 (PE 유무에 관계없이) Happy에서 50 % 이상의 F1 점수를 획득하여 다른 기준선보다 약 10 점 앞섰습니다.
- 데이터 세트에서 Happy 라벨은 'love'또는 'great'와 같은 특정 단어를 포함하여 여러 발화로 나타납니다.
- RGAT를 사용한 BERT 모델은 더 나은 성능으로 이어 졌을 수 있습니다.
- 양방향 컨텍스트 모델링이 제공하는 표현력으로 인해 BERT 모델은 이러한 발화에서 잘 작동했을 수 있습니다.
- BERT와 RGAT의 조합은 아마도 Happy의 샘플이 #0과 비교할 때 화자 종속성의 영향을 받기 때문에 필수적 일 것입니다.
- Effect of Sequential Feature
- 우리의 위치 인코딩은 Sad 및 Angry 레이블에서 강력한 성능에 기여했으며 PE가있는 모델은 PE가없는 모델 (# 3 및 # 4)을 능가했습니다.
- 두 레이블은 다른 즉각적인 발화의 영향을받는 발화에 종종 나타납니다.
- 위치 인코딩이있는 RGAT는 자기 및 화자 간 종속성을 포착 할뿐만 아니라 즉각적인 발화와 원거리 발화를 명확하게 구분합니다. 따라서 이러한 발화에서 잘 수행 될 수 있습니다.
- 강력한 성능에도 불구하고 우리 모델은 이러한 레이블 (#1, #2 및 # 4)에서 DialogueGCN 및 DialogueRNN을 능가하지 못했습니다.
- 가능한 설명은 이러한 레이블의 발화가 주로 바로 직전 발화의 영향을 받는다는 것입니다.
- 따라서 GRU와 같은 RNN 기반 모델이이 두 레이블에 더 적합 할 수 있습니다.
- 이러한 결과를 통해 메서드의 각 구성 요소가 각 레이블에서 성공적으로 작동했음을 알 수 있습니다.
- 우리의 방법은 최첨단 평균 F1 점수를 얻었습니다.
- 또한 모든 레이블에서 유용했습니다. 따라서 균형 잡힌 방법입니다.
- Other Analyses
- 우리는 모델의 다른 측면을 분석했습니다.
- 우리 모델이 Excited의 일부 샘플을 Happy로 잘못 분류 한 것을 관찰했습니다.
- 이 문제의 원인은 이러한 레이블이 표시되는 문장의 유사성 때문일 수 있습니다.
- 문장의 의미에는 거의 차이가 없으므로 우리의 방법은 이러한 레이블을 구별하는 데 어려움을 겪었을 수 있습니다.
- 향후 작업에서는 음성 톤과 표정을 고려하여 모델을 돕기 위해 추가 오디오 및 시각 정보를 활용할 것입니다.
5.3 Model Variations
- 우리는 관계형 위치 인코딩의 중요성을 평가하고 IEMOCAP 데이터 세트의 위치 변화를 연구했습니다.
- 실험 결과는 표 5에 기록되어 있습니다.
- 다른 위치 인코딩 방법과 비교하기 위해 절대 및 상대 위치 표현이 준비되었습니다. 이를 각각 노드 기반 위치 인코딩 및 에지 기반 위치 인코딩이라고합니다.
- 영감을 받아 (Vaswani et al., 2017), RGAT 레이어 하단의 노드 (발화)에 노드 기반 위치 인코딩을 추가했습니다.
- 유사하게, 에지 기반 위치 인코딩이 그래프의 에지에 추가되었습니다.
- 또한 두 가지 유형의 위치 인코딩, 즉 고정 기능과 학습 된 표현을 비교했습니다.
- 위치 인코딩없이 BERT 및 RGAT를 사용하는 기준 모델 (# 0)은 인식 성능이 64.36 %였습니다.
- 베이스 라인 모델에 다양한 위치 인코딩을 추가하고 고정 함수 또는 학습 된 표현을 위치 표현으로 선택했습니다 (# 1에서 # 6).
- 학습 된 표현과 함께 관계형 위치 인코딩을 사용하는 모델은 65.22 %의 인식 성능을 보였으며, 최고 점수를 기록했으며 기본 모델보다 약 1 점 더 우수한 성능을 보였습니다.
- 우리의 관계형 위치 인코딩은 다른 위치 인코딩보다 더 효과적이었습니다.
- 또한 다양한 위치의 고정 함수가 기준 모델보다 점수가 낮다는 것을 발견했습니다.
- 위치 표현을 배우는 것이 필요하다는 결론을 내릴 수 있습니다.
5.4 Effect of Varying the Window Size
- 예를 들어 두 모델 모두 3, 5, 7 정도의 창 크기에서 더 나은 성능을 발휘 함을 알 수 있습니다.
- 반면에 긴 발화 정보는 효율적인 인식을 방해 할 수 있습니다. (창 크기 약 30, 40).
- 작은 창 크기를 선택해야하지만 크기가 너무 작 으면 성능이 저하되고 1 크기를 선택하는 것보다 나을 수 없습니다.
- 또한 제안 된 위치 인코딩 방법은 다양한 창 크기에 대해 강력합니다. 창 크기가 증가함에 따라 기준 모델의 F1 점수는 감소하는 반면, 우리 모델은 큰 창에서도 성능을 유지했습니다.
- 한 가지 가능한 이유는 우리의 위치 인코딩이 즉각적인 발화와 원거리 발화를 명확하게 구분하므로 이러한 먼 발화의 영향을 줄일 수 있다는 것입니다.
6 Conclusion
- 우리는 RGAT을 위한 relational position encodings으로 사람의 감정을 텍스트 대화에서 인식한다.
- 우리는 RGAT 구조에 relational position encodings을 통합하여 speaker dependency 와 sequential order of utterances를 모두 캡처했습니다.
- 4개의 ERC 데이터세트에서, 우리는 SoTA을 달성한다.
- 추가적인 실험연구들은 relational position encoding 접근법이 다른 position encodings보다 성능이 좋음을 보여주고 window size 변화에 강인함을 보여준다.
- 추후 연구에서는, scalar 값이 위치 정보를 적절하게 표현하지 못할 수 있으므로 우리는 relational position encodings의 차원 수를 늘리는 계획을 가지고 있다.
Reference
댓글
댓글 쓰기