◼ Comment

요약

논문은 sentiment analysis와 emotion recognition을 동시에 학습하는 멀티모달 (vision, text) 프레임워크를 제안합니다.
프레임워크의 주요 요소는 context dependency, multi-modal interaction, multi-task correlation이 있습니다.
저자는 이 3개를 결합하는 접근법이 처음이라고 합니다. 하지만 각각의 요소에 대해서는 수 많은 연구들이 있습니다.

질문

Q1: 식 (1)에서 $C^S$와 $C^E$의 차이는 무엇입니까?
Q2: FIg 2에서 cross-task connection은 section 3.4에서 설명되어있습니다. 여기서 knowledge을 공유하는데 emotion feature과 sentiment feature과 어떻게 결합되는지 좀 더 자세히 설명할 필요가 있다.
Q3: Table 2의 M3GAT는 sentiment analysis에서 text가 효과적임을 보여준다. vision 모달리티를 결합하면 성능이 다소 상승하지만 그 차이가 너무 작습니다. real application에서 인퍼런스 시간 등을 고려하면 text only 프레임워크를 사용하는게 효율적일 수 있습니다.
Q4: Table 4는 STL과 MTL의 차이를 보여줍니다. 이 또한 성능차이가 매우 작습니다. 한 번의 seed로 실험한 것이라면 충분히 결과가 달라져서 분석이 바뀔 수 있습니다. 여러 번 실험을 통해 결과를 뒷받침하세요.
Q5: 제안한 MTL은 emotion과 sentiment의 class간의 종속성이 없다. 예를 들어, 모델은 sentiment class는 negative이고 emotion class는 joy가 예측할 수 있다. 즉 모델이 예측할 때 emotion 과 sentiment class간의 제한이 있으면 좋을 수 있다.
Q6: M3GAT외의 다른 프레임워크에서도 context dependecy 및 multi-modal interaction의 효과는 알려져있습니다. 하지만 MTL이 효과적임을 보장할 수 있습니까?
Q7: Table 5에서 Z=3이 최적의 값으로 보인다. 이에 대한 자세한 분석이 있으면 좋겠다. 특히 Z=4 일 때, 어떤 테스트 샘플에서 추가적인 에러 케이스가 있는가? Z는 데이터 혹은 모델에 의존하는 값인가? 아니면 항상 Z=3이 최적인가? 최적의 Z을 찾는 방법은 없는가?
Q8: Table 6의 MELD 와 MEISD에서 L=4일때 성능이 급격히 감소합니다. MSED에서 L=5일 때, emotion만 성능이 왜 급격히 감소하는가? 자세한 discussion이 필요합니다.

Suggestion:

paper의 수식 및 기호는 너무 복잡합니다. 기호 및 첨자들을 직관적으로 다시 작성할 필요가 있습니다.

0 Abstract

장단기 인간의 감정에 해당하는 감성과 감성은 서로 밀접하게 연결되어 있어 자연어처리(NLP)에서 감성분석과 감성인식 역시 상호의존적인 두 작업이라는 사실을 알 수 있다.
한 작업은 종종 다른 작업에서 공유된 지식을 활용하고 공동 학습 패러다임에서 해결할 때 더 잘 수행합니다.
The conversational context dependency, multi-modal interaction and multi-task correlation are three key factors that contribute to such joint paradigm.
그러나 최근의 접근 방식 중 어느 것도 통합 프레임워크에서 이를 고려하지 않았습니다.
이 격차를 채우기 위해 우리는 세 가지 문제를 동시에 해결하기 위해 M3GAT라고 하는 다중 모드 다중 작업 대화형 그래프 주의 네트워크를 제안합니다.
모델의 핵심은 다음과 같은 세 가지 핵심 하위 모듈을 포함하는 제안된 대화형 대화 그래프 레이어입니다.

(1) local-global context connection for modeling both local and global conversational context;
(2) cross-modal connection for learning multi-modal complementary and
(3) cross-task connection for capturing the correlation across two tasks.

세 가지 벤치마킹 데이터 세트인 MELD, MEISD 및 MSED에 대한 포괄적인 실험은 감정 분석에 대해 1.88%, 5.37% 및 0.19%의 (감정 인식은 각각 1.99%, 3.65%, 0.13%입니다.) 마진으로 최첨단 기준에 대한 M3GAT의 효율성을 보여줍니다.
또한 단일 작업 프레임워크보다 다중 작업 학습의 우수성을 보여줍니다.

1 INTRODUCTION

Instagram, WhatsAPP 등과 같은 인스턴트 메시징 소프트웨어의 엄청난 인기는 친밀하고 빈번한 대인 커뮤니케이션으로 이어집니다.
인간의 언어는 실제로 자연어(텍스트), 표정(시각) 등을 포함하는 다중 모드의 관점에서 볼 때 다중 모드 대화 기록이 많이 생성되었습니다.
이러한 기록은 화자의 주관적인 태도나 의견으로 자연스럽게 채워져 인간의 감정과 감정을 이해하는 실용적이고 실현 가능한 경로를 제공합니다.
다중 모드 감정 분석 및 감정 인식은 대화 이해 및 의도 분석에서 엄청난 잠재력을 가지고 있으며 NLP에서 활발한 작업이었습니다[22, 29].
Sentiment and emotion은 서로 상당히 다르지만 affective 컴퓨팅 및 sentiment analysis의 많은 문헌에서 종종 상호 교환적으로 사용됩니다[27, 56].

Sentiment은 인간의 주관적인 경험과 정신적 태도를 말하며, 종종 장기적이고 깊은 인간의 인식과 사회적 필요, 예를 들어 사랑, 자부심, 열정을 포함합니다[26].
Emotion은 자극에 대한 뇌의 짧은 수명이지만 강렬한 생리학적 반응으로 간주되며, 이는 표정, 음향 톤 및 신체 변화의 형태로 표현됩니다.
예를 들어, 분노, 두려움, 행복은 감정으로 간주됩니다 [5].
Emotion은 무의식적으로 선천적으로 발생하는 반면 sentiment은 감정으로부터 고도로 조직화됩니다.

한편, 안정된 sentiment이 emotion에 뿌리를 두고 emotion을 통해 표현되는 상호의존적이고 떼려야 뗄 수 없는 관계이기도 하다.

Emotional 변화도 sentiment에 의해 좌우되며 emotion의 강도는 sentimental expression의 깊이를 반영한다[6].
Sentiment and emotion은 인간의 internal and external 애정에 상응한다.
우리는 그러한 차이를 아는 것이 우리와 NLP 커뮤니티가 sentiment analysis and emotion recognition에 대해 깊이 이해하는 데 도움이 될 것이라고 주장합니다.
따라서 다중 모드 sentiment analysis and emotion recognition도 밀접하게 관련된 두 가지 작업입니다.

한 작업은 다른 작업에서 공유된 지식을 활용할 수 있으며 공동 학습 패러다임에서 해결할 때 더 잘 수행할 수 있습니다.
다중 모드 감정 분석 및 감정 인식에 기여하는 세 가지 핵심 요소가 있습니다.

the conversational context dependency,
multi-modal interaction and
multi-task correlation.
사실 multi-task correlation을 빼고는 다른 연구들이 시도하는 거 같은데...?

우리는 그림 1에서 이러한 세 가지 문제의 존재를 소개하는 예를 보여줍니다.
특히 화자의 발화는 상황에 따라 크게 달라지며 다양한 대화 상황에서 다양한 sentiments과 의미를 표현할 수 있습니다.
언어적 맥락을 모델링하는 방법에 대한 이해가 제한적입니다.

또한 다중 모드 상호 작용은 다른 modalities에서 보완적인 지식을 캡처하여 단일 모드 표현을 개선하는 것을 목표로 합니다.

early-fusion, late-fusion, hyper-fusion 등 다양한 다중-모달 융합 전략이 제안되었음에도 불구하고, modalities 전반에 걸친 이질성 및 증대된 다양성을 해결하는 방법은 여전히 열려 있는 문제입니다.
다중 작업 상관 관계는 작업 간의 상호 관련성을 모델링하고 shared knowledge을 캡처하여 개별 성과를 향상시키려고 시도합니다.
multi-modal sentiment and emotion joint analysis을 위해 위의 세 가지 정보 소스를 고려하는 것이 중요합니다.

이를 위해 Poria는 3개의 CNN(컨볼루션 신경망)을 설계하여 textual, visual and acoustic features 기능을 추출하고 감정 및 감정 결합 감지를 위한 다중 커널 학습 분류기를 통해 병합합니다.
그들은 feature concatenation을 통해 다중 모드 융합을 모델링했습니다.

Akhtar는 sentiment and emotion을 동시에 예측하기 위해 RNN(Recurrent Neural Network) 기반 상호 모달 주의 프레임워크를 제안했습니다.

그러나 그들은 대화 맥락을 고려하지 않았습니다.
내가 생각하는 방법일려나.. 멀티테스크러닝

Shenoy는 listener and speaker emotional state 사이의 dependency과 modalities 전반의 관계를 모델링하기 위해 Multilogue-Net이라고 하는 두 가지 attention 기반 GRU(Gated recurrent unit)를 제시했습니다.
Huddar는 pair-wise attention mechanism과 RNN을 결합하여 발화 사이의 interlocutor state and contextual state를 모델링했습니다.
그러나 위에서 언급한 모델은 두 가지 관련 작업의 상호 의존성을 무시했습니다.

emotion, sentiment 상호 의존성을 무시했다?

눈에 띄는 진전이 있었지만 최근 모델에는 한 가지 주요 문제가 있다고 주장합니다.

세 가지 요소는 통합된 프레임워크에서 해결된 적이 없습니다.

즉, 버려지는 정보가 항상 한두 가지가 존재하며, 업데이트된 프로세스에서 충분한 지식이 전파되지 않습니다.
이것은 우리의 질문을 제기합니다.

세 가지 요소를 공동 프레임워크에서 동시에 해결하여 완전히 통합할 수 있습니까?

이 질문에 답하기 위해 다중 모드 감정 및 감정 공동 인식을 위한 M3GAT라고 하는 다중 모드 다중 작업 대화형 그래프 주의 네트워크를 제안합니다.
모델의 중심에는 제안된 대화형 대화 그래프 레이어가 있으며, 이는 세 가지 핵심 하위 모듈, local-global context connection, cross-modal connection, and cross-task connection로 구성됩니다.
특히, 우리는 closeness centrality을 통해 중앙 정점을 설계하고 대화 그래프의 다른 모든 노드와 연결하여 로컬 및 글로벌 대화 컨텍스트를 모델링합니다.
다중 모드 상보성을 학습하기 위해 cross-modal connection을 구성합니다.

여기서 한 모달리티의 각 vertex은 창 크기가 𝑍인 다른 양식의 모든 인접 vertex을 연결합니다.
한 작업의 각 vertex이 다른 작업의 인접 정점 𝑍을 연결하는 교차 작업 연결은 작업 간에 공유된 55개의 지식을 명시적으로 활용하기 위해 제안됩니다.

이러한 3개의 연결은 동시에 업데이트되고 통합 그래픽 아키텍처에 통합됩니다.
세 가지 벤치마킹 데이터 세트인 MELD, MEISD 및 MSED에 대한 실증적 실험이 수행됩니다.
다중 모드 CNN, 관심 기반 양방향 GRU(BiGRU+Att), DialogueRNN, DialogueGCN, 변환기의 양방향 인코더 표현(BERT), GRU-RoBERTa, EfficientNet, UPB-를 포함한 광범위한 최첨단 베이스라인 MTL, MMBT(multi-modal bitransformer), Co-GAT는 제안된 M3GAT 모델과 비교됩니다.
실험 결과 M3GAT의 효과는 sentiment analysis에서 1.88%, 5.37%, 0.19%, 감성 인식 0.73%, 3.14%, 0.13%로 나타났다.
또한 일련의 하위 실험을 통해 단일 작업 프레임워크보다 다중 작업 학습의 우수성과 잠재력을 보여줍니다.
The main innovations of the work are concluded as follows:

We take the first step to simultaneously incorporate the contextual dependency, multi-modal and multi-task interaction into a joint learning model.
We treat different grained semantic units (ranging from word/pixel to utterance/video) as nodes, consider their semantic dependencies as edges, and build a stacked multi-modal conversation graph.
A multi-modal multi-task interactive graph attention network is proposed, where local-global context connection, cross-modal connection, and cross-task connection are constructed and iteratively updated with each other.
We verify the effectiveness of the proposed model by applying it to multi-modal sentiment analysis and emotion recognition. The experimental results show that the proposed model outperforms the state-of-theart baselines.

이 문서의 나머지 부분은 다음과 같이 구성됩니다.

섹션 2에서는 관련 작업을 간략하게 설명합니다.
3장에서는 제안된 다중 모드 다중 작업 대화형 그래프 주의 네트워크에 대해 자세히 설명합니다.
4장에서는 실증적 실험을 보고하고 그 결과를 분석한다.
5장에서는 논문을 마무리하고 향후 연구 방향을 제시한다.

2 RELATED WORK

In this section, we briefly review related studies on multi-modal sentiment analysis and multi-modal emotion recognition.

2.1 Multi-Modal Sentiment Analysis

Multi-modal sentiment analysis은 user generated documents에 표현된 sentiment 극성(예: 긍정적, 부정적, 중립적)을 발견하는 것을 목표로 합니다.

일반적으로 2급 또는 3급 분류 작업입니다.

Morency는 처음으로 3-class 감정 분석의 과제를 다루었고 시각, 청각 및 텍스트 양식의 공동 활용으로부터 이익을 얻을 수 있음을 보여주었습니다.
양자 이론에서 영감을 받은 Zhang은 quantum-inspired multi-modal sentiment analysis model을 제안하고 다중 모드 감정 데이터 세트를 구성했습니다.
Li는 quantum inspiration에서 multi-modal representation을 구축하는 것을 목표로 진행 중인 작업을 소개했습니다.
Liang은 몇 가지 측면 카테고리 감정 분석 작업을 위해 AFML(Aspect-focused meta-learning) 프레임워크를 제안했습니다.
Ju는 multi-modal aspect-level sentiment analysis을 위한 auxiliary cross-modal relation detection를 사용하여 다중 모드 공동 학습 프레임워크를 구축했습니다.
딥 러닝 기술이 다양한 NLP 작업에 널리 적용됨에 따라 CNN, RNN 및 그 변종 기반의 다중 모드 감정 분석 접근 방식이 제안되었습니다.
예를 들어 Yakaew는 다중 모드 감정 분석을 위해 각각 얼굴 및 오디오 특징을 추출하기 위해 CNN을 사용했습니다.
Ghosal은 발화 수준의 감정 분석을 위해 상황 정보를 활용하는 RNN 기반 다중 모드 주의 프레임워크를 제시했습니다.
Zadeh는 RNN과 텐서 제품 운영을 결합하고 오디오와 비주얼 기능을 융합하기 위해 텐서 융합 네트워크를 제안했습니다.
Huang은 가중 다중 모드 표현을 학습하는 것을 목표로 하는 RNN 기반 다중 모드 주의 융합 모델을 제안했습니다.
Zhang은 대화형 감정 분석을 향상시키기 위해 감정 레이블이 있는 고품질 대화형 데이터 세트를 만들었습니다.
그들은 처음으로 화자 간의 상호 작용을 정의했습니다.
Xu은 aspect-level sentiment analysis and multi-modal sentiment analysis의 조합으로 볼 수 있는 aspect-based multi-modal sentiment analysis이라는 새로운 하위 작업을 제안했습니다.

aspect-based multi-modal sentiment analysis가 먼지 정확히 보자

사전 훈련된 언어 모델은 표준 심층 신경망에 대한 효율성을 입증했으며 다중 모드 기능을 추출하는 데 사용되었습니다.
Xi는 사전 훈련된 VGG16 및 BERT를 사용하여 시각적 및 텍스트 특징을 추출하고 다중 모드 감정 분석을 위해 가중치 특징을 선택하기 위해 다중 헤드 주의를 적용했습니다.
Transformer의 성공에 동기를 부여받은 Wang은 Transformer를 사용하여 다중 모드 융합을 위한 소스 양식과 대상 양식의 정보를 모두 구현했습니다.
Peng은 사전 훈련된 언어 모델의 계산 비용을 줄이는 것을 목표로 하고 Tucker 분해 기반 다중 모드 감정 분석 증류 모델을 제안했습니다.
Keswani는 감정 분류를 위한 텍스트 및 시각적 기능을 추출하기 위해 BERT 및 ResNet-152를 포함한 다중 모드 변환기를 도입했습니다.
요약하면, 현재 문헌은 주로 multi-modal representation learning and feature fusion의 문제를 해결하는 데 중점을 둡니다.

대화 context dependency과 multi-task correlation에 대한 연구는 아직 남아 있습니다.
대화 컨텍스트 디펜던시는 ERC에서 많이 해결하려고 하지 않나? 안그러면 ERC을 못풀텐데

2.2 Multi-Modal Emotion Recognition

다중 모드 감정 인식은 심리적 신호, 다중 모드 문서, 대화와 같은 다양한 소스 샘플을 분석하여 슬픔, 놀람, 행복 등과 같은 인간의 기본 감정을 결정하는 것을 목표로 합니다.
종종 세분화된 분류 작업으로 간주됩니다.
초기에 Chuang과 Wu는 음성 신호와 텍스트 문서를 기반으로 하는 다중 모드 감정 인식 프레임워크를 구축했습니다.
Rozgic은 다중 클래스 감정 인식 문제를 해결하기 위해 이진 SVM을 트리 노드로 의사 결정 트리에 통합했습니다.
Lin은 HMM(Hidden Markov Model)과 SVM이라는 두 가지 기계 학습 방법을 사용하여 5가지 인간의 감정을 예측했습니다.
최근 CNN, RNN 및 다양한 변형이 다중 모드 기능을 추출하고 다중 모드 감정 인식 프레임워크를 구축하는 데 널리 사용되었습니다.
Fan은 CNN을 채택하여 외모와 모션 특징을 추출하고, 비디오 감정 인식을 위한 시퀀스 특징을 캡처하기 위해 RNN에 입력했습니다.
Kollias와 Zafeiriou는 유사한 방식을 채택하고 심층 CNN을 훈련하여 중저수준 특징을 추출하고 RNN 서브넷을 사용하여 감정 예측을 수행했습니다.
분류 성능을 향상시키기 위해 주의 메커니즘을 사용하여 기능의 중요도를 측정했습니다.
Zhang과 Li는 우울과 감정 감지를 해결하기 위해 부드러운 주의와 multi-head self attention를 활용하는 multi-task learning framework를 제안했습니다.
이제 대화에서의 감정 인식(ERC)은 인기 있는 연구 주제가 되었습니다.
이 작업에서는 conversational context dependency과 multi-modal fusion이 고려되었습니다.
Poria는 주변 비디오에서 발화의 대화 컨텍스트를 캡처하여 분류 프로세스를 지원할 수 있는 LSTM 기반 모델을 제안했습니다.
Hazarika는 ERC에 대한 대화 기록의 컨텍스트 정보를 활용하는 대화식 메모리 네트워크(CMN)를 도입했습니다.
Majumder는 대화 전반에 걸쳐 individual party 상태를 추적하고 이 정보를 ERC에 사용하는 DialogueRNN 모델을 설명했습니다.
Poria는 대화 감정 분석의 개발을 용이하게 하기 위해 최초의 다중 모드 대화 데이터 세트, 즉 다중 모드 감성 라인 데이터 세트(MELD)를 만들었습니다.
Zhang은 대화형 감정 인식을 위한 양자 영감 대화형 네트워크(QIN) 모델을 설계하고 그 효과를 보여주었습니다.
그들은 또한 대화에서 풍자 감지 및 감정 인식을 위한 최초의 양자 영감 다중 작업 학습 프레임워크를 설계했습니다.
그러나 그들의 모델은 대화 그래프의 토폴로지 구조를 학습하지 못했습니다.
Ishiwatari는 관계형 그래프 구조를 반영하는 순차적 정보를 저장할 수 있는 RGAT(그래프 주의 네트워크) 기반 관계형 위치 인코딩을 제시했습니다.
Ghosal은 각 발화를 꼭짓점으로 취급하여 대화 그래프를 구성했습니다.
그런 다음 이 그래프를 그래프 컨볼루션 네트워크에 입력하여 최첨단 성능을 달성했습니다.
Lu는 발화 간의 감정 상호 작용을 명시적으로 모델링한 반복적인 감정 상호 작용 네트워크를 제시했습니다.
Tu는 감상적 일관성과 맥락 정보를 포착하려는 맥락 및 감성 인식 그래프 주의 네트워크를 제안했습니다.
Yang은 대화 내에서 난이도 측정기를 구성하기 위해 모델에 구애받지 않는 하이브리드 커리큘럼 학습 전략을 설계했으며 4개의 공개 ERC 데이터 세트에서 새로운 최첨단 결과를 달성했습니다.
서로 다른 작업 간의 상호 관계를 캡처하는 메커니즘이 아직 부족합니다.
기존 작업과 달리 contextual dependency, multi-modal and multitask interaction을 joint graph neural network에 동시에 통합하는 첫 번째 시도입니다.

contextual dependency는 그래프적인 모델링을 말하는 것인가?

3 THE PROPOSED M3GAT MODEL

In this section, we detail the architecture of the proposed M3GAT model, as illustrated in Fig. 2.
이러면, positive sentiment인데 negativ emeotion가 나올 수 있는 구조가 아닌가?
즉 sentiment 결과가 emotion 예측에 제한을 줄 수 없다.

3.1 Problem Formulation

$D_i = \{ (C^{A}_{k}, M^{A}_{k}), Y^{A}_{k} \}$가 데이터

C는 contextual utterances for sentiment analysis, emotion recognition
M은 Di에서 분류해야할 발화
Y는 label (sentiment and emotion)
A는 2가지 테스크로 [S, E]중의 하나 (sentiment, emotion)

context와 target utterance 둘다 textual (U)와 visual (I) 모달리티로 구성됨.
이제 우리는 연구 문제를 다음과 같이 요약합니다.

𝑅 multi-modal utterances를 포함한 하나의 multi-speaker conversation가 주어지면 그들의 sentiments and emotions을 공동으로 감지하는 방법은 무엇입니까?
다음과 같이 작성할 수 있습니다.
where Θ denotes the parameter set.
근데 여기서 $C^S$와 $C^E$는 같은거 아닌가?

3.2 Overall Network

제안된 M3GAT 모델은 multi-modal utterance encoder, a speaker-aware multi-task interactive conversation graph layer, 감정 분류 및 감정 인식을 위한 two separate decoders인 4개의 핵심 구성 요소로 구성됩니다.
(1) k번째 텍스트 발화와 시각적 대응물에 대해 두 개의 하위 그래프를 작성합니다.

발화 하위 그래프 및 비디오 하위 그래프, 그리고 GAT를 적용하여 노드 {𝑤𝑜𝑟𝑑, 𝑝𝑖𝑥𝑒𝑙 } 벡터를 업데이트합니다.
감정 분석 및 감정 인식을 위한 초기 발화 및 비디오 임베딩, 즉 𝑈S, 𝐼S, 𝑈E, 𝐼E는 노드 벡터를 양방향 장단기 메모리(bcLSTM) 및 심층 CNN에 각각 공급하여 얻습니다.

(2) 각 발화와 비디오를 노드로 사용하여 두 가지 작업에 대한 텍스트 및 시각적 대화에 대해 4개의 대화 그래프를 구성합니다.

우리는 로컬-글로벌 컨텍스트 연결, 크로스 모드 연결 및 크로스 작업 연결을 구성하여 대화 컨텍스트 정보, 다중 모드 상보성 및 관련 작업에서 공유된 지식을 모델링하는 것을 목표로 합니다.

(3) 𝐿 레이어를 쌓은 후 각 노드의 𝐿 레이어 출력을 최종 발화 및 비디오 임베딩으로 처리하여 병합하여 다중 모드 표현 𝑀S, 𝑀E를 공식화합니다.

따라서 두 개의 작업 𝑀𝑆 및 𝑀𝐸에 대한 다중 모드 벡터는 emotion과 sentiment을 예측하기 위해 두 개의 독립적인 소프트맥스 디코더를 통해 전달됩니다.
각 구성 요소를 소개합니다.
모든 그래프의 각 노드도 자체 연결되어 있지만 다음 섹션에서는 간결함을 위해 모든 자체 연결에 대한 간선 계산을 생략합니다.

3.3 Multi-Modal Utterance Encoder

다중 모드 발화 인코더는 각 발화와 해당 비디오를 텍스트 및 시각적 임베딩에 포함하는 것을 목표로 하는 감정 분석 및 감정 인식 전반에 걸쳐 공유됩니다.
두 개의 하위 모듈, 즉 텍스트 및 비디오 인코더로 구성됩니다.
텍스트 인코더에는 단어 내의 의미 의존성을 캡처하는 텍스트 그래프 주의 네트워크와 순차적 정보를 활용하기 위한 양방향 LSTM(BcLSTM) 네트워크가 포함됩니다.
비디오 인코더에는 픽셀 내 공간 관계를 캡처하기 위한 시각적 그래프 주의 네트워크와 심층 CNN이 포함됩니다.
정점과 간선이 있는 방향 그래프 G의 표기법을 제시합니다. 이 표기법은 다음과 같이 쓸 수 있습니다.
where the vertices 𝑣𝑗 ∈ V in G, the edges 𝑟𝑗𝑟 ∈ E, 𝛼𝑗𝑟 is the weight of the edge 𝑟𝑗𝑟, satisfying 0 ≤ 𝛼𝑗𝑟 ≤ 1, and 𝛼𝑗𝑟 ∈ W.

3.3.1 Text encoder.

G𝑢 = (V, E,W)𝑢 와 같은 입력 발화에 대해 방향성 하위 그래프를 만들고 그래프 주의 네트워크에 제공합니다.
발화 하위 그래프의 구성 절차를 제시합니다.
Vertices.

발화에 𝐺 단어가 있다고 가정합니다.
발화의 각 단어는 꼭짓점으로 간주되어 𝑤𝑗 ∈ V𝑢를 만족합니다.
각 vertex 𝑤𝑗은 사전 훈련된 단어 임베딩으로 표현됩니다.
이 작업에서는 BERT[4]를 사용하여 각 단어를 초기화하고 이를 꼭짓점 특징으로 취급합니다.

Edges.

우리는 꼭짓점 사이의 가장자리 E𝑢를 구성하기 위해 발화에서 단어 간의 구문 종속 관계를 활용합니다.
특히, 텍스트 발화의 종속성 트리는 spaCy 툴킷을 사용하여 구축되며, 하나의 인접 행렬 J 𝑢 ∈ 𝑅 𝐺 × 𝐺 을 얻습니다.
모서리는 방향입니다.

Edge Weights.

정점과 인접 정점 사이의 가중치를 측정하기 위해 그래프 주의 네트워크(GAT)[42]를 소개합니다.
그래프 신경망의 변형인 GAT는 다른 인접 노드에서 현재 노드로 기능을 전파하기 위해 다른 노드에 다른 가중치를 할당합니다.
이는 많은 그래프 구조의 NLP 작업에서 최신 결과를 달성했습니다[23, 49 ].

3.3.2 Video encoder.

비디오가 𝑄 프레임으로 구성되어 있다고 가정합니다. 즉, 𝐼 = { 𝐹1, 𝐹2, ..., 𝐹𝑄 }.
여기서 각 프레임은 정적 이미지입니다.
우리는 이미지를 3개의 채널이 있는 직사각형 그리드로 간주하고 G𝐹 = (V, E, W)𝐹와 같이 강하게 연결된 하위 그래프를 만들고 GAT를 적용하여 프레임 특징을 추출합니다.
Vertices.

𝛾 𝑡ℎ 이미지(비디오 프레임)에 𝑇 픽셀이 있다고 가정합니다.
여기서 𝛾 ∈ [1, 2, ..., 𝑄]. 각 픽셀을 꼭짓점으로 처리하여 𝑣𝑗 ∈ V𝐹 를 충족합니다.

Edges.

우리는 각 픽셀이 𝛾 𝑡ℎ 이미지의 다른 픽셀에 의미론적으로 의존한다고 주장합니다.
픽셀 간의 컨텍스트 연결을 기반으로 가장자리 E𝐹를 구성하여 완전히 연결된 양방향 그래프를 만듭니다.
에지의 수는 𝑇 2 로 계산 비용이 많이 듭니다.
이 문제를 완화하기 위해 각 픽셀은 거리가 1인 인접 픽셀에만 연결됩니다.
예를 들어 경계가 없는 픽셀에는 정확히 8개의 인접 픽셀이 있어 8개의 가장자리를 구성합니다. 그러면 하나의 인접 행렬 J𝐹 ∈ 𝑅 𝑇×𝑇가 얻어진다.

Edge Weights.

초기 이미지 부분 그래프 G (0)𝛾 = n 𝑒® G (0)𝛾 𝑣1 , 𝑒® G (0)𝛾 𝑣2 , ..., 𝑒® G (0)𝛾 𝑣𝑇 o 가 주어지면 GAT를 사용하여 측정합니다.
픽셀과 그 이웃 간의 상호 작용을 학습하고 Eq를 사용하여 추상적인 시각적 표현을 학습합니다. (3), 식. (4) 및 식. (5). 𝐿 반복 후에 최종 이미지 하위 그래프는 다음과 같이 공식화됩니다.

3.4 Speaker-Aware Multi-Task Interactive Conversation Graph

4개의 대화 하위 그래프, 즉 G𝑐𝑜𝑛 = (V, E, W)𝑐𝑜𝑛, 𝑖 𝑡ℎ {𝑡𝑒𝑥𝑡, 𝑣𝑖. 통합된 그래픽 구조로의 상관관계.
특히 화자 정보, 로컬-글로벌 컨텍스트 연결, 교차 모드 연결 및 교차 작업 연결을 활용하는 다중 모드 대화형 GAT를 제안합니다.
대화 그래프 구성 절차는 다음과 같습니다.
Vertices.

𝑖 𝑡ℎ 다중 모드 대화에 두 가지 작업에 대한 𝑅 텍스트 발언과 비디오가 포함되어 있다고 가정합니다.
우리는 각 텍스트 발화 또는 비디오를 정점으로 간주하며 총 4개의 노드가 있는 정점으로 간주합니다.
여기서 2개의 노드(즉, 𝑅 발화 노드와 𝑅 비디오 노드)는 감정 분석을 위해 구축되고 나머지 2𝑅 노드는 감정 인식을 위해 구축됩니다.
또한 화자의 감정 상태가 화자의 외부 지식(예: 직업, 성별, 성격)에 의해 암묵적으로 영향을 받는다는 점을 고려하여 화자의 종속성을 효과적으로 인코딩하는 것을 목표로 이러한 특성을 정점으로 취급하려고 합니다.
{profession, sex, Personality} 노드의 집합으로 추가 화자 노드를 추가하고, 화자 노드만 자신의 발화 노드에 연결합니다.
𝑖 𝑡ℎ 다중 모드 대화에 𝑆 화자가 포함된다고 가정하면 전체 그래픽 구조에 4𝑅 + 16𝑆 노드가 있습니다.
두 작업에 대한 𝑘𝑡ℎ 발화 및 비디오 노드는 임베딩 𝑈, 𝐼으로 초기화됩니다.
초기 직업, 성별, 성격 노드 표현은 BERT 문장 임베딩에 의해 제공되며, 이들의 평균은 원래 화자 노드 표현 𝑀로 사용됩니다.

Edges.

𝑖 𝑡ℎ 대화 그래프에는 세 가지 유형의 에지가 구성됩니다.

Local-global context connection.

우리는 각 발화/비디오가 문맥상 인접한 발화/비디오(자체 포함)에 의존한다고 주장합니다.
계산 비용과 효율성의 균형을 맞추기 위해 다른 모든 발화/비디오에 연결하는 대신 𝑍의 과거 및 미래 컨텍스트 창 크기를 설정합니다.
가독성을 위해 발화 및 비디오 노드의 표기법을 𝑀로 통합합니다.
여기서 𝑀 = (𝑈 , 𝐼), 𝐴 ∈ (𝑆, 𝐸). 그러면 𝑘𝑡ℎ 꼭짓점 𝑣𝑀 𝐴(0) 𝑘은 과거의 발화 𝑣𝑘−1 , 𝑣𝑘−2 ,..., 𝑣𝑘−𝑍ances , 미래의 발화와 에지를 갖습니다.
+𝑍 및 자체 𝑣𝑀 𝐴𝑘 .
이 작업에서 기본 창 크기는 𝑍 = 1로 설정됩니다.
또한 최적의 창 크기를 찾기 위해 실험에서 다양한 크기를 시도했습니다(Sec. 4.7.
이제 각 발화는 컨텍스트 𝑣𝑖𝑧에 로컬로 연결됩니다. 로컬 컨텍스트 연결.

Cross-modal connection.

다중 모드 보완을 배우기 위해 한 양식의 각 정점이 동일한 작업에 대한 다른 양식 그래프의 해당 정점 및 이웃에 단방향으로 연결되는 교차 모드 연결을 구축합니다.
예를 들어, 텍스트 대화 그래프에서 𝑘 𝑡ℎ 발화 정점 𝑣은 𝑘 𝑡ℎ 비디오 노드 𝑣 및 컨텍스트 창 크기가 𝑍인 이웃 노드, 즉 과거 비디오 (𝑣𝑘−1 , 𝑣𝑘−2 ,..., 𝑣𝑘−𝑍), 감상 작업을 위한 미래 비디오 (𝑣𝑘+1 , 𝑣 𝑘+2 ,..., 𝑣𝑘+𝑍)와 연결됩니다.
분석. 4𝑅 · (2𝑍 + 1) edge가 생성됩니다.

Cross-task connection.

상관 작업에서 공유된 지식을 명시적으로 활용하기 위해 한 작업의 각 정점이 동일한 양식에 대해 다른 작업의 해당 정점 및 이웃에 단방향으로 연결되는 교차 작업 연결을 구성합니다.
예를 들어, sentiment analysis을 위한 k번째 발화 vertex v는 k번째 텍스트 발화 노드 vE와 연결되고, emotion recognition을 위한 미래 발화 vU인 과거 발화 vE-1과 연결된다. 4R(2z + 1) 에지가 구성됩니다.
전체 그래픽 구조에서 16R 가장자리를 생성했습니다.
여기서 knowledge을 공유하는데, ERC에 sentiment feature가 적용되는 느낌? 그 반대는 안되나?
그래프 수에 대한 설명이 부족해보임

Edge Weights.

그래픽 구조의 발화 및 비디오 표현은 𝐿 레이어 그래프 어텐션 네트워크를 통해 레이어별로 업데이트됩니다. 감정 분석을 위한 초기 텍스트 대화 그래프 제공

3.5 Decoder

두 작업에 대한 𝑘 𝑡ℎ 발화 및 비디오 표현은 다음과 같이 공식화할 수 있는 병합하여 다중 모드 표현 𝑀𝑆, 𝑀𝐸을 얻는 데 사용됩니다.
결국 이것이 멀티테스크 러닝이란 것
S,E을 위한 중간 피쳐가 공유되는 것 같음

4 EXPERIMENTS

4.1 Research Question

RQ1: Is it effective to simultaneously model local-global context connection, cross-modal connection and cross-task connection?
RQ2: Does modeling of the shared knowledge help for improving related tasks?
RQ3: Which component contributes most to the proposed M3GAT model?

4.2 Experimental Settings

Datasets.

감정 및 감정 주석이 모두 포함된 텍스트 및 시각적 발언을 포함하는 3개의 벤치마크 데이터 세트가 실험 침대로 선택됩니다.
MELD [36] 및 MEISD [8], 수동으로 생성된 다중 모드 감정, 감정 및 욕망 데이터 세트(MSED).

Evaluation metrics.

우리의 실험에서 정밀도(P), 재현율(R) 및 매크로-F1(Ma-F1)이 평가 메트릭으로 사용됩니다.
또한 절제 테스트에 대한 균형 정확도(b-Acc) 메트릭인 MTL v/s STL, 컨텍스트 창 크기의 영향을 소개합니다.

4.3 Baselines

제안된 M3GAT의 분류 성능을 검증하기 위해 우리는 비교를 위해 광범위한 최신 기준선을 나열합니다.
그들은:
Multi-Modal CNN[56]은 텍스트 및 시각적 특징을 추출하기 위해 두 개의 개별 심층 CNN을 설계하고 감정 및 감정 분류를 위해 함께 병합합니다.
BiGRU+Att[54]는 양방향 GRU를 사용하여 발화 특징을 추출하고 CNN-BiGRU를 사용하여 비디오 특징을 추출합니다. 감성 및 감정 감지를 위한 소프트맥스 기능을 통해 연결된 다중 모드 표현을 전달합니다.
SVM+BERT[53]는 BERT를 채택하여 텍스트 발화 임베딩을 생성하고 감성 및 감정 분석을 위해 SVM에 공급합니다.
GRU-RoBERTa[28]는 BERT 대신 RoBERTa를 사용하여 발화 표현을 학습하고 이를 GRU 네트워크에 공급합니다.
EfficientNet은 사전 훈련된 EfficientNet 네트워크를 사용하여 비디오 표현을 학습하고 이를 고밀도 계층에 공급합니다.
UPB-MTL[43]은 ALBERT를 사용하여 텍스트 발화를 나타내고 VGG-16을 사용하여 시각적 대응을 나타냅니다. 다중 모드 표현은 기능 연결을 통해 달성됩니다.
MMBT(Multi-modal Bitransformer)[18]는 BERT 및 ResNet-152를 활용하여 바이모달 감정 및 감정 분류를 위한 텍스트 및 시각적 기능을 모델링합니다.
다중 모드 GAT(MM-GAT)는 텍스트 및 비디오 대화에 대해 두 개의 별도의 무방향 그래프를 작성하고 두 개의 표준 GAT를 적용하여 감정 및 감정 분류를 위한 발화 및 비디오 표현을 업데이트합니다.
Co-GAT[38]은 감정 분류 및 감정 인식을 위한 교차 발화 연결 및 교차 작업 연결을 구성하기 위해 Co-GAT(co-interactive graph Attention Network)를 제안합니다.
출판된 년도 확인해봐야함

4.4 Results and Analysis

The experimental performance of all baselines are showed in Table 2.
우리는 이러한 기준선을 표준 딥 러닝 아키텍처, 사전 훈련된 모델 패러다임 및 그래프 신경망의 세 가지 범주로 분류합니다.
우리는 분류 성능에 대한 자세한 분석을 수행할 것입니다.
MELD.

표 2에서 감정 분석 및 감정 인식의 경우 다중 모드 CNN이 다른 기준선에 비해 매우 낮은 성능을 보인다는 것을 알 수 있습니다.
두 작업 모두에서 최악의 분류 성능을 달성합니다.
한 가지 주요 이유는 CNN이 발화 수준의 상호 작용 정보 모델링을 무시하여 모델이 컨텍스트 표현을 학습할 수 없도록 하여 특정 성능 손실을 초래한다는 것입니다.
컨텍스트 정보를 모델링하고 컨텍스트에 서로 다른 가중치를 할당함으로써 BiGRU+Att는 두 작업 모두에서 다중 모드 CNN보다 훨씬 발전했습니다.
SVM+BERT는 매크로 F1 점수 측면에서 거의 30%의 큰 차이로 다중 모드 CNN을 능가합니다.
우리는 이 놀라운 개선을 BERT의 컨텍스트 표현의 강력한 능력으로 돌립니다.
이것은 또한 대화식 이해에서 컨텍스트 모델링의 중요성을 보여줍니다.
SVM+BERT와 비교할 때 GRU-RoBERTa는 감정 분석에서 더 나쁜 성능을 보이지만 감정 인식 작업에서는 상당한 개선을 얻습니다.
가능한 이유 중 하나는 GRU가 SVM보다 다중 클래스 문제를 더 잘 처리하기 때문입니다.
UPB-MTL과 MMBT도 비슷한 현상을 보인다.
한 가지 가능한 이유는 감정 인식이 대화 컨텍스트 모델링에 크게 의존하는 반면 SVM은 컨텍스트 상호 작용을 캡처하는 데 충분하지 않기 때문입니다.
한편 EfficientNet은 위에서 언급한 4가지 사전 훈련된 모델보다 성능이 뛰어납니다.

다중 모드 감정 분석 및 감정 인식에서 그래프 신경망의 잠재력을 보여주기 위해 두 가지 강력한 GAT 기준선도 평가합니다.
MM-GAT는 성능이 좋지 않고 모든 사전 훈련된 모델에 패배합니다.
한 가지 가능한 이유는 MM-GAT가 BERT를 사용하여 단어 임베딩을 초기화하지 않기 때문입니다.
그러나 여전히 다중 모드 CNN 및 BiGRU+Att를 극복합니다.
Co-GAT은 처음으로 cross-task 상호작용을 모델링하고, 두 개의 task에 대한 모든 기준선 중 최고의 성능을 달성하여 그래프 학습의 효율성을 입증합니다.
제안된 교차 모드 연결의 역할을 확인하기 위해 두 가지 단일 모드 설정, 즉 Text-M3GAT 및 Video-M3GAT를 설계합니다.
Text-M3GAT는 성능이 좋으며 Co-GAT보다 약간 개선되었습니다.
이것은 우리의 사운드 그래픽 아키텍처의 이점입니다.
그러나 Video-M3GAT는 우리가 기대한 만큼 성능이 좋지 않습니다.
텍스트 정보가 다중 모드 감정 분석 및 감정 인식에서 가장 중요한 역할을 하는 것으로 입증되었기 때문입니다.
제안된 M3GAT 모델은 두 가지 작업에 대해 최신 기준선(즉, Co-GAT)의 66.89% 및 39.73%의 매크로 F1과 비교하여 68.15% 및 40.53%의 최상의 매크로 F1 점수를 달성합니다.
이것은 M3GAT가 인간 언어의 감정과 감정을 모델링함에 있어 로컬-글로벌 컨텍스트 모델링, 다중 모드 연결, 다중 작업 상관 관계의 장점을 성공적으로 활용한다는 것을 보여줍니다.
MEISD.

MEISD는 MELD보다 더 많고 균형 잡힌 샘플을 포함합니다.
비교 모델에서 약간의 차이가 발생함을 알 수 있습니다.
한 가지 현상은 모든 모델의 성능이 분명히 떨어지는 것입니다.
그 이유는 더 큰 표본 크기가 어려움을 증가시키기 때문입니다.
다중 모드 CNN과 BiGRU+Att는 성능이 매우 낮고 동일한 수준에 위치합니다.
GRU-RoBERTa와 MMBT는 두 작업 모두에서 SVM+BERT보다 성능이 뛰어납니다.
SVM은 대규모 샘플을 효과적으로 처리할 수 없기 때문입니다.
UPB-MTL은 여전히 두 가지 작업에 대해 만족스럽지 못한 결과를 보여줍니다.
두 개의 그래프 신경망에 대해 BERT를 MM-GAT 모델에 통합하려고 시도합니다. 여기서 감정 분석 작업을 위한 모든 기준선 중에서 최고의 분류 성능을 달성합니다.
Co-GAT은 두 가지 작업에 대해 세 번째로 높은 매크로-F1 점수를 달성했습니다.
Text-M3GAT는 두 가지 작업에서 Video-M3GAT보다 더 나은 성능을 보여줍니다.
Text-M3GAT도 최신 기준선을 약간 능가하여 설계된 모델의 효율성을 보여줍니다.
우리는 두 가지 이유로 성능에 기여합니다.
(1) 로컬-글로벌 컨텍스트 모델링 및 (2) 크로스 태스크 연결.
마지막으로, 제안된 M3GAT는 두 가지 작업에 대해 최신 기준선(MM-GAT 및 GRU-RoBERTa)보다 크게 개선되었습니다.
또한 교차 모드 연결 및 업데이트의 도입으로 Text-M3GAT보다 성능이 뛰어납니다.
MEISD의 샘플은 다중 화자 대화인 MELD의 샘플과 유사합니다.
그러나 MEISD의 표본 크기는 MELD의 표본 크기보다 훨씬 큽니다.
제안된 M3GAT 모델은 MELD에서보다 MEISD에서 더 나은 분류 성능을 보여 M3GAT의 일반화 능력을 보여준다.

우리는 M3GAT가 컨텍스트 정보, 다중 모드 융합 및 다중 작업 상관 관계를 동시에 모델링할 수 있도록 보장하는 다중 모드 다중 작업 대화 구조의 주요 개선 사항을 돌립니다.
MSED.

생성된 다중 모드 감정, 감정 및 욕망(MSED) 데이터 세트에는 인간 대화가 포함되지 않으며 M3GAT는 대화 컨텍스트를 모델링하지 않습니다.
다중 모드 대화 그래프는 단어/픽셀이 텍스트 및 시각적 발언이 아닌 꼭짓점으로 처리된다는 점에서 다중 모드 문서 그래프로 변질됩니다.

MSED의 모든 모델 간의 성능 차이가 MELD의 결론과 충돌하지 않음을 관찰할 수 있습니다.
두 개의 전통적인 심층 신경망(즉, 다중 모드 CNN 및 BiGRU+Att)은 최악의 성능을 보여줍니다.
GRU-RoBERTa 및 MMBT가 감정 분석 및 감정 인식 작업에 가장 적합한 5가지 사전 훈련된 언어 모델이 눈에 띄게 개선되었습니다.
두 가지 일반적인 그래프 신경망, 즉. MM-GAT 및 Co-GAT도 좋은 매크로-F1 점수를 얻습니다.
Text-M3GAT가 더 나은 성능을 보이는 Text-M3GAT 및 Video-M3GAT에서도 유사한 현상이 발생합니다.
이것은 다시 한 번 텍스트 정보의 중요성을 증명합니다.
제안된 M3GAT 모델은 모든 기준을 획기적으로 극복했으며, 매크로 f1 84.85%와 81.97%로 최첨단 성능을 달성했다. M3GAT는 MSED에서 대화 컨텍스트 및 화자 정보를 모델링할 수 없다는 점에서 다른 기준선에 비해 약간의 이점을 보여줍니다.
이것은 또한 다양한 시나리오에 적용될 수 있는 M3GAT의 견고함을 증명합니다.
이제 우리는 실험적 관점에서 RQ1에 답했습니다.

4.5 MTL v/s STL Setup

단일 작업(STL) 학습 프레임워크에 대한 다중 작업(MTL)의 우수성을 증명하기 위해 표 3에 분류 성능을 보여줍니다.
우리는 모든 MTL 프레임워크가 매크로-F1 측면에서 세 가지 데이터 세트에 대한 두 가지 관련 작업에 대해 STL 모델보다 성능이 우수하다는 것을 관찰했습니다.
감정 분석의 경우 MTL은 T+V에서 큰 차이로 STM을 능가하며 T 및 V에서 STL보다 약간 개선됩니다.
이는 제안된 모델이 단일 모드 지식보다 공유된 다중 모드 지식을 효과적으로 활용할 수 있음을 보여줍니다.
The correlative information from emotion recognition helps the improvement of sentiment analysis.
STL은 3개의 데이터 세트에 대한 텍스트 감정 분석에 대해 MTL과 유사한 결과를 얻습니다.
그 이유는 STL이 텍스트 대화 GAT를 사용하여 강력한 텍스트 표현을 얻을 수 있는 감정 분석에서 텍스트 양식이 핵심적인 역할을 하기 때문입니다.
MTL은 MELD와 MEISD에서 괄목할 만한 진전을 보인 반면 MSED에서는 보통 수준입니다.
그 이유는 MSED가 다자간 대화를 포함하지 않고 화자 정보와 대화 맥락이 무시되기 때문입니다.
감정 인식의 경우 MTL은 매크로-F1 및 균형 잡힌 정확도 측면에서 세 가지 데이터 세트에서 여전히 꾸준히 STL을 초과합니다.
이는 감성분석이 지식공유를 통해 감성인식을 돕는다는 것을 의미한다.
그러나 MTL의 명백한 장점은 범주의 증가로 인해 감정 인식의 어려움이 줄어들었기 때문입니다.
요약하면, 우리가 제안한 M3GAT 프레임워크는 두 관련 작업 간의 상호 의존성을 학습하고 개별 성능을 향상시킬 수 있습니다.
STL 프레임워크에 대한 MTL의 개선도 통계적으로 중요합니다.
우리는 MTL과 STL의 비교를 통해 우리의 RQ2에 답했습니다.
성능차이가 크지 않아서.. 약간 오차가 있을 수도 있는거 아닌가?
제안모델에선 효과적이라쳐도 다른 모델에서도 MTL이 효과적이라고 보장할 수 있나?

4.6 Ablation Test

제안된 M3GAT 모델에 세 가지 핵심 구성 요소를 통합했기 때문에 성능 향상에 대한 기여도에 대해 논의하려고 합니다.
To this end, three ablated models are proposed:

(1) M3GAT에서 로컬-글로벌 컨텍스트 연결을 제거하는 컨텍스트 없음;
(2) 교차 모드 연결을 다중 모드 기능 연결로 대체하는 다중 모드 연결 없음;
(3) M3GAT에서 Cross-task 연결을 제거하고 감정과 감정 예측을 별도로 수행하는 Cross-task Connection, 즉 STL이 없습니다.

The experimental results are shown in Table 4.
감정 분석의 경우 교차 작업 연결 없음이 3개의 데이터 세트에서 3개의 절제된 모델 중 최악의 성능을 달성함을 알 수 있습니다.
이는 작업 간 연결을 제거하는 것이 분류 성능에 가장 큰 영향을 미친다는 것을 의미합니다.
Cross-task connection은 sentiment analysis의 전체 성능에 가장 크게 기여합니다.
Multi-modal connection은 두 번째로 큰 기여입니다.
감정 인식을 위해 우리는 다른 관찰을 합니다.
Cross-task connection은 MELD 및 MEISD 데이터 세트에서 전체 성능에 가장 적게 기여하지만 MSED 데이터 세트에서는 가장 중요한 역할을 합니다.
감정 인식이 더 어려운 작업을 포함한다는 점에서 한 가지 가능한 이유는 대화 맥락과 다중 모드 융합이 감정 판단에 큰 영향을 미치기 때문입니다.
MELD와 MEISD는 모두 여러 화자 대화에서 수집되며, 컨텍스트는 종종 풍부한 감정적 단서를 제공합니다.
MSED에는 정적 텍스트와 이미지만 포함되어 있으므로 다중 모드 연결보다 작업 간 연결이 훨씬 더 중요합니다.
여기서 우리는 RQ3에 대한 답을 줄 수 있습니다.

sentiment analysis 작업에는 cross-task connection이 가장 많이 기여하고 emotion recognition에는 local-global 컨텍스트 연결이 가장 많이 기여합니다.

4.7 Effect of Varying the Window Size

M3GAT에서는 다른 모든 발화/비디오에 연결하는 대신 설명을 위해 과거 및 미래 컨텍스트 창 크기를 𝑍 = 1로 설정했습니다.
최적의 창 크기를 찾기 위해 다양한 창 크기를 선택하고 { 1 , 2 , 3 , 4 } 풀에서 성능을 시도했습니다.
각 발화는 컨텍스트 표현을 학습하기 위해 𝑍 거리의 컨텍스트에 로컬로 연결됩니다.
MSED는 대화 컨텍스트를 포함하지 않기 때문에 서로 다른 컨텍스트 크기로 MELD 및 MEISD에 대한 실험 결과를 표 5에 보고합니다.
- "Z=1"은 각 발화를 1의 거리로 컨텍스트에 연결한다는 것을 의미합니다.
- "Z=2"는 각 발화를 두 개의 이웃에 연결한다는 것을 나타냅니다. "Z=3"은 과거와 미래의 세 가지 컨텍스트를 사용하여 컨텍스트 표현을 학습한다는 의미입니다.
- "Z=4"는 과거 및 미래의 4가지 컨텍스트가 사용됨을 의미합니다.
- 실험에서는 Z=3이 최적의 값으로 보인다.
- 이에 대한 자세한 분석이 있으면 좋겠다. 특히 Z=4 이면 어떤 테스트 샘플에서 에러가 발생하는가?
- 이는 데이터 혹은 모델에 의존하는 값인가? 아니면 항상 Z=3이 최적인가?
- 최적의 Z을 찾는 방법은 없는가?
표 5에서 우리는 하나의 컨텍스트와 네 개의 컨텍스트를 가진 M3GAT가 MELD에서 감정 분석 및 감정 인식에 대해 최악의 성능을 보이는 것을 관찰합니다.
이것은 다음을 보여줍니다:

(1) 분류 성능을 향상시키기 위해 하나의 대화 컨텍스트만 고려하는 것만으로는 충분하지 않습니다.
(2) 너무 많은 히스토리 발화를 모델링하면 성능을 방해하는 노이즈가 발생합니다.

2개의 컨텍스트가 있는 M3GAT는 1.1%, 1.6%, 1.2% 및 1.6%의 개선으로 하나의 컨텍스트가 있는 M3GAT보다 더 나은 결과를 얻습니다.
이는 두 가지 상황적 발화를 고려하는 것이 좋은 선택임을 의미합니다.
대조적으로, 2개 및 4개의 컨텍스트가 있는 M3GAT는 MEISD에서 최악의 분류 성능을 달성하는 반면, 하나의 컨텍스트가 있는 M3GAT는 두 번째로 높은 점수를 얻습니다.
MEISD에는 M3GAT가 유용한 지식보다 더 많은 소음을 흡수할 수 있는 모든 종류의 복잡한 대화가 포함되어 있기 때문입니다.
3개의 컨텍스트가 있는 M3GAT는 2개의 데이터 세트에서 2개의 작업에 대해 최고의 매크로-F1 점수를 달성하며, 이는 3개의 대화 컨텍스트를 통합하는 것이 최적의 성능에 도달하는 가장 좋은 방법임을 의미합니다.

4.8 Effects of Model Depth

M3GAT는 일련의 L 레이어 GAT로 구성되어 있으므로 모델 깊이(레이어 수)가 분류 성능에 미치는 영향을 분석합니다.
𝐿의 값을 1에서 5까지 다양하게 하고, 3개의 데이터셋에 대한 실험 결과의 변화를 확인한다.
결과를 표 6에 나타내었다.
표 6에서 MELD 데이터 세트에서 𝐿 = 3일 때 M3GAT가 최고의 성능을 달성함을 알 수 있습니다.
MEISD에서 𝐿 = 2 감정 분석, 𝐿 = 3일 때 최적의 성능에 도달합니다.
𝐿 = 2 및 𝐿 = 1일 때 M3GAT는 각각 MSED에서 감정 분석 및 감정 인식에 대해 최상의 결과를 얻습니다. MELD 및 MEISD의 샘플은 다중 화자 대화이므로 심층 M3GAT 모델은 대화 그래프에서 더 많은 의미론과 전역 정보를 마이닝합니다.
그러나 𝐿 = 4 및 𝐿 = 5는 과도한 평활화 문제로 인해 분류 성능이 급격히 저하됩니다.

왜 이렇게 급격히 감소하는가?
동일한 기능을 한다고 급격히 감소하는가?
MSED에서 L=5일때 sentiment는 괜찮은 성능인데 emotion은 왜 급격히 감소하는가?
자세한 discussion이 있음 좋을듯

노드 기능은 동일한 벡터로 수렴되는 경향이 있으며 여러 레이어를 적용한 결과 거의 구별할 수 없게 됩니다.
MSED는 얕은 M3GAT 모델이 효과적인 감상 및 감정 지식을 집계하여 성능 향상으로 이어지는 이미지만 수집합니다.

4.9 Error Analysis

제안된 M3GAT 모델의 가능성을 탐색하기 위해 그림 3과 같이 MELD 및 MSED 데이터 세트에서 몇 가지 일반적인 오분류 사례(텍스트 및 비디오)를 수집하고 표시합니다.
MEISD는 원시 데이터 대신 추출된 기능만 제공합니다.
이러한 오류 예에는 STL이 실패하는 동안 MTL이 올바르게 예측하고 두 설정 모두 올바르게 예측하지 못하는 경우가 포함됩니다.
sentiment analysis의 경우 STL 프레임워크에 대한 오분류는 발화가 표면에 긍정적인 단어를 포함할 때 자주 발생합니다.

'도움이 된다'와 '기쁘다'는 neutral 감정을 표현한다.

STL은 중립적인 감정과 긍정적인 표현을 구분하지 못합니다.
감정 지식을 활용하여 MTL 프레임워크는 정확한 예측을 하고 상당한 개선을 얻습니다.
그러나 우리는 MTL이 화자의 성격, 문화 정보와 같은 외부 정보가 필요한 복잡한 경우에 어려움을 겪을 수 있음을 관찰했습니다.
또한 의문문의 정서극성을 제대로 분석하지 못한다.
emotion recognition을 위해 MTL 프레임워크는 STL이 실패하는 동안 감정 정보를 사용하여 세분화된 감정을 식별할 수 있습니다.
우리는 또한 화자가 암시적이고 미묘한 감정을 표현하는 유사한 상황에서 MTL 및 STL 프레임워크가 모두 실패한다는 것을 알 수 있습니다.
예를 들어, 텍스트 발화에 감정적인 단어가 없거나 비디오에 명백한 표정이 없습니다.
MTL does not obtain effective sentimental information from sentiment analysis, and thus makes wrong decision.
이러한 경우 다중 작업 학습 패러다임은 전체 아키텍처에 거의 영향을 미치지 않습니다.

4.10 Attention Visualization

이 섹션에서는 그림 4에 제안된 M3GAT 모델의 주의 히트맵을 보여줍니다.

설명을 위해 8개의 발화로 구성된 다중 모드 대화를 무작위로 선택합니다.
먼저 첫 번째 줄에 두 가지 단일 양식(즉, 텍스트 및 비디오)의 두 가지 모드 내 주의 매트릭스를 묘사합니다.
히트맵은 다양한 양식에 대한 대상 발화에 대한 기여 발화를 나타냅니다.
예를 들어, 우리는 두 번째와 네 번째 텍스트 컨텍스트가 그림 4(a)의 왼쪽 상단 부분에서 감정 분석 작업에 가장 많이 기여한다는 것을 발견했습니다.
그들은 또한 오른쪽 하단 영역에서 감정 인식 작업에 가장 큰 도움을 제공합니다.
우리는 또한 세 번째 텍스트 감정적 지식이 왼쪽 하단 영역에서 감정 분석의 성능을 향상시킬 것임을 알 수 있습니다.
그림 4(b)에서 우리는 주의 가중치가 시각적 양식에 대해 잘 수행되지 않음을 알 수 있습니다.
우리는 또한 두 번째 줄, 즉 그림 4(c)와 (d)에서 서로 다른 작업(즉, 감정과 감정)에 대한 두 개의 교차 모드 주의 매트릭스를 묘사합니다.
그림 4(c)에서 우리는 네 번째 텍스트 지식이 시각적 감정 분석에 이점이 있음을 관찰합니다.
이에 비해 세 번째 시각적 발화는 텍스트 감정 분석에 많은 도움이 됩니다.
그림 4(d)로부터 감정 인식 작업에 대해서도 동일한 결론을 얻을 수 있다.

5 CONCLUSIONS AND FUTURE WORK

다중 모드 감정 분석 및 감정 인식은 NLP에서 밀접하게 관련된 두 가지 작업입니다.
대화 컨텍스트 종속성, 다중 모드 상호 작용 및 다중 작업 상관 관계는 이러한 두 가지 작업에 기여하는 세 가지 핵심 요소입니다.
이 작업에서 우리는 세 가지 문제를 동시에 해결하기 위해 M3GAT라고 하는 다중 모드 다중 작업 대화형 그래프 주의 네트워크를 제안합니다.
모델의 중심에는 다음과 같은 세 가지 핵심 하위 모듈이 포함된 제안된 대화형 대화 그래프 레이어가 있습니다.

(1) 로컬 및 글로벌 대화 컨텍스트를 모델링하기 위한 로컬-글로벌 컨텍스트 연결;
(2) 다중 모드 상보성을 학습하기 위한 교차 모드 연결 및
(3) 두 작업 간의 상관 관계를 캡처하기 위한 교차 작업 연결.

세 가지 벤치마킹 데이터 세트인 MELD, MEISD 및 MSED에 대한 포괄적인 실험은 감정 분석의 경우 1.88%, 5.37%, 0.19%의 마진과 1.99%, 3.65%, 0.13의 마진으로 최첨단 기준에 대한 M3GAT의 효율성을 보여줍니다. 각각 감정 인식에 대한 %입니다.
또한 단일 작업 프레임워크보다 다중 작업 학습의 우수성을 보여줍니다.
우리의 작업에도 몇 가지 제한 사항이 있습니다.
예를 들어, 문자 수준의 상호 작용은 단어와 픽셀 사이에 밀접한 관계가 있기 때문에 무시되었습니다.
이러한 상호 작용은 감정 분석 및 감정 인식에도 중요합니다.
또한, 벡터 거리를 중심으로 직관적으로 처리하는 전역 정점을 얻기 위해 순진한 접근 방식을 사용합니다.
이러한 접근 방식은 향후 개선될 글로벌 발화를 효과적으로 반영하지 못할 수 있습니다.
게다가, 설계된 교차 작업 연결은 실제로 하드 매개변수 공유가 있는 공유 바닥 모델에 속합니다.
서로 다른 작업 간의 공통점만 고려합니다.
소프트 매개변수 공유 다중 작업 모델은 작업 간의 공통성과 각 작업의 특수성을 모두 모델링합니다.
제안된 M3GAT 모델은 bi-modal fusion 및 bi-task 학습을 위해 설계되었으며, tri-modal tri-task 분석 작업을 처리하는 방법도 향후 작업에 남겨둡니다.

sentiment, sarcasm, humor 등 3개 이상의 작업 간의 상관관계를 포착하기 위해 통합된 다정적 분석 패러다임을 설계하고 해당 모델을 구축하는 것을 목표로 합니다.

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-167, M3GAT: A Multi-Modal Multi-Task Interactive GraphAttention Network for Conversational Sentiment Analysisand Emotion Recognition, TOIS Review

◼ Comment

0 Abstract

1 INTRODUCTION

2 RELATED WORK

2.1 Multi-Modal Sentiment Analysis

2.2 Multi-Modal Emotion Recognition

3 THE PROPOSED M3GAT MODEL

3.1 Problem Formulation

3.2 Overall Network

3.3 Multi-Modal Utterance Encoder

3.3.1 Text encoder.

3.3.2 Video encoder.

3.4 Speaker-Aware Multi-Task Interactive Conversation Graph

3.5 Decoder

4 EXPERIMENTS

4.1 Research Question

4.2 Experimental Settings

4.3 Baselines

4.4 Results and Analysis

4.5 MTL v/s STL Setup

4.6 Ablation Test

4.7 Effect of Varying the Window Size

4.8 Effects of Model Depth

4.9 Error Analysis

4.10 Attention Visualization

5 CONCLUSIONS AND FUTURE WORK

댓글

댓글 쓰기