NL-167, M3GAT: A Multi-Modal Multi-Task Interactive GraphAttention Network for Conversational Sentiment Analysisand Emotion Recognition, TOIS Review

◼ Comment

  • 요약
    • 논문은 sentiment analysis와 emotion recognition을 동시에 학습하는 멀티모달 (vision, text) 프레임워크를 제안합니다.
    • 프레임워크의 주요 요소는 context dependency, multi-modal interaction, multi-task correlation이 있습니다.
    • 저자는 이 3개를 결합하는 접근법이 처음이라고 합니다. 하지만 각각의 요소에 대해서는 수 많은 연구들이 있습니다.
  • 질문
    • Q1: 식 (1)에서 $C^S$와 $C^E$의 차이는 무엇입니까?
    • Q2: FIg 2에서 cross-task connection은 section 3.4에서 설명되어있습니다. 여기서 knowledge을 공유하는데 emotion feature과 sentiment feature과 어떻게 결합되는지 좀 더 자세히 설명할 필요가 있다.
    • Q3: Table 2의 M3GAT는 sentiment analysis에서 text가 효과적임을 보여준다. vision 모달리티를 결합하면 성능이 다소 상승하지만 그 차이가 너무 작습니다. real application에서 인퍼런스 시간 등을 고려하면 text only 프레임워크를 사용하는게 효율적일 수 있습니다.
    • Q4: Table 4는 STL과 MTL의 차이를 보여줍니다. 이 또한 성능차이가 매우 작습니다. 한 번의 seed로 실험한 것이라면 충분히 결과가 달라져서 분석이 바뀔 수 있습니다. 여러 번 실험을 통해 결과를 뒷받침하세요.
    • Q5: 제안한 MTL은 emotion과 sentiment의 class간의 종속성이 없다. 예를 들어, 모델은 sentiment class는 negative이고 emotion class는 joy가 예측할 수 있다. 즉 모델이 예측할 때 emotion 과 sentiment class간의 제한이 있으면 좋을 수 있다.
    • Q6: M3GAT외의 다른 프레임워크에서도 context dependecy 및 multi-modal interaction의 효과는 알려져있습니다. 하지만 MTL이 효과적임을 보장할 수 있습니까?
    • Q7: Table 5에서 Z=3이 최적의 값으로 보인다. 이에 대한 자세한 분석이 있으면 좋겠다. 특히 Z=4 일 때, 어떤 테스트 샘플에서 추가적인 에러 케이스가 있는가? Z는 데이터 혹은 모델에 의존하는 값인가? 아니면 항상 Z=3이 최적인가? 최적의 Z을 찾는 방법은 없는가?
    • Q8: Table 6의 MELD 와 MEISD에서 L=4일때 성능이 급격히 감소합니다. MSED에서 L=5일 때, emotion만 성능이 왜 급격히 감소하는가? 자세한 discussion이 필요합니다. 
  • Suggestion:
    • paper의 수식 및 기호는 너무 복잡합니다. 기호 및 첨자들을 직관적으로 다시 작성할 필요가 있습니다.

0 Abstract

  • 장단기 인간의 감정에 해당하는 감성과 감성은 서로 밀접하게 연결되어 있어 자연어처리(NLP)에서 감성분석과 감성인식 역시 상호의존적인 두 작업이라는 사실을 알 수 있다.
  • 한 작업은 종종 다른 작업에서 공유된 지식을 활용하고 공동 학습 패러다임에서 해결할 때 더 잘 수행합니다.
  • The conversational context dependency, multi-modal interaction and multi-task correlation are three key factors that contribute to such joint paradigm. 
  • 그러나 최근의 접근 방식 중 어느 것도 통합 프레임워크에서 이를 고려하지 않았습니다.
  • 이 격차를 채우기 위해 우리는 세 가지 문제를 동시에 해결하기 위해 M3GAT라고 하는 다중 모드 다중 작업 대화형 그래프 주의 네트워크를 제안합니다.
  • 모델의 핵심은 다음과 같은 세 가지 핵심 하위 모듈을 포함하는 제안된 대화형 대화 그래프 레이어입니다. 
    • (1) local-global context connection for modeling both local and global conversational context; 
    • (2) cross-modal connection for learning multi-modal complementary and 
    • (3) cross-task connection for capturing the correlation across two tasks. 
  • 세 가지 벤치마킹 데이터 세트인 MELD, MEISD 및 MSED에 대한 포괄적인 실험은 감정 분석에 대해 1.88%, 5.37% 및 0.19%의 (감정 인식은 각각 1.99%, 3.65%, 0.13%입니다.) 마진으로 최첨단 기준에 대한 M3GAT의 효율성을 보여줍니다.
  • 또한 단일 작업 프레임워크보다 다중 작업 학습의 우수성을 보여줍니다.

1 INTRODUCTION

  • Instagram, WhatsAPP 등과 같은 인스턴트 메시징 소프트웨어의 엄청난 인기는 친밀하고 빈번한 대인 커뮤니케이션으로 이어집니다.
  • 인간의 언어는 실제로 자연어(텍스트), 표정(시각) 등을 포함하는 다중 모드의 관점에서 볼 때 다중 모드 대화 기록이 많이 생성되었습니다.
  • 이러한 기록은 화자의 주관적인 태도나 의견으로 자연스럽게 채워져 인간의 감정과 감정을 이해하는 실용적이고 실현 가능한 경로를 제공합니다.
  • 다중 모드 감정 분석 및 감정 인식은 대화 이해 및 의도 분석에서 엄청난 잠재력을 가지고 있으며 NLP에서 활발한 작업이었습니다[22, 29].
  • Sentiment and emotion은 서로 상당히 다르지만 affective 컴퓨팅 및 sentiment analysis의 많은 문헌에서 종종 상호 교환적으로 사용됩니다[27, 56].
    • Sentiment은 인간의 주관적인 경험과 정신적 태도를 말하며, 종종 장기적이고 깊은 인간의 인식과 사회적 필요, 예를 들어 사랑, 자부심, 열정을 포함합니다[26].
    • Emotion은 자극에 대한 뇌의 짧은 수명이지만 강렬한 생리학적 반응으로 간주되며, 이는 표정, 음향 톤 및 신체 변화의 형태로 표현됩니다.
    • 예를 들어, 분노, 두려움, 행복은 감정으로 간주됩니다 [5].
    • Emotion은 무의식적으로 선천적으로 발생하는 반면 sentiment은 감정으로부터 고도로 조직화됩니다.
  • 한편, 안정된 sentiment이 emotion에 뿌리를 두고 emotion을 통해 표현되는 상호의존적이고 떼려야 뗄 수 없는 관계이기도 하다.
    • Emotional 변화도 sentiment에 의해 좌우되며 emotion의 강도는 sentimental expression의 깊이를 반영한다[6].
    • Sentiment and emotion은 인간의 internal and external 애정에 상응한다.
    • 우리는 그러한 차이를 아는 것이 우리와 NLP 커뮤니티가 sentiment analysis and emotion recognition에 대해 깊이 이해하는 데 도움이 될 것이라고 주장합니다.
    • 따라서 다중 모드 sentiment analysis and emotion recognition도 밀접하게 관련된 두 가지 작업입니다.
  • 한 작업은 다른 작업에서 공유된 지식을 활용할 수 있으며 공동 학습 패러다임에서 해결할 때 더 잘 수행할 수 있습니다.
  • 다중 모드 감정 분석 및 감정 인식에 기여하는 세 가지 핵심 요소가 있습니다. 
    • the conversational context dependency, 
    • multi-modal interaction and 
    • multi-task correlation. 
    • 사실 multi-task correlation을 빼고는 다른 연구들이 시도하는 거 같은데...?
  • 우리는 그림 1에서 이러한 세 가지 문제의 존재를 소개하는 예를 보여줍니다.
  • 특히 화자의 발화는 상황에 따라 크게 달라지며 다양한 대화 상황에서 다양한 sentiments과 의미를 표현할 수 있습니다.
  • 언어적 맥락을 모델링하는 방법에 대한 이해가 제한적입니다.
    • 또한 다중 모드 상호 작용은 다른 modalities에서 보완적인 지식을 캡처하여 단일 모드 표현을 개선하는 것을 목표로 합니다.
  • early-fusion, late-fusion, hyper-fusion 등 다양한 다중-모달 융합 전략이 제안되었음에도 불구하고, modalities 전반에 걸친 이질성 및 증대된 다양성을 해결하는 방법은 여전히 열려 있는 문제입니다.
  • 다중 작업 상관 관계는 작업 간의 상호 관련성을 모델링하고 shared knowledge을 캡처하여 개별 성과를 향상시키려고 시도합니다.
  • multi-modal sentiment and emotion joint analysis을 위해 위의 세 가지 정보 소스를 고려하는 것이 중요합니다.
    • 이를 위해 Poria는 3개의 CNN(컨볼루션 신경망)을 설계하여 textual, visual and acoustic features 기능을 추출하고 감정 및 감정 결합 감지를 위한 다중 커널 학습 분류기를 통해 병합합니다.
    • 그들은 feature concatenation을 통해 다중 모드 융합을 모델링했습니다.
  • Akhtar는 sentiment and emotion을 동시에 예측하기 위해 RNN(Recurrent Neural Network) 기반 상호 모달 주의 프레임워크를 제안했습니다.
    • 그러나 그들은 대화 맥락을 고려하지 않았습니다.
    • 내가 생각하는 방법일려나.. 멀티테스크러닝
  • Shenoy는 listener and speaker emotional state 사이의 dependency과 modalities 전반의 관계를 모델링하기 위해 Multilogue-Net이라고 하는 두 가지 attention 기반 GRU(Gated recurrent unit)를 제시했습니다.
  • Huddar는 pair-wise attention mechanism과 RNN을 결합하여 발화 사이의 interlocutor state and contextual state를 모델링했습니다.
  • 그러나 위에서 언급한 모델은 두 가지 관련 작업의 상호 의존성을 무시했습니다.
    • emotion, sentiment 상호 의존성을 무시했다?
  • 눈에 띄는 진전이 있었지만 최근 모델에는 한 가지 주요 문제가 있다고 주장합니다.
    • 세 가지 요소는 통합된 프레임워크에서 해결된 적이 없습니다.
  • 즉, 버려지는 정보가 항상 한두 가지가 존재하며, 업데이트된 프로세스에서 충분한 지식이 전파되지 않습니다.
  • 이것은 우리의 질문을 제기합니다. 
    • 세 가지 요소를 공동 프레임워크에서 동시에 해결하여 완전히 통합할 수 있습니까?
  • 이 질문에 답하기 위해 다중 모드 감정 및 감정 공동 인식을 위한 M3GAT라고 하는 다중 모드 다중 작업 대화형 그래프 주의 네트워크를 제안합니다.
  • 모델의 중심에는 제안된 대화형 대화 그래프 레이어가 있으며, 이는 세 가지 핵심 하위 모듈, local-global context connection, cross-modal connection, and cross-task connection로 구성됩니다.
  • 특히, 우리는 closeness centrality을 통해 중앙 정점을 설계하고 대화 그래프의 다른 모든 노드와 연결하여 로컬 및 글로벌 대화 컨텍스트를 모델링합니다.
  • 다중 모드 상보성을 학습하기 위해 cross-modal connection을 구성합니다. 
    • 여기서 한 모달리티의 각 vertex은 창 크기가 𝑍인 다른 양식의 모든 인접 vertex을 연결합니다.
    • 한 작업의 각 vertex이 다른 작업의 인접 정점 𝑍을 연결하는 교차 작업 연결은 작업 간에 공유된 55개의 지식을 명시적으로 활용하기 위해 제안됩니다.
  • 이러한 3개의 연결은 동시에 업데이트되고 통합 그래픽 아키텍처에 통합됩니다.
  • 세 가지 벤치마킹 데이터 세트인 MELD, MEISD 및 MSED에 대한 실증적 실험이 수행됩니다.
  • 다중 모드 CNN, 관심 기반 양방향 GRU(BiGRU+Att), DialogueRNN, DialogueGCN, 변환기의 양방향 인코더 표현(BERT), GRU-RoBERTa, EfficientNet, UPB-를 포함한 광범위한 최첨단 베이스라인 MTL, MMBT(multi-modal bitransformer), Co-GAT는 제안된 M3GAT 모델과 비교됩니다.
  • 실험 결과 M3GAT의 효과는 sentiment analysis에서 1.88%, 5.37%, 0.19%, 감성 인식 0.73%, 3.14%, 0.13%로 나타났다.
  • 또한 일련의 하위 실험을 통해 단일 작업 프레임워크보다 다중 작업 학습의 우수성과 잠재력을 보여줍니다.
  • The main innovations of the work are concluded as follows:
    • We take the first step to simultaneously incorporate the contextual dependency, multi-modal and multi-task interaction into a joint learning model.
    • We treat different grained semantic units (ranging from word/pixel to utterance/video) as nodes, consider their semantic dependencies as edges, and build a stacked multi-modal conversation graph
    • A multi-modal multi-task interactive graph attention network is proposed, where local-global context connection, cross-modal connection, and cross-task connection are constructed and iteratively updated with each other. 
    • We verify the effectiveness of the proposed model by applying it to multi-modal sentiment analysis and emotion recognition. The experimental results show that the proposed model outperforms the state-of-theart baselines.
  • 이 문서의 나머지 부분은 다음과 같이 구성됩니다. 
    • 섹션 2에서는 관련 작업을 간략하게 설명합니다.
    • 3장에서는 제안된 다중 모드 다중 작업 대화형 그래프 주의 네트워크에 대해 자세히 설명합니다. 
    • 4장에서는 실증적 실험을 보고하고 그 결과를 분석한다. 
    • 5장에서는 논문을 마무리하고 향후 연구 방향을 제시한다.

2 RELATED WORK

  • In this section, we briefly review related studies on multi-modal sentiment analysis and multi-modal emotion recognition.

2.1 Multi-Modal Sentiment Analysis

  • Multi-modal sentiment analysis은 user generated documents에 표현된 sentiment 극성(예: 긍정적, 부정적, 중립적)을 발견하는 것을 목표로 합니다.
    • 일반적으로 2급 또는 3급 분류 작업입니다.
  • Morency는 처음으로 3-class 감정 분석의 과제를 다루었고 시각, 청각 및 텍스트 양식의 공동 활용으로부터 이익을 얻을 수 있음을 보여주었습니다.
  • 양자 이론에서 영감을 받은 Zhang은 quantum-inspired multi-modal sentiment analysis model을 제안하고 다중 모드 감정 데이터 세트를 구성했습니다.
  • Li는 quantum inspiration에서 multi-modal representation을 구축하는 것을 목표로 진행 중인 작업을 소개했습니다.
  • Liang은 몇 가지 측면 카테고리 감정 분석 작업을 위해 AFML(Aspect-focused meta-learning) 프레임워크를 제안했습니다.
  • Ju는 multi-modal aspect-level sentiment analysis을 위한 auxiliary cross-modal relation detection를 사용하여 다중 모드 공동 학습 프레임워크를 구축했습니다.
  • 딥 러닝 기술이 다양한 NLP 작업에 널리 적용됨에 따라 CNN, RNN 및 그 변종 기반의 다중 모드 감정 분석 접근 방식이 제안되었습니다.
  • 예를 들어 Yakaew는 다중 모드 감정 분석을 위해 각각 얼굴 및 오디오 특징을 추출하기 위해 CNN을 사용했습니다.
  • Ghosal은 발화 수준의 감정 분석을 위해 상황 정보를 활용하는 RNN 기반 다중 모드 주의 프레임워크를 제시했습니다.
  • Zadeh는 RNN과 텐서 제품 운영을 결합하고 오디오와 비주얼 기능을 융합하기 위해 텐서 융합 네트워크를 제안했습니다.
  • Huang은 가중 다중 모드 표현을 학습하는 것을 목표로 하는 RNN 기반 다중 모드 주의 융합 모델을 제안했습니다.
  • Zhang은 대화형 감정 분석을 향상시키기 위해 감정 레이블이 있는 고품질 대화형 데이터 세트를 만들었습니다.
  • 그들은 처음으로 화자 간의 상호 작용을 정의했습니다. 
  • Xu은 aspect-level sentiment analysis and multi-modal sentiment analysis의 조합으로 볼 수 있는 aspect-based multi-modal sentiment analysis이라는 새로운 하위 작업을 제안했습니다.
    • aspect-based multi-modal sentiment analysis가 먼지 정확히 보자
  • 사전 훈련된 언어 모델은 표준 심층 신경망에 대한 효율성을 입증했으며 다중 모드 기능을 추출하는 데 사용되었습니다.
  • Xi는 사전 훈련된 VGG16 및 BERT를 사용하여 시각적 및 텍스트 특징을 추출하고 다중 모드 감정 분석을 위해 가중치 특징을 선택하기 위해 다중 헤드 주의를 적용했습니다.
  • Transformer의 성공에 동기를 부여받은 Wang은 Transformer를 사용하여 다중 모드 융합을 위한 소스 양식과 대상 양식의 정보를 모두 구현했습니다.
  • Peng은 사전 훈련된 언어 모델의 계산 비용을 줄이는 것을 목표로 하고 Tucker 분해 기반 다중 모드 감정 분석 증류 모델을 제안했습니다.
  • Keswani는 감정 분류를 위한 텍스트 및 시각적 기능을 추출하기 위해 BERT 및 ResNet-152를 포함한 다중 모드 변환기를 도입했습니다.
  • 요약하면, 현재 문헌은 주로 multi-modal representation learning and feature fusion의 문제를 해결하는 데 중점을 둡니다.
    • 대화 context dependency과 multi-task correlation에 대한 연구는 아직 남아 있습니다.
    • 대화 컨텍스트 디펜던시는 ERC에서 많이 해결하려고 하지 않나? 안그러면 ERC을 못풀텐데

2.2 Multi-Modal Emotion Recognition

  • 다중 모드 감정 인식은 심리적 신호, 다중 모드 문서, 대화와 같은 다양한 소스 샘플을 분석하여 슬픔, 놀람, 행복 등과 같은 인간의 기본 감정을 결정하는 것을 목표로 합니다.
  • 종종 세분화된 분류 작업으로 간주됩니다. 
  • 초기에 Chuang과 Wu는 음성 신호와 텍스트 문서를 기반으로 하는 다중 모드 감정 인식 프레임워크를 구축했습니다.
  • Rozgic은 다중 클래스 감정 인식 문제를 해결하기 위해 이진 SVM을 트리 노드로 의사 결정 트리에 통합했습니다.
  • Lin은 HMM(Hidden Markov Model)과 SVM이라는 두 가지 기계 학습 방법을 사용하여 5가지 인간의 감정을 예측했습니다.
  • 최근 CNN, RNN 및 다양한 변형이 다중 모드 기능을 추출하고 다중 모드 감정 인식 프레임워크를 구축하는 데 널리 사용되었습니다.
  • Fan은 CNN을 채택하여 외모와 모션 특징을 추출하고, 비디오 감정 인식을 위한 시퀀스 특징을 캡처하기 위해 RNN에 입력했습니다.
  • Kollias와 Zafeiriou는 유사한 방식을 채택하고 심층 CNN을 훈련하여 중저수준 특징을 추출하고 RNN 서브넷을 사용하여 감정 예측을 수행했습니다.
  • 분류 성능을 향상시키기 위해 주의 메커니즘을 사용하여 기능의 중요도를 측정했습니다.
  • Zhang과 Li는 우울과 감정 감지를 해결하기 위해 부드러운 주의와 multi-head self attention를 활용하는 multi-task learning framework를 제안했습니다.
  • 이제 대화에서의 감정 인식(ERC)은 인기 있는 연구 주제가 되었습니다.
  • 이 작업에서는 conversational context dependency과 multi-modal fusion이 고려되었습니다.
  • Poria는 주변 비디오에서 발화의 대화 컨텍스트를 캡처하여 분류 프로세스를 지원할 수 있는 LSTM 기반 모델을 제안했습니다.
  • Hazarika는 ERC에 대한 대화 기록의 컨텍스트 정보를 활용하는 대화식 메모리 네트워크(CMN)를 도입했습니다.
  • Majumder는 대화 전반에 걸쳐 individual party 상태를 추적하고 이 정보를 ERC에 사용하는 DialogueRNN 모델을 설명했습니다.
  • Poria는 대화 감정 분석의 개발을 용이하게 하기 위해 최초의 다중 모드 대화 데이터 세트, 즉 다중 모드 감성 라인 데이터 세트(MELD)를 만들었습니다.
  • Zhang은 대화형 감정 인식을 위한 양자 영감 대화형 네트워크(QIN) 모델을 설계하고 그 효과를 보여주었습니다.
  • 그들은 또한 대화에서 풍자 감지 및 감정 인식을 위한 최초의 양자 영감 다중 작업 학습 프레임워크를 설계했습니다.
  • 그러나 그들의 모델은 대화 그래프의 토폴로지 구조를 학습하지 못했습니다.
  • Ishiwatari는 관계형 그래프 구조를 반영하는 순차적 정보를 저장할 수 있는 RGAT(그래프 주의 네트워크) 기반 관계형 위치 인코딩을 제시했습니다.
  • Ghosal은 각 발화를 꼭짓점으로 취급하여 대화 그래프를 구성했습니다.
  • 그런 다음 이 그래프를 그래프 컨볼루션 네트워크에 입력하여 최첨단 성능을 달성했습니다.
  • Lu는 발화 간의 감정 상호 작용을 명시적으로 모델링한 반복적인 감정 상호 작용 네트워크를 제시했습니다.
  • Tu는 감상적 일관성과 맥락 정보를 포착하려는 맥락 및 감성 인식 그래프 주의 네트워크를 제안했습니다.
  • Yang은 대화 내에서 난이도 측정기를 구성하기 위해 모델에 구애받지 않는 하이브리드 커리큘럼 학습 전략을 설계했으며 4개의 공개 ERC 데이터 세트에서 새로운 최첨단 결과를 달성했습니다.
  • 서로 다른 작업 간의 상호 관계를 캡처하는 메커니즘이 아직 부족합니다.
  • 기존 작업과 달리 contextual dependency, multi-modal and multitask interaction을 joint graph neural network에 동시에 통합하는 첫 번째 시도입니다.
    • contextual dependency는 그래프적인 모델링을 말하는 것인가?

3 THE PROPOSED M3GAT MODEL

  • In this section, we detail the architecture of the proposed M3GAT model, as illustrated in Fig. 2.
  • 이러면, positive sentiment인데 negativ emeotion가 나올 수 있는 구조가 아닌가?
  • 즉 sentiment 결과가 emotion 예측에 제한을 줄 수 없다.

3.1 Problem Formulation

  • $D_i = \{ (C^{A}_{k}, M^{A}_{k}), Y^{A}_{k} \}$가 데이터
    • C는 contextual utterances for sentiment analysis, emotion recognition
    • M은 Di에서 분류해야할 발화
    • Y는 label (sentiment and emotion)
    • A는 2가지 테스크로 [S, E]중의 하나 (sentiment, emotion)
  • context와 target utterance 둘다 textual (U)와 visual (I) 모달리티로 구성됨.
  • 이제 우리는 연구 문제를 다음과 같이 요약합니다. 
    • 𝑅 multi-modal utterances를 포함한 하나의 multi-speaker conversation가 주어지면 그들의 sentiments and emotions을 공동으로 감지하는 방법은 무엇입니까? 
    • 다음과 같이 작성할 수 있습니다.
    • where Θ denotes the parameter set.
    • 근데 여기서 $C^S$와 $C^E$는 같은거 아닌가?

3.2 Overall Network 

  • 제안된 M3GAT 모델은 multi-modal utterance encoder, a speaker-aware multi-task interactive conversation graph layer, 감정 분류 및 감정 인식을 위한 two separate decoders인 4개의 핵심 구성 요소로 구성됩니다.
  • (1) k번째 텍스트 발화와 시각적 대응물에 대해 두 개의 하위 그래프를 작성합니다. 
    • 발화 하위 그래프 및 비디오 하위 그래프, 그리고 GAT를 적용하여 노드 {𝑤𝑜𝑟𝑑, 𝑝𝑖𝑥𝑒𝑙 } 벡터를 업데이트합니다.
    • 감정 분석 및 감정 인식을 위한 초기 발화 및 비디오 임베딩, 즉 𝑈S, 𝐼S, 𝑈E, 𝐼E는 노드 벡터를 양방향 장단기 메모리(bcLSTM) 및 심층 CNN에 각각 공급하여 얻습니다.
  • (2) 각 발화와 비디오를 노드로 사용하여 두 가지 작업에 대한 텍스트 및 시각적 대화에 대해 4개의 대화 그래프를 구성합니다.
    • 우리는 로컬-글로벌 컨텍스트 연결, 크로스 모드 연결 및 크로스 작업 연결을 구성하여 대화 컨텍스트 정보, 다중 모드 상보성 및 관련 작업에서 공유된 지식을 모델링하는 것을 목표로 합니다.
  • (3) 𝐿 레이어를 쌓은 후 각 노드의 𝐿 레이어 출력을 최종 발화 및 비디오 임베딩으로 처리하여 병합하여 다중 모드 표현 𝑀S, 𝑀E를 공식화합니다.
    • 따라서 두 개의 작업 𝑀𝑆 및 𝑀𝐸에 대한 다중 모드 벡터는 emotion과 sentiment을 예측하기 위해 두 개의 독립적인 소프트맥스 디코더를 통해 전달됩니다.
    • 각 구성 요소를 소개합니다.
    • 모든 그래프의 각 노드도 자체 연결되어 있지만 다음 섹션에서는 간결함을 위해 모든 자체 연결에 대한 간선 계산을 생략합니다.

3.3 Multi-Modal Utterance Encoder

  • 다중 모드 발화 인코더는 각 발화와 해당 비디오를 텍스트 및 시각적 임베딩에 포함하는 것을 목표로 하는 감정 분석 및 감정 인식 전반에 걸쳐 공유됩니다.
  • 두 개의 하위 모듈, 즉 텍스트 및 비디오 인코더로 구성됩니다.
  • 텍스트 인코더에는 단어 내의 의미 의존성을 캡처하는 텍스트 그래프 주의 네트워크와 순차적 정보를 활용하기 위한 양방향 LSTM(BcLSTM) 네트워크가 포함됩니다.
  • 비디오 인코더에는 픽셀 내 공간 관계를 캡처하기 위한 시각적 그래프 주의 네트워크와 심층 CNN이 포함됩니다.
  • 정점과 간선이 있는 방향 그래프 G의 표기법을 제시합니다. 이 표기법은 다음과 같이 쓸 수 있습니다.
  • where the vertices 𝑣𝑗 ∈ V in G, the edges 𝑟𝑗𝑟 ∈ E, 𝛼𝑗𝑟 is the weight of the edge 𝑟𝑗𝑟, satisfying 0 ≤ 𝛼𝑗𝑟 ≤ 1, and 𝛼𝑗𝑟 ∈ W.

3.3.1 Text encoder.

  • G𝑢 = (V, E,W)𝑢 와 같은 입력 발화에 대해 방향성 하위 그래프를 만들고 그래프 주의 네트워크에 제공합니다. 
  • 발화 하위 그래프의 구성 절차를 제시합니다.
  • Vertices. 
    • 발화에 𝐺 단어가 있다고 가정합니다. 
    • 발화의 각 단어는 꼭짓점으로 간주되어 𝑤𝑗 ∈ V𝑢를 만족합니다. 
    • 각 vertex 𝑤𝑗은 사전 훈련된 단어 임베딩으로 표현됩니다. 
    • 이 작업에서는 BERT[4]를 사용하여 각 단어를 초기화하고 이를 꼭짓점 특징으로 취급합니다.
  • Edges. 
    • 우리는 꼭짓점 사이의 가장자리 E𝑢를 구성하기 위해 발화에서 단어 간의 구문 종속 관계를 활용합니다.
    • 특히, 텍스트 발화의 종속성 트리는 spaCy 툴킷을 사용하여 구축되며, 하나의 인접 행렬 J 𝑢 ∈ 𝑅 𝐺 × 𝐺 을 얻습니다.
    • 모서리는 방향입니다.
  • Edge Weights. 
    • 정점과 인접 정점 사이의 가중치를 측정하기 위해 그래프 주의 네트워크(GAT)[42]를 소개합니다. 
    • 그래프 신경망의 변형인 GAT는 다른 인접 노드에서 현재 노드로 기능을 전파하기 위해 다른 노드에 다른 가중치를 할당합니다. 
    • 이는 많은 그래프 구조의 NLP 작업에서 최신 결과를 달성했습니다[23, 49 ].

3.3.2 Video encoder. 

  • 비디오가 𝑄 프레임으로 구성되어 있다고 가정합니다. 즉, 𝐼 = { 𝐹1, 𝐹2, ..., 𝐹𝑄 }. 
  • 여기서 각 프레임은 정적 이미지입니다. 
  • 우리는 이미지를 3개의 채널이 있는 직사각형 그리드로 간주하고 G𝐹 = (V, E, W)𝐹와 같이 강하게 연결된 하위 그래프를 만들고 GAT를 적용하여 프레임 특징을 추출합니다.
  • Vertices. 
    • 𝛾 𝑡ℎ 이미지(비디오 프레임)에 𝑇 픽셀이 있다고 가정합니다. 
    • 여기서 𝛾 ∈ [1, 2, ..., 𝑄]. 각 픽셀을 꼭짓점으로 처리하여 𝑣𝑗 ∈ V𝐹 를 충족합니다.
  • Edges. 
    • 우리는 각 픽셀이 𝛾 𝑡ℎ 이미지의 다른 픽셀에 의미론적으로 의존한다고 주장합니다. 
    • 픽셀 간의 컨텍스트 연결을 기반으로 가장자리 E𝐹를 구성하여 완전히 연결된 양방향 그래프를 만듭니다. 
    • 에지의 수는 𝑇 2 로 계산 비용이 많이 듭니다. 
    • 이 문제를 완화하기 위해 각 픽셀은 거리가 1인 인접 픽셀에만 연결됩니다. 
    • 예를 들어 경계가 없는 픽셀에는 정확히 8개의 인접 픽셀이 있어 8개의 가장자리를 구성합니다. 그러면 하나의 인접 행렬 J𝐹 ∈ 𝑅 𝑇×𝑇가 얻어진다.
  • Edge Weights. 
    • 초기 이미지 부분 그래프 G (0)𝛾 = n 𝑒® G (0)𝛾 𝑣1 , 𝑒® G (0)𝛾 𝑣2 , ..., 𝑒® G (0)𝛾 𝑣𝑇 o 가 주어지면 GAT를 사용하여 측정합니다. 
    • 픽셀과 그 이웃 간의 상호 작용을 학습하고 Eq를 사용하여 추상적인 시각적 표현을 학습합니다. (3), 식. (4) 및 식. (5). 𝐿 반복 후에 최종 이미지 하위 그래프는 다음과 같이 공식화됩니다.

3.4 Speaker-Aware Multi-Task Interactive Conversation Graph 

  • 4개의 대화 하위 그래프, 즉 G𝑐𝑜𝑛 = (V, E, W)𝑐𝑜𝑛, 𝑖 𝑡ℎ {𝑡𝑒𝑥𝑡, 𝑣𝑖. 통합된 그래픽 구조로의 상관관계. 
  • 특히 화자 정보, 로컬-글로벌 컨텍스트 연결, 교차 모드 연결 및 교차 작업 연결을 활용하는 다중 모드 대화형 GAT를 제안합니다. 
  • 대화 그래프 구성 절차는 다음과 같습니다.
  • Vertices. 
    • 𝑖 𝑡ℎ 다중 모드 대화에 두 가지 작업에 대한 𝑅 텍스트 발언과 비디오가 포함되어 있다고 가정합니다. 
    • 우리는 각 텍스트 발화 또는 비디오를 정점으로 간주하며 총 4개의 노드가 있는 정점으로 간주합니다. 
    • 여기서 2개의 노드(즉, 𝑅 발화 노드와 𝑅 비디오 노드)는 감정 분석을 위해 구축되고 나머지 2𝑅 노드는 감정 인식을 위해 구축됩니다. 
    • 또한 화자의 감정 상태가 화자의 외부 지식(예: 직업, 성별, 성격)에 의해 암묵적으로 영향을 받는다는 점을 고려하여 화자의 종속성을 효과적으로 인코딩하는 것을 목표로 이러한 특성을 정점으로 취급하려고 합니다. 
    • {profession, sex, Personality} 노드의 집합으로 추가 화자 노드를 추가하고, 화자 노드만 자신의 발화 노드에 연결합니다.
    • 𝑖 𝑡ℎ 다중 모드 대화에 𝑆 화자가 포함된다고 가정하면 전체 그래픽 구조에 4𝑅 + 16𝑆 노드가 있습니다. 
    • 두 작업에 대한 𝑘𝑡ℎ 발화 및 비디오 노드는 임베딩 𝑈, 𝐼으로 초기화됩니다. 
    • 초기 직업, 성별, 성격 노드 표현은 BERT 문장 임베딩에 의해 제공되며, 이들의 평균은 원래 화자 노드 표현 𝑀로 사용됩니다.
  • Edges. 
    • 𝑖 𝑡ℎ 대화 그래프에는 세 가지 유형의 에지가 구성됩니다.
  • Local-global context connection. 
    • 우리는 각 발화/비디오가 문맥상 인접한 발화/비디오(자체 포함)에 의존한다고 주장합니다.
    • 계산 비용과 효율성의 균형을 맞추기 위해 다른 모든 발화/비디오에 연결하는 대신 𝑍의 과거 및 미래 컨텍스트 창 크기를 설정합니다. 
    • 가독성을 위해 발화 및 비디오 노드의 표기법을 𝑀로 통합합니다. 
    • 여기서 𝑀 = (𝑈 , 𝐼), 𝐴 ∈ (𝑆, 𝐸). 그러면 𝑘𝑡ℎ 꼭짓점 𝑣𝑀 𝐴(0) 𝑘은 과거의 발화 𝑣𝑘−1 , 𝑣𝑘−2 ,..., 𝑣𝑘−𝑍ances , 미래의 발화와 에지를 갖습니다. 
    • +𝑍 및 자체 𝑣𝑀 𝐴𝑘 .
    • 이 작업에서 기본 창 크기는 𝑍 = 1로 설정됩니다. 
    • 또한 최적의 창 크기를 찾기 위해 실험에서 다양한 크기를 시도했습니다(Sec. 4.7.
    • 이제 각 발화는 컨텍스트 𝑣𝑖𝑧에 로컬로 연결됩니다. 로컬 컨텍스트 연결.
  • Cross-modal connection. 
    • 다중 모드 보완을 배우기 위해 한 양식의 각 정점이 동일한 작업에 대한 다른 양식 그래프의 해당 정점 및 이웃에 단방향으로 연결되는 교차 모드 연결을 구축합니다.
    • 예를 들어, 텍스트 대화 그래프에서 𝑘 𝑡ℎ 발화 정점 𝑣은 𝑘 𝑡ℎ 비디오 노드 𝑣 및 컨텍스트 창 크기가 𝑍인 이웃 노드, 즉 과거 비디오 (𝑣𝑘−1 , 𝑣𝑘−2 ,..., 𝑣𝑘−𝑍), 감상 작업을 위한 미래 비디오 (𝑣𝑘+1 , 𝑣 𝑘+2 ,..., 𝑣𝑘+𝑍)와 연결됩니다. 
    • 분석. 4𝑅 · (2𝑍 + 1) edge가 생성됩니다.
  • Cross-task connection. 
    • 상관 작업에서 공유된 지식을 명시적으로 활용하기 위해 한 작업의 각 정점이 동일한 양식에 대해 다른 작업의 해당 정점 및 이웃에 단방향으로 연결되는 교차 작업 연결을 구성합니다.
    • 예를 들어, sentiment analysis을 위한 k번째 발화 vertex v는 k번째 텍스트 발화 노드 vE와 연결되고, emotion recognition을 위한 미래 발화 vU인 과거 발화 vE-1과 연결된다. 4R(2z + 1) 에지가 구성됩니다.
    • 전체 그래픽 구조에서 16R 가장자리를 생성했습니다.
    • 여기서 knowledge을 공유하는데, ERC에 sentiment feature가 적용되는 느낌? 그 반대는 안되나?
    • 그래프 수에 대한 설명이 부족해보임
  • Edge Weights.
    • 그래픽 구조의 발화 및 비디오 표현은 𝐿 레이어 그래프 어텐션 네트워크를 통해 레이어별로 업데이트됩니다. 감정 분석을 위한 초기 텍스트 대화 그래프 제공

3.5 Decoder

  • 두 작업에 대한 𝑘 𝑡ℎ 발화 및 비디오 표현은 다음과 같이 공식화할 수 있는 병합하여 다중 모드 표현 𝑀𝑆, 𝑀𝐸을 얻는 데 사용됩니다.
  • 결국 이것이 멀티테스크 러닝이란 것
  • S,E을 위한 중간 피쳐가 공유되는 것 같음

4 EXPERIMENTS 

4.1 Research Question

  • RQ1: Is it effective to simultaneously model local-global context connection, cross-modal connection and cross-task connection
  • RQ2: Does modeling of the shared knowledge help for improving related tasks? 
  • RQ3: Which component contributes most to the proposed M3GAT model?

4.2 Experimental Settings

  • Datasets. 
    • 감정 및 감정 주석이 모두 포함된 텍스트 및 시각적 발언을 포함하는 3개의 벤치마크 데이터 세트가 실험 침대로 선택됩니다.
    • MELD [36] 및 MEISD [8], 수동으로 생성된 다중 모드 감정, 감정 및 욕망 데이터 세트(MSED).
  • Evaluation metrics. 
    • 우리의 실험에서 정밀도(P), 재현율(R) 및 매크로-F1(Ma-F1)이 평가 메트릭으로 사용됩니다.
    • 또한 절제 테스트에 대한 균형 정확도(b-Acc) 메트릭인 MTL v/s STL, 컨텍스트 창 크기의 영향을 소개합니다.

4.3 Baselines

  • 제안된 M3GAT의 분류 성능을 검증하기 위해 우리는 비교를 위해 광범위한 최신 기준선을 나열합니다.
  • 그들은:
  • Multi-Modal CNN[56]은 텍스트 및 시각적 특징을 추출하기 위해 두 개의 개별 심층 CNN을 설계하고 감정 및 감정 분류를 위해 함께 병합합니다.
  • BiGRU+Att[54]는 양방향 GRU를 사용하여 발화 특징을 추출하고 CNN-BiGRU를 사용하여 비디오 특징을 추출합니다. 감성 및 감정 감지를 위한 소프트맥스 기능을 통해 연결된 다중 모드 표현을 전달합니다.
  • SVM+BERT[53]는 BERT를 채택하여 텍스트 발화 임베딩을 생성하고 감성 및 감정 분석을 위해 SVM에 공급합니다.
  • GRU-RoBERTa[28]는 BERT 대신 RoBERTa를 사용하여 발화 표현을 학습하고 이를 GRU 네트워크에 공급합니다.
  • EfficientNet은 사전 훈련된 EfficientNet 네트워크를 사용하여 비디오 표현을 학습하고 이를 고밀도 계층에 공급합니다.
  • UPB-MTL[43]은 ALBERT를 사용하여 텍스트 발화를 나타내고 VGG-16을 사용하여 시각적 대응을 나타냅니다. 다중 모드 표현은 기능 연결을 통해 달성됩니다.
  • MMBT(Multi-modal Bitransformer)[18]는 BERT 및 ResNet-152를 활용하여 바이모달 감정 및 감정 분류를 위한 텍스트 및 시각적 기능을 모델링합니다.
  • 다중 모드 GAT(MM-GAT)는 텍스트 및 비디오 대화에 대해 두 개의 별도의 무방향 그래프를 작성하고 두 개의 표준 GAT를 적용하여 감정 및 감정 분류를 위한 발화 및 비디오 표현을 업데이트합니다.
  • Co-GAT[38]은 감정 분류 및 감정 인식을 위한 교차 발화 연결 및 교차 작업 연결을 구성하기 위해 Co-GAT(co-interactive graph Attention Network)를 제안합니다.
  • 출판된 년도 확인해봐야함

4.4 Results and Analysis

  • The experimental performance of all baselines are showed in Table 2. 

  • 우리는 이러한 기준선을 표준 딥 러닝 아키텍처, 사전 훈련된 모델 패러다임 및 그래프 신경망의 세 가지 범주로 분류합니다. 
  • 우리는 분류 성능에 대한 자세한 분석을 수행할 것입니다.
  • MELD. 
    • 표 2에서 감정 분석 및 감정 인식의 경우 다중 모드 CNN이 다른 기준선에 비해 매우 낮은 성능을 보인다는 것을 알 수 있습니다.
    • 두 작업 모두에서 최악의 분류 성능을 달성합니다.
    • 한 가지 주요 이유는 CNN이 발화 수준의 상호 작용 정보 모델링을 무시하여 모델이 컨텍스트 표현을 학습할 수 없도록 하여 특정 성능 손실을 초래한다는 것입니다.
    • 컨텍스트 정보를 모델링하고 컨텍스트에 서로 다른 가중치를 할당함으로써 BiGRU+Att는 두 작업 모두에서 다중 모드 CNN보다 훨씬 발전했습니다.
    • SVM+BERT는 매크로 F1 점수 측면에서 거의 30%의 큰 차이로 다중 모드 CNN을 능가합니다.
    • 우리는 이 놀라운 개선을 BERT의 컨텍스트 표현의 강력한 능력으로 돌립니다.
    • 이것은 또한 대화식 이해에서 컨텍스트 모델링의 중요성을 보여줍니다.
    • SVM+BERT와 비교할 때 GRU-RoBERTa는 감정 분석에서 더 나쁜 성능을 보이지만 감정 인식 작업에서는 상당한 개선을 얻습니다.
    • 가능한 이유 중 하나는 GRU가 SVM보다 다중 클래스 문제를 더 잘 처리하기 때문입니다.
    • UPB-MTL과 MMBT도 비슷한 현상을 보인다.
    • 한 가지 가능한 이유는 감정 인식이 대화 컨텍스트 모델링에 크게 의존하는 반면 SVM은 컨텍스트 상호 작용을 캡처하는 데 충분하지 않기 때문입니다.
    • 한편 EfficientNet은 위에서 언급한 4가지 사전 훈련된 모델보다 성능이 뛰어납니다.
  • 다중 모드 감정 분석 및 감정 인식에서 그래프 신경망의 잠재력을 보여주기 위해 두 가지 강력한 GAT 기준선도 평가합니다.
  • MM-GAT는 성능이 좋지 않고 모든 사전 훈련된 모델에 패배합니다.
  • 한 가지 가능한 이유는 MM-GAT가 BERT를 사용하여 단어 임베딩을 초기화하지 않기 때문입니다.
  • 그러나 여전히 다중 모드 CNN 및 BiGRU+Att를 극복합니다.
  • Co-GAT은 처음으로 cross-task 상호작용을 모델링하고, 두 개의 task에 대한 모든 기준선 중 최고의 성능을 달성하여 그래프 학습의 효율성을 입증합니다.
  • 제안된 교차 모드 연결의 역할을 확인하기 위해 두 가지 단일 모드 설정, 즉 Text-M3GAT 및 Video-M3GAT를 설계합니다.
  • Text-M3GAT는 성능이 좋으며 Co-GAT보다 약간 개선되었습니다.
  • 이것은 우리의 사운드 그래픽 아키텍처의 이점입니다. 
  • 그러나 Video-M3GAT는 우리가 기대한 만큼 성능이 좋지 않습니다.
  • 텍스트 정보가 다중 모드 감정 분석 및 감정 인식에서 가장 중요한 역할을 하는 것으로 입증되었기 때문입니다.
  • 제안된 M3GAT 모델은 두 가지 작업에 대해 최신 기준선(즉, Co-GAT)의 66.89% 및 39.73%의 매크로 F1과 비교하여 68.15% 및 40.53%의 최상의 매크로 F1 점수를 달성합니다.
  • 이것은 M3GAT가 인간 언어의 감정과 감정을 모델링함에 있어 로컬-글로벌 컨텍스트 모델링, 다중 모드 연결, 다중 작업 상관 관계의 장점을 성공적으로 활용한다는 것을 보여줍니다.
  • MEISD. 
    • MEISD는 MELD보다 더 많고 균형 잡힌 샘플을 포함합니다. 
    • 비교 모델에서 약간의 차이가 발생함을 알 수 있습니다.
    • 한 가지 현상은 모든 모델의 성능이 분명히 떨어지는 것입니다.
    • 그 이유는 더 큰 표본 크기가 어려움을 증가시키기 때문입니다. 
    • 다중 모드 CNN과 BiGRU+Att는 성능이 매우 낮고 동일한 수준에 위치합니다.
    • GRU-RoBERTa와 MMBT는 두 작업 모두에서 SVM+BERT보다 성능이 뛰어납니다.
    • SVM은 대규모 샘플을 효과적으로 처리할 수 없기 때문입니다. 
    • UPB-MTL은 여전히 ​​두 가지 작업에 대해 만족스럽지 못한 결과를 보여줍니다.
    • 두 개의 그래프 신경망에 대해 BERT를 MM-GAT 모델에 통합하려고 시도합니다. 여기서 감정 분석 작업을 위한 모든 기준선 중에서 최고의 분류 성능을 달성합니다.
    • Co-GAT은 두 가지 작업에 대해 세 번째로 높은 매크로-F1 점수를 달성했습니다.
    • Text-M3GAT는 두 가지 작업에서 Video-M3GAT보다 더 나은 성능을 보여줍니다. 
    • Text-M3GAT도 최신 기준선을 약간 능가하여 설계된 모델의 효율성을 보여줍니다.
    • 우리는 두 가지 이유로 성능에 기여합니다.
    • (1) 로컬-글로벌 컨텍스트 모델링 및 (2) 크로스 태스크 연결.
    • 마지막으로, 제안된 M3GAT는 두 가지 작업에 대해 최신 기준선(MM-GAT 및 GRU-RoBERTa)보다 크게 개선되었습니다.
    • 또한 교차 모드 연결 및 업데이트의 도입으로 Text-M3GAT보다 성능이 뛰어납니다.
    • MEISD의 샘플은 다중 화자 대화인 MELD의 샘플과 유사합니다.
    • 그러나 MEISD의 표본 크기는 MELD의 표본 크기보다 훨씬 큽니다.
    • 제안된 M3GAT 모델은 MELD에서보다 MEISD에서 더 나은 분류 성능을 보여 M3GAT의 일반화 능력을 보여준다.
  • 우리는 M3GAT가 컨텍스트 정보, 다중 모드 융합 및 다중 작업 상관 관계를 동시에 모델링할 수 있도록 보장하는 다중 모드 다중 작업 대화 구조의 주요 개선 사항을 돌립니다.
  • MSED. 
    • 생성된 다중 모드 감정, 감정 및 욕망(MSED) 데이터 세트에는 인간 대화가 포함되지 않으며 M3GAT는 대화 컨텍스트를 모델링하지 않습니다. 
    • 다중 모드 대화 그래프는 단어/픽셀이 텍스트 및 시각적 발언이 아닌 꼭짓점으로 처리된다는 점에서 다중 모드 문서 그래프로 변질됩니다.
  • MSED의 모든 모델 간의 성능 차이가 MELD의 결론과 충돌하지 않음을 관찰할 수 있습니다.
  • 두 개의 전통적인 심층 신경망(즉, 다중 모드 CNN 및 BiGRU+Att)은 최악의 성능을 보여줍니다.
  • GRU-RoBERTa 및 MMBT가 감정 분석 및 감정 인식 작업에 가장 적합한 5가지 사전 훈련된 언어 모델이 눈에 띄게 개선되었습니다. 
  • 두 가지 일반적인 그래프 신경망, 즉. MM-GAT 및 Co-GAT도 좋은 매크로-F1 점수를 얻습니다. 
  • Text-M3GAT가 더 나은 성능을 보이는 Text-M3GAT 및 Video-M3GAT에서도 유사한 현상이 발생합니다.
  • 이것은 다시 한 번 텍스트 정보의 중요성을 증명합니다. 
  • 제안된 M3GAT 모델은 모든 기준을 획기적으로 극복했으며, 매크로 f1 84.85%와 81.97%로 최첨단 성능을 달성했다. M3GAT는 MSED에서 대화 컨텍스트 및 화자 정보를 모델링할 수 없다는 점에서 다른 기준선에 비해 약간의 이점을 보여줍니다.
  • 이것은 또한 다양한 시나리오에 적용될 수 있는 M3GAT의 견고함을 증명합니다.
  • 이제 우리는 실험적 관점에서 RQ1에 답했습니다.

4.5 MTL v/s STL Setup

  • 단일 작업(STL) 학습 프레임워크에 대한 다중 작업(MTL)의 우수성을 증명하기 위해 표 3에 분류 성능을 보여줍니다.
  • 우리는 모든 MTL 프레임워크가 매크로-F1 측면에서 세 가지 데이터 세트에 대한 두 가지 관련 작업에 대해 STL 모델보다 성능이 우수하다는 것을 관찰했습니다.
  • 감정 분석의 경우 MTL은 T+V에서 큰 차이로 STM을 능가하며 T 및 V에서 STL보다 약간 개선됩니다.
  • 이는 제안된 모델이 단일 모드 지식보다 공유된 다중 모드 지식을 효과적으로 활용할 수 있음을 보여줍니다.
  • The correlative information from emotion recognition helps the improvement of sentiment analysis. 
  • STL은 3개의 데이터 세트에 대한 텍스트 감정 분석에 대해 MTL과 유사한 결과를 얻습니다.
  • 그 이유는 STL이 텍스트 대화 GAT를 사용하여 강력한 텍스트 표현을 얻을 수 있는 감정 분석에서 텍스트 양식이 핵심적인 역할을 하기 때문입니다.
  • MTL은 MELD와 MEISD에서 괄목할 만한 진전을 보인 반면 MSED에서는 보통 수준입니다. 
  • 그 이유는 MSED가 다자간 대화를 포함하지 않고 화자 정보와 대화 맥락이 무시되기 때문입니다.
  • 감정 인식의 경우 MTL은 매크로-F1 및 균형 잡힌 정확도 측면에서 세 가지 데이터 세트에서 여전히 꾸준히 STL을 초과합니다.
  • 이는 감성분석이 지식공유를 통해 감성인식을 돕는다는 것을 의미한다.
  • 그러나 MTL의 명백한 장점은 범주의 증가로 인해 감정 인식의 어려움이 줄어들었기 때문입니다.
  • 요약하면, 우리가 제안한 M3GAT 프레임워크는 두 관련 작업 간의 상호 의존성을 학습하고 개별 성능을 향상시킬 수 있습니다.
  • STL 프레임워크에 대한 MTL의 개선도 통계적으로 중요합니다.
  • 우리는 MTL과 STL의 비교를 통해 우리의 RQ2에 답했습니다.
  • 성능차이가 크지 않아서.. 약간 오차가 있을 수도 있는거 아닌가?
  • 제안모델에선 효과적이라쳐도 다른 모델에서도 MTL이 효과적이라고 보장할 수 있나?

4.6 Ablation Test

  • 제안된 M3GAT 모델에 세 가지 핵심 구성 요소를 통합했기 때문에 성능 향상에 대한 기여도에 대해 논의하려고 합니다.
  • To this end, three ablated models are proposed: 
    • (1) M3GAT에서 로컬-글로벌 컨텍스트 연결을 제거하는 컨텍스트 없음;
    • (2) 교차 모드 연결을 다중 모드 기능 연결로 대체하는 다중 모드 연결 없음;
    • (3) M3GAT에서 Cross-task 연결을 제거하고 감정과 감정 예측을 별도로 수행하는 Cross-task Connection, 즉 STL이 없습니다.
  • The experimental results are shown in Table 4. 
  • 감정 분석의 경우 교차 작업 연결 없음이 3개의 데이터 세트에서 3개의 절제된 모델 중 최악의 성능을 달성함을 알 수 있습니다.
  • 이는 작업 간 연결을 제거하는 것이 분류 성능에 가장 큰 영향을 미친다는 것을 의미합니다.
  • Cross-task connection은 sentiment analysis의 전체 성능에 가장 크게 기여합니다.
  • Multi-modal connection은 두 번째로 큰 기여입니다.
  • 감정 인식을 위해 우리는 다른 관찰을 합니다.
  • Cross-task connection은 MELD 및 MEISD 데이터 세트에서 전체 성능에 가장 적게 기여하지만 MSED 데이터 세트에서는 가장 중요한 역할을 합니다.
  • 감정 인식이 더 어려운 작업을 포함한다는 점에서 한 가지 가능한 이유는 대화 맥락과 다중 모드 융합이 감정 판단에 큰 영향을 미치기 때문입니다.
  • MELD와 MEISD는 모두 여러 화자 대화에서 수집되며, 컨텍스트는 종종 풍부한 감정적 단서를 제공합니다.
  • MSED에는 정적 텍스트와 이미지만 포함되어 있으므로 다중 모드 연결보다 작업 간 연결이 훨씬 더 중요합니다.
  • 여기서 우리는 RQ3에 대한 답을 줄 수 있습니다. 
    • sentiment analysis 작업에는 cross-task connection이 가장 많이 기여하고 emotion recognition에는 local-global 컨텍스트 연결이 가장 많이 기여합니다.

4.7 Effect of Varying the Window Size

  • M3GAT에서는 다른 모든 발화/비디오에 연결하는 대신 설명을 위해 과거 및 미래 컨텍스트 창 크기를 𝑍 = 1로 설정했습니다.
  • 최적의 창 크기를 찾기 위해 다양한 창 크기를 선택하고 { 1 , 2 , 3 , 4 } 풀에서 성능을 시도했습니다.
  • 각 발화는 컨텍스트 표현을 학습하기 위해 𝑍 거리의 컨텍스트에 로컬로 연결됩니다.
  • MSED는 대화 컨텍스트를 포함하지 않기 때문에 서로 다른 컨텍스트 크기로 MELD 및 MEISD에 대한 실험 결과를 표 5에 보고합니다.
    • "Z=1"은 각 발화를 1의 거리로 컨텍스트에 연결한다는 것을 의미합니다.
    • "Z=2"는 각 발화를 두 개의 이웃에 연결한다는 것을 나타냅니다. "Z=3"은 과거와 미래의 세 가지 컨텍스트를 사용하여 컨텍스트 표현을 학습한다는 의미입니다.
    • "Z=4"는 과거 및 미래의 4가지 컨텍스트가 사용됨을 의미합니다.
    • 실험에서는 Z=3이 최적의 값으로 보인다.
    • 이에 대한 자세한 분석이 있으면 좋겠다. 특히 Z=4 이면 어떤 테스트 샘플에서 에러가 발생하는가?
    • 이는 데이터 혹은 모델에 의존하는 값인가? 아니면 항상 Z=3이 최적인가?
    • 최적의 Z을 찾는 방법은 없는가?
  • 표 5에서 우리는 하나의 컨텍스트와 네 개의 컨텍스트를 가진 M3GAT가 MELD에서 감정 분석 및 감정 인식에 대해 최악의 성능을 보이는 것을 관찰합니다.
  • 이것은 다음을 보여줍니다:
    • (1) 분류 성능을 향상시키기 위해 하나의 대화 컨텍스트만 고려하는 것만으로는 충분하지 않습니다.
    • (2) 너무 많은 히스토리 발화를 모델링하면 성능을 방해하는 노이즈가 발생합니다.
  • 2개의 컨텍스트가 있는 M3GAT는 1.1%, 1.6%, 1.2% 및 1.6%의 개선으로 하나의 컨텍스트가 있는 M3GAT보다 더 나은 결과를 얻습니다.
  • 이는 두 가지 상황적 발화를 고려하는 것이 좋은 선택임을 의미합니다.
  • 대조적으로, 2개 및 4개의 컨텍스트가 있는 M3GAT는 MEISD에서 최악의 분류 성능을 달성하는 반면, 하나의 컨텍스트가 있는 M3GAT는 두 번째로 높은 점수를 얻습니다.
  • MEISD에는 M3GAT가 유용한 지식보다 더 많은 소음을 흡수할 수 있는 모든 종류의 복잡한 대화가 포함되어 있기 때문입니다.
  • 3개의 컨텍스트가 있는 M3GAT는 2개의 데이터 세트에서 2개의 작업에 대해 최고의 매크로-F1 점수를 달성하며, 이는 3개의 대화 컨텍스트를 통합하는 것이 최적의 성능에 도달하는 가장 좋은 방법임을 의미합니다.

4.8 Effects of Model Depth

  • M3GAT는 일련의 L 레이어 GAT로 구성되어 있으므로 모델 깊이(레이어 수)가 분류 성능에 미치는 영향을 분석합니다.
  • 𝐿의 값을 1에서 5까지 다양하게 하고, 3개의 데이터셋에 대한 실험 결과의 변화를 확인한다.
  • 결과를 표 6에 나타내었다.
  • 표 6에서 MELD 데이터 세트에서 𝐿 = 3일 때 M3GAT가 최고의 성능을 달성함을 알 수 있습니다.
  • MEISD에서 𝐿 = 2 감정 분석, 𝐿 = 3일 때 최적의 성능에 도달합니다.
  • 𝐿 = 2 및 𝐿 = 1일 때 M3GAT는 각각 MSED에서 감정 분석 및 감정 인식에 대해 최상의 결과를 얻습니다. MELD 및 MEISD의 샘플은 다중 화자 대화이므로 심층 M3GAT 모델은 대화 그래프에서 더 많은 의미론과 전역 정보를 마이닝합니다.
  • 그러나 𝐿 = 4 및 𝐿 = 5는 과도한 평활화 문제로 인해 분류 성능이 급격히 저하됩니다.
    • 왜 이렇게 급격히 감소하는가?
    • 동일한 기능을 한다고 급격히 감소하는가?
    • MSED에서 L=5일때 sentiment는 괜찮은 성능인데 emotion은 왜 급격히 감소하는가?
    • 자세한 discussion이 있음 좋을듯
  • 노드 기능은 동일한 벡터로 수렴되는 경향이 있으며 여러 레이어를 적용한 결과 거의 구별할 수 없게 됩니다.
  • MSED는 얕은 M3GAT 모델이 효과적인 감상 및 감정 지식을 집계하여 성능 향상으로 이어지는 이미지만 수집합니다.

4.9 Error Analysis

  • 제안된 M3GAT 모델의 가능성을 탐색하기 위해 그림 3과 같이 MELD 및 MSED 데이터 세트에서 몇 가지 일반적인 오분류 사례(텍스트 및 비디오)를 수집하고 표시합니다.
  • MEISD는 원시 데이터 대신 추출된 기능만 제공합니다. 
  • 이러한 오류 예에는 STL이 실패하는 동안 MTL이 올바르게 예측하고 두 설정 모두 올바르게 예측하지 못하는 경우가 포함됩니다.
  • sentiment analysis의 경우 STL 프레임워크에 대한 오분류는 발화가 표면에 긍정적인 단어를 포함할 때 자주 발생합니다. 
    • '도움이 된다'와 '기쁘다'는 neutral 감정을 표현한다.
  • STL은 중립적인 감정과 긍정적인 표현을 구분하지 못합니다.
  • 감정 지식을 활용하여 MTL 프레임워크는 정확한 예측을 하고 상당한 개선을 얻습니다.
  • 그러나 우리는 MTL이 화자의 성격, 문화 정보와 같은 외부 정보가 필요한 복잡한 경우에 어려움을 겪을 수 있음을 관찰했습니다.
  • 또한 의문문의 정서극성을 제대로 분석하지 못한다.
  • emotion recognition을 위해 MTL 프레임워크는 STL이 실패하는 동안 감정 정보를 사용하여 세분화된 감정을 식별할 수 있습니다. 
  • 우리는 또한 화자가 암시적이고 미묘한 감정을 표현하는 유사한 상황에서 MTL 및 STL 프레임워크가 모두 실패한다는 것을 알 수 있습니다.
  • 예를 들어, 텍스트 발화에 감정적인 단어가 없거나 비디오에 명백한 표정이 없습니다.
  • MTL does not obtain effective sentimental information from sentiment analysis, and thus makes wrong decision. 
  • 이러한 경우 다중 작업 학습 패러다임은 전체 아키텍처에 거의 영향을 미치지 않습니다.

4.10 Attention Visualization

  • 이 섹션에서는 그림 4에 제안된 M3GAT 모델의 주의 히트맵을 보여줍니다. 
  • 설명을 위해 8개의 발화로 구성된 다중 모드 대화를 무작위로 선택합니다.
  • 먼저 첫 번째 줄에 두 가지 단일 양식(즉, 텍스트 및 비디오)의 두 가지 모드 내 주의 매트릭스를 묘사합니다.
  • 히트맵은 다양한 양식에 대한 대상 발화에 대한 기여 발화를 나타냅니다.
  • 예를 들어, 우리는 두 번째와 네 번째 텍스트 컨텍스트가 그림 4(a)의 왼쪽 상단 부분에서 감정 분석 작업에 가장 많이 기여한다는 것을 발견했습니다.
  • 그들은 또한 오른쪽 하단 영역에서 감정 인식 작업에 가장 큰 도움을 제공합니다.
  • 우리는 또한 세 번째 텍스트 감정적 지식이 왼쪽 하단 영역에서 감정 분석의 성능을 향상시킬 것임을 알 수 있습니다.
  • 그림 4(b)에서 우리는 주의 가중치가 시각적 양식에 대해 잘 수행되지 않음을 알 수 있습니다.
  • 우리는 또한 두 번째 줄, 즉 그림 4(c)와 (d)에서 서로 다른 작업(즉, 감정과 감정)에 대한 두 개의 교차 모드 주의 매트릭스를 묘사합니다.
  • 그림 4(c)에서 우리는 네 번째 텍스트 지식이 시각적 감정 분석에 이점이 있음을 관찰합니다. 
  • 이에 비해 세 번째 시각적 발화는 텍스트 감정 분석에 많은 도움이 됩니다.
  • 그림 4(d)로부터 감정 인식 작업에 대해서도 동일한 결론을 얻을 수 있다.

5 CONCLUSIONS AND FUTURE WORK

  • 다중 모드 감정 분석 및 감정 인식은 NLP에서 밀접하게 관련된 두 가지 작업입니다.
  • 대화 컨텍스트 종속성, 다중 모드 상호 작용 및 다중 작업 상관 관계는 이러한 두 가지 작업에 기여하는 세 가지 핵심 요소입니다.
  • 이 작업에서 우리는 세 가지 문제를 동시에 해결하기 위해 M3GAT라고 하는 다중 모드 다중 작업 대화형 그래프 주의 네트워크를 제안합니다.
  • 모델의 중심에는 다음과 같은 세 가지 핵심 하위 모듈이 포함된 제안된 대화형 대화 그래프 레이어가 있습니다.
    • (1) 로컬 및 글로벌 대화 컨텍스트를 모델링하기 위한 로컬-글로벌 컨텍스트 연결;
    • (2) 다중 모드 상보성을 학습하기 위한 교차 모드 연결 및
    • (3) 두 작업 간의 상관 관계를 캡처하기 위한 교차 작업 연결.
  • 세 가지 벤치마킹 데이터 세트인 MELD, MEISD 및 MSED에 대한 포괄적인 실험은 감정 분석의 경우 1.88%, 5.37%, 0.19%의 마진과 1.99%, 3.65%, 0.13의 마진으로 최첨단 기준에 대한 M3GAT의 효율성을 보여줍니다. 각각 감정 인식에 대한 %입니다.
  • 또한 단일 작업 프레임워크보다 다중 작업 학습의 우수성을 보여줍니다.
  • 우리의 작업에도 몇 가지 제한 사항이 있습니다.
  • 예를 들어, 문자 수준의 상호 작용은 단어와 픽셀 사이에 밀접한 관계가 있기 때문에 무시되었습니다.
  • 이러한 상호 작용은 감정 분석 및 감정 인식에도 중요합니다. 
  • 또한, 벡터 거리를 중심으로 직관적으로 처리하는 전역 정점을 얻기 위해 순진한 접근 방식을 사용합니다.
  • 이러한 접근 방식은 향후 개선될 글로벌 발화를 효과적으로 반영하지 못할 수 있습니다.
  • 게다가, 설계된 교차 작업 연결은 실제로 하드 매개변수 공유가 있는 공유 바닥 모델에 속합니다.
  • 서로 다른 작업 간의 공통점만 고려합니다.
  • 소프트 매개변수 공유 다중 작업 모델은 작업 간의 공통성과 각 작업의 특수성을 모두 모델링합니다.
  • 제안된 M3GAT 모델은 bi-modal fusion 및 bi-task 학습을 위해 설계되었으며, tri-modal tri-task 분석 작업을 처리하는 방법도 향후 작업에 남겨둡니다.
    • sentiment, sarcasm, humor 등 3개 이상의 작업 간의 상관관계를 포착하기 위해 통합된 다정적 분석 패러다임을 설계하고 해당 모델을 구축하는 것을 목표로 합니다.

댓글