NL-168, Multi-modal Emotion and Cause Analysis in Modality-Switching Conversations: A New Task and the Benchmarks, ARR Review 2210

0 Abstract

  • 이전의 감정 인식은 주로 텍스트 영역 또는 다른 양식이 동시에 나타나는 다중 모드 영역에 초점을 맞춘 반면 감정 원인 추출 연구는 주로 블로그, 문서 및 뉴스와 같은 텍스트 영역에 중점을 둡니다.
  • 그러나 실제로는 특히 고객 응대 및 채팅 대화 분야에서 대화에서 이미지와 텍스트 발화가 번갈아 나타납니다.
  • 따라서 본 논문에서는 발화의 각 전환이 텍스트와 이미지의 하나의 양식만 갖는 새로운 시나리오, 즉 양식 전환 대화에서 감정을 인식하고 원인을 추출하려고 시도합니다.
  • 이 시나리오에서 우리는 자연스럽게 두 가지 새로운 작업, 즉 감정 인식과 양식 전환 대화의 원인 추출(ERMSC 및 CEMSC라고도 함)을 탐색합니다.
  • 기존 연구에서는 위의 두 가지 작업을 조사한 적이 없기 때문에 벤치마크 데이터 세트를 개발하고 두 작업을 모두 수행하기 위한 몇 가지 벤치마크 접근 방식을 설정합니다.
  • 특히, 양식 전환 대화에서 데이터 세트를 주석 처리하기 위해 먼저 주석 시스템을 구축합니다.
  • 그런 다음 레이블이 있는 5740개의 감정 원인 쌍과 53464개의 발화를 얻습니다(이 데이터 세트를 줄여서 MECMSC라고 함). 
  • 마지막으로 이 시나리오에 적용할 수 있는 몇 가지 적절한 방법을 찾고 이 데이터 세트에 대한 강력한 벤치마크를 구축하려고 합니다. 
  • 벤치마크 결과는 여전히 개선의 여지가 있으며 이 작업은 실제 시나리오에 적용할 수 있는 큰 잠재력이 있음을 보여줍니다.
  • 데이터 공개는 가능한가?

1 Introduction

  • Emotion은 본질적으로 사람의 중요한 파트이며, 사람의 감정들을 이해하는 방법이 인공지능에서 중요한 연구 방향이 된다.
  • 특별히, NLP 커뮤니티에서, 감정분석은 많은 관심을 받고있으며, 이는 많은 필드로 확장되서 사용된다. (customer service, online chatting, news analysis, dailogue system)
  • 우리가 알듯이, 실제 세계에서, conversations은 사람들 사이의 소통하는 흔한 형태이다.
  • 사람이 다른 사람들과 대화로 소통할 때, emotional fluctuattion이 발생할 가능성이 높다.
  • 그래서, 이 시나리오는 보통 인과원인을 야기하며 (emotion 과 cause utterance), 원인은 화자에 의해 생성된 감정에 대한 책임을 가지고 있다.
    • 즉 컨텍스트가 발화의 원인이라는 느낌?
  • 사람의 textual, visual, acoustic expressions의 풍부한 의미 때문에, conversations은 일반적으로 멀티모달 형태이다.
    • 예를 들어, 이커머스 고객 서비스에서 대화를 향한 고객들은 대화 윈도우에서 text와 image들과 함께 소통하는 경우가 많다.
    • 참고로, 이 시나리오에서 모달리티는 동시가 아니라 각 턴에 번갈아 나타납니다. 
    • 이를 modality-switching phenomenon이라고 합니다.
  • 그림 1에서 볼 수 있듯이 두 가지 예는 modality-switching 대화를 제시하며, 발화의 각 차례에는 다음 차례에 모달리티가 변경될 수 있는 양식(텍스트 또는 이미지)이 하나만 있습니다.
  • 이전 연구(Tripathi et al., 2018; Jia et al., 2021; Poria et al., 2021)와 달리, 본 논문에서 초점을 맞춘 modality-switching conversations의 감정 및 원인 분석은 다음과 같은 과제를 제기합니다.
  • Modality-switching Conversations의 감정 인식에는 각 턴에 modality 누락 문제가 있으며, 이는 긴 대화를 위한 BERT 또는 Transformer와 같은 하나의 시간 인코더로 처리할 수 없습니다.
    • 이는 주로 다른 시간 단계에서 다른 모달리티가 다른 의미 공간을 나타내기 때문입니다.
    • 또한, 그림 1과 같이 발화를 제거하면 대화의 완전한 의미를 놓칠 수 있으므로 대화 내용을 단일 모드 상태로 변경할 수 없습니다.
    • 전통적인 다중 모드 접근 방식의 경우 모든 발화에 가능한 모든 모달리티를 포함하도록 기본 설정한 다음 일반적으로 각 턴에서 모든 양식을 융합합니다.
    • 그러나 이러한 종류의 다중 모드 접근 방식은 우리의 모드 전환 시나리오로 확장하기 어렵습니다.
  • Modality-switching Conversations에서 Cause Extraction은 감정 인식과 유사한 Modality Missing 문제를 해결합니다.
    • 게다가, 텍스트 대화에서 감정 원인 추출을 탐구하기 시작한 연구는 단 하나뿐이지만 다중 모드 대화에서 수행한 연구는 없습니다.
    • textual and modality-switching conversations의 고전적인 차이점은 텍스트와 이미지 모두 감정 표현을 유발할 수 있다는 것입니다.
    • 예를 들어, 그림 1(a)에서 발화 4(이미지)는 대상 감정 발화 6의 컨텍스트일 뿐만 아니라 감정의 원인이 될 수 있습니다.
    • 그리고 그림 1(b)에서 감정은 이미지(서버, 발화 6)에서 오는 경우가 있고 감정의 원인은 고객의 용서가 포함된 컨텍스트 내 텍스트 발화(고객, 발화 5)에서 나옵니다.
    • 이것은 새로운 시나리오에서 감정 원인 추출에 대한 양식 표현 및 다중 모드 융합 문제를 제기합니다.
  • To summarise, our contributions are as follows:
    • 1. 우리는 모달리티-스위칭 대화에서 감정인식과 (ERMSC) 원인 추출 테스크를 (CEMSC)을 정의한다.
    • 2. 우리는 annotation 툴킷을 설계하고 ERMSC, CEMSC의 분석을 위한 새로운 데이터세트를 어노테이트한다. 우리가 아는 한, 우리가 이러한 두 가지 테스크들에 대한 데이터세트를 처음으로 제공하낟.
    • 3. 우리는 이 시나리오에서 연구의 부족때문에 향후 연구에 대한 몇 가지 벤치마크들을 제공한다.

2 Related Work

  • Emotion Recognition in Conversations(ERC). 
    • 지난 몇 년 동안 이 작업을 위해 많은 연구가 수행되었습니다.
    • 우리는 현재 작업을 텍스트 및 다중 모드 접근 방식으로 나눕니다.
    • 텍스트 접근은 대화 연구에서 먼저 제안됩니다. 정적 감정 인식에 중점을 둔 여러 관련 연구에서는 대상 발화 감정을 예측하기 위해 과거 및 미래 컨텍스트를 활용합니다.
    • Ghosal은 대화 컨텍스트를 모델링하기 위해 대담자의 자체 및 화자 간 종속성을 활용하는 그래프 신경망 기반 접근 방식을 제안합니다.
    • Jiao는 실시간 감정 인식을 수행하기 위해 Attention Gated Hierarchical Memory Network를 제안합니다. 이 네트워크는 역사적 맥락을 포착하고 관련 정보를 검색하기 위해 기억을 적절하게 요약합니다.
    • Ghosal은 상식의 다양한 요소를 통합한 새로운 프레임워크를 제안합니다.
    • Hu는 인지적 관점에서 대화 컨텍스트를 이해하기 위해 컨텍스트 추론 네트워크, 즉 DialogueCRN을 제안합니다.
    • 기술의 발전으로 여러 양식이 더 나은 성능을 위해 서로를 보완할 수 있습니다.
    • Zhang은 대화에서 실시간 감정 인식을 위한 양방향 동적 이중 영향 네트워크를 제안합니다. 
      • 이 네트워크는 양방향 정보 전파를 통해 모드 내 영향과 모드 간 영향을 동시에 모델링할 수 있습니다.
    • Hu는 다중 모드 및 장거리 컨텍스트 정보를 모두 활용하는 보다 효과적인 방법을 탐색하기 위해 GCN 기반 모델을 제안합니다.
    • Li는 다양한 양식에서 다중 모드 감정 벡터를 추출하는 새로운 구조를 도입하고 이를 감정 캡슐로 묶습니다.
    • However, these approaches mainly focus on textual scenario or multi-modal scenarios where all modalities appear simultaneously in each turn. 
    • 그들은 modality-switching conversations화를 고려한 적이 없습니다.
  • Emotion Cause Extraction. 
    • 많은 연구가 감정 인식에 초점을 맞추고 있지만, 특히 대화에서 감정 원인 추출(ECE)에 대한 연구는 여전히 부족합니다.
    • 우리는 현재 연구를 no-conversational and conversational 접근 방식으로 나눕니다.
    • 여러 연구에서 대화가 없는 시나리오에 참여하려고 했습니다.
    • Lee는 원래 과제를 제안합니다.
    • 그런 다음 일부 연구는 (Li and Xu; Gao; Yada)와 같은 규칙 기반 방법이나 (Ghazi 2015; Song and Meng 2015)와 같은 기계 학습 방법을 따릅니다.
    • (Lee 2010)의 말뭉치에서 영감을 받아 (Chen 2010) 해당 절이 주석 및 원인 분석에 적합할 수 있다고 추측합니다.
    • 그런 다음 여러 연구(Russo; Gui)가 그의 작업 설정을 따릅니다.
    • 특히, Gui는 중국의 감정 원인 데이터 세트를 출시하여 많은 주목을 받고 있으며 (Xu; Gui; Li; Yu; Ding; Xia 및 Ding, Yan)과 같은 다음 연구의 벤치마크 데이터 세트로 활용되고 있습니다.
    • 이러한 접근 방식은 주로 기사, 블로그 및 기타 영역에 초점을 맞추지만 대화에는 초점을 맞추지 않습니다.
    • Poria는 텍스트 대화에서 감정 원인을 인식하는 작업을 도입하고 RECCON이라는 데이터 세트를 수집합니다.
      • 이런 테스크 및 데이터세트도 있구나?
    • pre-printed 연구(Wang 2021)가 MELD(Poria)에서 재구성된 TV 쇼에서 다중 모드 감정 원인 쌍 추출을 탐구하려고 하지만. (ECF)
    • 우리 데이터 세트와의 근본적인 차이점은 
      • 1) ECF의 모달리티가 각 턴에서 동시에 나타나는 반면 우리의 것은 번갈아 나타나는 것입니다.
      • 2) 기존 연구에 이어 ECF는 전자상거래에서의 실제 대화가 아닌 행위자에 의한 가상의 멀티모달 대화에 초점을 맞추고 있다.
      • ECF 예시
    • 이를 위해 감정 원인 분석을 발전시키고 고객 서비스의 실제 문제를 해결하기 위해 감정 인식 및 양식 전환 대화에서 원인 추출을 위한 새로운 다중 모드 데이터 세트를 구축합니다.
    • 또한 위에서 언급한 새로운 작업의 성능을 관찰하고 분석하기 위해 몇 가지 벤치마크 기준을 설정했습니다.
      • 어떤 벤치마크를 말하는거지?

3 Task Definition

  • 우리는 대화에서 emotion과 cause 사이를 구분한다고, 다음의 연구들이 있다
    • 감정은 화자의 감정을 가리키는 발화에서 표현된 심리적인 상태이다.
      • 감정 분석에 대해서, 우리는 보통 감정들을 7개의 구체적인 감정으로 분류한다: Neutral, Happy, Frustrated, Angry, Surprised, Sad, and Fear
      • 게다가, 감정은 우리의 모달리티 스위칭 대화에서 textual or visual 발화로 표현될 수 있다.
    • 감정 원인은 화자가 target 발화에 의해 주어진 감정을 표현하는 이유를 나타내는 발화이다.
      • 우리의 연구에서, 원인은 visual or textual utterances로부터 오고, 각 target emotion utterance는 최소한 하나의 cause utterance을 포함한다.
  • 우리는 MECMSC 데이터세트에서 2가지 종류의 테스크들을 정의한다:
    • Emotion Recognition and Cause Extraction in Modality-Switching Conversations (aka ERMSC and CEMSC). 
    • ERMSC의 골은 발화들의 감정을 검출하고, CEMSC의 골은 target emotion의 원인을 추출하는 것이다.
    • 게다가, 두 가지 테스크들은 emotion-cause pair 추출로써 통합될 수 있지만, 아직 연구가 필요하고, 이 연구에서는 소개되지 않는다.
  • 따라서 논문 전체에서 사용되는 다음 표기법을 정의합니다.
  • Let D = {(Xn, En, Cn)}^N_n=1 be the set of data samples.
    • 주어진 대화 X = {u1, u2, . . . , uk}에서, ERMSC는 발화를 감정 목록 E = {e1, e2, . . . , ek}로 분류한다.
    • X와 E가 주어지고, CEMSC 테스크는 emotino cause을 리스트 C = {c1, c2, . . . , ck}로 추출한다.
    • k는 대화의 길이이고 ui = {si , ti/oi}는 두 개의 아이템들을 포함한다.
    • si는 스피커의 이름이고, ti는 textual utterance을 표기하고 oi는 visual utterance을 가리키낟.
    • ti/oi는 텍스트 발화 또는 시각적 발화를 의미합니다. (즉 하나만 있다)
  • For 1 ≤ i ≤ k, ei ∈ E는 emotion의 id이고 E는 emotion label set이다.
  • ci ∈ ζ는 원인 발화의 위치이고 ζ는 position set입니다.
    • ζ = {−η, −η + 1, · · · , 0, oth}이고 η는 대상 감정 발화 이전의 maximal position span입니다.
  • Note that: 
    • 1) 원인이 2개 이상인 경우 가장 관련성이 높은 원인을 최종 원인으로 선택합니다.
    • 2) 대상 감정 발화 뒤에 원인이 있는 경우 원인을 포기하고 "oth"("기타")로 분류합니다.
    • 3) 대상 감정과 원인 발화 사이의 범위가 η보다 길면 원인 위치를 "oth"("기타")로 분류합니다. 
    • 위의 세 가지 가정은 거의 발생하지 않으며 데이터 세트 분석에서 논의될 것입니다.
    • 즉, 원인에 해당하는 발화가 2개이면, 가장 영향력있는 발화를 고르고
    • 과거가 아닌 미래의 발화가 원인 발화라면 이는 oth 레이블 (근데 이게 가능한가?)
    • 원인 발화가 너무 먼 과거 발화면 oth로 레이블

4 Building the MECMSC Dataset

    4.1 Conversation Sources

    • modality-switching conversations는 종종 고객 서비스, 채팅방 및 기타 영역과 같이 현실에서 나타납니다.
    • 여기에서는 Zhao의 JD 고객 서비스 대화를 활용합니다.
      • ~\citet{}을 이용하는게?
    • raw 대화는 중국 주류 전자 상거래 플랫폼에서 수집한 대규모 다중 모드 다중 회전 대화 데이터 세트입니다.
    • RECCON, ECF, IEMOCAP, DailyDialog 및 MELD와 같은 이전 데이터와 구별되는 이 raw 데이터는 여러 모달리티를 포함하는 modality-switching conversations로 표시되며 모달리티가 교대로 나타납니다.
    • 고객 서비스에는 풍부한 감정과 원인이 포함되어 있습니다.
    • 대부분의 대화는 일반적으로 많은 분쟁을 수반하는 판매 후 서비스에서 발생합니다.
    • 일반적으로 고객은 결함을 지적하고 부정적인 감정을 줄 수 있습니다. 
      • 그리고 그 감정의 원인은 대화에 분명히 존재합니다.
      • 이러한 전제 조건은 주석을 실현 가능하게 만듭니다.
    • 구체적으로 SHP(소형가전) 상품과 COS(의상)에 관련된 raw 대화를 주석으로 선택한다.
    • 따라서 MECMSC 데이터 세트는 MECMSC-SHP와 MECMSC-COS의 두 부분으로 구성됩니다. 
      • 두 데이터 세트는 동일한 감정과 원인 레이블 세트를 공유합니다.

    4.2 Annotation Guidelines and Toolkit

    • 우수한 데이터 세트를 받기 위해 부록 A.1 섹션과 같이 몇 가지 주석 설정을 합니다.
    • 툴킷에서 데이터 세트를 쉽게 읽고 주석을 달고 저장할 수 있습니다. 
    • 페이지를 넘기면 컨텍스트를 볼 수 있고 클릭하면 이미지를 확대할 수 있습니다.
    • 어노테이터가 원치 않는 오류를 범하지 않도록 입력 형식과 일부 입력 판단을 수정합니다. 
    • 우리는 툴킷을 여러 번 개선했으며 최종 툴킷을 출시할 것입니다.
    • 세부 사항은 부록 A.2에서 볼 수 있습니다.

    4.3 Annotation Quality Assessment

    • 주석이 달린 데이터 세트의 품질을 평가하기 위해 기존 방법을 사용하여 주석의 일관성을 계산합니다.
    • 우리의 주석에서 각 발화는 전문 지식 배경을 가진 두 명의 작업자가 먼저 주석을 달았습니다. 
    • 일치하지 않는 주석은 전문가가 식별하여 전문가가 최종 판단합니다.
    • 여기서 우리는 그림 2에 표시된 일관성을 추정하는 데 도움이 되도록 Cohen의 Kappa를 사용합니다.
      • Cohen Kappa 설명있으면 좋을듯?
      • https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=y4769&logNo=220680837692
    • Cohen의 카파는 두 주석자의 일관성을 측정하는 데 사용됩니다(Cohen, 1960).
    • 그림에서 볼 수 있듯이
      • 1) 애노테이터는 감정 및 원인 주석에 대해 각각 75.4% 및 71.8% Cohen's Kappa를 달성했습니다.
      • 2) MECMSC-COS가 MECMSC-SHP보다 더 나은 성능을 보이는 이유는 주로 의상(COS) 판매 후 문제가 비교적 간단하고 모호하지 않기 때문입니다.

      4.4 Dataset Statistics and Analysis

      • Global View: 
        • 표 1에서는 많은 감정과 원인 데이터셋을 수집하여 언어, 양식, 출처, 크기, 형식별로 비교하였다.

        • 여기에서 우리는 모달리티 전환 대화("T/V" 참조)에서 감정 및 원인 분석을 위한 데이터 세트를 최초로 구축했음을 알 수 있습니다.
        • 특히 ECE 데이터 세트에서 대화에 관련된 데이터 세트(RECCON 및 ECF)는 거의 없습니다. 
        • unpublished 데이터 세트 ECF만 다중 모드 대화에 중점을 두고 있지만 switching conversations에는 여전히 관련되어 있지 않습니다.
        • 또한 데이터 세트의 크기는 특히 ECE 데이터 세트 중에서 비교적 큽니다.
      • Concrete Statistics: 
        • 표 3과 같이 MECMSC에는 총 1562개의 대화와 53464개의 발화가 포함되어 있음을 알 수 있습니다.
        • 5740개의 발언에 감정과 원인이 추가되었습니다(중립 제외). 
        • 원인의 63.7%(3658문항)는 대상 감정발화 자체에 있는 반면 원인의 36.3%(2082문항)는 문맥발화에 있다.
        • 또한, 총 대상 감정 발화에는 둘 이상의 원인이 포함됩니다. 
        • 더 나은 실행을 위해 모델은 주석 지침에 제시된 가장 높은 우선 순위를 가진 원인만 최종 원인으로 선택할 수 있습니다.
        • For further statistics, it can be seen that: 
          • 1) 이미지는 종종 대화에 존재합니다. 총 6479개의 이미지가 총 348개의 대화에 포함되어 있으며 평균 약 4.1개의 이미지가 각 대화에 포함되어 있습니다. 
          • 112개의 원인과 27개의 감정 발화는 이미지에서 나옵니다.
            • 이 수가 상당히 작은 느낌이긴 하네?
          • 2) 각 대화에서 평균 351개의 발화 수는 약 34.2개이고 각 발화에는 약 14.1개의 단어가 포함됩니다.
          • 3) 각 대화마다 약 3.7개의 발화에 감정(중립 제외)이 있으며 각 감정에는 약 32.0개의 문맥적 발화가 있습니다.
          • 4) 감정 발화와 원인 발화 사이의 길이는 약 0.68로, 원인 발화는 목표 감정 발화 358에 가깝다.
      • Image Composition. 
        • 그림 2는 modality-switching 대화에서 이미지의 일부를 보여줍니다.
        • 이미지는 주로 판매 후 고객 서비스와 관련이 있습니다.
        • 여기에서 이미지는 주로 주문 정보 스크린샷, 판매 제품 스크린샷, 구매 후 제품 사진, 고객 서비스 이모티콘 등임을 알 수 있습니다.
        • 이미지의 출처는 몇 가지 범주에 집중되어 있으며 이미지의 내용은 구별됩니다.
        • 따라서 모델이 그림을 이해하도록 하는 방법을 고려하는 것이 좋습니다.
        • 이미지에 대한 보다 포괄적인 보기는 부록의 섹션 A.3에 있습니다.
      • Emotion Distribution: 
        • 감정 세트는 표 4와 같이 Neutral, Happy, Frustrated, Angry, Surprised, Sad, Fear의 7가지 범주로 구성되어 있습니다.
        • 이 감정 클래스를 선택한 이유는?
        • 각 감정에 대해 적어도 하나의 원인 발화가 이에 연결됩니다.
          • 이게 본인 자신일 수도 있는가?
        • 여기서 우리는 감정 범주의 분포가 불균형한 것을 볼 수 있습니다.
        • 특히 데이터 세트에 너무 많은 "중립"이 포함되어 있습니다.
        • 고객 서비스 대화에서 감정 없는 상품 설명과 정중한 표현이 많기 때문이다.
        • 또한 데이터 세트에는 긍정적인 감정(예: 행복, 놀라움)보다 부정적인 감정(즉, 좌절 및 분노)이 더 많이 포함되어 있습니다.
        • 이는 주로 애프터 서비스에 대한 불만이 많은 고객 서비스에서 데이터 세트를 제공하기 때문입니다.
      • Cause Distribution: 
        • The detailed cause distribution is shown in Table 3 and 5. 
        • We can find that 
          • 1) 감정 원인은 대상 감정 발화 근처에서 발생하는 것을 선호합니다.
          • 2) 감정과 원인 발화 사이의 간격이 길수록 감정-원인 쌍이 덜 존재합니다.
          • 범위가 특정 길이를 초과하면 감정-원인 쌍은 무시할 수 있습니다.
          • 따라서 너무 긴 범위의 일부 감정 원인 쌍은 실험에서 무시됩니다.
          • 얼마나 긴 범위를 무시한다는 것인가?
          • 이것도 결국 사람이 annotation한 것이라 noise가 아닌데 굳이 무시하는 이유는 무엇인가?

      5 Benchmarking

      • 이 섹션에서는 modality-switching conversations에서 감정 및 원인 분석에 대한 몇 가지 벤치마크를 구축합니다.
      • 이 시나리오에 초점을 맞춘 연구는 거의 없었으므로 몇 가지 접근 방식을 전체적으로 설계합니다.
      • 이전 딥 러닝 연구(Jiao et al., 2020; Vaswani et al., 2017)에서 영감을 받아 ERMSC와 CEMSC라는 두 작업에 대해 MMSC-ERC 및 MMSC-ECE라는 두 가지 접근 방식을 제안합니다.
      • MMSC-ERC 및 MMSC-ECE는 일부 모듈을 공유합니다.
      • 그림 3은 벤치마크의 개요를 보여줍니다.
      • Modality-Switching Feature Encoding. 
        • 테스크는 섹션 3에서 정의된다.
        • ui = {si , ti/oi} is a portion of a modality-switching conversation. 
        • textual and visual uteerance가 교대로 나타나는 이유때문에, 우리는 먼저 텍스트 발화를 blank image로 교대하거나 image 발화를 blank textual utterance로 보완한다.
        • 그리고나서, 우리는 3개의 아이템들인 (one speaker, one existing utternace, one padding utterance)을 포함하는 새로운 데이터 그룹을 얻는다.
        • 마침내, 우리는 새로운 데이터 그룹을 3개의 인코더들에 (InterlocEncoder, TextEncoder and ImageEncoder) 밀어넣고 멀티모달 utterance feature group hi= [hsi , hti , hoi], i ∈ {1, 2, . . . , k}.을 얻는다.
        • Note that k is the length of the conversation. 
        •  InterlocEncoder와 TextEncoder는 BERT를 기반으로 하는 반면 ImageEncoder는 ResNet을 기반으로 합니다.
        • The three encoders can be seen in Section B.1 of the Appendix.
        • 즉 모달리티별 인코더와 화자 인코더를 통과하여 나온 feature을 컨캣?
        • 만약 이미지 입력이 없을땐 이미지 피쳐는 0이 되는 것?
      • Modality-Switching Feature Fusion. 
        • Modality Encoding 후에는 multi-modal fusion 구조를 활용하여 modality 간의 관계를 연구하고 각 발화에 대한 공통된 특징을 구축합니다.
        • 구조는 그림 3에서 MSFFM으로 표시된 발성 내 융합을 위한 다중 모드 Transformer Encoder를 기반으로 합니다.
        • 인코더는 N개의 레이어로 구성되며 각 레이어는 Multi-Head Attention 및 FeedForward 모듈을 포함합니다.
        • 세부 사항은 부록의 섹션 B.2에서 볼 수 있습니다.
        • 컨캣된 인코더 feature들을 트랜스포머에 통과시켜 서로간의 어텐션을 하는 듯
      • Contextual Feature Extraction. 
        • 지난 두 모듈은 두 작업에서 공유하고 CFEM(Contextual Feature Extraction Module)은 부분적으로 공유합니다.
        • 여기서는 먼저 그림 3과 같이 감정 인식을 위한 CFEM을 소개합니다.
        • 대화에서 발화 간의 관계를 포착하기 위해 Jiao에 이어 CFEM에서 양방향 GRU를 적용합니다.
        • 작업이 실시간이고 미래의 발화를 알 수 없기 때문에 과거 문맥 발화만 사용할 수 있습니다.
        • ERMSC용 CFEM에 대한 자세한 설명은 부록 B.3에서 볼 수 있습니다.
        • 모달리티별간의 융합된 feature을 이젠 time 단위로 GRU을 통해 상관관계를 계산하는 느낌
      • Emotion Recognition and Cause Extraction in Modality-Switching Conversations.
        • The ERMSC task is shown in Figure 3. 
        • 정제된 벡터를 분류 모듈에 포함시키고 감정 확률을 얻습니다. 
        • 그런 다음 교차 엔트로피 함수로 손실을 계산합니다. 감정 인식 과정은 부록의 섹션 B.4에서 볼 수 있습니다.
        • 한편, 공유된 Modality-Switching Feature Encoding 및 Fusion 모듈을 활용하여 multi-modal feature을 인코딩하고 융합합니다.
          • Switching 오타
        • 그리고 나서 우리는 multi-modal utterance common representation을 얻습니다.
        • 그 후, 우리는 representation을 수정된 CFEM에 포함시키고 마지막으로 문맥적 단서가 있는 벡터를 얻습니다.
        • 마지막으로 주의 방법으로 원인 발화의 위치를 예측하고 교차 엔트로피 함수로 손실을 계산합니다. 자세한 설명은 부록 B.5에서 볼 수 있습니다.
        • CEMSC 테스크에서, 어떻게 원인 발화에 대한 레이블이 주어지는거지?
        • 총 5개 발화가 있다고하면 3번째 발화의 원인이 True,False,False,False,False와 같이 주어지는건가?

      6 Experimentation

      • 우리는 감정 인식을 평가하고 다른 설정으로 추출을 유발합니다.
      • 부록의 섹션 C.1에서 실험을 위한 벤치마크와 하이퍼파라미터의 세부사항에 대해 논의합니다.

      6.1 Experimental Results

      • 이 섹션에서는 주로 결과를 전시하고 ERMSC와 CEMSC라는 두 가지 작업에 대한 분석을 제공합니다.
        • ERMSC: 감정인식
        • CEMSC: 원인발화추출
      • Emotion Recognition in Modality-Switching Conversations. 
        • 표 6은 두 그룹에 따른 실험 결과를 나타낸다. 
        • 부록의 섹션 C.2에서 자세한 분석을 제공합니다.
        • 왜 감정클래스를 태깅된 클래스가 아니라 축소해서 결과를 보여주는 것이지?
      • Emotion Cause Extraction in Modality Switching Conversations. 
        • Table 7과 같이 3가지 측면에서 3가지 데이터셋에 대한 성능을 보여준다.
        • 자세한 분석은 부록 C.3에 나와 있습니다.
        • 여기서도 왜 other로 다른 감정을 퉁쳐서 표현하는지?

      6.2 Analysis and Discussion

      • In this section, we provide some interesting further analysis. 
      • Case Study. 
        • CEMSC 작업에 대한 접근 방식의 출력 사례를 분석합니다.
        • 지면의 제한으로 인해 부록 C.4에 분석 내용을 넣습니다.
      • Context Analysis. 
        • 우리는 문맥의 길이에 대한 영향을 분석하고 부록의 섹션 C.5에 분석을 넣습니다.

      7 Conclusion and future work

      • 이 작업에서는 Modality Switching 대화의 다중 모드 감정 및 원인 분석에 대한 연구를 소개합니다.
      • 이 연구는 실제 시나리오에 적용할 수 있는 큰 잠재력을 가지고 있습니다.
      • 먼저 설계된 주석 시스템의 도움으로 modality-switching conversations에서 MECMSC라는 데이터 세트를 구성하고 주석을 답니다.
      • 둘째, 지난 몇 년 동안 제안된 일부 advanced multi-modal 방법에서 영감을 받아 이 데이터 세트에 대한 몇 가지 강력한 벤치마크를 설계합니다.
      • 마지막으로, 우리는 몇 가지 실험 결과를 제공하고 여전히 개선의 여지가 있음을 발견했습니다.
      • 우리가 아는 한, 우리는 modality-switching conversations에서 emotion and cause analysis research를 가장 먼저 수행합니다.
      • modality-switching conversations에서 감정 인식 및 원인 추출은 여전히 ​​어려운 작업입니다.
      • 우리의 작업은 새로운 작업과 주석이 달린 데이터 세트를 도입하는 데 중점을 둡니다.
      • 일부 간결한 벤치마크만 제공되며 이러한 벤치마크에는 여전히 몇 가지 약점이 있다고 직관적으로 믿습니다.
      Reference

      댓글