0 Abstract

이전의 감정 인식은 주로 텍스트 영역 또는 다른 양식이 동시에 나타나는 다중 모드 영역에 초점을 맞춘 반면 감정 원인 추출 연구는 주로 블로그, 문서 및 뉴스와 같은 텍스트 영역에 중점을 둡니다.
그러나 실제로는 특히 고객 응대 및 채팅 대화 분야에서 대화에서 이미지와 텍스트 발화가 번갈아 나타납니다.
따라서 본 논문에서는 발화의 각 전환이 텍스트와 이미지의 하나의 양식만 갖는 새로운 시나리오, 즉 양식 전환 대화에서 감정을 인식하고 원인을 추출하려고 시도합니다.
이 시나리오에서 우리는 자연스럽게 두 가지 새로운 작업, 즉 감정 인식과 양식 전환 대화의 원인 추출(ERMSC 및 CEMSC라고도 함)을 탐색합니다.
기존 연구에서는 위의 두 가지 작업을 조사한 적이 없기 때문에 벤치마크 데이터 세트를 개발하고 두 작업을 모두 수행하기 위한 몇 가지 벤치마크 접근 방식을 설정합니다.
특히, 양식 전환 대화에서 데이터 세트를 주석 처리하기 위해 먼저 주석 시스템을 구축합니다.
그런 다음 레이블이 있는 5740개의 감정 원인 쌍과 53464개의 발화를 얻습니다(이 데이터 세트를 줄여서 MECMSC라고 함).
마지막으로 이 시나리오에 적용할 수 있는 몇 가지 적절한 방법을 찾고 이 데이터 세트에 대한 강력한 벤치마크를 구축하려고 합니다.
벤치마크 결과는 여전히 개선의 여지가 있으며 이 작업은 실제 시나리오에 적용할 수 있는 큰 잠재력이 있음을 보여줍니다.
데이터 공개는 가능한가?

1 Introduction

Emotion은 본질적으로 사람의 중요한 파트이며, 사람의 감정들을 이해하는 방법이 인공지능에서 중요한 연구 방향이 된다.
특별히, NLP 커뮤니티에서, 감정분석은 많은 관심을 받고있으며, 이는 많은 필드로 확장되서 사용된다. (customer service, online chatting, news analysis, dailogue system)
우리가 알듯이, 실제 세계에서, conversations은 사람들 사이의 소통하는 흔한 형태이다.
사람이 다른 사람들과 대화로 소통할 때, emotional fluctuattion이 발생할 가능성이 높다.
그래서, 이 시나리오는 보통 인과원인을 야기하며 (emotion 과 cause utterance), 원인은 화자에 의해 생성된 감정에 대한 책임을 가지고 있다.

즉 컨텍스트가 발화의 원인이라는 느낌?

사람의 textual, visual, acoustic expressions의 풍부한 의미 때문에, conversations은 일반적으로 멀티모달 형태이다.

예를 들어, 이커머스 고객 서비스에서 대화를 향한 고객들은 대화 윈도우에서 text와 image들과 함께 소통하는 경우가 많다.
참고로, 이 시나리오에서 모달리티는 동시가 아니라 각 턴에 번갈아 나타납니다.
이를 modality-switching phenomenon이라고 합니다.

그림 1에서 볼 수 있듯이 두 가지 예는 modality-switching 대화를 제시하며, 발화의 각 차례에는 다음 차례에 모달리티가 변경될 수 있는 양식(텍스트 또는 이미지)이 하나만 있습니다.
이전 연구(Tripathi et al., 2018; Jia et al., 2021; Poria et al., 2021)와 달리, 본 논문에서 초점을 맞춘 modality-switching conversations의 감정 및 원인 분석은 다음과 같은 과제를 제기합니다.
Modality-switching Conversations의 감정 인식에는 각 턴에 modality 누락 문제가 있으며, 이는 긴 대화를 위한 BERT 또는 Transformer와 같은 하나의 시간 인코더로 처리할 수 없습니다.

이는 주로 다른 시간 단계에서 다른 모달리티가 다른 의미 공간을 나타내기 때문입니다.
또한, 그림 1과 같이 발화를 제거하면 대화의 완전한 의미를 놓칠 수 있으므로 대화 내용을 단일 모드 상태로 변경할 수 없습니다.
전통적인 다중 모드 접근 방식의 경우 모든 발화에 가능한 모든 모달리티를 포함하도록 기본 설정한 다음 일반적으로 각 턴에서 모든 양식을 융합합니다.
그러나 이러한 종류의 다중 모드 접근 방식은 우리의 모드 전환 시나리오로 확장하기 어렵습니다.

Modality-switching Conversations에서 Cause Extraction은 감정 인식과 유사한 Modality Missing 문제를 해결합니다.

게다가, 텍스트 대화에서 감정 원인 추출을 탐구하기 시작한 연구는 단 하나뿐이지만 다중 모드 대화에서 수행한 연구는 없습니다.
textual and modality-switching conversations의 고전적인 차이점은 텍스트와 이미지 모두 감정 표현을 유발할 수 있다는 것입니다.
예를 들어, 그림 1(a)에서 발화 4(이미지)는 대상 감정 발화 6의 컨텍스트일 뿐만 아니라 감정의 원인이 될 수 있습니다.
그리고 그림 1(b)에서 감정은 이미지(서버, 발화 6)에서 오는 경우가 있고 감정의 원인은 고객의 용서가 포함된 컨텍스트 내 텍스트 발화(고객, 발화 5)에서 나옵니다.
이것은 새로운 시나리오에서 감정 원인 추출에 대한 양식 표현 및 다중 모드 융합 문제를 제기합니다.

To summarise, our contributions are as follows:

1. 우리는 모달리티-스위칭 대화에서 감정인식과 (ERMSC) 원인 추출 테스크를 (CEMSC)을 정의한다.
2. 우리는 annotation 툴킷을 설계하고 ERMSC, CEMSC의 분석을 위한 새로운 데이터세트를 어노테이트한다. 우리가 아는 한, 우리가 이러한 두 가지 테스크들에 대한 데이터세트를 처음으로 제공하낟.
3. 우리는 이 시나리오에서 연구의 부족때문에 향후 연구에 대한 몇 가지 벤치마크들을 제공한다.

2 Related Work

Emotion Recognition in Conversations(ERC).

지난 몇 년 동안 이 작업을 위해 많은 연구가 수행되었습니다.
우리는 현재 작업을 텍스트 및 다중 모드 접근 방식으로 나눕니다.
텍스트 접근은 대화 연구에서 먼저 제안됩니다. 정적 감정 인식에 중점을 둔 여러 관련 연구에서는 대상 발화 감정을 예측하기 위해 과거 및 미래 컨텍스트를 활용합니다.
Ghosal은 대화 컨텍스트를 모델링하기 위해 대담자의 자체 및 화자 간 종속성을 활용하는 그래프 신경망 기반 접근 방식을 제안합니다.
Jiao는 실시간 감정 인식을 수행하기 위해 Attention Gated Hierarchical Memory Network를 제안합니다. 이 네트워크는 역사적 맥락을 포착하고 관련 정보를 검색하기 위해 기억을 적절하게 요약합니다.
Ghosal은 상식의 다양한 요소를 통합한 새로운 프레임워크를 제안합니다.
Hu는 인지적 관점에서 대화 컨텍스트를 이해하기 위해 컨텍스트 추론 네트워크, 즉 DialogueCRN을 제안합니다.
기술의 발전으로 여러 양식이 더 나은 성능을 위해 서로를 보완할 수 있습니다.
Zhang은 대화에서 실시간 감정 인식을 위한 양방향 동적 이중 영향 네트워크를 제안합니다.

이 네트워크는 양방향 정보 전파를 통해 모드 내 영향과 모드 간 영향을 동시에 모델링할 수 있습니다.

Hu는 다중 모드 및 장거리 컨텍스트 정보를 모두 활용하는 보다 효과적인 방법을 탐색하기 위해 GCN 기반 모델을 제안합니다.
Li는 다양한 양식에서 다중 모드 감정 벡터를 추출하는 새로운 구조를 도입하고 이를 감정 캡슐로 묶습니다.
However, these approaches mainly focus on textual scenario or multi-modal scenarios where all modalities appear simultaneously in each turn.
그들은 modality-switching conversations화를 고려한 적이 없습니다.

Emotion Cause Extraction.

많은 연구가 감정 인식에 초점을 맞추고 있지만, 특히 대화에서 감정 원인 추출(ECE)에 대한 연구는 여전히 부족합니다.
우리는 현재 연구를 no-conversational and conversational 접근 방식으로 나눕니다.
여러 연구에서 대화가 없는 시나리오에 참여하려고 했습니다.
Lee는 원래 과제를 제안합니다.
그런 다음 일부 연구는 (Li and Xu; Gao; Yada)와 같은 규칙 기반 방법이나 (Ghazi 2015; Song and Meng 2015)와 같은 기계 학습 방법을 따릅니다.
(Lee 2010)의 말뭉치에서 영감을 받아 (Chen 2010) 해당 절이 주석 및 원인 분석에 적합할 수 있다고 추측합니다.
그런 다음 여러 연구(Russo; Gui)가 그의 작업 설정을 따릅니다.
특히, Gui는 중국의 감정 원인 데이터 세트를 출시하여 많은 주목을 받고 있으며 (Xu; Gui; Li; Yu; Ding; Xia 및 Ding, Yan)과 같은 다음 연구의 벤치마크 데이터 세트로 활용되고 있습니다.
이러한 접근 방식은 주로 기사, 블로그 및 기타 영역에 초점을 맞추지만 대화에는 초점을 맞추지 않습니다.
Poria는 텍스트 대화에서 감정 원인을 인식하는 작업을 도입하고 RECCON이라는 데이터 세트를 수집합니다.

이런 테스크 및 데이터세트도 있구나?

pre-printed 연구(Wang 2021)가 MELD(Poria)에서 재구성된 TV 쇼에서 다중 모드 감정 원인 쌍 추출을 탐구하려고 하지만. (ECF)
우리 데이터 세트와의 근본적인 차이점은

1) ECF의 모달리티가 각 턴에서 동시에 나타나는 반면 우리의 것은 번갈아 나타나는 것입니다.
2) 기존 연구에 이어 ECF는 전자상거래에서의 실제 대화가 아닌 행위자에 의한 가상의 멀티모달 대화에 초점을 맞추고 있다.
ECF 예시

이를 위해 감정 원인 분석을 발전시키고 고객 서비스의 실제 문제를 해결하기 위해 감정 인식 및 양식 전환 대화에서 원인 추출을 위한 새로운 다중 모드 데이터 세트를 구축합니다.
또한 위에서 언급한 새로운 작업의 성능을 관찰하고 분석하기 위해 몇 가지 벤치마크 기준을 설정했습니다.

어떤 벤치마크를 말하는거지?

3 Task Definition

우리는 대화에서 emotion과 cause 사이를 구분한다고, 다음의 연구들이 있다

감정은 화자의 감정을 가리키는 발화에서 표현된 심리적인 상태이다.

감정 분석에 대해서, 우리는 보통 감정들을 7개의 구체적인 감정으로 분류한다: Neutral, Happy, Frustrated, Angry, Surprised, Sad, and Fear
게다가, 감정은 우리의 모달리티 스위칭 대화에서 textual or visual 발화로 표현될 수 있다.

감정 원인은 화자가 target 발화에 의해 주어진 감정을 표현하는 이유를 나타내는 발화이다.

우리의 연구에서, 원인은 visual or textual utterances로부터 오고, 각 target emotion utterance는 최소한 하나의 cause utterance을 포함한다.

우리는 MECMSC 데이터세트에서 2가지 종류의 테스크들을 정의한다:

Emotion Recognition and Cause Extraction in Modality-Switching Conversations (aka ERMSC and CEMSC).
ERMSC의 골은 발화들의 감정을 검출하고, CEMSC의 골은 target emotion의 원인을 추출하는 것이다.
게다가, 두 가지 테스크들은 emotion-cause pair 추출로써 통합될 수 있지만, 아직 연구가 필요하고, 이 연구에서는 소개되지 않는다.

따라서 논문 전체에서 사용되는 다음 표기법을 정의합니다.
Let D = {(Xn, En, Cn)}^N_n=1 be the set of data samples.

주어진 대화 X = {u1, u2, . . . , uk}에서, ERMSC는 발화를 감정 목록 E = {e1, e2, . . . , ek}로 분류한다.
X와 E가 주어지고, CEMSC 테스크는 emotino cause을 리스트 C = {c1, c2, . . . , ck}로 추출한다.
k는 대화의 길이이고 ui = {si , ti/oi}는 두 개의 아이템들을 포함한다.
si는 스피커의 이름이고, ti는 textual utterance을 표기하고 oi는 visual utterance을 가리키낟.
ti/oi는 텍스트 발화 또는 시각적 발화를 의미합니다. (즉 하나만 있다)

For 1 ≤ i ≤ k, ei ∈ E는 emotion의 id이고 E는 emotion label set이다.
ci ∈ ζ는 원인 발화의 위치이고 ζ는 position set입니다.

ζ = {−η, −η + 1, · · · , 0, oth}이고 η는 대상 감정 발화 이전의 maximal position span입니다.

Note that:

1) 원인이 2개 이상인 경우 가장 관련성이 높은 원인을 최종 원인으로 선택합니다.
2) 대상 감정 발화 뒤에 원인이 있는 경우 원인을 포기하고 "oth"("기타")로 분류합니다.
3) 대상 감정과 원인 발화 사이의 범위가 η보다 길면 원인 위치를 "oth"("기타")로 분류합니다.
위의 세 가지 가정은 거의 발생하지 않으며 데이터 세트 분석에서 논의될 것입니다.
즉, 원인에 해당하는 발화가 2개이면, 가장 영향력있는 발화를 고르고
과거가 아닌 미래의 발화가 원인 발화라면 이는 oth 레이블 (근데 이게 가능한가?)
원인 발화가 너무 먼 과거 발화면 oth로 레이블

4 Building the MECMSC Dataset

4.1 Conversation Sources

modality-switching conversations는 종종 고객 서비스, 채팅방 및 기타 영역과 같이 현실에서 나타납니다.
여기에서는 Zhao의 JD 고객 서비스 대화를 활용합니다.

~\citet{}을 이용하는게?

raw 대화는 중국 주류 전자 상거래 플랫폼에서 수집한 대규모 다중 모드 다중 회전 대화 데이터 세트입니다.
RECCON, ECF, IEMOCAP, DailyDialog 및 MELD와 같은 이전 데이터와 구별되는 이 raw 데이터는 여러 모달리티를 포함하는 modality-switching conversations로 표시되며 모달리티가 교대로 나타납니다.
고객 서비스에는 풍부한 감정과 원인이 포함되어 있습니다.
대부분의 대화는 일반적으로 많은 분쟁을 수반하는 판매 후 서비스에서 발생합니다.
일반적으로 고객은 결함을 지적하고 부정적인 감정을 줄 수 있습니다.

그리고 그 감정의 원인은 대화에 분명히 존재합니다.
이러한 전제 조건은 주석을 실현 가능하게 만듭니다.

구체적으로 SHP(소형가전) 상품과 COS(의상)에 관련된 raw 대화를 주석으로 선택한다.
따라서 MECMSC 데이터 세트는 MECMSC-SHP와 MECMSC-COS의 두 부분으로 구성됩니다.

두 데이터 세트는 동일한 감정과 원인 레이블 세트를 공유합니다.

4.2 Annotation Guidelines and Toolkit

우수한 데이터 세트를 받기 위해 부록 A.1 섹션과 같이 몇 가지 주석 설정을 합니다.
툴킷에서 데이터 세트를 쉽게 읽고 주석을 달고 저장할 수 있습니다.
페이지를 넘기면 컨텍스트를 볼 수 있고 클릭하면 이미지를 확대할 수 있습니다.
어노테이터가 원치 않는 오류를 범하지 않도록 입력 형식과 일부 입력 판단을 수정합니다.
우리는 툴킷을 여러 번 개선했으며 최종 툴킷을 출시할 것입니다.
세부 사항은 부록 A.2에서 볼 수 있습니다.

4.3 Annotation Quality Assessment

주석이 달린 데이터 세트의 품질을 평가하기 위해 기존 방법을 사용하여 주석의 일관성을 계산합니다.
우리의 주석에서 각 발화는 전문 지식 배경을 가진 두 명의 작업자가 먼저 주석을 달았습니다.
일치하지 않는 주석은 전문가가 식별하여 전문가가 최종 판단합니다.
여기서 우리는 그림 2에 표시된 일관성을 추정하는 데 도움이 되도록 Cohen의 Kappa를 사용합니다.

Cohen Kappa 설명있으면 좋을듯?
https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=y4769&logNo=220680837692

Cohen의 카파는 두 주석자의 일관성을 측정하는 데 사용됩니다(Cohen, 1960).
그림에서 볼 수 있듯이

1) 애노테이터는 감정 및 원인 주석에 대해 각각 75.4% 및 71.8% Cohen's Kappa를 달성했습니다.
2) MECMSC-COS가 MECMSC-SHP보다 더 나은 성능을 보이는 이유는 주로 의상(COS) 판매 후 문제가 비교적 간단하고 모호하지 않기 때문입니다.

4.4 Dataset Statistics and Analysis

Global View:

표 1에서는 많은 감정과 원인 데이터셋을 수집하여 언어, 양식, 출처, 크기, 형식별로 비교하였다.
여기에서 우리는 모달리티 전환 대화("T/V" 참조)에서 감정 및 원인 분석을 위한 데이터 세트를 최초로 구축했음을 알 수 있습니다.
특히 ECE 데이터 세트에서 대화에 관련된 데이터 세트(RECCON 및 ECF)는 거의 없습니다.
unpublished 데이터 세트 ECF만 다중 모드 대화에 중점을 두고 있지만 switching conversations에는 여전히 관련되어 있지 않습니다.
또한 데이터 세트의 크기는 특히 ECE 데이터 세트 중에서 비교적 큽니다.

Concrete Statistics:

표 3과 같이 MECMSC에는 총 1562개의 대화와 53464개의 발화가 포함되어 있음을 알 수 있습니다.
5740개의 발언에 감정과 원인이 추가되었습니다(중립 제외).
원인의 63.7%(3658문항)는 대상 감정발화 자체에 있는 반면 원인의 36.3%(2082문항)는 문맥발화에 있다.
또한, 총 대상 감정 발화에는 둘 이상의 원인이 포함됩니다.
더 나은 실행을 위해 모델은 주석 지침에 제시된 가장 높은 우선 순위를 가진 원인만 최종 원인으로 선택할 수 있습니다.
For further statistics, it can be seen that:

1) 이미지는 종종 대화에 존재합니다. 총 6479개의 이미지가 총 348개의 대화에 포함되어 있으며 평균 약 4.1개의 이미지가 각 대화에 포함되어 있습니다.
112개의 원인과 27개의 감정 발화는 이미지에서 나옵니다.

이 수가 상당히 작은 느낌이긴 하네?

2) 각 대화에서 평균 351개의 발화 수는 약 34.2개이고 각 발화에는 약 14.1개의 단어가 포함됩니다.
3) 각 대화마다 약 3.7개의 발화에 감정(중립 제외)이 있으며 각 감정에는 약 32.0개의 문맥적 발화가 있습니다.
4) 감정 발화와 원인 발화 사이의 길이는 약 0.68로, 원인 발화는 목표 감정 발화 358에 가깝다.

Image Composition.

그림 2는 modality-switching 대화에서 이미지의 일부를 보여줍니다.
이미지는 주로 판매 후 고객 서비스와 관련이 있습니다.
여기에서 이미지는 주로 주문 정보 스크린샷, 판매 제품 스크린샷, 구매 후 제품 사진, 고객 서비스 이모티콘 등임을 알 수 있습니다.
이미지의 출처는 몇 가지 범주에 집중되어 있으며 이미지의 내용은 구별됩니다.
따라서 모델이 그림을 이해하도록 하는 방법을 고려하는 것이 좋습니다.
이미지에 대한 보다 포괄적인 보기는 부록의 섹션 A.3에 있습니다.

Emotion Distribution:

감정 세트는 표 4와 같이 Neutral, Happy, Frustrated, Angry, Surprised, Sad, Fear의 7가지 범주로 구성되어 있습니다.
이 감정 클래스를 선택한 이유는?
각 감정에 대해 적어도 하나의 원인 발화가 이에 연결됩니다.

이게 본인 자신일 수도 있는가?

여기서 우리는 감정 범주의 분포가 불균형한 것을 볼 수 있습니다.
특히 데이터 세트에 너무 많은 "중립"이 포함되어 있습니다.
고객 서비스 대화에서 감정 없는 상품 설명과 정중한 표현이 많기 때문이다.
또한 데이터 세트에는 긍정적인 감정(예: 행복, 놀라움)보다 부정적인 감정(즉, 좌절 및 분노)이 더 많이 포함되어 있습니다.
이는 주로 애프터 서비스에 대한 불만이 많은 고객 서비스에서 데이터 세트를 제공하기 때문입니다.

Cause Distribution:

The detailed cause distribution is shown in Table 3 and 5.
We can find that

1) 감정 원인은 대상 감정 발화 근처에서 발생하는 것을 선호합니다.
2) 감정과 원인 발화 사이의 간격이 길수록 감정-원인 쌍이 덜 존재합니다.
범위가 특정 길이를 초과하면 감정-원인 쌍은 무시할 수 있습니다.
따라서 너무 긴 범위의 일부 감정 원인 쌍은 실험에서 무시됩니다.
얼마나 긴 범위를 무시한다는 것인가?
이것도 결국 사람이 annotation한 것이라 noise가 아닌데 굳이 무시하는 이유는 무엇인가?

5 Benchmarking

이 섹션에서는 modality-switching conversations에서 감정 및 원인 분석에 대한 몇 가지 벤치마크를 구축합니다.
이 시나리오에 초점을 맞춘 연구는 거의 없었으므로 몇 가지 접근 방식을 전체적으로 설계합니다.
이전 딥 러닝 연구(Jiao et al., 2020; Vaswani et al., 2017)에서 영감을 받아 ERMSC와 CEMSC라는 두 작업에 대해 MMSC-ERC 및 MMSC-ECE라는 두 가지 접근 방식을 제안합니다.
MMSC-ERC 및 MMSC-ECE는 일부 모듈을 공유합니다.
그림 3은 벤치마크의 개요를 보여줍니다.
Modality-Switching Feature Encoding.

테스크는 섹션 3에서 정의된다.

ui = {si , ti/oi} is a portion of a modality-switching conversation.
textual and visual uteerance가 교대로 나타나는 이유때문에, 우리는 먼저 텍스트 발화를 blank image로 교대하거나 image 발화를 blank textual utterance로 보완한다.
그리고나서, 우리는 3개의 아이템들인 (one speaker, one existing utternace, one padding utterance)을 포함하는 새로운 데이터 그룹을 얻는다.
마침내, 우리는 새로운 데이터 그룹을 3개의 인코더들에 (InterlocEncoder, TextEncoder and ImageEncoder) 밀어넣고 멀티모달 utterance feature group hi= [hsi , hti , hoi], i ∈ {1, 2, . . . , k}.을 얻는다.
Note that k is the length of the conversation.
InterlocEncoder와 TextEncoder는 BERT를 기반으로 하는 반면 ImageEncoder는 ResNet을 기반으로 합니다.
The three encoders can be seen in Section B.1 of the Appendix.
즉 모달리티별 인코더와 화자 인코더를 통과하여 나온 feature을 컨캣?
만약 이미지 입력이 없을땐 이미지 피쳐는 0이 되는 것?

Modality-Switching Feature Fusion.

Modality Encoding 후에는 multi-modal fusion 구조를 활용하여 modality 간의 관계를 연구하고 각 발화에 대한 공통된 특징을 구축합니다.
구조는 그림 3에서 MSFFM으로 표시된 발성 내 융합을 위한 다중 모드 Transformer Encoder를 기반으로 합니다.
인코더는 N개의 레이어로 구성되며 각 레이어는 Multi-Head Attention 및 FeedForward 모듈을 포함합니다.
세부 사항은 부록의 섹션 B.2에서 볼 수 있습니다.
컨캣된 인코더 feature들을 트랜스포머에 통과시켜 서로간의 어텐션을 하는 듯

Contextual Feature Extraction.

지난 두 모듈은 두 작업에서 공유하고 CFEM(Contextual Feature Extraction Module)은 부분적으로 공유합니다.
여기서는 먼저 그림 3과 같이 감정 인식을 위한 CFEM을 소개합니다.
대화에서 발화 간의 관계를 포착하기 위해 Jiao에 이어 CFEM에서 양방향 GRU를 적용합니다.
작업이 실시간이고 미래의 발화를 알 수 없기 때문에 과거 문맥 발화만 사용할 수 있습니다.
ERMSC용 CFEM에 대한 자세한 설명은 부록 B.3에서 볼 수 있습니다.
모달리티별간의 융합된 feature을 이젠 time 단위로 GRU을 통해 상관관계를 계산하는 느낌

Emotion Recognition and Cause Extraction in Modality-Switching Conversations.

The ERMSC task is shown in Figure 3.
정제된 벡터를 분류 모듈에 포함시키고 감정 확률을 얻습니다.
그런 다음 교차 엔트로피 함수로 손실을 계산합니다. 감정 인식 과정은 부록의 섹션 B.4에서 볼 수 있습니다.
한편, 공유된 Modality-Switching Feature Encoding 및 Fusion 모듈을 활용하여 multi-modal feature을 인코딩하고 융합합니다.

Switching 오타

그리고 나서 우리는 multi-modal utterance common representation을 얻습니다.
그 후, 우리는 representation을 수정된 CFEM에 포함시키고 마지막으로 문맥적 단서가 있는 벡터를 얻습니다.
마지막으로 주의 방법으로 원인 발화의 위치를 예측하고 교차 엔트로피 함수로 손실을 계산합니다. 자세한 설명은 부록 B.5에서 볼 수 있습니다.
CEMSC 테스크에서, 어떻게 원인 발화에 대한 레이블이 주어지는거지?
총 5개 발화가 있다고하면 3번째 발화의 원인이 True,False,False,False,False와 같이 주어지는건가?

6 Experimentation

우리는 감정 인식을 평가하고 다른 설정으로 추출을 유발합니다.
부록의 섹션 C.1에서 실험을 위한 벤치마크와 하이퍼파라미터의 세부사항에 대해 논의합니다.

6.1 Experimental Results

이 섹션에서는 주로 결과를 전시하고 ERMSC와 CEMSC라는 두 가지 작업에 대한 분석을 제공합니다.

ERMSC: 감정인식
CEMSC: 원인발화추출

Emotion Recognition in Modality-Switching Conversations.

표 6은 두 그룹에 따른 실험 결과를 나타낸다.
부록의 섹션 C.2에서 자세한 분석을 제공합니다.
왜 감정클래스를 태깅된 클래스가 아니라 축소해서 결과를 보여주는 것이지?

Emotion Cause Extraction in Modality Switching Conversations.

Table 7과 같이 3가지 측면에서 3가지 데이터셋에 대한 성능을 보여준다.
자세한 분석은 부록 C.3에 나와 있습니다.
여기서도 왜 other로 다른 감정을 퉁쳐서 표현하는지?

6.2 Analysis and Discussion

In this section, we provide some interesting further analysis.
Case Study.

CEMSC 작업에 대한 접근 방식의 출력 사례를 분석합니다.
지면의 제한으로 인해 부록 C.4에 분석 내용을 넣습니다.

Context Analysis.

우리는 문맥의 길이에 대한 영향을 분석하고 부록의 섹션 C.5에 분석을 넣습니다.

7 Conclusion and future work

이 작업에서는 Modality Switching 대화의 다중 모드 감정 및 원인 분석에 대한 연구를 소개합니다.
이 연구는 실제 시나리오에 적용할 수 있는 큰 잠재력을 가지고 있습니다.
먼저 설계된 주석 시스템의 도움으로 modality-switching conversations에서 MECMSC라는 데이터 세트를 구성하고 주석을 답니다.
둘째, 지난 몇 년 동안 제안된 일부 advanced multi-modal 방법에서 영감을 받아 이 데이터 세트에 대한 몇 가지 강력한 벤치마크를 설계합니다.
마지막으로, 우리는 몇 가지 실험 결과를 제공하고 여전히 개선의 여지가 있음을 발견했습니다.
우리가 아는 한, 우리는 modality-switching conversations에서 emotion and cause analysis research를 가장 먼저 수행합니다.
modality-switching conversations에서 감정 인식 및 원인 추출은 여전히 어려운 작업입니다.
우리의 작업은 새로운 작업과 주석이 달린 데이터 세트를 도입하는 데 중점을 둡니다.
일부 간결한 벤치마크만 제공되며 이러한 벤치마크에는 여전히 몇 가지 약점이 있다고 직관적으로 믿습니다.

Reference

https://openreview.net/pdf?id=VRWuB_TSZe2
https://arxiv.org/pdf/2110.08020.pdf

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-168, Multi-modal Emotion and Cause Analysis in Modality-Switching Conversations: A New Task and the Benchmarks, ARR Review 2210

0 Abstract

1 Introduction

2 Related Work

3 Task Definition

4 Building the MECMSC Dataset

4.1 Conversation Sources

4.2 Annotation Guidelines and Toolkit

4.3 Annotation Quality Assessment

4.4 Dataset Statistics and Analysis

5 Benchmarking

6 Experimentation

6.1 Experimental Results

6.2 Analysis and Discussion

7 Conclusion and future work

댓글

댓글 쓰기