1) 애노테이터는 감정 및 원인 주석에 대해 각각 75.4% 및 71.8% Cohen's Kappa를 달성했습니다.
2) MECMSC-COS가 MECMSC-SHP보다 더 나은 성능을 보이는 이유는 주로 의상(COS) 판매 후 문제가 비교적 간단하고 모호하지 않기 때문입니다.
4.4 Dataset Statistics and Analysis
Global View:
표 1에서는 많은 감정과 원인 데이터셋을 수집하여 언어, 양식, 출처, 크기, 형식별로 비교하였다.
여기에서 우리는 모달리티 전환 대화("T/V" 참조)에서 감정 및 원인 분석을 위한 데이터 세트를 최초로 구축했음을 알 수 있습니다.
특히 ECE 데이터 세트에서 대화에 관련된 데이터 세트(RECCON 및 ECF)는 거의 없습니다.
unpublished 데이터 세트 ECF만 다중 모드 대화에 중점을 두고 있지만 switching conversations에는 여전히 관련되어 있지 않습니다.
또한 데이터 세트의 크기는 특히 ECE 데이터 세트 중에서 비교적 큽니다.
Concrete Statistics:
표 3과 같이 MECMSC에는 총 1562개의 대화와 53464개의 발화가 포함되어 있음을 알 수 있습니다.
5740개의 발언에 감정과 원인이 추가되었습니다(중립 제외).
원인의 63.7%(3658문항)는 대상 감정발화 자체에 있는 반면 원인의 36.3%(2082문항)는 문맥발화에 있다.
또한, 총 대상 감정 발화에는 둘 이상의 원인이 포함됩니다.
더 나은 실행을 위해 모델은 주석 지침에 제시된 가장 높은 우선 순위를 가진 원인만 최종 원인으로 선택할 수 있습니다.
For further statistics, it can be seen that:
1) 이미지는 종종 대화에 존재합니다. 총 6479개의 이미지가 총 348개의 대화에 포함되어 있으며 평균 약 4.1개의 이미지가 각 대화에 포함되어 있습니다.
112개의 원인과 27개의 감정 발화는 이미지에서 나옵니다.
이 수가 상당히 작은 느낌이긴 하네?
2) 각 대화에서 평균 351개의 발화 수는 약 34.2개이고 각 발화에는 약 14.1개의 단어가 포함됩니다.
3) 각 대화마다 약 3.7개의 발화에 감정(중립 제외)이 있으며 각 감정에는 약 32.0개의 문맥적 발화가 있습니다.
4) 감정 발화와 원인 발화 사이의 길이는 약 0.68로, 원인 발화는 목표 감정 발화 358에 가깝다.
Image Composition.
그림 2는 modality-switching 대화에서 이미지의 일부를 보여줍니다.
이미지는 주로 판매 후 고객 서비스와 관련이 있습니다.
여기에서 이미지는 주로 주문 정보 스크린샷, 판매 제품 스크린샷, 구매 후 제품 사진, 고객 서비스 이모티콘 등임을 알 수 있습니다.
이미지의 출처는 몇 가지 범주에 집중되어 있으며 이미지의 내용은 구별됩니다.
따라서 모델이 그림을 이해하도록 하는 방법을 고려하는 것이 좋습니다.
이미지에 대한 보다 포괄적인 보기는 부록의 섹션 A.3에 있습니다.
Emotion Distribution:
감정 세트는 표 4와 같이 Neutral, Happy, Frustrated, Angry, Surprised, Sad, Fear의 7가지 범주로 구성되어 있습니다.
이 감정 클래스를 선택한 이유는?
각 감정에 대해 적어도 하나의 원인 발화가 이에 연결됩니다.
이게 본인 자신일 수도 있는가?
여기서 우리는 감정 범주의 분포가 불균형한 것을 볼 수 있습니다.
특히 데이터 세트에 너무 많은 "중립"이 포함되어 있습니다.
고객 서비스 대화에서 감정 없는 상품 설명과 정중한 표현이 많기 때문이다.
또한 데이터 세트에는 긍정적인 감정(예: 행복, 놀라움)보다 부정적인 감정(즉, 좌절 및 분노)이 더 많이 포함되어 있습니다.
이는 주로 애프터 서비스에 대한 불만이 많은 고객 서비스에서 데이터 세트를 제공하기 때문입니다.
Cause Distribution:
The detailed cause distribution is shown in Table 3 and 5.
We can find that
1) 감정 원인은 대상 감정 발화 근처에서 발생하는 것을 선호합니다.
2) 감정과 원인 발화 사이의 간격이 길수록 감정-원인 쌍이 덜 존재합니다.
범위가 특정 길이를 초과하면 감정-원인 쌍은 무시할 수 있습니다.
따라서 너무 긴 범위의 일부 감정 원인 쌍은 실험에서 무시됩니다.
얼마나 긴 범위를 무시한다는 것인가?
이것도 결국 사람이 annotation한 것이라 noise가 아닌데 굳이 무시하는 이유는 무엇인가?
5 Benchmarking
이 섹션에서는 modality-switching conversations에서 감정 및 원인 분석에 대한 몇 가지 벤치마크를 구축합니다.
이 시나리오에 초점을 맞춘 연구는 거의 없었으므로 몇 가지 접근 방식을 전체적으로 설계합니다.
이전 딥 러닝 연구(Jiao et al., 2020; Vaswani et al., 2017)에서 영감을 받아 ERMSC와 CEMSC라는 두 작업에 대해 MMSC-ERC 및 MMSC-ECE라는 두 가지 접근 방식을 제안합니다.
MMSC-ERC 및 MMSC-ECE는 일부 모듈을 공유합니다.
그림 3은 벤치마크의 개요를 보여줍니다.
Modality-Switching Feature Encoding.
테스크는 섹션 3에서 정의된다.
ui = {si , ti/oi} is a portion of a modality-switching conversation.
textual and visual uteerance가 교대로 나타나는 이유때문에, 우리는 먼저 텍스트 발화를 blank image로 교대하거나 image 발화를 blank textual utterance로 보완한다.
그리고나서, 우리는 3개의 아이템들인 (one speaker, one existing utternace, one padding utterance)을 포함하는 새로운 데이터 그룹을 얻는다.
마침내, 우리는 새로운 데이터 그룹을 3개의 인코더들에 (InterlocEncoder, TextEncoder and ImageEncoder) 밀어넣고 멀티모달 utterance feature group hi= [hsi , hti , hoi], i ∈ {1, 2, . . . , k}.을 얻는다.
Note that k is the length of the conversation.
InterlocEncoder와 TextEncoder는 BERT를 기반으로 하는 반면 ImageEncoder는 ResNet을 기반으로 합니다.
The three encoders can be seen in Section B.1 of the Appendix.
즉 모달리티별 인코더와 화자 인코더를 통과하여 나온 feature을 컨캣?
만약 이미지 입력이 없을땐 이미지 피쳐는 0이 되는 것?
Modality-Switching Feature Fusion.
Modality Encoding 후에는 multi-modal fusion 구조를 활용하여 modality 간의 관계를 연구하고 각 발화에 대한 공통된 특징을 구축합니다.
구조는 그림 3에서 MSFFM으로 표시된 발성 내 융합을 위한 다중 모드 Transformer Encoder를 기반으로 합니다.
인코더는 N개의 레이어로 구성되며 각 레이어는 Multi-Head Attention 및 FeedForward 모듈을 포함합니다.
세부 사항은 부록의 섹션 B.2에서 볼 수 있습니다.
컨캣된 인코더 feature들을 트랜스포머에 통과시켜 서로간의 어텐션을 하는 듯
Contextual Feature Extraction.
지난 두 모듈은 두 작업에서 공유하고 CFEM(Contextual Feature Extraction Module)은 부분적으로 공유합니다.
여기서는 먼저 그림 3과 같이 감정 인식을 위한 CFEM을 소개합니다.
대화에서 발화 간의 관계를 포착하기 위해 Jiao에 이어 CFEM에서 양방향 GRU를 적용합니다.
작업이 실시간이고 미래의 발화를 알 수 없기 때문에 과거 문맥 발화만 사용할 수 있습니다.
ERMSC용 CFEM에 대한 자세한 설명은 부록 B.3에서 볼 수 있습니다.
모달리티별간의 융합된 feature을 이젠 time 단위로 GRU을 통해 상관관계를 계산하는 느낌
Emotion Recognition and Cause Extraction in Modality-Switching Conversations.
The ERMSC task is shown in Figure 3.
정제된 벡터를 분류 모듈에 포함시키고 감정 확률을 얻습니다.
그런 다음 교차 엔트로피 함수로 손실을 계산합니다. 감정 인식 과정은 부록의 섹션 B.4에서 볼 수 있습니다.
한편, 공유된 Modality-Switching Feature Encoding 및 Fusion 모듈을 활용하여 multi-modal feature을 인코딩하고 융합합니다.
Switching 오타
그리고 나서 우리는 multi-modal utterance common representation을 얻습니다.
그 후, 우리는 representation을 수정된 CFEM에 포함시키고 마지막으로 문맥적 단서가 있는 벡터를 얻습니다.
마지막으로 주의 방법으로 원인 발화의 위치를 예측하고 교차 엔트로피 함수로 손실을 계산합니다. 자세한 설명은 부록 B.5에서 볼 수 있습니다.
CEMSC 테스크에서, 어떻게 원인 발화에 대한 레이블이 주어지는거지?
총 5개 발화가 있다고하면 3번째 발화의 원인이 True,False,False,False,False와 같이 주어지는건가?
6 Experimentation
우리는 감정 인식을 평가하고 다른 설정으로 추출을 유발합니다.
부록의 섹션 C.1에서 실험을 위한 벤치마크와 하이퍼파라미터의 세부사항에 대해 논의합니다.
6.1 Experimental Results
이 섹션에서는 주로 결과를 전시하고 ERMSC와 CEMSC라는 두 가지 작업에 대한 분석을 제공합니다.
ERMSC: 감정인식
CEMSC: 원인발화추출
Emotion Recognition in Modality-Switching Conversations.
표 6은 두 그룹에 따른 실험 결과를 나타낸다.
부록의 섹션 C.2에서 자세한 분석을 제공합니다.
왜 감정클래스를 태깅된 클래스가 아니라 축소해서 결과를 보여주는 것이지?
Emotion Cause Extraction in Modality Switching Conversations.
Table 7과 같이 3가지 측면에서 3가지 데이터셋에 대한 성능을 보여준다.
자세한 분석은 부록 C.3에 나와 있습니다.
여기서도 왜 other로 다른 감정을 퉁쳐서 표현하는지?
6.2 Analysis and Discussion
In this section, we provide some interesting further analysis.
Case Study.
CEMSC 작업에 대한 접근 방식의 출력 사례를 분석합니다.
지면의 제한으로 인해 부록 C.4에 분석 내용을 넣습니다.
Context Analysis.
우리는 문맥의 길이에 대한 영향을 분석하고 부록의 섹션 C.5에 분석을 넣습니다.
7 Conclusion and future work
이 작업에서는 Modality Switching 대화의 다중 모드 감정 및 원인 분석에 대한 연구를 소개합니다.
이 연구는 실제 시나리오에 적용할 수 있는 큰 잠재력을 가지고 있습니다.
먼저 설계된 주석 시스템의 도움으로 modality-switching conversations에서 MECMSC라는 데이터 세트를 구성하고 주석을 답니다.
둘째, 지난 몇 년 동안 제안된 일부 advanced multi-modal 방법에서 영감을 받아 이 데이터 세트에 대한 몇 가지 강력한 벤치마크를 설계합니다.
마지막으로, 우리는 몇 가지 실험 결과를 제공하고 여전히 개선의 여지가 있음을 발견했습니다.
우리가 아는 한, 우리는 modality-switching conversations에서 emotion and cause analysis research를 가장 먼저 수행합니다.
modality-switching conversations에서 감정 인식 및 원인 추출은 여전히 어려운 작업입니다.
우리의 작업은 새로운 작업과 주석이 달린 데이터 세트를 도입하는 데 중점을 둡니다.
일부 간결한 벤치마크만 제공되며 이러한 벤치마크에는 여전히 몇 가지 약점이 있다고 직관적으로 믿습니다.
댓글
댓글 쓰기