◼️ Comment

일단 논문이 상당히 길다.. 데이터세트 논문이라 데이터세트에 대한 여러 가지 분석과 베이스라인까지 설명하기 때문에
데이터 세트 설명은 간략하게 다음과 같다.

EmotionLines이라는 ERC 텍스트 데이터세트가 있다.
이 데이터세트에서 조금 이상한(잘못된) 부분을 필터링하고 멀티모달로 확장시켰다.
따라서 오디오, 비주얼을 같이 제공하는데, 비주얼은 그 대화의 타임스탭(씬)을 제공하기 때문에 화자의 얼굴을 크로핑해서 제공하는 것이 아니다.
즉 주어진 영상에서 화자의 얼굴을 매칭시키는 것은 또 다른 문제라고 설명하고 이 때문에 베이스라인은 text+audio에 관한 실험만 진행한다.
또한 Friends 티비 프로그램에서 수집한 데이터세트로 다자간 대화를 다루지만, 두 명의 대화로 쪼개서 제공하기도 한다. (사실 이 두명의 데이터는 다자간 대화를 쪼갠 것이기 때문에 완벽한 두 명의 대화라고 보긴 어렵기는 하다)
다중 annotation을 통해 다수결을 따르지만, 다수결이 안되는 경우 데이터를 삭제한다.
감정 클래스는 Ekman+neutral, 감성 클래스 sentiment 를 제공한다.

베이스라인 및 실험들

두 개의 모델 bcLSTM과 dialogueRNN을 이용하여 실험한다.
1) text, auidio, t+a을 이용한 실험을 해보니 오디오를 사용하면 성능은 올라가는데 생각보다 audio의 영향이 크지는 않다.

물론 fusion 방식을 단순히 concat하였기 때문일 수도 있다고 하므로 이 부분은 future work이다.

2) 그리고 dialogueRNN에서 attention 부분을 확인해보면, 실제 감정을 예측할 때 다른 대화를 많이 참고한다고 한다.
3) 또한 감정 클래스가 불균등한데, 이것 때문에 적은 데이터 양을 가진 클래스는 성능이 낮은 결과를 보여준다.

당연 감정이 아닌 감성분류로 하면 성능이 더 향상된다.
추가적으로 데이터양이 적은 fear, disgust 클래스를 없애고 5-class 실험을해도 기존 클래스 세팅보다 성능이 향상된다고 한다.

4) (당연히) 실험에서 context를 활용한 것과 단순히 문장 감정분류를 했을 때 비교해보면 context을 사용한 모델 성능이 더 좋다고 한다.
5) 또한 emotion shift라는 것도 언급하는데, 이는 감정의 변화가 일어나는 것을 검출하는 것이다.

이 부분을 검출하면 더 좋은 성능을 도출할 수 있을 것이라 언급한다.

6) 또한 inter-speaker influence라는 것도 언급하는데 이는 bcLSTM과 dialogueRNN의 차이이다.

bcLSTM에서는 대화 히스토리에 화자가 누군지를 구별안하는 방법이라고 한다.
이것 때문에 spekaer을 구분지은 dialogueRNN이 성능이 좋다고 하는데, 모델링 차이도 있지 않을까 싶다.
즉 dialogueRNN에서 speaker-information을 제외하고 실험해야 더 정확한 비교가 가능은 해보인다.

0. Abstract

ERC는 최근 가능성 있는 어플리케이션 때문에 많은 유행을 얻고 있는 챌린지 테스크이다.
최근 까지, 그러나, 한 대화당 두 명 이상을 포함하는 많은 multimodal multi-party 감정 대화 데이터베이스가 없었다.
이 차이를 해결하기 위해, 우리는 Multimodal EmotionLines Dataset (MELD)을 소개하고, 이는 EmotionLines의 확장 및 개선된 버전이다.
MELD는 TV 시리즈 프렌즈에서 1,433 대화의 약 13,000 담화를 가지고 있다.
각 대화는 emotion과 sentiment labels으로 어노테이트되어 있고 audio, visual, textual 모달리티들을 포함하고 있다.
우리는 몇 개의 강력한 multimodal 베이스라인들을 소개하고 ERC을 위한 contextual와 multimodal 정보의 중요성을 보여준다.
The full dataset is available for use at http://affective-meld.github.io.

1 Introduction

AI의 급성장과 함께, 멀티모달 감정 인식은 주요 연구 분야가 되었다.

이는 대화 생성, 사용자 행동 이해, 멀티모달 상호작용 등등 많은 챌린지 테스크에서 잠재적 적용 가능성이 있기 때문이다.

대화형 감정 인식 시스템은 사용자의 감정을 분석하여 적절한 반응을 생성하는데 사용되곤 했다.
오디오, 비주얼, 텍스트 모듈을 사용하는 멀티 모달 감정 인식 연구 작업이 상당히 진행되어 왔지만, ERC에서의 (대화 속에서의 감정 인식) 연구는 상당히 적다.
한 가지 주요 이유는 방대한 멀티모달 대화 데이터세트가 부족하기 때문이다.
Poria에 따르면, ERC는 대화형 context modeling, 대화자(interlocutors)의 emotion shift, 그리고 다른 여러 챌린지에서 소개되었고, 이는 몇 가지 과제를 제시하여 더욱 해결하기 어렵게 한다.
최근 연구는 멀티모달 메모리 네트워크들을 기반으로 해결책을 제시한다.

그러나, 그들은 대부분 두 명의 대화에 제한되어있고, 그래서 다중 대화자의 ERC로 확되지는 않는다.
이것은 다중 대화자의 대화형 데이터 리소스가 이러한 방향으로의 연구를 촉진시킬 수 있다.

대화에서, 참여자들의 담화들은 일반적으로 그들의 대화형 컨텍스트에 의존하게 된다.

이것은 또한 관련된 감정들에게도 해당된다.

다른 말로는, context는 특정된 감정을 표현하면서, 담화를 말하는 사람에게 영향을 미치는 파라미터들의 셋으로써 행동한다.

쉽게 말해서, 이전의 대화 context가 앞으로 말할 컨텍스트에 영향 미친다 이말 (이것을 파라미터라고 말한 듯. 모델로 보면 파라미터가 맞긴하지..)

이러한 컨텍스트를 모델링하는 것은 다른 방법들이 있다.

예) RNN과 메모리 네트워크를 사용하는 것

그림 1은 대화가 진행됨에 따라 화자가 감정을 바꾸는 (감정 변화) 예를 보여준다.

감정적인 원동력은 이전의 담화들과 그들의 관련된 감정들에 의존한다.
예를 들어, 그림의 8번째 담화에서 감정 변화는 두 사람의 얼굴 표현과 대화 히스토리를 참고하지 않으면 결정하기 어렵다.
이러한 복잡한 화자간 종속성과 같은 모델링은 대화형 모델링에 챌린지한 부분이다.
자연스러운 형식의 대화는 멀티모달이다

대화에서, 우리는 상대방의 얼굴 표현, vocal tonality, 언어, 제스터로 상대방의 스탠스를 예측한다.
감정 인식의 경우, 멀티모달리티는 특별히 중요하다.

이해하기 어려운 언어의 담화의 경우, 우리는 종종 다른 모달리티로부터 (운율 및 시각적 정보) 그들의 감정을 식별한다.

그림 2에서는 그들의 감정과 감성을 제대로 예측하기 위해, 텍스트 그자체외에 멀미모달 시그널이 필요한 데이터세트의 예제를 보여준다.

시퀀스 턴들의 멀티모달 감정 인식은 많은 여러 개의 챌린지를 포함한다.
한 가지 예제는 짧은 담화의 분류이다.

'yeah', 'okay', 'no'와 같은 담화는 대화의 context와 discourse에 의존하는 다양한 감정들을 표현할 수 있다.

그러나, 텍스트만으로 감정을 인지하는 어려움 떄문에, 대부분 모델들은 다수의 클래스를 할당한다. (ex. EmotionLines안의 non-neutral)
대략 MELD의 42% 담화는 5개 단어들보다 짧다.
우리는 그래서, 각 대화의 멀티모달 데이터 소스 접근을 제공하고 추가 정보가 컨텍스트 표현을 개선한다.

여기서 다른 모달리티에서 누락되거나 오도하는 신호를 보완함으로써 감정 인식 작업에 도움이 될 것이라고 가정합니다.

스피커의 얼굴 표현 혹은 말의 억양과 같은 attributes의 추가적인 정보는 더 좋은 분류에 대한 가이드를 할 수 있다.
우리는 또한 우리의 실험을 통하여 이러한 주장들을 입증한다.
대화형 AI의 개발은 contextual와 multimodal 정보 사용에 의존하게된다.
1) 사용가능한 멀티모달 ERC 데이터세트는 IEMOCAP와 SEMAINE이다.

이들은 꽤 많은 연구 프로젝트에서 활용되지만, 전체 담화의 수가 적고 여려 명의 대화에 대한 부족에 대한 한계가 있다.

2) 다른 멀티모달 감정과 감성 분석 데이터세트로는 MOSEI, MOSI, MOUD가 있으나, 이들은 대화 대신에 개인적인 내러티브(독백)을 포함한다.

화자가 1명인 혼잣말 정도라고 생각하면 될듯?

3) 반면에, EmotionLines은 두 명 이상을 포함한, 유명한 티비 시리즈 Freinds을 포함하는 데이터세트이다.

그러나, EmotionLines은 다른 모달리티들의 데이터를 제공하지 않아서 오직 텍스트 분석으로만 사용이 될 수 있다.

이 연구에서는, 우리는 EmotionLines 데이터세트를 멀티모달 시나리오에 대해 더욱 확장, 개선, 발전시킨다.
우리는 멀티모달 EmotionLines Dataset (MELD)을 제안하고, 이는 텍스트 대화뿐만이 아니라 해당하는 비주얼, 오디오 파트를 포함한다.
이 논문은 다음의 컨트리뷰션이 있다.

MELD는 여러 변형가능한 이전의 데이터세트를 분류하는데 챌린지한 다중참여 대화를 포함한다.
MELD에는 13,000 보다 많은 담화들이 있고, 이는 우리의 데이터세트는 기존의 멀티모달 대화 데이터세트보다 거의 2배이다.
MELD는 멀티모달 소스를 제공하고 강화된 grounded learning을 위한 멀티모달 감정의 대화 시스템을 사용할 수 있다.
우리는 Majumder가 제안한 강력한 베이스라인을 만들고, 이는 대화자들의 dependency modeling을 통해 다중참여 대화의 ERC가 가능하다.

DialogueRNN: An attentive RNN for emotion detection in conversations.

2 EmotionLines Dataset

MELD 데이터세트는 EmotionLines에서부터 발전한다.
EmotionLines은 유명한 시트콤 Friends의 대화들을 포함하고, 각 대화들은 다중 대화자들의 담화를 포함한다.
EmotionLines는 각 에피소드의 대화를 크롤링 한 다음 대화의 발화 수에 따라 각각 [5, 9], [10, 14], [15, 19], [20, 24]의 네 그룹으로 그룹화하여 만들었습니다. ].
Finally, 250 dialogues were sampled randomly from each of these groups, resulting in the final dataset of 1,000 dialogues.

2.1 Annotation

각 대화의 발화는 가장 적절한 감정 범주로 주석 처리되었습니다.
이를 위해 Ekman의 여섯 가지 보편적 감정 (Joy, Sadness, Fear, Anger, Surprise, and Disgust)이 어노테이션 라벨로 간주되었습니다.
이 주석 목록은 Neutral and Non-Neutral의 두 가지 추가 감정 레이블로 확장되었습니다.
Amazon Mechanical Turk (AMT) 플랫폼의 작업자 5 명이 각 발화에 주석을 달았습니다.
각 발화에 대한 최종 감정 레이블을 선택하기 위해 다수결 방식이 적용되었습니다.
이 주석 프로세스의 전체 Fleiss의 카파 점수는 0.34 점입니다.

3 Multimodal EmotionLines Dataset (MELD) (번역)

데이터 만드는 과정은 가볍게 번역기로 스크리닝... 색깔 입힌 글이 핵심이라 생각
EmotionLines 데이터 세트의 모든 대화에서 모든 발화의 시작 및 종료 타임 스탬프를 추출하여 MELD 말뭉치 구성을 시작합니다.
이를 위해 우리는 모든 에피소드의 자막을 탐색하고 각각의 타임 스탬프를 경험적으로 추출합니다.
특히 다음과 같은 제약을 적용합니다.

1. 대화에서 발화의 타임 스탬프는 오름차순이어야합니다.
2. 대화의 모든 발화는 동일한 에피소드와 장면에 속해야합니다.

이러한 제약으로 인해 일부 대화가 장면이나 에피소드에 걸쳐있는 EmotionLines에서 몇 가지 특이점이 드러났습니다.
예를 들어, 표 2의 대화에는 각각 시즌 6과 5의 에피소드 4와 20의 두 가지 자연스러운 대화가 포함되어 있습니다.
우리는 이러한 이상(anomalies)을 걸러 내기로 결정했고, 그 결과 MELD에서 EmotionLines와 비교하여 총 대화 수가 다릅니다 (표 1 참조).
다음으로 각 발화에 레이블을 지정하기 위해 3 명의 어노 테이터를 사용하고 발화의 최종 레이블을 결정하기 위해 다수결 투표를합니다.
세 가지 주석이 모두 다른 발화를 몇 개 삭제하고 일관성을 유지하기 위해 해당 대화도 제거합니다.
11 개의 대화에 걸쳐 총 89 개의 발화가이 범주에 속했습니다.
마지막으로 각 발화의 타임 스탬프를 얻은 후 소스 에피소드에서 해당 시청각 클립을 추출한 다음 이러한 클립에서 오디오 콘텐츠를 추출합니다.
추가 처리를 위해 오디오 파일을 16 비트 PCM WAV 파일로 포맷합니다.
최종 데이터 세트에는 각 발화에 대한 시각, 청각 및 텍스트 양식이 포함됩니다.

3.1 Dataset Re-annotation

원본 EmotionLines 데이터 세트의 발화는 대본 만보고 주석을 달았습니다.
그러나 다중 모드에 중점을두기 때문에 세 주석 자에게 발화의 사용 가능한 비디오 클립도 보도록 요청하여 모든 발화에 다시 주석을 달았습니다.
그런 다음 과반수 투표를 사용하여 각 발화에 대한 최종 레이블을 얻습니다.
어노 테이터는 영어 말하기와 쓰기 능력이 높은 대학원생이었습니다.
주석을 시작하기 전에 몇 가지 예를 통해 주석 프로세스에 대해 간략히 설명했습니다.
Kappa 점수가 0.34 (IEMOCAP 주석 프로세스의 kappa는 0.4) 인 원래 EmotionLines 주석보다 높은 전체 Fleiss의 kappa 점수 0.43을 달성하여 주석 프로세스 중 추가 양식의 유용성을 시사합니다.
EmotionLines 데이터 세트의 2,772 개의 발화는 비 중립으로 분류되었으며, 어노 테이터는 감정이 중립적이지 않다는 데 동의했지만 올바른 감정 레이블에 대한 합의에 도달 할 수 없었습니다.

이것은 중립적이지 않은 발화 공간과 다른 감정 라벨 공간이 합쳐지면서 분류를 방해합니다.
우리의 경우, 우리는 애노 테이터가 명확한 감정 라벨에 대한 합의에 도달하지 못하는 발화를 제거합니다. (즉 EmotionLines에서 감정은 있지만, 하나의 감정으로 합의 못하며 삭제한 것이 2772개)

어노테이션 프로세스의 불일치 수는 89 개로 EmotionLines의 2,772 개 불일치보다 훨씬 적으며 멀티 모달 데이터 세트를 통해 얻은 어노테이션 개선을 다시 반영합니다.
표 3은 어노 테이터가 합의에 도달하지 못한 발화의 예를 보여줍니다.

표 4는 EmotionLines와 MELD 데이터 세트 간의 레이블 방식 비교를 보여줍니다.

MELD의 대부분의 발화에서 주석은 EmotionLines의 원래 주석과 일치합니다.
그러나 재 주석 과정에서 발화가 변경된 샘플이 상당량 존재합니다.
예를 들어, This guy fell asleep! (표 5 참조), EmotionLines에서 중립적이지 않은 것으로 표시되었지만 관련 비디오 클립을 본 후 MELD에서 분노로 올바르게 다시 표시됩니다.

이 발화 영상은 분노와 좌절감을 느끼는 표정과 높은 보컬 피치를 보여 주어 정확한 감정을 인식하는 데 도움이된다.
EmotionLines의 어노 테이터는 컨텍스트에 액세스 할 수 있었지만, 추가 모달리티의 가용성이 언젠가 그러한 인스턴스의 분류에 대해 더 많은 정보를 가져올 수 있으므로 충분하지 않았습니다.
이러한 시나리오는 대화에서 감정을 인식하는 데 중요한 측면이 될 컨텍스트와 다중 양식 모두를 정당화합니다.
Timestamp alignment.

자막 파일의 동일한 타임 스탬프 내에서 그룹화 된 자막에 많은 발화가 있습니다.
각 발화에 대한 정확한 타임 스탬프를 찾기 위해 우리는 오디오에서 단어 수준의 타임 스탬프를 추출하여 대본을 오디오와 자동으로 정렬하는 전사 정렬 도구 Gentle을 사용합니다 (표 6 참조).
표 7에서는 MELD 데이터 세트의 최종 형식을 보여줍니다.

Dyadic MELD. (완벽한 2명 대화라고 보기는 어렵다)

또한 확장 불가능한 MELD의 모든 연속 이원 하위 대화가 추출되는 MELD의 또 다른 버전을 제공합니다.
예를 들어, 스피커 ID가 1, 2, 3 인 MELD의 3 자 대화가 [1, 2, 1, 2, 3, 2, 1, 2] 순서대로 진행되도록합니다.
이 대화 시퀀스에서 dyadic MELD는 [1, 2, 1, 2], [2, 3, 2] 및 [2, 1, 2]와 같은 하위 대화를 샘플로 갖게됩니다.
그러나 이 백서에보고 된 결과는 MELD의 다자간 변형만을 사용하여 얻은 것입니다.

3.2 Dataset Exploration

앞서 언급했듯이, 우리는 훈련, 개발 및 테스트 분할에서 분노, 혐오, 두려움, 기쁨, 중립, 슬픔 및 놀라움과 같은 7 가지 감정을 주석에 사용합니다 (표 4 참조).
데이터 세트의 감정 분포는 대부분의 감정이 중립적이며 예상대로 불균일하다는 것을 알 수 있습니다.
We have also converted these fine-grained emotion labels into more coarse-grained sentiment classes by considering anger, disgust, fear, sadness as negative, joy as positive, and neutral as neutral sentiment-bearing class.
Surprise는 긍정적 인 감정과 부정적인 감정으로 표현할 수있는 복잡한 감정의 한 예입니다.

GoEmotions에서 보면 Ekman의 surprise는 ambiguous로 처리한다.
여기서는 surprise을 pos, neg로 따로 또 분리하였음

발화 어노테이션을 수행 한 세 명의 어노 테이터는 놀라운 발화를 긍정적 또는 부정적인 감정 클래스로 추가 주석을 달았습니다.
전체 감정 주석 작업이 Fleiss의 카파 점수 0.91에 도달합니다.
긍정적, 부정적, 중립적 감정 등급의 분포는 표 4에 나와 있습니다.
표 8은 데이터 세트의 몇 가지 주요 통계를 보여줍니다.

평균 발화 길이 (즉, 발화의 단어 수)는 학습, 개발 및 테스트 분할에서 거의 동일합니다.
평균적으로 데이터 세트의 각 대화에는 세 가지 감정이 있습니다. 평균 발화 시간은 3.59 초입니다.
대화에서 화자의 감정 변화는 감정 인식 작업을 매우 어렵게 만듭니다.
우리는 대화에서 화자의 연속적인 발화에서 그러한 감정 변화의 수가 매우 빈번하다는 것을 관찰합니다.

4003, 427, and 1003 in train/dev/test splits, respectively

그림 1은 대화에서 화자의 감정이 시간에 따라 변하는 예를 보여줍니다.
Character Distribution.

그림 3에서는 MELD의 기본 캐릭터에 대한 배포 세부 정보를 보여줍니다.
그림 a와 b는 각각 감정과 정서 레이블의 분포를 보여줍니다.
그림 c는 데이터 세트 전체에서 발표자의 전체 범위를 보여줍니다.
자주 사용하지 않는 여러 발언자 (<1 % 발화)는 기타로 그룹화됩니다.

3.3 Related Datasets

다중 모드 감정 분석 및 감정 인식에서 사용 가능한 대부분의 데이터 세트는 nonconversational입니다.
MOSI (Zadeh et al., 2016b), MOSEI (Zadeh et al., 2018) 및 MOUD (Perez-Rosas ´ et al., 2013)는 연구 커뮤니티에서 상당한 관심을 끌었던 예입니다.
반면에 IEMOCAP과 SEMAINE은 대화의 각 발화가 감정으로 분류되는 인기있는 두 가지 대화 형 데이터 세트입니다.
The SEMAINE Database

SEMAINE 데이터베이스는 지속적이고 감정적 인 대화에 참여할 수있는 에이전트를 구축하기 위해 만들어진 시청각(audiovisual) 데이터베이스입니다 (McKeown et al., 2012).
사람과 작업자 (기계 또는 기계를 시뮬레이션하는 사람)가 관련된 상호 작용으로 구성됩니다.
데이터 세트에는 150 명의 참가자, 959 개의 대화가 포함되어 있으며 각 대화는 약 5 분 동안 지속됩니다.
이 데이터 세트의 하위 집합은 AVEC 2012의 완전 연속 하위 과제 (Schuller et al., 2012)에서 사용되었으며, four continuous affective dimensions: arousal, expectancy, power, and valence을 예측해야합니다.
gold annotations는 5, 816 개의 발화로 구성된 총 95 개의 동영상에 대해 각 동영상에서 0.2 초마다 사용할 수 있습니다.

The Interactive Emotional Dyadic Motion Capture Database (IEMOCAP)

IEMOCAP는 다양한 대화 시나리오의 10 시간에 걸쳐 10 명의 화자 쌍 사이의 쌍방향 대화 비디오로 구성됩니다 (Busso et al., 2008).
비디오는 anger, happiness, sadness, neutral, excitement, and frustration과 같은 세분화 된 감정 범주의 주석으로 발화로 분류됩니다.
IEMOCAP also provides continuous attributes: activation, valence, and dominance.
이 두 가지 유형의 불연속적이고 연속적인 감정 표현은 인간의 감정 표현과 사람들 간의 감정적 의사 소통에 대한 보완적인 통찰력을 촉진합니다.
IEMOCAP의 레이블은 발화 당 최소 3 명의 주석자가 주석을 달았고 자체 평가 마네킹 (SAM)도 말뭉치를 평가하는 데 사용되었습니다 (Bradley and Lang, 1994).

3.4 Comparison with MELD

위에서 언급 한 두 리소스는이 연구 분야에서 광범위하게 사용되며 MELD 구성 요소에 맞는 설정을 포함합니다.
그러나 MELD는 복잡성과 양 측면에서 다릅니다.
Both IEMOCAP and SEMAINE contain dyadic conversations, wherein the dialogues in MELD are multi-party.
다자간 대화는 일대일에 비해 더 어렵습니다.
여러 스피커가 참여할 수있는 유연한 설정을 제공합니다.
연구 관점에서 이러한 가용성을 위해서는 제안 된 대화 모델이 여러 화자에 대해 확장 가능해야합니다.
MELD에는 IEMOCAP 및 SEMAINE에서 주석이 달린 발화의 거의 두 배인 13000 개 이상의 감정 레이블 발화가 포함되어 있습니다.
표 9는 IEMOCAP, SEMAINE 및 MELD와 같은 세 가지 데이터 세트 모두에 대해 사용 가능한 대화 수 및 구성 발화에 대한 정보를 제공합니다.
표 10은 공통 감정 분포를 보여주고 IEMOCAP 및 MELD의 몇 가지 주요 통계를 강조합니다.

4 Experiments

이 실험 결과들은 위에서 언급했듯이, 다자간 대화로 실험한 것들이다.
나는.. 다중 모달리티를 고려하는 것은 아니기 때문에 모델에 대한 간략한 이해와 결과만 살펴보자.

4.1 Feature Extraction

Poria를 따라 MELD의 각 발화에 대한 특징을 추출합니다.
텍스트 기능의 경우 사전 훈련 된 300 차원 GloVe 벡터로 각 토큰을 초기화하고 1D-CNN에 피드하여 100 차원 텍스트 기능을 추출합니다.
오디오의 경우 인기있는 툴킷 openSMILE을 사용합니다.

이 툴킷은 다양한 보컬 및 운율 기능의 여러 하위 수준 설명자와 다양한 통계 기능을 구성하는 6373 차원 기능을 추출합니다.

오디오 표현이 고차원이므로 SVM과 같은 희소 추정기와 함께 L2 기반 기능 선택을 사용하여 전체 오디오 세그먼트를 조밀하게 표현합니다.
baselines의 경우 비디오 기반 화자 식별 및 현지화가 열린 문제이므로 visual features을 사용하지 않습니다.

비디오는 사용하지 않은 이유는 뒤쪽에 Future direction 참고
뭐 어쨋든 텍스트, 오디오만 사용했다.

Bimodal features은 오디오 및 텍스트 기능을 연결하여 얻습니다.

4.2 Baseline Models

To provide strong benchmarks for MELD, we perform experiments with multiple baselines.
Hyperparameter details for each baseline can be found at http://github.com/senticnet/meld.
text-CNN

text-CNN applies CNN to the input utterances without considering the context of the conversation (Kim, 2014).
This model represents the simplest baseline which does not leverage context or multimodality in its approach.

bcLSTM

bcLSTM is a strong baseline proposed by Poria et al. (2017), which represents context using a bi-directional RNN.
It follows a two-step hierarchical process that models uni-modal context first and then bi-modal context features.
For unimodal text, a CNN-LSTM model extracts contextual representations for each utterance taking the GloVe embeddings as input.
For unimodal audio, an LSTM model gets audio representations for each audio utterance feature vector.
Finally, the contextual representations from the unimodal variants are supplied to the bimodal model for classification.
bcLSTM does not distinguish among different speakers and models a conversation as a single sequence.

DialogueRNN

DialogueRNN represents the current state of the art for conversational emotion detection (Majumder et al., 2019).
It is a strong baseline with effective mechanisms to model context by tracking individual speaker states throughout the conversation for emotion classification.
DialogueRNN is capable of handling multi-party conversation so it can be directly applied on MELD.
It employs three stages of gated recurrent units (GRU) (Chung et al., 2014) to model emotional context in conversations.
The spoken utterances are fed into two GRUs: global and party GRU to update the context and speaker state, respectively.
In each turn, the party GRU updates its state based on

1) the utterance spoken,
2) the speaker’s previous state, and
3) the conversational context summarized by the global GRU through an attention mechanism.

Finally, the updated speaker state is fed into the emotion GRU which models the emotional information for classification.
Attention mechanism is used on top of the emotion GRU to leverage contextual utterances by different speakers at various distances.
To analyze the role of multimodal signals, we analyze DialogueRNN and bcLSTM on MELD for both uni and multimodal settings.
Training involved usage of class weights to alleviate imbalance issues.

4.3 Results

우리는 MELD에 대한 sentiment와 emotion 분류의 2가지 테스크에 대한 결과를 제공한다.

여기서 성능은 F-score을 말한는 것이다.
표 13은 DialogueRNN을 사용한 sentiment 분류 성능을 보여주며, 멀티모달 dRNN은(67.56% F-score) 멀티모달 bcLST보다 (66.68% F-score) 더 좋은 성능을 보여준다.

멀티모달 DialogueRNN은unimodal보다 더 좋은 성능을 보여준다.
그러나, (text+audio) fusion 때문에 텍스트 모달리티보다 약 1.4% 성능이 향상되고 더 나은 fusion 메커니즘을 통해 더 성능이 향상될 여지가 있다.
텍스트 모달리티는 오디오 모달리티모다 약 17% 성능이 좋은데, 이는 sentiment 분석에서 spoken 언어의 중요성을 가리킨다.
positive sentiment에서 오디오 모달리티는 성능이 안좋다.

MELD에서 오디오 모달리티가 잡아낼 수 없는 positive 감성을 포함하는 발화와 관련된 단서를 분석하는 것은 흥미로울 것이다.
미래의 연구에서는, 오디오 feature extraction을 강화하여 분류 성능을 향상시키는 것에 집중할 것이다.

테이블 11은 MELD 감정 분류에 대한 베이스라인의 결과를 보여준다.
disgust, fear, and sadness에 대한 감정 클래스 분류 성능은 낮다.
이에 대한 주된 이유는 언급된 감정 클래스에 대한 훈련 인스턴스가 더 적은 데이터 세트의 내재된 불균형 때문입니다 (표 4 참조).
우리는 class-weight을 하이퍼파라미터로 사용하여 부분적으로 이 문제를 해결한다.
그러나 imbalance은 향후 해결해야 할 작업에 대한 추가 개선을 요구합니다.

우리는 또한 anger, disgust, and fear 감정 카테고리에 대한 높은 오분류 비율을 관측하는데, 이러한 감정들은 그들 사이에 미묘한 차이가 있어서 더 어려운 명확성을 가지기 때문이다.
sentiment 분류 경향과 유사하게, 텍스트 classifier은 오디오 classifier보다 더 좋은 성능을 보여준다.
멀티모달 fusion은 감정 인식을 3% 성능 향상을 시켜준다.
그러나, 멀티모달 분류기는 sadness을 분류할 때 텍트스 분류기보다 성능이 안좋다.

bcLSTM에서의 성능을 말하는 것인가? DialogueRNN에서는 T+A가 더 좋음

더욱 분석하기위해, 우리는 덜 발생하는 fear, disgust 감정들은 버리고 5-class emotions에 대한 실험을 수행한다.

당연히 결과는 멀티모달 변형에 의해 훨씬 더 나은 성능으로 7 클래스 설정보다 향상됩니다.

전반적으로 emotion 분류는 sentiment 분류보다 성능이 떨어집니다.
이 관찰은 emotion 분류가 더 세분화 된 클래스로 분류를 다루기 때문에 예상됩니다.

4.4 Additional Analysis

Role of Context.

MELD의 주요 목적중 하나는 ERC에 대한 contextual modeling을 학습하는 것이다.
테이블 11, 13은 text-CNN와 같은 non-contextual model보다 좋음을 보여주는 것이다. (1.4%~2.5%정도 좋아짐)

Inter-speaker influence.

대화형 감정을 모델링하는 동안 중요한 고려사항은 다자간 대화 세팅이다.
우리는 DialogueRNN안의 global GRU에 대한 attention 모듈의 activation을 관찰하여 분석한다.
정확한 테스트 예측의 63%(882/1381)에서 다른 화자의 발화에 가장 높은 historical attention이 주어진다.
이 중요한 비율은 inter-speaker 영향이 파라미터에 중요한 영향인 것이다.
DialogueRNN와 달리 bcLSTM은 감정 검출할 때 speaker information을 활용하지 않는다.

speaker information?? bcLSTM에서는 화자들을 구분하지 않는 식으로 되어있는 것임.

Table 11은 DialogueRNN이 bcLSTM보다 1~2% 더 좋은 성능을 보여준다.
이 결과는 speaker-specific 감정 인식 모델링이 상황 표현을 개선하고 inter-speaker 관계와 같은 중요한 단서를 통합하는데 도움이되므로 유용하다는 Majumder의 주장을 뒷받침합니다.

근데 어떻게 보면 모델링 차이라고 생각할 수도 있을 것 같은데
위 말이 진짜로 사실이려면, bcLSTM+speaker information = DialogueRNN이어야 한다는 것

Emotion shifts.

대화의 흐름에서 스피커들 사이의 감정 변화를 예측하는 능력은 더 좋은 감정 분류와 시너지가 있다.
우리의 결과에서, DialogueRNN은 감정 변화를 검출하는데 66% recall을 달성한다. (단순 감정변화 감지)
그러나, 이상적인 시나리오에서, 우리는 올바른 감정 클래스와 함께 변화를 감지하고 싶다. (즉 감정변화+제대로된 검출)
관찰된 악화는 두 작업을 함께 해결하는 것이 더 복잡하기 때문에 예상됩니다.
더 나은 방법들은 감정 분류를 개선하기 위해, 변화를 감지하는 능력이 필요할 것이다.

즉, 주어진 상황에서 감정을 분류하기보다는, 이전과 감정이 변화됐다는 시그널을 얻는게 중요하다는 것
이 시그널이 없으면, 그전 감정과 그대로 가는 것이고 아니면 변한다는 것을 이용해 새로운 감정을 찾아낸다는 것이므로

Contextual distance.

그림 4는 emotion GRU에서 DialogueRNN의 대화내 대상 발화와 두 번째로 참석 한 발화 사이의 거리 분포를 보여줍니다.
highest attention를 위해 모델은 대상 발화 근처의 발화에 주로 초점을 맞 춥니 다.
그러나 먼 발화에 대한 의존성은 second highest attention에서 더욱 증가합니다.
더욱이, 역사적 발언과 미래 발언 모두에 대한 의존성이 존재하므로 양방향 모델의 활용을 장려하는 것도 흥미 롭습니다.

5 Future Directions

이 데이터세트를 이용한 미래 연구는 contextual modeling을 향상시키는데 집중한다.
모델이 자신의 결정에 대해 추론하도록 돕고, emotional influences을 탐색하고, 감정 변화를 식별하는 것은 유망한 측면입니다.
다른 방향은 비디오에서 사용가능한 visual information을 사용하는 것이다.
다른 여러 사람이 있는 비디오에서 화자의 얼굴을 식별하는 것은 매우 어렵습니다.

다자간 데이터세트이기 때문에 MELD도 마찬가지이다.
MELD 데이터 형식에서 비주얼 부분은 딱 주어지는 것이 아니라, 영상에서 어디 타임스테프에 있는지가 써있다.
이 타임의 한 영상에서 화자에 맞는 대화자를 매칭시키는 것은 어렵다는 것이다.

audio-visual speaker diarization을 활용한 프로세스를 통해 관련 visual features을 추출하여 향상시킬 수 있습니다.

이러한 절차를 통해 기준선에서 시각적 양식을 활용할 수 있습니다.

우리의 결과에서, 오디오 기능은 크게 도움이되지 않습니다.
따라서 우리는 성능을 더욱 향상시키기 위해 이러한 auxiliary modalities에 대한 특징 추출을 개선 할 필요가 있다고 생각합니다.
지금까지 우리는 기능 융합 접근 방식으로 concatenation만 사용했으며 unimodal baselines보다 약 1-3 % 더 우수한 성능을 보여주었습니다.
MARN (Zadeh et al., 2018)과 같은 다른 고급 융합 방법을 사용하여 추가 개선의 여지가 있다고 생각합니다.

6 Applications of MELD (번역)

MELD에는 여러 사용 사례가 있습니다.
생성적 대화 시스템에서 감정 수용체로 더 사용되도록 감정 분류기를 훈련시키는 데 사용할 수 있습니다.
이러한 시스템은 공감 반응을 생성하는 데 사용할 수 있습니다.
대화에서 사용자의 감정 및 성격 모델링에도 사용할 수 있습니다 (Li et al., 2016).
멀티 모달이기 때문에 MELD는 멀티 모달 대화 시스템을 훈련하는 데에도 사용할 수 있습니다.
그 자체로는 엔드-투-엔드 대화 시스템 (표 1)을 훈련 할만큼 충분히 크지는 않지만 MELD를 생성하는 데 사용되는 절차를 채택하여 인기있는 시트콤과 같은 멀티 모달 소스에서 대규모 말뭉치를 생성 할 수 있습니다.
우리는 다중 모드 대화 시스템을 시스템이 응답을 생성하기 위해 이용하는 화자의 음성 및 표정에 액세스 할 수있는 플랫폼으로 정의합니다.
멀티 모달 대화 시스템은 Siri, Google Assistant와 같은 실시간 개인 비서에 매우 유용 할 수 있으며 사용자가 음성과 텍스트 및 얼굴 표정을 사용하여 의사 소통 할 수 있습니다.

7 Conclusion

이 연구에서는 MELD, 멀티모달 다자간 대화 감정 인식 데이터세트를 소개한다.
우리는 이 데이터세트의 제작 과정을 설명했고 강력한 베이스라인을 제공한다.
MELD는 멀티모달 처리를 위해 raw viewdos, audio segments, transcrips을 포함한다.
추가적으로, 우리는 우리의 베이스라인 실험에서 사용되는 features을 제공한다.
우리는 이 데이터세트가 ERC와 멀티모달 감정 대화 생성 모두의 학습 코퍼스로 유용할 것으로 믿는다.
이 데이터세트위에서, 미래 연구는 효율적인 멀티모달 fusion 알고리즘인 새로운 ERC 프레임워크를 탐구할 뿐 아니라 audio, visual, and textual modalities의 새로운 특징을 뽑을 것이다.

Reference

https://www.aclweb.org/anthology/P19-1050.pdf

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-091, MELD: A Multimodal Multi-Party Dataset for Emotion Recognition in Conversations, (2019-ACL)

◼️ Comment

0. Abstract

1 Introduction

2 EmotionLines Dataset

2.1 Annotation

3 Multimodal EmotionLines Dataset (MELD) (번역)

3.1 Dataset Re-annotation

3.2 Dataset Exploration

3.3 Related Datasets

3.4 Comparison with MELD

4 Experiments

4.1 Feature Extraction

4.2 Baseline Models

4.3 Results

4.4 Additional Analysis

5 Future Directions

6 Applications of MELD (번역)

7 Conclusion

댓글

댓글 쓰기