NL-091, MELD: A Multimodal Multi-Party Dataset for Emotion Recognition in Conversations, (2019-ACL)

◼️ Comment

  • 일단 논문이 상당히 길다.. 데이터세트 논문이라 데이터세트에 대한 여러 가지 분석과 베이스라인까지 설명하기 때문에
  • 데이터 세트 설명은 간략하게 다음과 같다.
    • EmotionLines이라는 ERC 텍스트 데이터세트가 있다.
    • 이 데이터세트에서 조금 이상한(잘못된) 부분을 필터링하고 멀티모달로 확장시켰다.
    • 따라서 오디오, 비주얼을 같이 제공하는데, 비주얼은 그 대화의 타임스탭(씬)을 제공하기 때문에 화자의 얼굴을 크로핑해서 제공하는 것이 아니다.
    • 즉 주어진 영상에서 화자의 얼굴을 매칭시키는 것은 또 다른 문제라고 설명하고 이 때문에 베이스라인은 text+audio에 관한 실험만 진행한다.
    • 또한 Friends 티비 프로그램에서 수집한 데이터세트로 다자간 대화를 다루지만, 두 명의 대화로 쪼개서 제공하기도 한다. (사실 이 두명의 데이터는 다자간 대화를 쪼갠 것이기 때문에 완벽한 두 명의 대화라고 보긴 어렵기는 하다)
    • 다중 annotation을 통해 다수결을 따르지만, 다수결이 안되는 경우 데이터를 삭제한다.
    • 감정 클래스는 Ekman+neutral, 감성 클래스 sentiment 를 제공한다.
  • 베이스라인 및 실험들
    • 두 개의 모델 bcLSTM과 dialogueRNN을 이용하여 실험한다.
    • 1) text, auidio, t+a을 이용한 실험을 해보니 오디오를 사용하면 성능은 올라가는데 생각보다 audio의 영향이 크지는 않다.
      • 물론 fusion 방식을 단순히 concat하였기 때문일 수도 있다고 하므로 이 부분은 future work이다.
    • 2) 그리고 dialogueRNN에서 attention 부분을 확인해보면, 실제 감정을 예측할 때 다른 대화를 많이 참고한다고 한다.
    • 3) 또한 감정 클래스가 불균등한데, 이것 때문에 적은 데이터 양을 가진 클래스는 성능이 낮은 결과를 보여준다.
      • 당연 감정이 아닌 감성분류로 하면 성능이 더 향상된다.
      • 추가적으로 데이터양이 적은 fear, disgust 클래스를 없애고 5-class 실험을해도 기존 클래스 세팅보다 성능이 향상된다고 한다.
    • 4) (당연히) 실험에서 context를 활용한 것과 단순히 문장 감정분류를 했을 때 비교해보면 context을 사용한 모델 성능이 더 좋다고 한다. 
    • 5) 또한 emotion shift라는 것도 언급하는데, 이는 감정의 변화가 일어나는 것을 검출하는 것이다.
      • 이 부분을 검출하면 더 좋은 성능을 도출할 수 있을 것이라 언급한다.
    • 6) 또한 inter-speaker influence라는 것도 언급하는데 이는 bcLSTM과 dialogueRNN의 차이이다.
      • bcLSTM에서는 대화 히스토리에 화자가 누군지를 구별안하는 방법이라고 한다.
      • 이것 때문에 spekaer을 구분지은 dialogueRNN이 성능이 좋다고 하는데, 모델링 차이도 있지 않을까 싶다.
      • 즉 dialogueRNN에서 speaker-information을 제외하고 실험해야 더 정확한 비교가 가능은 해보인다.

0. Abstract

  • ERC는 최근 가능성 있는 어플리케이션 때문에 많은 유행을 얻고 있는 챌린지 테스크이다.
  • 최근 까지, 그러나, 한 대화당 두 명 이상을 포함하는 많은 multimodal multi-party 감정 대화 데이터베이스가 없었다.
  • 이 차이를 해결하기 위해, 우리는 Multimodal EmotionLines Dataset (MELD)을 소개하고, 이는 EmotionLines의 확장 및 개선된 버전이다.
  • MELD는 TV 시리즈 프렌즈에서 1,433 대화의 약 13,000 담화를 가지고 있다.
  • 각 대화는 emotion과 sentiment labels으로 어노테이트되어 있고 audio, visual, textual 모달리티들을 포함하고 있다.
  • 우리는 몇 개의 강력한 multimodal 베이스라인들을 소개하고 ERC을 위한 contextual와 multimodal 정보의 중요성을 보여준다.
  • The full dataset is available for use at http://affective-meld.github.io

1 Introduction

  • AI의 급성장과 함께, 멀티모달 감정 인식은 주요 연구 분야가 되었다.
    • 이는 대화 생성, 사용자 행동 이해, 멀티모달 상호작용 등등 많은 챌린지 테스크에서 잠재적 적용 가능성이 있기 때문이다.
  • 대화형 감정 인식 시스템은 사용자의 감정을 분석하여 적절한 반응을 생성하는데 사용되곤 했다.
  • 오디오, 비주얼, 텍스트 모듈을 사용하는 멀티 모달 감정 인식 연구 작업이 상당히 진행되어 왔지만, ERC에서의 (대화 속에서의 감정 인식) 연구는 상당히 적다.
  • 한 가지 주요 이유는 방대한 멀티모달 대화 데이터세트가 부족하기 때문이다.
  • Poria에 따르면, ERC는 대화형 context modeling, 대화자(interlocutors)의 emotion shift, 그리고 다른 여러 챌린지에서 소개되었고, 이는 몇 가지 과제를 제시하여 더욱 해결하기 어렵게 한다.
  • 최근 연구는 멀티모달 메모리 네트워크들을 기반으로 해결책을 제시한다.
    • 그러나, 그들은 대부분 두 명의 대화에 제한되어있고, 그래서 다중 대화자의 ERC로 확되지는 않는다.
    • 이것은 다중 대화자의 대화형 데이터 리소스가 이러한 방향으로의 연구를 촉진시킬 수 있다.
  • 대화에서, 참여자들의 담화들은 일반적으로 그들의 대화형 컨텍스트에 의존하게 된다.
    • 이것은 또한 관련된 감정들에게도 해당된다.
  • 다른 말로는, context는 특정된 감정을 표현하면서, 담화를 말하는 사람에게 영향을 미치는 파라미터들의 셋으로써 행동한다.
    • 쉽게 말해서, 이전의 대화 context가 앞으로 말할 컨텍스트에 영향 미친다 이말 (이것을 파라미터라고 말한 듯. 모델로 보면 파라미터가 맞긴하지..)
  • 이러한 컨텍스트를 모델링하는 것은 다른 방법들이 있다.
    • 예) RNN과 메모리 네트워크를 사용하는 것
    • 그림 1은 대화가 진행됨에 따라 화자가 감정을 바꾸는 (감정 변화) 예를 보여준다.
  • 감정적인 원동력은 이전의 담화들과 그들의 관련된 감정들에 의존한다.
  • 예를 들어, 그림의 8번째 담화에서 감정 변화는 두 사람의 얼굴 표현과 대화 히스토리를 참고하지 않으면 결정하기 어렵다.
  • 이러한 복잡한 화자간 종속성과 같은 모델링은 대화형 모델링에 챌린지한 부분이다.
  • 자연스러운 형식의 대화는 멀티모달이다
    • 대화에서, 우리는 상대방의 얼굴 표현, vocal tonality, 언어, 제스터로 상대방의 스탠스를 예측한다.
    • 감정 인식의 경우, 멀티모달리티는 특별히 중요하다.
  • 이해하기 어려운 언어의 담화의 경우, 우리는 종종 다른 모달리티로부터 (운율 및 시각적 정보) 그들의 감정을 식별한다.

    • 그림 2에서는 그들의 감정과 감성을 제대로 예측하기 위해, 텍스트 그자체외에 멀미모달 시그널이 필요한 데이터세트의 예제를 보여준다.
  • 시퀀스 턴들의 멀티모달 감정 인식은 많은 여러 개의 챌린지를 포함한다.
  • 한 가지 예제는 짧은 담화의 분류이다.
    • 'yeah', 'okay', 'no'와 같은 담화는 대화의 context와 discourse에 의존하는 다양한 감정들을 표현할 수 있다.
  • 그러나, 텍스트만으로 감정을 인지하는 어려움 떄문에, 대부분 모델들은 다수의 클래스를 할당한다. (ex. EmotionLines안의 non-neutral)
  • 대략 MELD의 42% 담화는 5개 단어들보다 짧다.
  • 우리는 그래서, 각 대화의 멀티모달 데이터 소스 접근을 제공하고 추가 정보가 컨텍스트 표현을 개선한다.
    • 여기서 다른 모달리티에서 누락되거나 오도하는 신호를 보완함으로써 감정 인식 작업에 도움이 될 것이라고 가정합니다.
  • 스피커의 얼굴 표현 혹은 말의 억양과 같은 attributes의 추가적인 정보는 더 좋은 분류에 대한 가이드를 할 수 있다.
  • 우리는 또한 우리의 실험을 통하여 이러한 주장들을 입증한다.
  • 대화형 AI의 개발은 contextual와 multimodal 정보 사용에 의존하게된다.
  • 1) 사용가능한 멀티모달 ERC 데이터세트는 IEMOCAP와 SEMAINE이다.
    • 이들은 꽤 많은 연구 프로젝트에서 활용되지만, 전체 담화의 수가 적고 여려 명의 대화에 대한 부족에 대한 한계가 있다.
  • 2) 다른 멀티모달 감정과 감성 분석 데이터세트로는 MOSEI, MOSI, MOUD가 있으나, 이들은 대화 대신에 개인적인 내러티브(독백)을 포함한다.
    • 화자가 1명인 혼잣말 정도라고 생각하면 될듯?
  • 3) 반면에, EmotionLines은 두 명 이상을 포함한, 유명한 티비 시리즈 Freinds을 포함하는 데이터세트이다.
    • 그러나, EmotionLines은 다른 모달리티들의 데이터를 제공하지 않아서 오직 텍스트 분석으로만 사용이 될 수 있다.
  • 이 연구에서는, 우리는 EmotionLines 데이터세트를 멀티모달 시나리오에 대해 더욱 확장, 개선, 발전시킨다.
  • 우리는 멀티모달 EmotionLines Dataset (MELD)을 제안하고, 이는 텍스트 대화뿐만이 아니라 해당하는 비주얼, 오디오 파트를 포함한다.
  • 이 논문은 다음의 컨트리뷰션이 있다.
    • MELD는 여러 변형가능한 이전의 데이터세트를 분류하는데 챌린지한 다중참여 대화를 포함한다.
    • MELD에는 13,000 보다 많은 담화들이 있고, 이는 우리의 데이터세트는 기존의 멀티모달 대화 데이터세트보다 거의 2배이다.
    • MELD는 멀티모달 소스를 제공하고 강화된 grounded learning을 위한 멀티모달 감정의 대화 시스템을 사용할 수 있다.
    • 우리는 Majumder가 제안한 강력한 베이스라인을 만들고, 이는 대화자들의 dependency modeling을 통해 다중참여 대화의 ERC가 가능하다.
      •  DialogueRNN: An attentive RNN for emotion detection in conversations. 

2 EmotionLines Dataset

  • MELD 데이터세트는 EmotionLines에서부터 발전한다.
  • EmotionLines은 유명한 시트콤 Friends의 대화들을 포함하고, 각 대화들은 다중 대화자들의 담화를 포함한다.
  • EmotionLines는 각 에피소드의 대화를 크롤링 한 다음 대화의 발화 수에 따라 각각 [5, 9], [10, 14], [15, 19], [20, 24]의 네 그룹으로 그룹화하여 만들었습니다. ].
  • Finally, 250 dialogues were sampled randomly from each of these groups, resulting in the final dataset of 1,000 dialogues.

2.1 Annotation

  • 각 대화의 발화는 가장 적절한 감정 범주로 주석 처리되었습니다.
  • 이를 위해 Ekman의 여섯 가지 보편적 감정 (Joy, Sadness, Fear, Anger, Surprise, and Disgust)이 어노테이션 라벨로 간주되었습니다.
  • 이 주석 목록은 Neutral and Non-Neutral의 두 가지 추가 감정 레이블로 확장되었습니다.
  • Amazon Mechanical Turk (AMT) 플랫폼의 작업자 5 명이 각 발화에 주석을 달았습니다.
  • 각 발화에 대한 최종 감정 레이블을 선택하기 위해 다수결 방식이 적용되었습니다. 
  • 이 주석 프로세스의 전체 Fleiss의 카파 점수는 0.34 점입니다.

3 Multimodal EmotionLines Dataset (MELD) (번역)

  • 데이터 만드는 과정은 가볍게 번역기로 스크리닝... 색깔 입힌 글이 핵심이라 생각
  • EmotionLines 데이터 세트의 모든 대화에서 모든 발화의 시작 및 종료 타임 스탬프를 추출하여 MELD 말뭉치 구성을 시작합니다.
  • 이를 위해 우리는 모든 에피소드의 자막을 탐색하고 각각의 타임 스탬프를 경험적으로 추출합니다.
  • 특히 다음과 같은 제약을 적용합니다.
    • 1. 대화에서 발화의 타임 스탬프는 오름차순이어야합니다.
    • 2. 대화의 모든 발화는 동일한 에피소드와 장면에 속해야합니다.
  • 이러한 제약으로 인해 일부 대화가 장면이나 에피소드에 걸쳐있는 EmotionLines에서 몇 가지 특이점이 드러났습니다.
  • 예를 들어, 표 2의 대화에는 각각 시즌 6과 5의 에피소드 4와 20의 두 가지 자연스러운 대화가 포함되어 있습니다.
  • 우리는 이러한 이상(anomalies)을 걸러 내기로 결정했고, 그 결과 MELD에서 EmotionLines와 비교하여 총 대화 수가 다릅니다 (표 1 참조).

  • 다음으로 각 발화에 레이블을 지정하기 위해 3 명의 어노 테이터를 사용하고 발화의 최종 레이블을 결정하기 위해 다수결 투표를합니다.
  • 세 가지 주석이 모두 다른 발화를 몇 개 삭제하고 일관성을 유지하기 위해 해당 대화도 제거합니다.
  • 11 개의 대화에 걸쳐 총 89 개의 발화가이 범주에 속했습니다.
  • 마지막으로 각 발화의 타임 스탬프를 얻은 후 소스 에피소드에서 해당 시청각 클립을 추출한 다음 이러한 클립에서 오디오 콘텐츠를 추출합니다.
  • 추가 처리를 위해 오디오 파일을 16 비트 PCM WAV 파일로 포맷합니다.
  • 최종 데이터 세트에는 각 발화에 대한 시각, 청각 및 텍스트 양식이 포함됩니다.

3.1 Dataset Re-annotation

  • 원본 EmotionLines 데이터 세트의 발화는 대본 만보고 주석을 달았습니다.
  • 그러나 다중 모드에 중점을두기 때문에 세 주석 자에게 발화의 사용 가능한 비디오 클립도 보도록 요청하여 모든 발화에 다시 주석을 달았습니다.
  • 그런 다음 과반수 투표를 사용하여 각 발화에 대한 최종 레이블을 얻습니다.
  • 어노 테이터는 영어 말하기와 쓰기 능력이 높은 대학원생이었습니다. 
  • 주석을 시작하기 전에 몇 가지 예를 통해 주석 프로세스에 대해 간략히 설명했습니다.
  • Kappa 점수가 0.34 (IEMOCAP 주석 프로세스의 kappa는 0.4) 인 원래 EmotionLines 주석보다 높은 전체 Fleiss의 kappa 점수 0.43을 달성하여 주석 프로세스 중 추가 양식의 유용성을 시사합니다.
  • EmotionLines 데이터 세트의 2,772 개의 발화는 비 중립으로 분류되었으며, 어노 테이터는 감정이 중립적이지 않다는 데 동의했지만 올바른 감정 레이블에 대한 합의에 도달 할 수 없었습니다.
    • 이것은 중립적이지 않은 발화 공간과 다른 감정 라벨 공간이 합쳐지면서 분류를 방해합니다.
    • 우리의 경우, 우리는 애노 테이터가 명확한 감정 라벨에 대한 합의에 도달하지 못하는 발화를 제거합니다. (즉 EmotionLines에서 감정은 있지만, 하나의 감정으로 합의 못하며 삭제한 것이 2772개)
  • 어노테이션 프로세스의 불일치 수는 89 개로 EmotionLines의 2,772 개 불일치보다 훨씬 적으며 멀티 모달 데이터 세트를 통해 얻은 어노테이션 개선을 다시 반영합니다.
  • 표 3은 어노 테이터가 합의에 도달하지 못한 발화의 예를 보여줍니다.
  • 표 4는 EmotionLines와 MELD 데이터 세트 간의 레이블 방식 비교를 보여줍니다.
  • MELD의 대부분의 발화에서 주석은 EmotionLines의 원래 주석과 일치합니다.
  • 그러나 재 주석 과정에서 발화가 변경된 샘플이 상당량 존재합니다.
  • 예를 들어, This guy fell asleep! (표 5 참조), EmotionLines에서 중립적이지 않은 것으로 표시되었지만 관련 비디오 클립을 본 후 MELD에서 분노로 올바르게 다시 표시됩니다.

  • 이 발화 영상은 분노와 좌절감을 느끼는 표정과 높은 보컬 피치를 보여 주어 정확한 감정을 인식하는 데 도움이된다.
  • EmotionLines의 어노 테이터는 컨텍스트에 액세스 할 수 있었지만, 추가 모달리티의 가용성이 언젠가 그러한 인스턴스의 분류에 대해 더 많은 정보를 가져올 수 있으므로 충분하지 않았습니다.
  • 이러한 시나리오는 대화에서 감정을 인식하는 데 중요한 측면이 될 컨텍스트와 다중 양식 모두를 정당화합니다.
  • Timestamp alignment. 
    • 자막 파일의 동일한 타임 스탬프 내에서 그룹화 된 자막에 많은 발화가 있습니다.
    • 각 발화에 대한 정확한 타임 스탬프를 찾기 위해 우리는 오디오에서 단어 수준의 타임 스탬프를 추출하여 대본을 오디오와 자동으로 정렬하는 전사 정렬 도구 Gentle을 사용합니다 (표 6 참조).
    • 표 7에서는 MELD 데이터 세트의 최종 형식을 보여줍니다.

  • Dyadic MELD. (완벽한 2명 대화라고 보기는 어렵다)
    • 또한 확장 불가능한 MELD의 모든 연속 이원 하위 대화가 추출되는 MELD의 또 다른 버전을 제공합니다.
    • 예를 들어, 스피커 ID가 1, 2, 3 인 MELD의 3 자 대화가 [1, 2, 1, 2, 3, 2, 1, 2] 순서대로 진행되도록합니다.
    • 이 대화 시퀀스에서 dyadic MELD는 [1, 2, 1, 2], [2, 3, 2] 및 [2, 1, 2]와 같은 하위 대화를 샘플로 갖게됩니다.
    • 그러나 이 백서에보고 된 결과는 MELD의 다자간 변형만을 사용하여 얻은 것입니다.

3.2 Dataset Exploration

  • 앞서 언급했듯이, 우리는 훈련, 개발 및 테스트 분할에서 분노, 혐오, 두려움, 기쁨, 중립, 슬픔 및 놀라움과 같은 7 가지 감정을 주석에 사용합니다 (표 4 참조).
  • 데이터 세트의 감정 분포는 대부분의 감정이 중립적이며 예상대로 불균일하다는 것을 알 수 있습니다.
  • We have also converted these fine-grained emotion labels into more coarse-grained sentiment classes by considering anger, disgust, fear, sadness as negative, joy as positive, and neutral as neutral sentiment-bearing class. 
  • Surprise는 긍정적 인 감정과 부정적인 감정으로 표현할 수있는 복잡한 감정의 한 예입니다.
    • GoEmotions에서 보면 Ekman의 surprise는 ambiguous로 처리한다.
    • 여기서는 surprise을 pos, neg로 따로 또 분리하였음
  • 발화 어노테이션을 수행 한 세 명의 어노 테이터는 놀라운 발화를 긍정적 또는 부정적인 감정 클래스로 추가 주석을 달았습니다.
  • 전체 감정 주석 작업이 Fleiss의 카파 점수 0.91에 도달합니다.
  • 긍정적, 부정적, 중립적 감정 등급의 분포는 표 4에 나와 있습니다.
  • 표 8은 데이터 세트의 몇 가지 주요 통계를 보여줍니다.
  • 평균 발화 길이 (즉, 발화의 단어 수)는 학습, 개발 및 테스트 분할에서 거의 동일합니다.
  • 평균적으로 데이터 세트의 각 대화에는 세 가지 감정이 있습니다. 평균 발화 시간은 3.59 초입니다.
  • 대화에서 화자의 감정 변화는 감정 인식 작업을 매우 어렵게 만듭니다.
  • 우리는 대화에서 화자의 연속적인 발화에서 그러한 감정 변화의 수가 매우 빈번하다는 것을 관찰합니다.
    • 4003, 427, and 1003 in train/dev/test splits, respectively
  • 그림 1은 대화에서 화자의 감정이 시간에 따라 변하는 예를 보여줍니다.
  • Character Distribution. 

    • 그림 3에서는 MELD의 기본 캐릭터에 대한 배포 세부 정보를 보여줍니다.
    • 그림 a와 b는 각각 감정과 정서 레이블의 분포를 보여줍니다.
    • 그림 c는 데이터 세트 전체에서 발표자의 전체 범위를 보여줍니다.
    • 자주 사용하지 않는 여러 발언자 (<1 % 발화)는 기타로 그룹화됩니다.

3.3 Related Datasets

  • 다중 모드 감정 분석 및 감정 인식에서 사용 가능한 대부분의 데이터 세트는 nonconversational입니다.
  • MOSI (Zadeh et al., 2016b), MOSEI (Zadeh et al., 2018) 및 MOUD (Perez-Rosas ´ et al., 2013)는 연구 커뮤니티에서 상당한 관심을 끌었던 예입니다.
  • 반면에 IEMOCAP과 SEMAINE은 대화의 각 발화가 감정으로 분류되는 인기있는 두 가지 대화 형 데이터 세트입니다.
  • The SEMAINE Database
    • SEMAINE 데이터베이스는 지속적이고 감정적 인 대화에 참여할 수있는 에이전트를 구축하기 위해 만들어진 시청각(audiovisual) 데이터베이스입니다 (McKeown et al., 2012).
    • 사람과 작업자 (기계 또는 기계를 시뮬레이션하는 사람)가 관련된 상호 작용으로 구성됩니다.
    • 데이터 세트에는 150 명의 참가자, 959 개의 대화가 포함되어 있으며 각 대화는 약 5 분 동안 지속됩니다.
    • 이 데이터 세트의 하위 집합은 AVEC 2012의 완전 연속 하위 과제 (Schuller et al., 2012)에서 사용되었으며,  four continuous affective dimensions: arousal, expectancy, power, and valence을 예측해야합니다.
    • gold annotations는 5, 816 개의 발화로 구성된 총 95 개의 동영상에 대해 각 동영상에서 0.2 초마다 사용할 수 있습니다.
  • The Interactive Emotional Dyadic Motion Capture Database (IEMOCAP)
    • IEMOCAP는 다양한 대화 시나리오의 10 시간에 걸쳐 10 명의 화자 쌍 사이의 쌍방향 대화 비디오로 구성됩니다 (Busso et al., 2008).
    • 비디오는 anger, happiness, sadness, neutral, excitement, and frustration과 같은 세분화 된 감정 범주의 주석으로 발화로 분류됩니다.
    • IEMOCAP also provides continuous attributes: activation, valence, and dominance. 
    • 이 두 가지 유형의 불연속적이고 연속적인 감정 표현은 인간의 감정 표현과 사람들 간의 감정적 의사 소통에 대한 보완적인 통찰력을 촉진합니다.
    • IEMOCAP의 레이블은 발화 당 최소 3 명의 주석자가 주석을 달았고 자체 평가 마네킹 (SAM)도 말뭉치를 평가하는 데 사용되었습니다 (Bradley and Lang, 1994).

3.4 Comparison with MELD 

  • 위에서 언급 한 두 리소스는이 연구 분야에서 광범위하게 사용되며 MELD 구성 요소에 맞는 설정을 포함합니다.
  • 그러나 MELD는 복잡성과 양 측면에서 다릅니다.
  • Both IEMOCAP and SEMAINE contain dyadic conversations, wherein the dialogues in MELD are multi-party. 
  • 다자간 대화는 일대일에 비해 더 어렵습니다. 
  • 여러 스피커가 참여할 수있는 유연한 설정을 제공합니다.
  • 연구 관점에서 이러한 가용성을 위해서는 제안 된 대화 모델이 여러 화자에 대해 확장 가능해야합니다.
  • MELD에는 IEMOCAP 및 SEMAINE에서 주석이 달린 발화의 거의 두 배인 13000 개 이상의 감정 레이블 발화가 포함되어 있습니다.
  • 표 9는 IEMOCAP, SEMAINE 및 MELD와 같은 세 가지 데이터 세트 모두에 대해 사용 가능한 대화 수 및 구성 발화에 대한 정보를 제공합니다.

  • 표 10은 공통 감정 분포를 보여주고 IEMOCAP 및 MELD의 몇 가지 주요 통계를 강조합니다.

4 Experiments 

  • 이 실험 결과들은 위에서 언급했듯이, 다자간 대화로 실험한 것들이다.
  • 나는.. 다중 모달리티를 고려하는 것은 아니기 때문에 모델에 대한 간략한 이해와 결과만 살펴보자.

4.1 Feature Extraction

  • Poria를 따라 MELD의 각 발화에 대한 특징을 추출합니다.
  • 텍스트 기능의 경우 사전 훈련 된 300 차원 GloVe 벡터로 각 토큰을 초기화하고 1D-CNN에 피드하여 100 차원 텍스트 기능을 추출합니다.
  • 오디오의 경우 인기있는 툴킷 openSMILE을 사용합니다.
    • 이 툴킷은 다양한 보컬 및 운율 기능의 여러 하위 수준 설명자와 다양한 통계 기능을 구성하는 6373 차원 기능을 추출합니다.
  • 오디오 표현이 고차원이므로 SVM과 같은 희소 추정기와 함께 L2 기반 기능 선택을 사용하여 전체 오디오 세그먼트를 조밀하게 표현합니다.
  • baselines의 경우 비디오 기반 화자 식별 및 현지화가 열린 문제이므로 visual features을 사용하지 않습니다.
    • 비디오는 사용하지 않은 이유는 뒤쪽에 Future direction 참고
    • 뭐 어쨋든 텍스트, 오디오만 사용했다.
  • Bimodal features은 오디오 및 텍스트 기능을 연결하여 얻습니다.

4.2 Baseline Models

  • To provide strong benchmarks for MELD, we perform experiments with multiple baselines. 
  • Hyperparameter details for each baseline can be found at http://github.com/senticnet/meld.
  • text-CNN
    • text-CNN applies CNN to the input utterances without considering the context of the conversation (Kim, 2014). 
    • This model represents the simplest baseline which does not leverage context or multimodality in its approach
  • bcLSTM
    • bcLSTM is a strong baseline proposed by Poria et al. (2017), which represents context using a bi-directional RNN
    • It follows a two-step hierarchical process that models uni-modal context first and then bi-modal context features
    • For unimodal text, a CNN-LSTM model extracts contextual representations for each utterance taking the GloVe embeddings as input. 
    • For unimodal audio, an LSTM model gets audio representations for each audio utterance feature vector. 
    • Finally, the contextual representations from the unimodal variants are supplied to the bimodal model for classification. 
    • bcLSTM does not distinguish among different speakers and models a conversation as a single sequence.
  • DialogueRNN
    • DialogueRNN represents the current state of the art for conversational emotion detection (Majumder et al., 2019). 
    • It is a strong baseline with effective mechanisms to model context by tracking individual speaker states throughout the conversation for emotion classification. 
    • DialogueRNN is capable of handling multi-party conversation so it can be directly applied on MELD. 
    • It employs three stages of gated recurrent units (GRU) (Chung et al., 2014) to model emotional context in conversations. 
    • The spoken utterances are fed into two GRUs: global and party GRU to update the context and speaker state, respectively. 
    • In each turn, the party GRU updates its state based on 
      • 1) the utterance spoken, 
      • 2) the speaker’s previous state, and 
      • 3) the conversational context summarized by the global GRU through an attention mechanism. 
    • Finally, the updated speaker state is fed into the emotion GRU which models the emotional information for classification. 
    • Attention mechanism is used on top of the emotion GRU to leverage contextual utterances by different speakers at various distances. 
    • To analyze the role of multimodal signals, we analyze DialogueRNN and bcLSTM on MELD for both uni and multimodal settings. 
    • Training involved usage of class weights to alleviate imbalance issues.

4.3 Results

  • 우리는 MELD에 대한 sentiment와 emotion 분류의 2가지 테스크에 대한 결과를 제공한다.
    • 여기서 성능은 F-score을 말한는 것이다.
    • 표 13은 DialogueRNN을 사용한 sentiment 분류 성능을 보여주며, 멀티모달 dRNN은(67.56% F-score) 멀티모달 bcLST보다 (66.68% F-score) 더 좋은 성능을 보여준다.
  • 멀티모달 DialogueRNN은unimodal보다 더 좋은 성능을 보여준다.
  • 그러나, (text+audio) fusion 때문에 텍스트 모달리티보다 약 1.4% 성능이 향상되고 더 나은 fusion 메커니즘을 통해 더 성능이 향상될 여지가 있다. 
  • 텍스트 모달리티는 오디오 모달리티모다 약 17% 성능이 좋은데, 이는 sentiment 분석에서 spoken 언어의 중요성을 가리킨다.
  • positive sentiment에서 오디오 모달리티는 성능이 안좋다.
    • MELD에서 오디오 모달리티가 잡아낼 수 없는 positive 감성을 포함하는 발화와 관련된 단서를 분석하는 것은 흥미로울 것이다.
    • 미래의 연구에서는, 오디오 feature extraction을 강화하여 분류 성능을 향상시키는 것에 집중할 것이다.
    • 테이블 11은 MELD 감정 분류에 대한 베이스라인의 결과를 보여준다.
    • disgust, fear, and sadness에 대한 감정 클래스 분류 성능은 낮다.
    • 이에 대한 주된 이유는 언급된 감정 클래스에 대한 훈련 인스턴스가 더 적은 데이터 세트의 내재된 불균형 때문입니다 (표 4 참조).
    • 우리는 class-weight을 하이퍼파라미터로 사용하여 부분적으로 이 문제를 해결한다.
    • 그러나 imbalance은 향후 해결해야 할 작업에 대한 추가 개선을 요구합니다.
  • 우리는 또한 anger, disgust, and fear 감정 카테고리에 대한 높은 오분류 비율을 관측하는데, 이러한 감정들은 그들 사이에 미묘한 차이가 있어서 더 어려운 명확성을 가지기 때문이다.
  • sentiment 분류 경향과 유사하게, 텍스트 classifier은 오디오 classifier보다 더 좋은 성능을 보여준다.
  • 멀티모달 fusion은 감정 인식을 3% 성능 향상을 시켜준다.
  • 그러나, 멀티모달 분류기는 sadness을 분류할 때 텍트스 분류기보다 성능이 안좋다.
    • bcLSTM에서의 성능을 말하는 것인가? DialogueRNN에서는 T+A가 더 좋음
  • 더욱 분석하기위해, 우리는 덜 발생하는 fear, disgust 감정들은 버리고 5-class emotions에 대한 실험을 수행한다.
    • 당연히 결과는 멀티모달 변형에 의해 훨씬 더 나은 성능으로 7 클래스 설정보다 향상됩니다.
  • 전반적으로 emotion 분류는 sentiment 분류보다 성능이 떨어집니다.
  • 이 관찰은 emotion 분류가 더 세분화 된 클래스로 분류를 다루기 때문에 예상됩니다.

4.4 Additional Analysis 

  • Role of Context. 
    • MELD의 주요 목적중 하나는 ERC에 대한 contextual modeling을 학습하는 것이다.
    • 테이블 11, 13은 text-CNN와 같은 non-contextual model보다 좋음을 보여주는 것이다. (1.4%~2.5%정도 좋아짐)
  • Inter-speaker influence. 
    • 대화형 감정을 모델링하는 동안 중요한 고려사항은 다자간 대화 세팅이다.
    • 우리는 DialogueRNN안의 global GRU에 대한 attention 모듈의 activation을 관찰하여 분석한다.
    • 정확한 테스트 예측의 63%(882/1381)에서 다른 화자의 발화에 가장 높은 historical attention이 주어진다.
    • 이 중요한 비율은 inter-speaker 영향이 파라미터에 중요한 영향인 것이다.
    • DialogueRNN와 달리 bcLSTM은 감정 검출할 때 speaker information을 활용하지 않는다.
      • speaker information?? bcLSTM에서는 화자들을 구분하지 않는 식으로 되어있는 것임.
    • Table 11은 DialogueRNN이 bcLSTM보다 1~2% 더 좋은 성능을 보여준다.
    • 이 결과는 speaker-specific 감정 인식 모델링이 상황 표현을 개선하고 inter-speaker 관계와 같은 중요한 단서를 통합하는데 도움이되므로 유용하다는 Majumder의 주장을 뒷받침합니다.
      • 근데 어떻게 보면 모델링 차이라고 생각할 수도 있을 것 같은데
      • 위 말이 진짜로 사실이려면, bcLSTM+speaker information = DialogueRNN이어야 한다는 것
  • Emotion shifts. 
    • 대화의 흐름에서 스피커들 사이의 감정 변화를 예측하는 능력은 더 좋은 감정 분류와 시너지가 있다.
    • 우리의 결과에서, DialogueRNN은 감정 변화를 검출하는데 66% recall을 달성한다. (단순 감정변화 감지)
    • 그러나, 이상적인 시나리오에서, 우리는 올바른 감정 클래스와 함께 변화를 감지하고 싶다. (즉 감정변화+제대로된 검출)
    • 관찰된 악화는 두 작업을 함께 해결하는 것이 더 복잡하기 때문에 예상됩니다.
    • 더 나은 방법들은 감정 분류를 개선하기 위해, 변화를 감지하는 능력이 필요할 것이다.
      • 즉, 주어진 상황에서 감정을 분류하기보다는, 이전과 감정이 변화됐다는 시그널을 얻는게 중요하다는 것
      • 이 시그널이 없으면, 그전 감정과 그대로 가는 것이고 아니면 변한다는 것을 이용해 새로운 감정을 찾아낸다는 것이므로
  • Contextual distance. 
    • 그림 4는 emotion GRU에서 DialogueRNN의 대화내 대상 발화와 두 번째로 참석 한 발화 사이의 거리 분포를 보여줍니다.
    • highest attention를 위해 모델은 대상 발화 근처의 발화에 주로 초점을 맞 춥니 다.
    • 그러나 먼 발화에 대한 의존성은 second highest attention에서 더욱 증가합니다.
    • 더욱이, 역사적 발언과 미래 발언 모두에 대한 의존성이 존재하므로 양방향 모델의 활용을 장려하는 것도 흥미 롭습니다.

5 Future Directions

  • 이 데이터세트를 이용한 미래 연구는 contextual modeling을 향상시키는데 집중한다.
  • 모델이 자신의 결정에 대해 추론하도록 돕고, emotional influences을 탐색하고, 감정 변화를 식별하는 것은 유망한 측면입니다.
  • 다른 방향은 비디오에서 사용가능한 visual information을 사용하는 것이다.
  • 다른 여러 사람이 있는 비디오에서 화자의 얼굴을 식별하는 것은 매우 어렵습니다.
    • 다자간 데이터세트이기 때문에 MELD도 마찬가지이다.
    • MELD 데이터 형식에서 비주얼 부분은 딱 주어지는 것이 아니라, 영상에서 어디 타임스테프에 있는지가 써있다.
    • 이 타임의 한 영상에서 화자에 맞는 대화자를 매칭시키는 것은 어렵다는 것이다.
  • audio-visual speaker diarization을 활용한 프로세스를 통해 관련 visual features을 추출하여 향상시킬 수 있습니다.
    • 이러한 절차를 통해 기준선에서 시각적 양식을 활용할 수 있습니다. 
  • 우리의 결과에서, 오디오 기능은 크게 도움이되지 않습니다.
  • 따라서 우리는 성능을 더욱 향상시키기 위해 이러한 auxiliary modalities에 대한 특징 추출을 개선 할 필요가 있다고 생각합니다.
  • 지금까지 우리는 기능 융합 접근 방식으로 concatenation만 사용했으며 unimodal baselines보다 약 1-3 % 더 우수한 성능을 보여주었습니다.
  • MARN (Zadeh et al., 2018)과 같은 다른 고급 융합 방법을 사용하여 추가 개선의 여지가 있다고 생각합니다.

6 Applications of MELD (번역)

  • MELD에는 여러 사용 사례가 있습니다.
  • 생성적 대화 시스템에서 감정 수용체로 더 사용되도록 감정 분류기를 훈련시키는 데 사용할 수 있습니다.
  • 이러한 시스템은 공감 반응을 생성하는 데 사용할 수 있습니다.
  • 대화에서 사용자의 감정 및 성격 모델링에도 사용할 수 있습니다 (Li et al., 2016).
  • 멀티 모달이기 때문에 MELD는 멀티 모달 대화 시스템을 훈련하는 데에도 사용할 수 있습니다.
  • 그 자체로는 엔드-투-엔드 대화 시스템 (표 1)을 훈련 할만큼 충분히 크지는 않지만 MELD를 생성하는 데 사용되는 절차를 채택하여 인기있는 시트콤과 같은 멀티 모달 소스에서 대규모 말뭉치를 생성 할 수 있습니다.
  • 우리는 다중 모드 대화 시스템을 시스템이 응답을 생성하기 위해 이용하는 화자의 음성 및 표정에 액세스 할 수있는 플랫폼으로 정의합니다.
  • 멀티 모달 대화 시스템은 Siri, Google Assistant와 같은 실시간 개인 비서에 매우 유용 할 수 있으며 사용자가 음성과 텍스트 및 얼굴 표정을 사용하여 의사 소통 할 수 있습니다.

7 Conclusion

  • 이 연구에서는 MELD, 멀티모달 다자간 대화 감정 인식 데이터세트를 소개한다.
  • 우리는 이 데이터세트의 제작 과정을 설명했고 강력한 베이스라인을 제공한다.
  • MELD는 멀티모달 처리를 위해 raw viewdos, audio segments, transcrips을 포함한다.
  • 추가적으로, 우리는 우리의 베이스라인 실험에서 사용되는 features을 제공한다.
  • 우리는 이 데이터세트가 ERC와 멀티모달 감정 대화 생성 모두의 학습 코퍼스로 유용할 것으로 믿는다.
  • 이 데이터세트위에서, 미래 연구는 효율적인 멀티모달 fusion 알고리즘인 새로운 ERC 프레임워크를 탐구할 뿐 아니라 audio, visual, and textual modalities의 새로운 특징을 뽑을 것이다.

Reference

댓글