Short-012, Modeling both context-and speaker-sensitive dependence for emotion detection in multi-speaker conversations (2019-IJCAI)

◼️ Comment

  • 논문 전체를 읽은 것은 아니고, 레퍼로 삼기 위해, 데이터세트 통계와 성능을 살펴보는게 주 목적이다.
  • abstract와 intro 부분을 보면 여기서는 context-sensitive와 speaker-sensitive 두 개의 관점에서 문제를 풀려고 한 것이다.
  • 또한 이 논문은 multi-party을 해결하는 논문들이 별로 없어서 이를 해결하기 위해서라고 하는데, 어느 것이 선순위인지는 모르겠으나 요즘 논문들은 multi-party가 기본이다.
    • 또한 실험 데이터세트가 MELD만으로 한 것은 좀 아쉬운? 느낌이다.
  • 방법론적은 그래프를 이용한 CNN이라는데.. 성능이 크게 느낌있지는 않는다.

0 Abstract

  • 최근, 대화에서 감정 검출은 NLP에서 핫한 연구 분야이다.
  • 이 논문에서, 우리는 기존의 연구에서 전통적인 두 명의 대화대신에 multi-speaker 대화에 집중한다.
  • 비대화형 텍스트와 달리, 대화속 감정 검출은 context-sensitive dependence을 모델링하는 구체적인 챌린지가 있다.
  • 게다가, 다중 화자 대화에서 감정 검출은 speaker sensitive 의존성을 모델링하는 다른 구체적인 챌린지를 가지고 있다.
  • 위의 두 가지 챌린지를 해결하기 위해, 우리는 대화형 graph-based CNN을 제안한다.
  • 반면에, 우리의 접근법은 각 utterance와 각 speaker을 node로 표현한다.
  • 반면에, context-sensitive dependence는 같은 대화의 두 발화 노드 사이의 unidirected edge로부터 표현되고 speaker-sensitive dependence는 발화 노드와 speaker node 사이의 unidirected edge로부터 표현된다.
  • 이 방법에서, 전체의 대화 코퍼스는 큰 heterogeneous 그래프로 심볼화될 수 있고 감정 검출 테스크는 그래프의 발화 노드의 분류 문제로 recast될 수 있다.
  • multi-modal과 multi-speaker 대화형 코퍼스에 대한 실험결과는 접근 방법이 매우 효과적임을 입증한다.

1 Introduction

  • 감정들은 우리의 daily life에서 중요한 역할을하고 텍스트의 감정 검출은 NLP의 오랜 목표가 되었다.
  • 문학적으로, 감정 검출은 
  • 문헌에서 감정 감지는 주로 문장 수준 텍스트 [Li et al., 2015] 및 문서 수준 텍스트 [Wang et al., 2016]와 같은 비대화 텍스트에 중점을 두어왔었다.
  • 좀 더 최근에는, 대화속 감정검출은 opinion mining over chat history와 페이스북, 유튜브, 트위터 등의 소설미디어 분석과 smart homes와 chatbots와 같은 지능 시스템들과 같은 새로운 작업의 많은 어플리케이션 때문에 NLP에서 많은 관심을 보여준다.
  • 비대화형 케이스와 달리, 대화의 근처의 담화들은 근접하게 semantic적으로 관련있고 그래서 근처 담화의 감정 카테고리는 매우 연관이있다.
  • 이것은 중요하고 그래서 효과적으로 대화의 근처 담화들의 context-sensitive dependence을 모델링하는 것은 챌린지하다.
  • 예로, 그림 1(a)에서, 첫 번째 담화의 감정은 disgust이다.
    • 이를 위로하는 두 번째 담화 이후의 3번째 담화는 joyful이 된다.
  • 이 예제에서, 우리는 감정 카테고리들은 comforting 발화를 만난 후에, negative에서 positive로 바뀔 수 있음을 알 수 있다.
  • 몇 개의 최근 연구들은 ([Poria et al., 2017] and [Hazarika et al., 2018b]), 이 문제를 깨닫고 몇 가지 접근법을 제안했다.
  • 그러나, 모든 감정 검출의 기존의 연구는 두 명의 화자만 참여하는 것에 집중되어있다.
  • 이 연구에서, 우리는 3명 이상의 화자가 관여하는 대화속 감정 검출을 해결하는데 집중한다.
  • 간략히, 우리는 시나리오의 대화를 multi-speaker 대화로 간주한다.
  • 두 명의 대화를 비교했을 때, multi-speaker 대화속 감정 검출은 더 나은 성능을 위해 multiple speakers의 상호작용 영향력을 잘 모델링을 해야한다.
  • 이는 각 화자가 감정 표현에 중요한 영향을 미치는 발화의 특정 개성과 특성을 가지고 있기 때문입니다.
  • 따라서 context-sensitive dependence외에도 다중 화자 대화에서 감정 감지를 위한 발화에서 또 다른 의존성, 즉 speaker-sensitive dependence을 효과적으로 모델링하는 것도 중요하고 챌린지하다.
  • 예를 들어, Figure 1(b)에서 보듯이, 중의적 발화(Policeman)가 주어졌을 때, Rachel은 neutral 응답 "Oh well"을 하지만, Ross은 "I can handle th sick"이라는 angry 응답을 한다.
  • 대답하는 감정의 차이는 주로 두 speakers의 차이 때문입니다.
  • 구체적으로, role setting에 따르면, Rachel의 성격은 문제를 두려워하는 반면 Ross는 약간 짜증이 나고 참을성이 없다는 것을 알아 차리는 것이 어렵지 않습니다.
  • 이 연구에서, 우리는 multi-speaker conversations에서 context-sensitive와 speaker-sensitive dependence 둘다 적절한 모델링으로 두 가지 챌린지를 극복하는데 초점을 맞춘다.
  • 구체적으로, 우리는 감정 검출을 위해 context-sensitive and speaker-sensitive dependence을 모두 모델링하기 위해 ConGCN이라는 대화에 대한 graph-based CNN을 제안합니다.
  • 반면에, 전체 대화 코퍼스의 각 담화들은 graph의 노드로 표현이 되고 동일한 대화에서 두 발화 사이에 edge가 있어 contextual dependence을 심볼화한다.
  • 반면에 전체 말뭉치의 각 화자는 노드로 표현되며, 각 발화와 speaker의 specific-speaker 의존성을 unidirected(무방향) edge로 연결한다.
  • 이를 바탕으로 전체 대화 코퍼스를 큰 이기종 그래프로 상징화 할 수 있고 감정 감지 작업을 그래프에서 발화 노드의 분류 문제로 재구성 할 수 있습니다.
  • 다중 모달 및 다중 화자 대화 코퍼스에 대한 실험은 우리의 접근 방식이 대화에서 발화의 문맥 의존성과 해당 발화의 특정 화자 의존성을 동시에 효과적으로 포착 할 수 있음을 보여줍니다.
  • Furthermore, it also shows that our approach is superior in both uni-modality and multi-modality.

2 Related Work

  • 학제 간 연구 분야로서 감정 검출은 자연어 처리 및 다중 모달 커뮤니케이션 분야에서 점점 더 많은 관심을 끌고 있으며 [Picard, 2010]은 문서 수준과 같은 다양한 수준의 감성 분류를위한 다양한 유형의 기능을 탐구하는 데 중점을두고 있습니다. Alm et al., 2005], 문장 수준 [Li et al., 2015] 및 짧은 텍스트 수준 [Felbo et al., 2017].
  • 위의 비 대화 텍스트 연구와 비교하여 대화 연구는 훨씬 적고 두 명의 화자 대화로 제한됩니다.
  • 다음에서는 그래프 기반 신경망에 대한 관련 연구와 함께 두 명의 화자 대화에서 감정 감지에 대한 개요를 제공합니다.
(생략...)

모델


6 Conclusion

  • 이 논문에서는 다중 화자 대화에서 감정 감지를 위해 상황에 따른 의존성과 화자에 따른 의존성을 모델링하기 위해 ConGCN이라는 대화 형 그래프 기반 신경망을 제안합니다.
  • 그래프 기반 접근 방식에서 발화와 화자는 모두 노드로 모델링되는 반면 상황에 따른 의존성과 화자에 따른 의존은 모두 에지로 모델링됩니다.
  • 다중 모달 및 다중 화자 데이터 세트에 대한 경험적 평가는 우리의 접근 방식이 여러 최신 접근 방식을 훨씬 능가한다는 것을 보여줍니다.
  • 이것은 다중 화자 대화에서 감정 감지에 대한 컨텍스트 및 화자 민감 의존성의 중요성과 그러한 의존성을 잘 모델링하는 데있어 그래프 기반 접근 방식의 효율성을 나타냅니다.
  • 향후 작업에서는 그래프 기반 신경망 접근 방식이 레이블이없는 데이터를 추가하기 쉽기 때문에 레이블이없는 데이터를 사용하여 감정 감지 성능을 개선하고자합니다.
  • 또한 감정 분류 및 주제 분류와 같은 대화의 다른 응용 프로그램에도 우리의 접근 방식을 적용하고 싶습니다.

Reference

댓글