Short-011, Emotion Recognition in Conversation: Research Challenges, Datasets, and Recent Advances (2019-ACCESS)

◼️ Comment

  • ERC 연구 분야에 대한 논문을 읽기 전에, 간단히 리서치 논문을 스크리닝한 목적으로 살펴보았다.
  • abstract, intro, research challenges 부분만 살펴보면 될 것 같다.
  • ERC 관련 데이터가 살펴보면 상당히 많은데 multimodal(영상, 음성 등과 함께) 식으로 구성된 것도 많다.
  • 개인적으로는 text 대화 데이터만 쓸 것이기 때문에 데이터를 핵심적으로 잘 선별해야 겠다.

0. Abstract

  • 감정은 사람에게 내재되어 있으므로 사람같은 AI을 이해하는데 연속적인 감정 이해는 핵심 키이다.
  • ERC (Emotion recognition in conversation)은 NLP에서 점점 유명한 연구가 되어가고 있다. 
    • Facebook, Youtube, Reddit, Twitter 등과 같은 플랫폼에서 공개적으로 사용 가능한 대화 형 데이터의 과다한 의견을 수집 할 수 있기 때문입니다.
  • 게다가, health-care 시스템과 (심리학적 분석의 툴로) 교육에 (학생의 좌절을 이해) 잠재적으로 적용할 수 있다.
  • 추가적으로, ERC는 유저의 감정들 이해하는 것을 필요로하는 emotion-aware 대화를 생성하는데 매우 중요하다.
  • 이러한 요구를 충족하려면 효과적이고 확장 가능한 대화형 감정 인식 알고리즘이 필요합니다.
  • 그러나, 몇 개의 챌린지한 연구때문에 해결하기 어려운 문제이다.
  • 이 논문에서는, 우리는 이러한 챌린지들을 논의하고 이 필드에서의 최근 연구를 설명한다.
  • 우리는, 이러한 접근법들의 단점들과 왜 그들이 성공적으로 ERC 챌린지 연구들을 극복못했는지를 토의한다.

I. INTRODUCTION

  • 감정은 종종 생각, 감정 및 행동과 관련된 개인의 정신 상태로 정의됩니다.
  • Cicero와 같은 Stoics는 감정을 metus (공포), aegritudo (통증), libido (욕망) 및 laetitia (쾌락)의 네 가지 범주로 구성했습니다.
  • 나중에, 감정의 진화론은 19 세기 후반 Charles Darwin에 의해 시작되었습니다.
    • 그는 감정이 자연 선택을 통해 진화하고 따라서 문화적으로 보편적인 counterparts가 있다는 가설을 세웠습니다.
    • 최근에 Plutchik은 감정을 감정의 바퀴로 시각화 한 8 가지 주요 유형으로 분류했습니다 (그림 4).

    • 또한 Ekman은 감정과 표정의 상관 관계를 주장했다.
  • 자연어는 종종 자신의 감정을 나타낸다.
    • 그래서 감정 인식은 NLP의 opinion mining, 추천 시스템, 헬스케어 등의 넓은 어플리케이션 등에 진행되고 있으며 인기를 얻고 있다.
  • Strapparava와 Mihalcea [6]는 뉴스 헤드 라인에서 감정 감지 작업을 다루었습니다.
  • 텍스트 감정 인식 문제를 해결하기 위해 많은 감정 어휘집 [7, 8]이 개발되었습니다.
  • 지난 몇 년 동안 만 대화 데이터의 공개 가용성이 증가함에 따라 NLP 커뮤니티 [9, 10, 11, 12]에서 대화의 감정 인식 (ERC)이 주목을 받았습니다.
  • ERC는 소셜 미디어에서 발생하는 대화를 분석하는 데 사용할 수 있습니다. 
  • 또한 실시간으로 대화를 분석하는 데 도움이 될 수 있으며, 이는 법적 재판, 인터뷰, e-health 서비스 등에 유용 할 수 있습니다.
  • 문장 / 발화의 바닐라 감정 인식과 달리 ERC는 이상적으로 개별 발화의 컨텍스트 모델링이 필요합니다.
  • 이 컨텍스트는 이전 발화에 기인 할 수 있으며 발화의 시간적 순서에 의존합니다.
  • 최근에 발표 된 ERC [10, 11, 12]에 비해 어휘 기반 [13, 8, 14]과 현대적인 딥 러닝 기반 [4, 5] 바닐라 감정 인식 접근 방식은 ERC 데이터 세트에서 잘 작동하지 않습니다. 
  • 이 작품들은 문맥적 단서의 존재, 화자의 턴의 시간성 또는 화자별 정보와 같은 대화 특정 요소를 무시합니다.
  • 그림 5a와 그림 5b는 동일한 발화가 이전 발화에 따라 의미가 바뀌는 예를 보여줍니다.
  • Task definition (번역)
    • 각 구성 발화의 화자 정보와 함께 대화 내용이 주어지면 ERC 작업은 미리 정의 된 여러 감정에서 각 발화의 감정을 식별하는 것을 목표로합니다.
    • 그림 2는 두 사람 사이의 그러한 대화 중 하나를 보여 주며, 각 발화는 근본적인 감정으로 분류됩니다.
    • [(u1, p1), (u2, p2), . . . , (uN , pN )]가 주어졌을 떄, ui의 감정을 예측하는 것이다. (그림 2 처럼)
  • Controlling variables in conversations (번역)
    • 대화는 크게 두 가지 범주로 분류됩니다.
      • task oriented and chit-chat (also called as non-task oriented). 
    • 두 종류의 대화는 주제, 대담 자의 성격, 논증 논리, 관점, 의도 [16] 등과 같은 서로 다른 요인이나 실용주의 [15]에 의해 좌우됩니다.
    • 그림 1은 dyadic(두 명의) 대화에서 이러한 요소가 어떻게 작용하는지 보여줍니다.

    • 첫째, 토픽 (Topic)과 대담자 성격 (P*)은 시간에 관계없이 항상 대화에 영향을 미칩니다.
    • 화자는 화자와 청자 모두의 맥락적 선행발화(U<t*)에 기초하여 회신(Ut)에 대한 마음(St)을 구성하고, 이전의 발화는 보통 공동과제모델(과제지향 대화)이나 화자의 감정상태(대화)에서 가장 큰 변화를 주기 때문에 가장 중요한 것이다.
    • Hovy가 설명했듯이 논증 논리, 대담 자 관점, 대인 관계 및 종속성, 상황 인식과 같은 실용적인 기능을 더 깊이 파고 들면 화자 상태로 인코딩됩니다.
    • 화자의 의도는 이전 의도 I(t-2)∗ 및 화자 상태 S(t)∗를 기준으로 결정됩니다. 대담자는 상대방의 발언 및 현재 상황에 따라 의도를 변경할 수 있습니다.
    • 그런 다음 화자는 상태 S(t)* 및 의도 I(t)*에 따라 응답에 대한 적절한 감정 E(t)*를 공식화합니다.
    • 마지막으로 응답 U(t)*는 화자 상태 S(t)*, 의도 I(t)* 및 감정 E(t)*를 기반으로 생성됩니다.
    • 우리는 이러한 요소를 고려하면 대화의 논쟁과 담화 구조를 나타내는 데 도움이되며 감정 인식을 포함한 대화 이해도를 향상시킬 수 있다고 생각합니다.
  • 대화에 대한 초기 계산 작업은 전체 대화 의도와 단계별 하위 목표가 큰 역할을하는 작업 중심의 경우에 주로 초점을 맞추 었습니다 [17, 18].
  • Cohen과 Levesque [19]는 의도와 발화에 대한 연결을 나타내는 모델과 논리를 개발했습니다. 
  • 그 연산자는 대담 자의 신념에 대한 신념의 취급을 반복적으로 설명하고 그 반대의 경우도 마찬가지입니다.
  • 그러나 감정은이 연구 라인에서 어떤 역할도하지 않았습니다.
  • 최근 작업에서 챗봇과 잡담 대화는 부분적으로 논리적 추론을 쉽게 지원하지 않는 분산 (예 : 임베딩) 표현의 사용으로 인해 더욱 두드러졌습니다.
  • 대화 환경에서 K. D’ Mello et al. [20] 및 Yang et al. [21]은 각각 3 개와 4 개의 감정 라벨이있는 작은 데이터 세트로 작업했습니다.
  • 이것은 Phan et al. [22], 대화 내용에서 감정 감지가 시도되었습니다.
  • 최근에 몇몇 연구 [23, 24]는 ERC를위한 딥 러닝 기반 기술을 고안했습니다.
  • 이러한 작업은 Hovy [15]가 제안한 "실용적 구성자 하에서 텍스트 생성"이라는 주제에 속하는 감정 인식 일명 정서적 대화 생성에서 ERC의 도구 역할을 추정하기 때문에 중요합니다.
  • 그림 3은 인간 (사용자)과 의료 챗봇 (건강 지원) 간의 이러한 대화 중 하나를 보여줍니다. 

    • 어시스턴트는 사용자의 입력에 따라 감정으로 반응합니다.
    • 사용자가 일찍 부상을 입 었는지 여부에 따라 건강 보조원은 흥분 (긴급함을 불러 일으킴) 또는 행복 (안심을 불러 일으키는)으로 반응합니다.
  • ERC는 새로운 연구 분야이므로 연구 과제, 사용 가능한 데이터 세트 및 벤치 마크를 요약하면 ERC에 대한 향후 연구에 잠재적으로 도움이 될 수 있습니다.
  • 이 논문에서 우리는 대화에서 감정 역학에 기여하는 다양한 요소를 논의함으로써 이러한 목적을 달성하는 것을 목표로합니다.
  • 우리는이 논문이 연구자들이 ERC에 대한 도전과 최근 연구를 더 잘 이해하는 데 도움이 될뿐만 아니라 가능한 미래 연구 방향을 보여줄 것이라고 생각합니다.
  • 나머지 논문은 다음과 같이 구성됩니다. 섹션 II는 주요 연구 과제를 제시합니다. 
  • 섹션 III 및 IV는이 분야의 데이터 세트와 최근 진행 상황을 다룹니다. 마지막으로 섹션 V가 논문을 마칩니다.

II. RESEARCH CHALLENGES

  • 이 부분은 레퍼 3부분을 확인하여 간단히 확인하자.

III. DATASETS 

IV. RECENT ADVANCES

  • As depicted in Fig. 1, recognizing emotion of an utterance in a conversation primarily depends on these following three factors: 
    • 1) the utterance itself and its context defined by the interlocutors’ preceding utterances in the conversation, as well as intent and the topic of the conversation, 
    • 2) the speaker’s state comprising variables like personality and argumentation logic and, 
    • 3) emotions expressed in the preceding utterances. 

V. CONCLUSION

  • ERC는 NLP 연구자들 사이에서 점점 인기를 얻고 있다.
  • 이 연구에서는, 최근 ERC의 연구들을 요약하고 연구 분야에서의 챌린지의 키를 강조한다.
  • 또한 현재 작업이 이러한 문제를 부분적으로 해결하고 몇 가지 단점을 제시하는 방법을 지적합니다.
  • 전체적으로, 우리는 효과적인 감정이동 인식 모델과 컨텍스트 인코더가 칫챗 대화에서 중요한 성능 향상을 가져오고 task-oriented 대화의 일부 측면도 향상 시킬 수 있음을 추측한다.
  • 더욱이, topic-level speaker-specific 감정 인식과 같은 챌린지, 여려 명의 대화속의 ERC, 그리고 대화 풍자 감지는 새로운 연구 방향을 결정할 수 있다.
  • 추가적으로, fine-grained speaker-specific 연속적인 감정인식은 아마 긴 독백동안의 감정을 트래킹할 수 있는 목적에 관심이 있을 수 있다.
  • 이 논문에 설명된 각 과제를 해결하는 것은 AI 지원 대화 이해를 향상시킬뿐만 아니라 정서적 인 정보를 제공함으로써 대화 시스템의 성능을 향상시킬 것이라고 믿습니다.

Reference

댓글