NL-095, EDA: Enriching Emotional Dialogue Acts using an Ensemble of Neural Annotators, (2020-LREC)

◼️ Comment

  • 이 논문은 LREC에 퍼블리싱된 것부터 알 수 있듯이, 기존 데이터의 확장을 시도한 논문이다.
  • 즉 기존 데이터라함은 ERC 데이터인 IEMOCAP과 MELD로 감정 데이터세트이다.
  • 여기서 SwDA로 학습한 모델 5개 뉴럴 네트워크로 자동 레이블링을 한다.
    • SwDA란 dialogue act labels인 데이터세트로, 특정 발화가 어떤 정보를 담고있는지에 대한 데이터세트이다.
    • SwDA은 DAMSL (Dialogue Act Markup in Multiple Layers) 체계로 레이블링이 되어있다.
    • DAMSL은 forward인지 backward인지로 나뉘고, 거기서 또 어떤 타입인지 나뉘고, 타입별로 또 나뉘는 것 같다.
    • 대표적으로 question 정보라고하면, 어떤 question정보인지에 따라 레이블링이 된다.
    • wh-question (qw), yes-no question (qy), open-ended (qo) 및 or-question (qr) 식으로 나뉘는 것이다.
  • 뉴럴 어노테이터는 5개를 기반으로 앙상블한 것을 사용하는데, 그림3을 참고하면 된다.
    • 이 뉴럴 어노테이터를 어느정도 신뢰할 수 있는지 SwDA test 데이터세트에 대해 실험을 한다.
    • 또한 2.5섹션에서 신뢰성 평가도 하는 것으로 보인다.
    • 물론 table 6과 같이 실제로 실패하는 사례도 보여주지만, 사람의 어노테이터를 조금만 도움을 받으면 적은 노력으로 고칠 수 있다고 한다.
  • 이렇게 해서 데이터를 확장하고 났을 때, 감정 체계와 DAMSL 체계와 연관성이 있는지를 살펴보면 있다고 한다!
    • 그림 4를 참고하면 된다.
  • 즉 감정 레이블뿐만 아니라 새롭게 레이블링한 dialogue acts을 고려하면 적절한 응답을 하는데 도움이 될 수 있다고 주장한다.

0. Abstract

  • 감정과 대화 행위(dialog act) 인식은 대화 분석을 풍부하게하고 자연스러운 대화시스템을 만드는데 도움을 준다.
  • 감정해석은 우리가 감정을 이해하고 대화 행위는 발화에서 의도와 기능수행을 반영한다.
  • 그러나, 많은 textual과 multi-modal 대화 감정 코퍼스는 오직 감정레이블만 포함하고 대화 행위는 담지 않는다. 
  • 이 문제를 설명하기위해, 우리는 context없이 dialogue act 코퍼스로부터 학습된 다양한 RNN 모델의 풀을 사용할 것을 제안한다.
  • 이러한 뉴럴 모델들은 dialogue act labels와 함께 감정 코퍼스를 어노테이트하고 ensemble 어노테이터는 최종으로 dialogue act label을 추출한다. 
  • 우리는 두 개의 접근 가능한 multi-modal 감정 코퍼스 EMOCAP, MELD을 어노테이트한다.
  • 우리는 감정과 dialogue act labels의 동시 발생을 분석하고 구체적인 관계를 밝힌다.
  • 예를 들어, Accept/Agree dialogue acts는 종종 Joy 감정, Apology, Sadness, Thanking with joy와 함께 발생한다.
  • We make the Emotional Dialogue Acts (EDA) corpus publicly available to the research community for further study and analysis. 

1. Introduction

  • human-computer/robot 상호작용 시스템의 수요가 증가함에 따라, 사용자의 emotional state 검출은 대화형 agent가 적절한 감정 레벨에 응답하는것에 도움을 줄 수가 있다.
  • ERC는 추천, 생성, 감정 기반의 text-to-speech, personalization과 같은 어플리케이션에 잠재적인 가치가 증명되었다.
  • Human emotional states는 구두 및 비구두로 표현될 수 있다.
  • 그러나, 상호작용하는 대화 시스템을 설계할때, 인터페이스는 dialogue acts가 필요하다.
  • 일반적인 대화 시스템은 language understanding 모듈로 구성되고, 이는 사람이 입력한 담화들의 의미와 의도를 결정한다.
  • 또한, 담화 및 대화 분석에서 dialogue acts는 고려할 주요 언어적 feature이다.
  • dialogue act는 대화의 발화의 의도와 수행기능을 제공한다.
  • 예를 들어 Question, Answer, Request, Agree/Reject 등을 구분하고 Acknowledgement, Conversational-opening 또는 -closing, Thanking 등의 수행 기능을 구분하여 사용자의 의도를 유추 할 수 있습니다.
  • 감정 상태와 함께 dialogue act 정보는 음성 대화 시스템이 자연스러운 상호작용을 하는데 매우 유용할 것이다.
  • ERC 연구는 성장중이고 많은 데이터세트가 가능하다 (text, speech, vison, multi-modal 베이스의 감정 데이터)
  • 감정 표현은 인식은 챌린지 테스크이고 그래서 multimodality가 중요하다.
  • 그러나, 몇몇 대화형 멀티 모달 감정 인식 데이터세트만이 가능하다. (IEMOCAP, SEMAINE, MELD)
  • 그들은 multi0modal daadic 대화형 데이터세트이고 audio-visual과 대화형 transcripts을 포함한다.
  • 이러한 데이터세트의 각 담화는 감정 레이블과 함께 레이블링되어있다.
  • 우리의 연구에서는, 우리는 dialogue act 레이블링을 위해 automated 뉴럴 앙상블 어노테이션 프로세스를 제안한다.
  • 다양한 뉴럴 모델들은 Switchboard Dialogue Act (SwDA)으로 학습되었고 감정 코퍼스에 대한 dialogue acts을 추론하는데 사용됩니다.
  • 다수로 발생함을 체크하고 (대부분의 모델 레이블이 동일 함) 모델의 신뢰도 값을 랭킹을 매겨 5개의 모델 출력 레이블을 통합합니다.
    • 5개 모델로 앙상블 시켰다는 말?
  • 우리는 두 개의 잠재적인 ERC multi-modal 데이터세트: IEMOCAP, MELD을 어노테이트하였다.
  • 그림 1은 MELD 코퍼스의 emotion 및 sentiment을 가지는 dialogue act 태그의 예를 보여 주며, 우리는 어노테이터간 메트릭을 사용하여 annotations의 신뢰성을 확인했습니다.

  • 우리는 대화 행위와 감정 라벨의 co-occurrences을 분석하고 그들 사이의 본질적인 관계를 발견했습니다. 
    • 발화의 개별 dialogue acts는 해당 감정 상태와 중요하고 유용한 연관성을 보여줍니다.
  • 예를 들어, Accept/Agree dialogue act는 종종 Joy emotion과 함께 발생하는 반면 Recjt는 Anger, Acknowledgements with Surprise와 함께 Thanking은 Joy, and Apology with Sadness, etc와 함께 발생한다.
    • 즉 특정 dialogue act는 특정 감정들과 함께 나타난다는 말이다.
  • emotional dialogue acts (EDAs)와 annotated 데이터세트들의 세부적인 분석은 Knowledge Technology website에서 가능하다.

2. Annotation of Emotional Dialogue Acts 

2.1. Data for Conversational Emotion Analysis

  • 여기에는 두 가지 감정 분류체계가 있다.
    • (1) discrete emotion categories (DEC) and 
    • (2) fined-grained dimensional basis of emotion states (DBE). 
  • DECs는 Joy, Sadness, Fear, Surprise, Disgust, Anger와 Neural로 Ekman 방식이다.
  • 감정의 DBE는 보통 두개 혹은 3개의 차원으로 선출된다.
    • 2차원 모델은 흔히 Valence와 Arousal가 (activation으로도 불리는) 사용되고 3번째 차원은 Dominance이다. 
    • 즉 축의 값으로 감정을 표현한다는 개념
  • IEMOCAP 데이터세트는 모든 DECs와 두 개의 추가적인 감정 Frustraion과 Excited로 어노테이트된다.
    • IEMOCAP 데이터세트는 또한 3개의 DBE가 포함하는 Valance, Arousal, Dominance으로 어노테이트된다.
  • MELD 데이터세트는 Emotionlines 의 진화버전이고 정확히 7개의 DECs와 sentiment로 어노테이트된다.

2.2. Dialogue Act Tagset and SwDA Corpus

  • Dialogue acts에는 다른 분류체계들이 있다.
    • 발화를 참조하는 speech acts는 정보를 제공할 뿐 아니라, action이 수행되는 것을 말한다. (1962)
  • Speech acts는 나중에(1979) 5가지 클래스로 수정이된다.
    • Assertive, Directive, Commissive, Expressive, Declarative
  • 여기에는 대화형 데이터를 어노테이트하기 위한 많은 표준의 분류체계와 전략이 있고 그들중 대부분은 담화 구성을 따른다.
  • 이러한 전략은 담화 또는 대화 분석에서 중요하다는 것이 알려져있다.
  • 대화 시스템 및 담화 분석의 발전하는 동안 최근 수십 년 동안 DAMSL (Dialogue Act Markup in Multiple Layers) 태그 세트라는 표준 분류가 도입되었다.
  • DAMSL에 따르면 각 DA에는 forward-looking function (예 : Statement, Info-request, Question, Thanking)backward-looking function (예 : Accept, Reject, Answer)이 있다.
  • DAMSL 주석에는 발화 수준뿐만 아니라 세그먼트 화 된 발화 레이블도 포함됩니다.
  • 그러나 감정 데이터 세트에서 발화는 분할되지 않습니다.
    • 그림 1에서 볼 수 있듯이 첫 번째 또는 네 번째 발화는 두 개로 구분되지 않습니다.
  • 네 번째 발화는 두 개의 화행 레이블 (예 : statement (sd) 및 question (qy))을 갖도록 분할 될 수 있습니다.
  • 그것은 매우 세밀한 DA 수업을 제공하고 담화 구성의 개념을 따릅니다. 
  • DAMSL은 wh-question (qw), yes-no question (qy), open-ended (qo) 및 or-question (qr) 클래스를 구별합니다. 
    • 이러한 질문은 구문적으로 구별되기 때문일뿐만 아니라 서로 다른 전달 기능 (Jurafsky , 1997).
  • 예를 들어, yes-no 질문은 wh 질문 (qw)보다 "예"답변을 얻을 가능성이 더 높습니다.
  • 이것은 질문 (forward-looking function)과 함께 답변 (backward-looking function)에 의해 컨텍스트가 제공된다는 직관을 제공합니다.
  • 예를 들어 qy는 담론의 관점에서 예 (ny) 또는 아니요 (nn) 답변을 예상하는 질문에 사용됩니다.
  • 우리는 annotation 방법을 조사하고 Switchboard Dialogue Act (SwDA) Corpus (Godfrey et al., 1992; Jurafsky et al., 1997)를 사용하여 신경 모델을 훈련했습니다.
  • SwDA 코퍼스는 DAMSL 태그 세트로 주석이 달려 있으며, 화행 인식 작업에서 최첨단 결과를보고하고 벤치마킹하는 데 사용되어 사용 사례에 이상적입니다.
    • 즉 SwDA가 DAMSL 식으로 태그되어있는 데이터세트인데, 이것으로 학습을 하여 MELD 데이터세트를 어노테이션 했다는 것?
    • DAMSL의 자세한 레이블링은 SwDA을 봐야되고, 대충 보기에는 크게는 forward와 backward 방식의 정보로 나뉜다.
    • forward와 backward는 또 각각 여러 종류로 나뉘는데 대표적으로 forward에 question이 있다.
    • question의 종류에는 qw, qy, qo, qr의 클래스로 나뉘어져있다고 한다.
  • Switchboard DAMSL Coders Manual에는 화행 레이블에 대한 자세한 내용이 있습니다 (Jurafsky, 1997).

2.3. Neural Model Annotators (번역)

  • 두 가지 변형이있는 Bothe를 기반으로하는 신경 아키텍처를 채택했습니다. 
    • non-context 모델 (발화 수준에서 분류)과 컨텍스트 모델 (몇 가지 이전 발화가 주어진 현재 발화의 대화 행위 인식).
  • Bothe의 화행을 사용한 대화 분석에서 우리는 앞의 두 발화가 현재 발화의 화행을 인식하는 데 크게 기여한다는 것을 배웠습니다.
  • 따라서 이 설정을 컨텍스트 모델에 맞게 조정하고 RNN (Recurrent Neural Network)을 사용하여 어노 테이터 풀을 만듭니다.
  • RNN은 발화의 단어 시퀀스와 대화의 발화 시퀀스에서 컨텍스트 정보를 모델링 할 수 있습니다.
  • 발화의 각 단어는 차원 1024의 단어 임베딩 벡터로 표현됩니다.
  • 사전 훈련 된 ELMo (언어 모델의 임베딩) 임베딩의 단어 임베딩 벡터를 사용합니다. 
    • 이는 자연어 이해 작업에서 성능을 보여 주었기 때문입니다.
  • 그림 2와 같이 5 개의 neural annotators 풀이 있습니다.
  • Discourse-Wizard라는 온라인 도구를 사용하여 자동 화행 레이블링을 연습할 수 있습니다.
  • 이 도구에서 우리는 동일한 신경 아키텍처를 사용하지만 모델 학습된 임베딩을 사용합니다 (이 작업에서는 온라인 도구에서 호스팅하는 것이 더 나은 성능이지만 계산 및 크기 측면에서 비용이 많이 들기 때문에 사전 학습 된 ELMo 임베딩을 사용합니다). 
  • 어노 테이터는 다음과 같습니다.
    • 각 자세한 설명은 생략.. 밑의 그림3에서 각각 utt 혹은 conv로 표시된 것이 그에 해당하는 부분
    • Utt-level-1 Dialogue Act Neural Annotator (DANA)
    • Context-1-DANA
    • Utt-level-2-DAN
    • Context-2-DANA
    • Context-3-DANA

2.4. Ensemble of Neural Annotators (번역)

    • 각각 성능 측정을 한 것보다는 앙상블 결과가 좀 더 뛰어남
  • 앙상블 로직을 검증하기위한 기준으로 우리는 Ground Truth 레이블을 알고있는 SwDA 테스트 데이터 세트를 사용합니다. 
  • 표 1은 모델 예측과 Ground Truth 간의 정확도와 Spearman 상관 관계를 보여줍니다. 
  • 앙상블 모델 로직은 신경 애노 테이터 중 하나와 비슷하거나 더 나은 정확도를 달성하는 방식으로 구성됩니다. 
  • 표 1에서 볼 수 있듯이 앙상블 모델은 Context-1 모델과 동등하거나 약간 더 나은 정확도를 달성합니다. 
  • 앙상블 애노 테이터가 최신 테스트 데이터에서 잘 수행되는 것으로 나타났습니다. 이러한 결과는 각 모델의 상관 관계 점수에서도 뒷받침됩니다. 
  • 따라서 SwDA 테스트 데이터 세트의 정확도를 달성 한 앙상블 모델의 구성은 다음 단락에서 설명합니다.
  • 모든 신경 애노 테이터에서 완벽하게 일치하는 레이블이 첫 번째로 선호됩니다. 

  • 표 2에서 두 데이터 세트 모두 모든 모델 (AM)에 대해 정확히 일치하는 레이블의 약 40 %가 있음을 알 수 있습니다. 
  • 그런 다음 컨텍스트 기반 모델에 우선 순위를 부여하여 모든 컨텍스트 모델의 레이블이 완벽하게 일치하는지 확인합니다.
  • 3 개의 컨텍스트 모델 중 2 개가 올바른 경우 해당 레이블이 비 컨텍스트 모델 중 하나 이상에서도 생성되는지 확인됩니다.
  • 그런 다음 레이블이 최소한 두 가지 컨텍스트 모델에 의존하도록 허용합니다. 
  • 결과적으로 약 50 %의 레이블이 컨텍스트 모델 (CM)을 기반으로합니다.
  • 컨텍스트 모델이 동일한 결과를 생성하지 않는 경우 softmax 함수를 사용하여 확률 분포로 생성 된 각 신뢰 값으로 레이블의 순위를 매 깁니다.
  • 레이블은 신뢰도 값에 따라 내림차순으로 정렬됩니다.
  • 그런 다음 처음 세 개 (하나의 컨텍스트 모델과 두 비 컨텍스트 모델이 동일한 레이블을 생성하는 경우) 또는 적어도 두 개의 레이블이 일치하는지 확인한 다음 해당 레이블을 선택할 수 있습니다. IEMOCAP에는 약 1 %, MELD (BM)에는 2 %가 있습니다.
  • 마지막으로 위의 조건이 충족되지 않으면 알 수없는 카테고리의 라벨을 제외합니다. 
  • 결정된 대화 행위의 unknown 범주는 최종 주석에서 'xx'로 표시되며 IEMOCAP에서 약 5 %, MELD (NM)에서 9 %입니다. 
  • EDA의 통계 5는 두 말뭉치 모두에 대해 표 3에보고됩니다. 
  • MELD의 총 발화에는 교육, 검증 및 테스트 데이터 세트가 포함됩니다.

2.5. Reliability of Neural Annotators

  • 신경 어노 테이터 풀은 상당한 범위의 어노테이션을 제공하며 다음 메트릭으로 신뢰성을 확인했습니다 (McHugh, 2012). 
  • 더 이상은 생략..ㅎㅎ

3. EDAs Analysis


  • 우리는 그림 4의 두 데이터세트에대해 감정 레이블에 대해 감정형 dialogue act co-occurrences을 살펴볼 수 있다.
  • 그림에서 대사 당 3 개의 막대 세트가 있으며, 첫 번째 및 두 번째 막대는 IEMOCAP (IE) 및 MELD (ME)의 emotion 레이블을 나타내고 세 번째 막대는 MELD Sentiment (MS) 레이블 용입니다.
  • MELD emotion과 sentiment statistics은 서로 밀접하게 연관되어있기 때문에 매력적이다.
  • 막대에는 특정 dialogue act category에 대한 총 발화 수와 관련된 감정 레이블에 대한 normalized 발화 수가 포함됩니다.
  • statements without-opinion (sd)과 with-opinion (sv)은 거의 모든 감정을 담은 발화를 포함합니다.
    • 많은 중립적인 발화가 모든 대화 행위에 걸쳐 있습니다.
  • 반면에 인용 (^q) 대화 행위는 주로 '분노'와 '절망'(IEMOCAP의 경우)과 함께 사용되지만 '기쁨'또는 '슬픔'이있는 일부 발화도 있습니다 (표 5의 예 참조).

  • 일반적으로 명령인 Action Directive (ad) 대화 행위 발화는 '분노'또는 '초조함'으로 자주 발생하지만 MELD 데이터 세트의 경우 '행복한'감정이있는 경우도 많습니다.
  • Acknowledgements (b)은 대부분 긍정적이거나 중립적 인 감정으로 사용되지만 Appreciation (ba) 및 Rhetorical (bh) backchannels은 종종 'Surprise', 'Joy'및 / 또는 'Excited'(의 경우)에서 더 많은 수로 발생합니다. IEMOCAP).
  • Questions (qh, qw, qy, qy^d)은 대부분 '놀람', '흥분', '초조함'또는 '혐오'(MELD의 경우)의 감정으로 질문되며 대부분 중립적입니다.
  • No-answers (nn)은 yes-answers (ny)에 비해 대부분 '슬픔'또는 '좌절'입니다.
  • Apology (fa)와 같은 전방 기능은 주로 '슬픔'과 함께 사용되는 반면 Thanking (ft) 및 Conventional-closing or -opening (fc or fp)은 일반적으로 '기쁨'또는 '흥분'과 함께 사용됩니다.
  • (중략...)
    • 위와 같이 잘못될 수도 있다.
  • 컨텍스트 기반 모델이 이전 발화를 조사하는 것이 중요합니다. 
  • 따라서 “Thank you”는 backchannel acknowledgement (ba)으로 간주될 수 있다.
  • 따라서 인간 어노테이터의 도움으로 이러한 발화 라벨을 최소한의 노력으로 수정할 수 있다고 믿습니다.

4. Conclusion and Future Work

  • 이 연구에서, 우리는 dialogue act labels을 가지는 대화형 multi-modal emotion datasets을 확장하는 방법을 설명했다.
  • 뉴럴 어노테이터의 앙상블 모델은 Switchboard Dialogue Acts corpuse test set에서 테스트되고 성능이 검증되었다.
  • 우리는 성공적으로 두 가지 감정 데이터세트: IEMOCAP과 MELD에 대해 어노테이트했고, 이는 우리가 dialogue acts을 레이블로 지정하고 연구를 위해 공개하였다.
  • 첫 번째 인사이트에서, 우리는 많은 dialogue acts와 emotion labels이 특정 관계를 따른다는 것을 알아냈다.
    • 이러한 관계들은 dialogue acts와 함께 감정적인 행동에 대해 배워서 자연스러운 대화 시스템을 설계하고 좀 더 깊은 대화 분석을 하는데 유용할 수 있다.
    • dialogue act 와 emotion labels간의 연관성은 매우 주관적입니다.
  • 그러나 대화 에이전트는 발화에서 emotional states와 dialogue acts를 모두 고려할 때 적절한 응답을 생성하는 데 도움이 될 수 있습니다.
  • 앞으로의 연구에서, 우리는 자동 뉴럴 어노테이터의 풀과 함께 어노테이션 프로세스의 loop에서 사람을 예측한다.
  • 강인한 어노테이션이 뉴럴 어노테이터로부터 출력된 앙상블 final labels을 관찰하고 수정하는 것을 적은 사람의 노력과 supervision으로 달성될 수 있다.
  • human-annotator는 또한 segmented-utterance labelling of the dialogue acts을 달성하는 데 도움이 될 수 있습니다.
  • 우리는 또한 dialogue acts와 관련하여 emotional states의 상호작용 행동을 추론하기 위한 대화 분석을 위해 이러한 말뭉치를 사용할 계획입니다.
  • 소셜 로봇을 위한 대화 시스템을 구축하기 위해 대화 행위를 사용한 최근 작업에서 이 연구와 데이터 세트가 매우 유용하다는 것을 알게되었습니다.
  • 예를 들어, 로봇 대화 시스템을 확장하여 감정을 더 자연스러운 상호 작용을 생성하기 위해 추가 된 언어 기능으로 간주 할 수 있습니다.

Reference

댓글