Nl-149, DialogueEIN: Emotional Interaction Network for Emotion Recognition in Conversations, ARR Review 2201
ARR 202201-Review1
0 Abstract
- ERC는 공감적인 human-computer 상호작용 시스템에 필수적이다.
- ERC서 기존의 방법들은 발화들에서 context-level과 speaker-level 정보를 캡쳐하느네 집중한다.
- 그러나, 이러한 방법들은 사람의 가정 변화의 이유를 간과하고 있어서, 감정 예측을 위한 유용한 정보 캡쳐에 불충분한 결과를 보여준다.
- 이 연구에서는, 우리는 두 개의 main 스테이즈들 기반으로한 설명적 감정 상호 네트워크 DialogueEIN을 소개하여 발화로부터 직접적으로 intra-와 inter-speaker 의존성에 대한 contextual information을 캡쳐한다.
- 그리고 대화속 현재 발화의 더 나은 이해를 향상시키기 위해 두 종류의 정보에 대한 차별적인 기여를 탐색하고 분석한다.
- 두 벤치마크에대한 실험적인 결과들은 효과성을 입증하고 우리의 제안한 모델의 뛰어남을 보여준다.
1 Introduction
- ERC는 다화자 대화에서 각 대화의 감정을 예측하는 목표를 가진다.
- 사람과 같은 AI 연구의 높은 인기와 함께, ERC의 주제는 점점더 연구자들로부터 관심을 받아왔다.
- 그래서, 정확히 ERC는 health care와 empathetic chat agents와 같은 다양한 필드에서 필수적인 스텝이다.
- vanilla 발화의 감정 인식과 달리, ERC는 발화의 internal 특성만 고려할 뿐 아니라, 더욱 중요하게, 대화속 발화의 contextual clues와 화자의 turns의 시간성 혹은 speaker-specific 정보가 중요하다.
- 그 결과로, ERC는 자연스러운 대화가 일반적으로 이진 대화에서 중요한 역할을 하는 여러 가지 다른 요인이나 화용론에 의해 지배되기 때문에 더 복잡하고 어렵습니다.
- 이러한 게획은 그림 1에서 설명되고, 이는 두 화자의 대화의 프로세스에서 사람의 감정의 원인을 밝혀낸다.
- 우리는 화자의 성격, 의도 등과 같은 이러한 요소가 독특한 상호 작용을 통해 참가자의 정서적 역학에 영향을 미친다는 것을 발견했습니다.
- 대부분의 최근 연구들과 같이 딥러닝 방법들에 의해 context-level과 speaker-level cues을 캡쳐하는데 집중한다.
- 그러나, 이러한 방법들은
intrinstic(intrinsic) interaction을 고려하지 않고coversation(conversation)속 발화들의 contextual의 flow과 sequential information을 무시한다. - 그래서 컨텍스트의 불충분한 이해를 결과로 보여준다.
- 흠..? 아닌거 같은데
- 더 나아가서, ERC 모델링하는데, speaker information는 필수이다.
- 왜냐하면 대화의 감정의 변화는 두 개의 중요한 관점으로 구성된다.
- intra-speaker (or self-) dependency
- inter-speaker dependency
- 이 현상은 그림 2에서 셜명된다.
- 우리는 대화에서 매 턴 관찰할 수 있고, individual speaker은 무의식적으로 intra-speaker과 inter-speaker dependencies에 해당하는 가중치를 각각 할당한다.
- 감정이 변화할지 안할지 결정할 때 까지
- 최근 출판된 연구들과 비교하여, 이러한 방법은 이러한 요소를 모두 고려하지 않는다.
- 지각과 인지의 논쟁(Montemayor and Haladjian, 2017)은 우리 뇌의 활동 구조가 복잡하지만 두 단계로 추상화될 수 있다고 제안합니다.
- 지각 활동과 인지 활동은 서로 독립적이지만 영향을 미칩니다.
- 사실 객관적 사물에 대한 인간의 인지과정은 다중정보의 융합과정이기도 하다(Han, 2010).
- 이들로부터 영감을 받아, 이 논문에서는 Emotional Interaction Network (DialogueRIN)을 ERC 테스크에 제안한다.
- 제안된 DialogueRIN은 두 개의 메인 스테이지로 구성된다.
- 즉, interactive representation perception과 interactive representation fusion이다.
- interactive representation perception 스테이지에서, 우리는 3개의 GRUs을 적용해서 발화들로부터 직접 intra-와 inter-spekaer에 대한 contextual information을 각각 캡쳐한다.
- 이 세 가지 유형의 GRU는 모두 반복적으로 인간과 같은 본질적인 상호 작용을 시뮬레이션하기 위해 얽혀 있습니다.
- interactive representation fusion 스테이지에서, 우리는 먼저 attention 메커니즘을 적용해서 intra-와 inter-speaker context로부터 감정적 clues을 retrieve와 integrate을 각각 한다.
- 우리는 주의가 다른 대상에 작용하기 때문에 두 개의 통합된 감정적 단서가 어느 정도 상호보완성을 가질 것이라고 추측합니다.
- 이는 section 5.2에서 확인된다.
- 그래서, 우리는 Transformer을 적용하고, 이는 hidden features로부터 유익한 high-dimensional representations을 배울 수 있다.
- 대화에서 현재 발화에 대한 더 나은 이해를 높이기 위해 두 종류의 정보에 걸쳐 차별화된 기여도를 추가로 분석합니다.
- 주요 기여는 다음과 같이 요약됩니다.
- 1) 인간의 감정 변화의 원인을 고려한 보다 설명적인 DialogueEIN이 제안됩니다.
- 2) 제안된 모델의 효과는 두 개의 벤치마크 데이터 세트에서 입증되었습니다.
2 Related Work
- 1988년(Minsky, 1988)은 "문제는 지능적인 기계가 감정을 가질 수 있느냐가 아니라 기계가 감정 없이 지능을 가질 수 있느냐"라고 지적했다. 이후 감정인식은 프론티어 연구로서 연구자들의 주목을 받기 시작했는데, 이는 바닐라 감정인식과 대화에서의 감정인식(ERC)의 두 단계로 나눌 수 있다.
- 바닐라 감정 인식을 위해 일부 작품은 감정 어휘 또는 현대 딥 러닝을 활용하여 발화의 내부 감정 특성을 추출했습니다.
- 그러나 이러한 방법은 현실적인 시나리오에서 제대로 작동하지 않았습니다.
- 대화에서 감정 인식을 위해 기존 작업은 시퀀스 기반 및 그래프 기반 방법에 더 귀속될 수 있습니다.
- 전자는 일반적으로 대화에서 발화에 대한 컨텍스트 및 화자 정보를 캡처하기 위해 주의와 함께 RNN 또는 Transformer를 사용했습니다.
- 후자는 일반적으로 에지의 종속성을 사용하여 화자 정보를 모델링하여 감정 정보를 캡처하기 위해 그래프 신경망을 채택했습니다.
- 바닐라 감정 인식과 비교하여 ERC는 엄청난 성능 향상을 달성했지만 여전히 중요한 문제에 직면해 있습니다(Poria et al., 2019b).
- 이 주된 이유는 인간의 주관적 상태(Scherer et al., 2001)의 감정은 다른 분야(Zhai et al. , 2021).
- 따라서 이 작업은 인간의 감정 도출의 관점에서 보다 설명적인 DialogueEIN을 제시한다.
3 Methodology
3.1 Problem Statement
- U = [u1, u2, . . . , uN ]: conversation
- N은 대화의 발화의 수
- M명의 participants or speakers P = [p1, p2, . . . , pM]
- M >= 2
- ut는 p∅(ut) 화자가 말한 것으로 표시
3.2 Textual Feature Extraction
- 이전 연구(Kim, 2014)에 이어, 필터 크기가 {3, 4, 5}이고 각각에 50개의 특성 맵이 있는 다중 채널 CNN(컨볼루션 신경망)을 사용하여 발언.
- 구체적으로, 300차원 사전 훈련된 840B GloVe 벡터(Pennington et al., 2014)가 이 네트워크에 제공됩니다. (
this-> these) - 그런 다음 전역 최대 풀링과 ReLU 활성화(Nair and Hinton, 2010)가 이러한 기능 맵을 추가로 처리합니다.
- 마지막으로 이러한 기능은 연결되고 dm 차원의 조밀한 레이어로 투영되어 발언의 표현을 형성합니다. 또한 {ut} N t=1, ut ∈ R dm 을 N 발화의 표현으로 나타냅니다.
3.3 Model
- 이제 ERC 작업을 위한 감정적 상호작용 네트워크(DialogueEIN)를 제안합니다.
- 전체 프레임워크는 그림 3에 설명되어 있습니다.
- DialogueEIN은 세 가지 주요 통합 구성요소로 구성됩니다.
- interactive representation perception (section 3.3.1),
- interactive representation fusion (section 3.3.2) and
- emotion classifier (section 3.3.3).
- 제안된 프레임워크의 세부 사항은 아래에 설명되어 있습니다.
3.3.1 Interactive Representation Perception
- 그림 1에서 볼 수 있듯이 우리의 일상 대화는 다양한 변수 간의 상호 작용에 의해 좌우됩니다.
- 감지할 수 있는 이러한 변수 중 일부는 관찰할 수 있는 반면 인식할 수 있는 다른 변수는 숨겨져 있습니다.
- 우리는 이러한 변수의 흐름이 두 가지 제약 조건에 의해 제한된다고 가정합니다.
- 1) the intra-speaker (화자내) dependency
- 2) the inter-speaker (화자간) dependency
- 여기서 화자 간 종속성은 이러한 제어 변수 간의 상호 작용 방식에 직접적으로 영향을 받습니다.
- 따라서 인식 단계에서 그림 3a와 같이 두 가지 다른 유형의 스피커 GRU를 사용하여 각각 화자 내 및 화자 간 종속성을 포착하고 또 다른 상호 작용 GRU를 사용하여 이러한 변수의 흐름을 인식합니다.
- Intra-speaker GRU
- 대화 과정에서 화자 개개인은 대개 고유한 personality을 가지고 있으며 화자의 감정은 자신의 주관적 상태에 쉽게 영향을 받는다 (Scherer et al., 2001).
- 그래서 우리는 화자 내 GRUP을 사용하여 같은 화자의 인접 발화에서 자기 의존성을 포착하고 GRUP이 모델 교육 동안 개인의 잠재적인 personality을 인식할 것으로 기대합니다.
- intra-speaker state p∅(ut),t−1
- 표기가 speaker와 vector을 동시에? 헷갈릴 수 있다.
- Interaction GRU
- 대화식 표현 인식 단계에서 상호 작용 GRU는 핵심 단계입니다.
- 이 부분에서는 GRU 셀 GRUQ를 사용하여 관찰 가능한 변수를 인코딩하여 인간과 유사한 상호 작용을 시뮬레이션하는 방식으로 발화의 컨텍스트 정보를 적절하게 이해합니다.
- 직관적으로 이 모델링 방법이 더 해석 가능합니다.
- 먼저, 우리는 attention 메커니즘으로 사용가능한 reprsentation q∗,<t−1을 기반으로 현재 발화 ut와 연관있는 context ct을 캡쳐한다.
- 화자와 청자를 모두 포함하는 참가자의 사용 가능한 표현 q*,<t−1 컨텍스트 선행 발화(U<t−1*).
- 여기서 t-1은 왜 고려하지 않나?
- ⊕ denotes vectors concatenatio
- q∅(ut),t 265 is initialized with null vector for all 266 the participant
- Inter-speaker GRU
- self-dependency으로 인해 대화 참가자는 external 자극(보통 다른 참가자)이 변화를 불러일으키지 않는 한 특정 감정 상태를 고수하는 경향이 있습니다 (Poria et al., 2019b).
- 즉, 대화의 감정 변화는 종종 화자간 의존성과 강한 상관 관계를 가지고 있습니다.
- 따라서 이러한 현상을 인지하기 위해서는 Inter-speaker GRU가 필요하다.
- Bidirectional Clues Perception
3.3.2 Interactive Representation Fusion
- 정보융합의 과정은 본질적으로 객관적인 사물의 인지적 과정으로(Han, 2010), 인지된 정보에 대한 이해를 어느 정도 승화시킨다.
- 그리고, 서로 다른 관점에서 정보의 상보성은 표현 융합의 처리에 의해 포착될 것이다.
- 따라서 그림 3b와 같이 interactive representation fusion stage에서 우리는 주의와 변환기를 계단식으로 연결하여 화자 내 및 화자 간 종속성의 감정적 단서를 통합하고 이들 e단서간의 내부 관계를 완전히 탐색하기 위해 계층적 모듈을 설계합니다.
- 단서: 예측된 현재 발화의 일관성에 대한 설명을 생성하는 단서.
- 근데 그림으로만 보면 이건 future context을 사용하는 거 같은데?
- 첫째, 장기간 컨텍스트를 전파할 때 RNN의 성능이 좋지 않다는 고유한 문제로 인해 대화의 다른 주변 진술에서 컨텍스트 단서를 검색하고 통합하기 위해 컨텍스트 감지 주의(CSAttention)를 사용합니다.
- 인트라 스피커 상태의 경우
- inter-speaker state
- 그런 다음 이러한 단서와 현재 발화의 감정 레이블의 정확한 예측에 대한 기여도 간의 본질적인 관계를 밝히기 위해 BERT(Devlin et al., 2019)의 TRAnsforMer(TRAM) 모듈을 사용합니다.
- 유익한 고차원 표현을 배웁니다.
- 또한 모델 사이에 편견이 없도록 특수 임베딩[CLS]을 도입합니다. 입력은 헤드에 {[CLS, get , pet ]}인 [CLS]를 추가하여 구성됩니다.
- 계산 과정은 다음과 같이 나타낼 수 있습니다.
3.3.3 Emotion Classifier
4.1 Dataset
- IEMOCAP, MELD
5 Results and Analysis
5.1 Experimental Results
- 결과를 더 자세히 분석하기 위해 표 3의 분류 결과의 혼동 행렬이 그림 4a에 나와 있습니다.
- happy은 항상 excited으로 잘못 분류되어 있음을 알 수 있습니다.
- 우리는 이것이 두 가지 요인에 달려 있다고 추측합니다.
- 한편으로 Valence-Arousal 표현(Giannakopoulos et al., 2009)에 따르면 행복과 흥분은 모두 긍정적인 원자가이며 각성은 감정에 가치를 두기 때문에 매우 혼란스럽습니다.
- 반면에 그것은 감정적 역학에 의해 발생합니다.
- 그림 4b에서 테스트 세트에서 몇 가지 일반적인 감정 변화의 성공적인 예측 비율을 보여줍니다.
- 히스토그램을 주의 깊게 관찰하면 다른 원자가와 각성 값을 가진 감정 쌍과 유사한 원자가 및 각성 값을 가진 감정 쌍 사이에 예측된 감정 이동 결과에 상당한 차이가 있습니다.
- 예를 들어 excited된 변화에서 frustrated 으로의 성공은 최소 62.5%이지만 단 15.15%만이 excited에서 happy으로 변화한다.
- 이 문제의 추가 해결은 ERC 분야의 주요 과제로 남아 있습니다.
5.3 Ablation Study
- 이 두 단계의 기여도를 종합적으로 이해하기 위해 IEMOCAP 데이터 세트에 대한 몇 가지 절제 연구를 수행합니다.
- 1)의 첫 번째 행의 표 4의 첫 번째 블록과 같이 perception 단계를 제거하면 성능이 급격히 떨어집니다(~24.7%Acc 및 543 24.5%F1). 지각 단계의 필요성을 나타냅니다.
- 2) 나머지 행에서 내부 또는 inter-GRU만 제거하면 성능이 각각 크게 감소하고 약간 증가합니다.
- 이 대조적인 결과는 inter-speaker가 더 중요하고 intra-speaker GRU보다 감정을 유발하는 더 풍부한 맥락적 단서를 포함하고 있음을 보여줍니다.
This-> Theses- 그리고 단순한 선형 레이어는 두 종류의 정보를 효과적으로 융합할 수 없습니다.
- CSAttention과 TRAM의 효과라는 것
- 두 번째 블록, 1) 처음 세 행에서 볼 수 있듯이 CSAttention 모듈을 추가하면 성능이 어느 정도 향상됩니다.
- 이 현상은 모듈이 주의 점수를 기반으로 관련 주변 표현의 컨텍스트를 추가로 통합할 수 있음을 보여줍니다.
- 2) 마지막 2행에서 TRAM 모듈만 추가하면 성능이 약간 떨어집니다.
- 대조적으로, TRAM과 CSAttention이 공동으로 모델링되면 CSAttention만 사용할 때보다 성능이 크게 향상됩니다.
- 또한 동일한 화자의 감정 전환에 대해 TRAM이 있는 모델의 예측 성공 확률은 TRAM이 없는 모델보다 4.2% 더 높습니다.
- 이는 표현 융합 단계의 필수 불가결한 부분인 TRAM이 획득한 특징이 충분한 감정적 단서를 포함할 때 현재 발화를 더 잘 이해할 수 있도록 유익한 고차원 표현을 학습할 수 있음을 나타냅니다.
5.4 Case Study
- 이 논문은 interactive representation perception과 interactive representation fusion의 두 스테이지로부터 감정 clues을 캡쳐하는 것을 시도한다.
- 우리는 좀 더 설명적인 감정 interaction network (DialogueEIN)을 제안하고, 이는 먼저 발화에서 직접 intra-와 inter-speaker depdenecies을 인식하고나서, 현재 발화를 더 잘 이해하기위해 그들의 내재적 관계를 완전히 마이닝한다.
- 이것은 두 가지 벤치마크 ERC 데이터세트에 대해 비교할만한 성능을 달성한다.
- 추후 연구는 멀티모달 감정인식에 대해 탐구할 것이다.
댓글
댓글 쓰기