NL-195, Multi-label Classification for Emotion Recognition in Conversation with Few-Shot Contrastive Learning, ARR Review 2310

◼ Comment
  • Multi-label Classification for Emotion Recognition in Conversation with Few-Shot Contrastive Learning
  • 논문 요약
    • 논문의 동기는 emotion shift와 confusing labels로 인해 서로 다른 감정을 구별하기 어려운 점을 해결하고자 한다.
    • 추가적으로 저자들은 실제로 감정을 레이블링은 어렵기 때문에 few-shot setting에서 실험을 한다.
    • 화자의 현재 감정외에 이전 발화에서의 감정을 multi-emotion label로 간주한다.
    • data augmentation을 위해 대화 히스토리(support set)에서 발화문들을 하나의 시퀀스로 취급합니다.
    • 마지막으로 Supervised Contrastive Learning을 통해서 few-shot 성능을 향상시킵니다.
  • 강점
    • 논문의 동기가 명확히 설명되어 있다.
    • 적은 데이터에서 비교 모델들보다 성능이 뛰어나다.
    • 제안한 방법들로 인해 모델의 성능이 향상된다.
    • prototypical networks을 성공적으로 ERC와 결합하였다.
  • 단점
    • line 229: multi emotion label의 2의 지수승로 표현한 의도가 어떤 것입니까? multi emotion label은 앞의 발화를 고려하기 때문에, 저는 최대 2배의 감정개수를 가지는 것으로 이해했습니다.
    • line 292: BiLSTM에서 forward와 reverse hidden state을 활용한다. 그렇다면 현재 발화의 감정을 인식하기 위해 미래의 발화도 입력으로 들어가는 것인가? 많은 ERC 모델은 이전의 발화만을 고려한다. 미래의 발화를 고려하면 성능은 향상되지만 이는 실시간으로 작동할 수 있는 방법이 아니다.
    • 저자가 제안한 data augmentation은 novelty가 있다고 보기 어렵다. 일반적으로 ERC 연구에서 모든 대화 발화가 학습 타겟이기 때문에, 이는 사실 augmentation로 간주하기 어렵다.
    • 감정 레이블이 없는 쿼리 세트에 대해서 episodic learning이 수행되는 것인가?
      • 식2에서 5-shot에 대한 첫 번째 prototype을 (중심점) 찾고 쿼리 세트에 대한 확장이 이뤄지는가?
      • 확장이 이뤄진다면, 어떻게 반복적으로 정교한 prototype을 찾아가는가?
    • 이 논문에서의 베이스라인은 AVG, CNN, Transformer(Transfo), CNNLSTM이다.
      • 왜 BERT와 같은 PLM기반의 모델은 사용되지 않는가?
    • 이 논문에서 제안한 data augmentation, multi-label, contrastive learning은 오직 few-shot 환경에서만 실험되었다.
      • 저자의 주장대로라면 ERC 데이터의 full dataset을 사용할때도 효과적이어야한다.
      • 논문에서 full dataset에 대한 분석이 있으면 좋을 것 같다.
    • 논문의 주장한 전략들은 contusing label을 해결하기 위함이다.
      • 하지만 테이블 3에서 테스트 환경은 single label에 대한 F1이다.
      • 멀티 레이블을 가진 소량의 test set을 구축해서 정밀하게 파악해보면 좋은 분석이 될 것 같다.
  • 제안
    • Table1에서 w/o ES와 only ES의 더욱 자세한 설명이 필요하다.
      • w/o ES는 감정 변화가 없는 대화 쌍에 대해서만 학습한 것인가?
      • only ES는 감정 변화가 있는 대화 쌍에 대해서만 학습한 것인가?
    • ARR format이면 \subsubsection을 사용해야한다.
      • 예) section 3.3의 Data Augmentation, section 3.4의 Embedding Module, Multi-label Prediction Module 등등

0 Abstract

  • 최근 몇 년 동안 대화에서의 감정 인식 (ERC)은 다양한 접근 방식으로 진행되었습니다. 
  • 그러나 많은 연구에서 emotion shift and confusing labels으로 인해 모델이 서로 다른 감정을 구별하기 어렵게 만든다고 지적했습니다. 
  • 기존의 ERC 모델은 감정이 하나의 레이블로 매핑될 때 이러한 문제로 고통을 겪습니다. 
  • 본 논문에서는 대화에서 감정 인식에 대한 Multi-Label classification(ML-ERC)를 제안하여 모호한 감정 문제를 밝히고자 합니다. 
  • 우리는 감정을 레이블링하는 것이 비용이 많이 들고 레이블이 종종 불균형하기 때문에, few-shot learning (FSL)을 활용합니다.
  • 특히, 대화의 특성을 고려한 ERC에 맞춘 supervised contrastive learning을 도입합니다. 
  • 두 개의 벤치마크 데이터셋에서의 실험 결과는 제안된 접근 방식이 모호한 감정을 효과적으로 처리하는 데 도움이 된다는 것을 보여줍니다. 
  • 우리의 모델은 emotion shift의 가장 어려운 상황에서 감정을 식별하기 위한 최신 기술을 달성합니다. 
  • 우리의 코드는 https://anonymous.4open.science/r/ML-ERC-4694 에서 사용 가능합니다.

1 Introduction

  • AI 대화 시스템, 특히 의료 및 고객 서비스 분야의 챗봇과 같은 AI 대화 시스템의 도입을 계기로, 대화 중 감정 인식(Emotion Recognition in Conversation, ERC)이 이목을 끄는 분야 중 하나로 부상하고 있습니다. 
  • ERC 작업은 대화에서 각 발언(utterance)에서 다양한 감정을 식별하는 것을 목표로 합니다. 
  • 지속적으로 성과가 향상되고 있지만, 개선을 위한 여전히 남아 있는 어려움이 있습니다. 
  • 이전 연구에서는 감정의 변화와 혼동스러운 레이블이 모델이 감정을 구별하기 어렵게 만드는 원인으로 지적되었습니다.
  • 감정 변화는 동일한 화자의 감정이 화자의 연속적인 발언 중에 변하는 경우 발생합니다. 
    • 따라서 각각의 감정을 감지하는 것은 더 어려워집니다. 
  • 그림 1은 감정 변화의 예를 보여줍니다. 
  • 혼동되는 감정은 두 가지 유사한 감정을 발언 내에서 구별할 수 없는 경우입니다. 
  • 최근 연구에서는 감정 변화를 다루기 위해 교육 과정 학습(커리큘럼 학습)을 사용하고, 여러 가지 감정에 대한 회색 레이블을 구성하는 모델을 제안했습니다. 
  • 이 두 가지 문제, 감정 변화와 혼란스러운 레이블,는 둘 다 감정의 모호함과 관련이 깊기 때문에 어려운 문제입니다. 
  • 감정의 모호성은 심리학 연구에서 감정을 설명하기 위해 감정 valence-arousal 2D 감정 공간을 사용하는 다른 연구 분야에서도 나타납니다. 
  • 실제로, 감정을 2D 또는 원형 배열로 구성한 연구는 1950년대의 연구에서 기인한 것으로 더 일반적이어지고 있습니다. 
  • 이러한 관점에서 각각의 감정을 감정 레이블 중 하나와 연결하는 것은 너무 간단화되어 모호함을 야기합니다. 
  • Mikels은 감정이 종종 혼합되고 behaviors or utterances을 통해 표현되며, mixed-emotions을 포착하는 새로운 방법을 도출했습니다. 
    • 이런 연구가 있었군?
  • 그러나 이러한 연구들과 관계없이 ERC(Emotion Recognition and Classification)에서의 감정 인식 작업은 여전히 단일 레이블을 예측하는 것으로 남아 있습니다.
  • ERC의 위에서 언급한 도전 과제를 해결하기 위해, 우리는 "대화 중 감정 인식을 위한 다중 레이블 분류 (Multi Label classification for Emotion Recognition in Conversation, ML-ERC)라는 새로운 방법을 제안합니다. 
  • 이전 ERC 모델은 모든 발언에 대해 단일 레이블을 예측하려고 시도했지만, 우리는 이 같은 ERC 작업을 multi-label (감정) 예측으로 전환합니다. 
    • single-label 할당 대신, 각 발언은 여러 감정 레이블을 가질 수 있습니다. 
    • 이 새로운 접근 방식을 위해, 기존의 대부분이 단일 감정으로 레이블링된 기존 ERC 데이터셋 외의 다른 데이터셋이 필요합니다. 
    • 따라서 우리는 다중 감정 레이블을 위한 self annotation 전략을 제안하며, 이는 인간 감정에 관한 연구에 기반합니다. 
    • 우리가 제안한 체계를 따르면, 원래 single-label로 레이블링된 기존 데이터셋의 각 발언에 여러 레이블을 할당할 수 있습니다. 
    • 특히 추가 감정 레이블로 주석을 달 때, 이전에 부정적인 영향을 미쳤던 감정 변화를 역으로 활용합니다. 
    • 나중에 밝혀지겠지만, 우리의 self annotation scheme는 단일 레이블 예측을 위한 기존 ERC 작업에서도 효과적이며, 어떻게 다중 레이블 감정이 ERC에서 활용될 수 있는지에 대한 통찰을 제공합니다.
    • self-annotation 전략을 통해 single-label을 multi-label로 바꿔서 활용한다는 것? EmoOne과 유사한듯
  • ERC의 다른 도전 과제는 데이터셋에서 나타나는 imbalanced class distribution 또는 label scarcity 문제에서 발생합니다. 
    • 이전 ERC 연구에서는 비대칭 레이블 분포로부터의 간섭을 완화하기 위해 few-shot learning을 적용한 적이 있습니다 (Guibon 등, 2021). 
    • 우리는 ML-ERC를 few shot scenarios에서 구현하여 모델을 현실적인 상황에서 적용 가능성을 보여줍니다. 
    • 구현에 있어서, 우리는 각 클래스에 대한 평균 특징 벡터를 사용하는 거리 측정 기반 메타 학습 기술인 프로토타입 네트워크(prototypical networks)를 사용합니다 (Snell 등, 2017). 
    • 프로토타입 네트워크는 가장 널리 사용되는 메타 학습 방법 중 하나입니다. 
    • 최근 몇몇 연구에서는 프로토타입 네트워크에 contrastive learning을 적용한 연구도 있습니다. 
    • 이러한 최근 성공에 영감을 받아 (Chen 등, 2022; Liu 등, 2022), 우리는 대화형 텍스트에 특화된 supervised contrastive learning scheme를 few-shot environment에서 프로토타입 네트워크에 적용합니다.
    • 데이터 불균형 및 레이블 부족문제를 contrastive learning을 통해 해결해보자! prototypical networks라는 걸 썼다고함
  • 본 논문에서는 대화에서 감정을 더 잘 식별하기 위한 ERC에 대한 새로운 접근 방법을 제안합니다. 
  • 우리의 기여는 세 가지로 나눌 수 있습니다.
    • 이번에는 우리는 ERC를 다중 레이블 분류로 다루어 두 가지 문제, emotion shift and confusing labels을 해결하기 위해 처음으로 접근합니다. 이 새로운 방법론에서는 multi-label 에 대한 self annotation scheme 가 도입됩니다.
    • 우리는 우리가 도입한 ERC용 data augmentation 방법론이 contrastive learning 프레임워크를 통해 성능을 향상시킬 수 있다는 것을 보여줍니다. 이는 우리가 ERC용 데이터 증강을 처음으로 시도한 것으로 믿습니다.
    • 우리는 제안된 작업을 multi-label classification 로 수행하고 우리가 제안한 모델의 효과를 확인하기 위해 포괄적인 실험을 진행합니다. 비교를 위해 테스트 단계에서 single-label prediction을 수행하여 기준 모델과 비교하며, 가장 어려운 설정에서 최고 수준의 성능을 달성합니다. 또한 우리의 접근 방법의 효과에 대한 심층 분석과 토론을 제공합니다.

2 Motivation for Multi-label ERC 

  • 많은 ERC 연구에서는 emotion shift and confusing emotion에 대해 논의되었습니다. 
  • 여기서는 이러한 현상이 ERC에서 classification 성능에 어떻게 영향을 미치는지에 대해 논의합니다.

2.1 Influence of Multiple Emotions on ERC

  • emotion shift 는 감정의 전환을 의미합니다. 
  • 감정 변화는 ERC(감정 인식 및 생성) 성능에 중요한 영향을 미칩니다. 
  • 표 1은 여러 연구에서 수행된 실험을 요약하고 감정 변화가 성능에 미치는 영향을 보여줍니다. 
  • 각각의 기존 ERC 모델에 대해, 
    • 감정 변화가 있는 발화를 제거한 경우 (w/o ES)와
    • 감정 변화가 있는 발화만 사용한 경우 (only ES), 
    • 그리고 원래 데이터를 모두 사용한 경우의 성능을 비교합니다 (original F1). 
    • 감정변화가 있는 데이터를 사용했단게 무슨의미임? 학습할때를 말하는 것인가?
    • w/o ES는 감정변화가 없는 데이터로만 학습한것?
    • only ES는 감정변화가 있는 데이터로만 학습한 것?
  • 표 1에서는 emotion shift가 없는 데이터를 사용할 때 성능이 최대 6.45% 향상되는 것을 보여줍니다. 
  • 그러나 emotion shift만 다루는 경우에는 약 15% 정도의 성능 저하가 나타납니다.
  • 이전의 방법들은 종종 excited-happy and frustrated-anger과 같은 감정 간의 미묘한 차이를 구별하지 못하는 경우가 많았습니다. 
    • 이 현상을 confusing labels이라고 합니다. 
  • Yang (2022)를 따라가면 Figure 2 (a)에서 두 감정 간의 각도가 90도 미만인 경우 (즉, 코사인 유사도 > 0) 해당 영역의 감정을 confusing emotions으로 간주합니다. 
  • confusing labels로 인해 감정의 경계가 모호해지므로, 많은 모델은 이러한 감정을 분류하는 데 실패합니다. 
    • 즉 confusing labels은 비슷한 감정을 의미하는 것이고, 엄밀히 그림(a)에서 각도가 90도 이하인 감정들을 의미하는 것이라고 함
  • Figure 2 (b)에서 이 두 현상이 발생하는 비율을 보여줍니다. 
  • IEMOCAP 데이터셋에서는 데이터의 96.6%가 emotion shift를 포함한 대화 데이터입니다. 
    • 또한 emotion shift의 92%가 비슷한 감정 (또는 confusing 감정) 사이에서 발생한다는 것을 발견했습니다. 
    • emotion shift은 화자의 감정이 바뀌는 것을 의미한다.
    • 화자의 감정이 바뀔때 92%가 유사한(confusing) 감정으로 바뀐다고 한다.
    • 따라서 이렇게 화자의 감정을 제대로 인식하는 어려움이 ambiguous 감정 때문이라고 여기서 명명하는듯
  • 이 두 현상이 함께 발생하고 공통의 감정 모호성 문제를 가지므로 이 두 문제를 모두 ambiguous emotions이라고 통칭합니다.

2.2 Annotating Multi-Emotion Label

  • 이 연구에서는 애매모호한 감정 문제를 다중 레이블 분류로 해결합니다. 
  • 다중 레이블 분류에서 각 인스턴스는 여러 레이블과 관련될 수 있으며, 이는 각 발화가 여러 감정 레이블과 주석이 달릴 수 있다는 것을 의미합니다. 
    • 그러나 현재의 벤치마크 데이터셋은 모두 단일 감정으로 레이블이 지정되어 있습니다. 
    • 이러한 불일치로 인해 우리는 다중 감정 레이블을 생성하기 위한 자체 주석 체계를 제안합니다.
    • 자동 주석 전략의 경우, 대화에서 감정 변화에 대한 저항력을 나타내는 감정 관성(emotion inertia)을 구체적으로 활용합니다.
    • 또한 다중 레이블 생성을 위해 감정 이동(emotion shift)도 활용합니다. 
    • 특히 감정 관성을 기반으로 모든 감정 이동에서 두 가지 감정(이전 및 새로운 감정)이 동시에 존재하도록 하여 다중 레이블 감정을 생성합니다.
    • 현재 레이블된 감정에 이전 턴의 감정도 있다고 간주하는 것인듯?
  • 우리의 다중 레이블 체계는 기존의 단일 레이블 데이터셋에서 어떠한 인간 주석도 필요하지 않고 각 발화에 대해 여러 개의 레이블을 생성할 수 있습니다. 
    • 이중 대화에서 동일한 화자의 현재 발화와 이전 발화가 다른 레이블을 가질 경우, 현재 발화를 다중 레이블 주석의 대상으로 삼습니다. 
    • 따라서, 우리는 ((t - 1)-번째) 발화와 t번째 발화에서 두 가지 감정을 집계하여 다중 레이블을 생성합니다. 
    • 부록 B의 그림 4에서 이 다중 레이블 감정이 어떻게 생성되는지를 보여줍니다. 
    • 이거보면, u3의 감정은 u1의 감정과 더해지고, u6의 감정은 u3와 더해지고, u7의 감정은 u5와 더해지고 등등 이런식으로 멀티레이블로 확장한다.
    • 예시로 Figure 1에서 선택한 것입니다. 
  • 또한 우리의 체계를 기존 데이터셋에 적용한 추가적인 예시를 Table 8에서 제공합니다.
    • 테이블 8에 좀 더 다양한 예시가 있음

3 Methodology 

3.1 Problem Definition

  • 대화는 발화들의 연속입니다 (C = {(u1, y1), (u2, y2), ..., (u|C|, y|C|)}), 여기서 각 발화는 토큰들의 시퀀스입니다 (u1 = (t1, t2, ..., t|u1|)). 
  • 우리는 레이블 집합 E = {e1, e2, ..., eK}을 고려합니다. 
  • ERC의 목표는 각 발화의 감정을 예측하는 것입니다. 
  • 우리의 연구 결과에 기반하여, 우리는 혼합된 감정을 포착하기 위해 각 발화를 여러 레이블과 관련시켜 다중 레이블 분류 작업으로 문제를 재정의합니다. 
  • 다중 레이블 분류에서 각 데이터 인스턴스는 동시에 여러 레이블과 관련되며, 이를 통해 각 발화를 동시에 여러 감정과 관련시킬 수 있습니다. 
  • 따라서, 이전에 정의한 E를 다중 감정 레이블 집합 EM = 2^{e1, e2, ..., eK}로 확장합니다.
    • 이 표현은 뭐지? 2의 지수승?

3.2 Prototypical Networks with Episodic Learning

  • 일단 프로토타입 네트워크는 이 글로 빠르게 이해해보자
    • https://rhcsky.tistory.com/9
  • 우리는 프로토타입 네트워크(Prototypical networks)를 기반으로 한 소수 샷 학습(few-shot learning) 문제를 다룹니다(Snell 등, 2017). 
  • 프로토타입 네트워크는 소수 샷 상황을 다루기 위해 에피소딕 학습(episodic training)을 사용합니다. 
    • episodic training이란게 반복적으로 중심을 찾아가는 그걸 말하는 것 같음
  • 에피소딕 학습은 데이터셋을 모든 클래스를 동등하게 훈련하도록 구성하고 모델의 학습을 용이하게 합니다(Ravi와 Larochelle, 2017). 
  • 에피소딕 학습을 위해 클래스 당 샘플 수(Ns)와 클래스 수(Nw)를 설정합니다. 
  • support set는 전체 데이터셋에서 Nw 클래스에 해당하는 Ns 대화를 무작위로 선택하여 형성됩니다. 
  • 쿼리 세트는 라벨이 없는 샘플로 이루어집니다. 
  • 프로토타입 네트워크는 각 클래스의 임베디드 support 예제를 평균화하여 프로토타입을 계산하고 쿼리를 가장 가까운 프로토타입의 클래스 라벨에 할당합니다.

3.3 Supervised Contrastive Learning for Conversation

  • 에피소딕 학습을 이용한 ERC에서 한 대화는 다른 라벨의 여러 서포트에서 여러 번 샘플링될 수 있습니다. 
  • 이는 한 대화가 여러 발화문으로 구성되며 각 발화문은 감정 라벨과 관련이 있기 때문입니다. 
  • 프로토타입을 계산할 때 불필요한 정보가 프로토타입의 순수한 형성을 방해할 수 있습니다. 
  • 우리는 ERC의 소수 샷 학습 문제를 해결하기 위해 대화용 지도 대조 학습(Supervised Contrastive Learning for Conversation, SCLC)을 도입합니다. 
  • 구체적으로, 우리는 SCLC에서 데이터 증강을 사용합니다.

3.3.1 Data Augmentation 

  • ARR 포맷이면 3.3.1이 붙어야하는거 같은데?
  • support set 내의 각 샘플마다 우리는 증강 세트를 구성합니다. 
  • 우리의 증강 접근법은 이전 연구의 가정에서 출발하며, 현재 발화문은 앞선 발화문에 영향을 받으며 각 감정의 첫 번째 발화문은 상대적으로 이전 발화문이 적게 영향을 받았기 때문에 가장 순수한 감정을 포함하고 있다는 것입니다.
  • 샘플 S를 증강할 때, 주어진 감정 라벨이 있는 첫 번째 발화문을 찾습니다. 
  • 그런 다음 그 발화문까지의 모든 발화문을 하나의 시퀀스로 취합니다. 
  • 이 과정을 전체 라벨 세트 E에 대해 반복합니다. 
  • Figure 1의 예를 들어보면, 대화는 놀라움, 분노, 두려움 및 중립의 샘플입니다. 
  • 이러한 감정 중 놀라움에 대한 증강은 놀라움 감정이 처음으로 나타나는 [u1, u2]와 같아야 합니다. 
  • 자세한 내용은 부록 C에서 확인할 수 있습니다.
  • 즉 각 대화에서 각 감정에 대해 첫 번째로 나타난 발화가 support set의 data augmentation으로 간주한다는 것인가?
    • 그림 1에서, surprise는 u2가 처음 등장 --> [u1, u2]
    • fear은 u4가 처음 등장 --> [u1,u2,u3,u4]
    • anger은 u3에서 처음 등장 --> [u1,u2,u3]
    • neutral은 u1에서 처음 등장 --> [u1]
    • surprise set = 특정 대화 세트를 의미
    • 이를 증강한다는 것 -> 각 감정의 나타내는 대표적인 context을 추출한다는 것?
    • 첫 번째로 나타난 발화는 이전 발화문에 가장 적은 영향을 받기 때문에, 가장 순수한 감정을 포함하고 있다는 가정

3.4 Multi-label ERC Model

3.4.1 Embedding Module

  • ARR 포맷
  • 우리는 각 발화문을 토큰으로 토큰화하고 Wiki News의 미리 훈련된 FastText로 각 토큰을 나타냅니다. 
  • 우리는 토큰을 CNN에 넣어 발화문 표현을 만들고, 다양한 convolution 필터를 사용하여 이를 max-over-time pooling 방법을 통해 벡터로 결합합니다. 
  • 우리는 양방향 LSTM(BiLSTM)을 사용하여 발화문에 문맥 정보를 넣습니다. 
  • BiLSTM의 출력, 문맥 함수,은 시퀀스의 각 시간 단계에서 순방향 및 역방향 숨겨진 상태를 연결한 것을 포함할 것입니다. 
    • 역방향을 계산한다는게 뭘까?
    • 과거만을 이용한 embedding을 추출하는게 아닌가?
    • 현재 발화 임베딩을 추출하기 위해 미래 발화도 활용?
  • 발화문의 임베딩(ui)은 아래의 Equation 1을 통해 얻을 수 있습니다.
    • 여기서 f는 발화문 임베딩 함수이고, g는 문맥 임베딩 함수입니다. 
    • 이 임베딩 vi는 드롭아웃과 ReLU 함수를 사용한 2개의 fully connected layers으로 이루어진 MLP에 입력됩니다.

3.4.2 Multi-label Prediction Module

  • ARR 포맷
  • 프로토타입 rk는 각 클래스에 속하는 임베디드 값의 평균 벡터입니다.
    • 여기서 P(ek)는 라벨 ek와 해당 augmentation의 서포트 세트를 나타내며, vi는 ui의 임베딩입니다.
    • rk가 support set의 임베딩의 평균
  • 다중 라벨(multi-label)의 경우, 하나의 샘플에 여러 라벨이 공존합니다. 
  • 따라서 주어진 쿼리 x에 대해 모델은 Equation 3을 따라 x의 다중 라벨을 예측합니다.
    • 여기서 g는 쿼리 x와 프로토타입 ri 간의 거리를 기반으로 한 유사성 측정값이며, 시그모이드 함수를 사용하여 0에서 1로의 유클리드 거리 매핑을 이용합니다. 
    • Y^는 예측된 다중 라벨 세트, t는 임계값(threshold)을 나타내고, R은 프로토타입의 세트입니다.
    • 각 클래스의 중심(프로토타입) ri와 가장 가까운 i가 해당하는 클래스로 보는 듯?
  • 에피소딕 학습은 각 에포크(epoch)마다 support 및 쿼리 세트를 무작위로 생성합니다. 
  • 각 대화가 사용될 때마다 프로토타입의 위치도 변경됩니다. 
  • 데이터 변동성이 큰 경우 고정 임계값을 사용하면 각 에피소드마다 큰 편차가 발생할 수 있습니다. 
  • 따라서 우리는 Hou (2021)을 따라 고정 상수값을 임계값으로 설정하지 않고 각 데이터셋의 분포를 반영하는 적응형 임계값을 사용합니다. 
  • 이것은 Equation 4에 나타납니다.
    • 여기서 ω는 보간 비율을 제어하는 학습 가능한 매개변수입니다. 
  • 임계값은 쿼리와 프로토타입 간의 유사도 점수를 기반으로 계산됩니다. 
  • 임계값을 초과하는 라벨은 쿼리의 예측 세트 Y^에 포함됩니다.

3.4.3. ML-ERC Learning objectives

  • ARR 포맷
  • 우리의 학습 목표를 위해, 우리는 감독 대조 학습 손실 함수(Loss Function)에서 주요한 부분을 차용합니다(Khosla 등, 2020). 
  • 이를 우리는 "대화를 위한 감독 대조 학습(Supervised Contrastive Learning for Conversation, SCLC)" 손실이라고 부릅니다. 
  • 같은 클래스의 샘플과 그들의 증강은 양성 쌍(positive pairs)이 되고, 서로 다른 클래스의 샘플은 음성 쌍(negative pairs)이 됩니다.
    • 우리는 각 라벨에 대해 양성과 음성 쌍으로 프로토타입을 생성하여 모든 접근 가능한 데이터를 사용합니다. 
    • 이는 Song et al. (2022)을 따르며, SCLC는 발화문 ui에 대한 손실을 Equation 5 - 8과 같이 계산합니다.
    • F는 두 샘플 간의 유사성을 계산합니다. 
    • τ는 온도 매개변수입니다.
    • 식 6은 negative 점수를 나타냅니다. 
    • A(i)는 support 세트에서 vi와 다른 라벨을 가진 모든 표현을 포함하는 음성 쌍의 집합입니다. 
    • vi의 라벨과 일치하지 않는 프로토타입도(다른 클래스의 중심) 부정적인 점수 계산에 포함됩니다.
    • P(i)는 양성 샘플의 집합입니다. 
    • 양성 점수는 동일한 라벨, 증강된 데이터, 그리고 vi에 해당하는 프로토타입을 가진 샘플로 계산됩니다. 
  • 식 6과 식 7을 기반으로, 인스턴스 vi에 대한 SCLC 손실은 다음과 같이 정의됩니다.
    • support 세트의 모든 샘플에 대한 총 손실은 최종 SCLC 손실입니다. 
  • 우리의 모델은 교차 엔트로피 손실(LCE), 다중 라벨 소프트 마진 손실(LML), 그리고 SCLC 손실(LSCLC)을 결합합니다. 
  • 여기서 episodic learning이 들어가는것인가?
  • 우리는 LCE와 LML을 사용하여 전자는 단일 감정 분류의 성능을 향상시키는 것을 기대하고, 후자는 모호한 감정을 가진 어려운 샘플을 처리하는 데 사용됩니다. 
    • 정말 그렇게 되는지 실험을 통해 확인하나?
  • 다중 라벨 소프트 마진 손실은 여러 감정을 하나의 감정으로 매핑하는 대신 유연성을 허용합니다. 
  • SCLC 손실은 강력한 모델을 위해 총 손실에 추가됩니다. 우리의 다중 손실 LMULTI는 다음과 같이 구현됩니다.

4 Experiment 

  • 우리의 다중 라벨 사용 방법은 ERC 문헌에서 완전히 새로운 방법입니다. 
  • 따라서 우리는 두 가지 방식으로 모델을 평가합니다: 다중 라벨 분류와 단일 라벨 분류. 
  • 모델은 다중 손실 LMULTI에 의해 학습되며, 쿼리의 단일 라벨로 가장 가까운 프로토타입의 라벨을 예측하며, 임계값을 초과하는 라벨을 쿼리의 다중 라벨로 예측합니다. 
  • 단일 라벨 분류는 기존의 소수 샷 ERC 모델과 비교됩니다.

4.1 Baselines

4.1.1 Multi-label Few-shot ERC

  • 다른 임베딩 전략의 ML-ERC 변형을 사용하여 다중 레이블 분류를 수행합니다. 
  • 우리는 4가지 방법(AVG, CNN, Transformer(Transfo), CNNLSTM)을 사용하여 발화를 임베딩합니다. 
  • AVG, CNN 및 Transfo는 발화만 고려하는 반면 CNNLSTM은 발화 및 컨텍스트 정보를 모두 사용합니다. 
  • 부록 D.1에는 각 임베딩에 대한 상세 설정이 나와 있습니다.
  • ERC모델로 선택한 모델들이 약간 구식인데?
    • 언급을 해줘야함

4.1.2 Single-label Few-shot ERC

  • 두 가지 Few-Shot ERC 모델을 고려합니다: Proto (Snell et al., 2017) 및 ProtoSeq (Guibon et al., 2021).
    • 보니까, 여기서는 full train data를 쓰는게 아니고, 매우 일부만 학습데이터 레이블이 있다고 가정한 시나리오라서 비교 모델이 이런듯
    • 그리고 나머지 시드들은 proto 모델 같은걸로 episodic learning 하는듯
  • Proto는 원래의 프로토타입 네트워크를 기반으로 합니다. 
  • 토큰 표현의 평균값으로 임베딩을 사용합니다. 
  • 모델은 프로토타입에 대한 유클리드 거리 를 통해 가장 가까운 감정을 분류합니다.
  • ProtoSeq은 Few-Shot ERC 분야의 최첨단 모델입니다. 
  • 프로토타입 네트워크를 기반으로 이 모델은 기존 BiLSTM-CRF 모델을 수정합니다. 
  • 기준으로 CRF를 사용하거나 사용하지 않은 ProtoSeq를 모두 사용합니다.

4.2 Data

  • We perform experiments on two dyadic ERC bench415 mark datasets: DailyDialog and IEMOCAP. 
  • Table 2 shows the statistics for each dataset.
  • DailyDialog, IEMOCAP

4.3 Implementation Details

  • Parameter Settings 
    • DailyDialog에서는 5-shot, 7-way을 고려하고, IEMOCAP에서는 1-shot, 6-way setting을 고려합니다.
    • Guibon을 따라 훈련, 검증 및 테스트 에피소드의 수를 각각 100, 100 및 1000으로 설정합니다. 
    • 모든 결과는 다섯 가지 무작위 시드로부터 얻은 평균 점수입니다. 
    • 부록 D.2에서는 추가 실험 세부 정보를 제공합니다.
  • Evaluation Metrics 
    • 이전 ERC 연구를 따르면, DailyDialog에서는 F1-micro 점수를 사용하고, IEMOCAP에서는 F1-weighted 점수를 사용합니다. 
    • DailyDialog의 레이블은 균형이 매우 무너져 있기 때문에 성능을 F1-micro 점수를 사용하여 평가합니다. 
    • IEMOCAP의 레이블은 비교적 균형이 맞추어져 있으며, 평가 메트릭으로 F1-weighted 점수를 사용합니다.

5 Results and Analysis

  • Table 3은 다양한 임베딩 방법에 대한 다중 레이블 및 단일 레이블 성능을 보여줍니다. 
  • 양쪽 데이터셋 모두, CNNL-STM 임베딩을 사용했을 때 최상의 결과를 얻습니다. 
  • 발화 임베딩만 사용할 때는 컨텍스트 임베딩을 적용한 경우보다 성능이 훨씬 낮습니다. 
  • 다중 레이블 분류에서도 컨텍스트를 이해하는 것이 중요합니다.
  • 이는 전통적인 ERC와 동일한 경향을 보입니다. 
  • 샷의 수를 다양하게 설정한 추가 실험은 부록 F에서 제공됩니다.

5.1 Results of Single-label Classifications  

  • Table 4은 기존의 몇 가지 포화 ERC 모델과 우리의 단일 레이블 예측 성능을 비교합니다. 
  • ProtoSeq, CRF 없는 ProtoSeq 및 ML-ERC는 동일한 임베딩 방법 (CNNL-STM)을 사용하며, 각각 CRF, 교차 엔트로피 및 다중 손실 LMULTI를 사용하여 서로 다른 손실 계산을 합니다. 
  • ProtoSeq는 DailyDialog에서 28.64%의 최상의 결과를 얻었지만, IEMOCAP에서 16.25%의 최악의 결과를 얻습니다. 
  • 이러한 상반된 결과는 모델 내의 CRF (Lafferty 등, 2001)와 관련이 있습니다. 
  • Ghosal 등(2021)은 CRF가 대화보다는 표면 레이블 패턴에 중점을 둔다는 것을 입증했습니다. 
  • DailyDialog는 레이블 분포가 극도로 불균형하기 때문에 CRF는 DailyDialog의 감정 조합을 적게 고려합니다. 
  • 그러나 실제 세계에서 대화는 유연한 레이블 패턴을 갖습니다. 
  • 상대적으로 다양한 레이블 전환을 포함하는 IEMOCAP에서 ProtoSeq는 최악의 결과를 내놓습니다. 
  • 우리의 모델은 다중 손실을 통해 감정 특성을 이해함으로써 대화에 접근합니다. 
  • ML-ERC는 IEMOCAP에서 26.29%로 최첨단 성과를 달성합니다. 
  • IEMOCAP의 성능은 동일한 임베딩을 사용하더라도 다중 손실을 사용하여 단일 레이블 분류의 성능이 향상된다는 것을 보여줍니다.

5.2 Ablation Studies and Discussions

  • 우리의 학습 목표 함수(LMULTI)는 교차 엔트로피 손실(LCE), 다중 레이블 소프트 마진 손실(LML), 그리고 SCLC 손실(LSCLC)의 조합입니다. 
  • 우리는 다중 레이블 분류와 SCLC 손실이 ERC 문제를 완화시킬 수 있는지 확인하기 위해 다루어진 실험인 표 5에서 이를 확인하는 연구를 수행했습니다. 
    • Loss에 대한 ablation
    • 근데 DA가 진짜 DA 느낌이 아니긴함. 이거는 그냥 있는 데이터 잘 활용해서 한 거 아닌가?
  • 이전 ERC 연구들은 목적 함수로 교차 엔트로피 손실(CE)을 사용했습니다. 
  • CE는 대상 레이블에 대응하는 점수로 계산되기 때문에, 전통적인 ERC 모델은 모호한 감정을 식별하는 데 어려움을 겪습니다. 
  • 표 5에서는 LSCLC와 LML이 LMULTI에서 제거된 경우, 모델은 LCE만 사용하여 훈련됩니다. 
  • 각 부분을 제거한 후 성능이 감소하는 것을 관찰하며, ML-ERC의 모든 구성 요소가 성능에 기여하는 것을 나타냅니다.
  • Impact of Augmentation 
    • 우리의 데이터 증강 접근 방식의 영향을 명확하게 평가하기 위해, LSCLC 내에서 데이터 증강을 적용하지 않은 실험을 수행합니다. 
    • LSCLC에서 데이터 증강을 배제하면, 다중 레이블 분류에서 DailyDialog와 IEMOCAP에 각각 1.47 및 1.46, 그리고 단일 레이블 분류에서 각각 1.29 및 1.14의 성능 감소가 나타납니다. 
    • 우리는 supervised contrastive learning and prototypical networks 가 상호 작용한다고 믿습니다. 
    • 두 가지 방법은 유사한 추론 편향을 갖고 있으며, 동일한 레이블을 가진 데이터는 유사한 임베딩 공간에 위치할 것입니다. 
    • SCLC의 데이터 증강은 현재 발화의 감정과 관련된 정보에만 접근하기 때문에 구별력 있는 프로토타입을 얻는 데 도움이 됩니다. 
    • 결과적으로, 우리의 다중 레이블 접근 방식과 대화를 위한 데이터 증강은 결과에 중요한 기여를 합니다.
  • Why Supervised Contrastive Learning Works? 
    • (Khosla 등, 2020)에서의 분석에 따르면, 지도 대비 손실은 훈련 중에 어려운 양수/음수 마이닝에 대한 본질적인 메커니즘을 제공하며, 어려운 양수/음수로부터의 기울기 기여가 큽니다. 
    • 어려운 양수는 최소 코사인 유사성을 가지지만 양수 쌍에서 나온 예시입니다. 
    • ERC 맥락에서, 어려운 양수는 감정이 모호한 발화로 생각할 수 있습니다. 
    • 모호한 감정은 종종 프로토타입 사이 경계 부근에 위치한 혼합된 감정입니다. 
    • 발화 "ui"가 모호한 감정을 가질 때, 발화 "ui"와 프로토타입 "ryi" 사이의 유사성은 낮습니다. 
    • 지도 대비 학습 손실은 어려운 양수 쌍에 집중합니다. 
    • 이 접근 방식은 모델이 다른 샘플보다 모호한 감정의 특성을 더 집중적으로 학습하도록 만듭니다. 
    • 따라서 지도 대비 학습은 모호한 감정 문제를 완화시킵니다.

5.3 Performance on Ambiguous emotions

  • 전통적인 ERC 방법은 모호한 감정에 어려움을 겪어 왔으며, 이것이 우리 연구의 동기입니다. 
  • 여기서, 우리는 다중 레이블이 앞서 언급한 도전 과제를 다루는지 관찰합니다.
  • Performance on Emotion shift 
    • 우리는 감정 이동(ES)을 포함하는 선택된 테스트 데이터에서 단일 레이블 분류를 수행합니다. 
    • 이것은 평가를 위한 가장 어려운 설정입니다. 
    • 전통적인 ERC 방법은 모호한 감정을 분류하는 데 취약하며, 이는 ProtoSeq의 성능이 DailyDialog 전체 데이터셋에서 28.64% 대비 감정 이동 데이터에서 20.37%의 중요한 성능 하락으로 반영됩니다. 
    • 반면, 우리의 성능 하락은 IEMOCAP 데이터셋에서는 최소하거나 DailyDialog 데이터셋에서는 전혀 없습니다.
      또한, 우리의 ES에 대한 성능은 전통적인 몇 가지 포화 ERC보다 일관적으로 뛰어납니다. 
    • 또한 표 1의 지도 모델과의 간접적인 성능 비교도 수행합니다. 
    • 경험적인 결과를 일대일로 비교할 수 없으므로, 표 1에서는 모든 모델이 감정 이동 데이터를 테스트할 때 성능이 하락했습니다. 
    • 성능 하락은 6.12%에서 15.25% 범위에 있으며, 반면에 우리의 방법은 1.17%의 성능 향상을 보여줍니다(표 4 참조).
  • Performance on Confusing labels 
    • 표 7은 진짜 레이블과 비교하여 혼란스러운 감정으로 잘못 분류된 비율을 보여줍니다. 
    • 우리는 ML-ERC가 ProtoSeq보다 감정을 더 잘 분류하고(혼란을 줄이는) 유사한 공간에서 일관되게 분류함을 관찰합니다. 
    • 'Exited - Happiness' 사례에서 우리 모델은 혼란률을 46.65%에서 43.59%로 줄이는 것으로 ProtoSeq를 개선합니다. 
    • 분노와 흥분 사이의 감정일 때 개선이 더욱 중요해집니다. 
    • 표 7의 네 가지 사례 중에서 분노와 흥분은 사실 그림 2 (a)에 나타난 감정 간의 감정 가치에서 큰 차이를 가지고 있습니다. 
    • 이 차이는 우리 모델에서 결과로 나타나지만, ProtoSeq는 다른 세 가지 경우와 거의 같이 성능이 나빠집니다.

6 Conclusion

  • 본 논문에서, 우리는 대화에서 다중 감정 문제를 해결하기 위한 새로운 ERC 접근 방식인 "대화에서 감정 인식을 위한 다중 레이블 분류 (ML-ERC)"를 제안합니다. 
  • 이 접근 방식에서 우리는 발화 내에서 감정이 동시에 공존하는 경우를 다룹니다. 
  • 우리는 몇 가지 포화 ERC에 prototypical networks를 적용합니다. 
  • 구체적으로, 대화를 위한 맞춤형 데이터 증강(SCLC)과 함께 지도 대비 학습을 사용하여 더 나은 대표적인 임베딩을 얻고 몇 가지 포화 다중 레이블 분류를 용이하게 합니다. 
  • 우리는 다양한 분석을 통해 다중 레이블 분류의 중요성을 입증할 뿐만 아니라 우리 연구의 목표인 다중 감정 문제를 완화시킵니다.

Limitations

  • 이 논문의 주요 기여는 ML-ERC를 통해 감정 변화와 혼란스러운 감정 문제를 다루는 것입니다. 
  • 모델의 일부 부분은 주제에 비해 덜 발전된 부분이 있으며, 이 부분은 이전 연구를 따르고 있습니다. 
  • 이전 연구와의 공정한 비교를 위해 발화 및 컨텍스트 임베딩과 같이 일부 구성 요소가 의도적으로 차용되었습니다. 
  • 미래 작업으로 더 나은 임베딩 학습을 남겨두었습니다.
Reference
  • https://openreview.net/pdf?id=SfbKjFbW2QH

댓글