NL-194, Improving Contrastive Learning in Emotion Recognition in Conversation via Data Augmentation and Decoupled Neutral Emotion, ARR Review 2310 (EACL 2024)

◼ Comment

  • Improving Contrastive Learning in Emotion Recognition in Conversation via Data Augmentation and Decoupled Neutral Emotion
  • RoBERTa+CLED
    • 중간 hidden layer에서 embedding을 추출하고, 이를 이용해 DA을 진행한다.
    • DA된 hidden embedding은 나머지 layer은 그대로 통과해서 학습에 사용된다.
    • 학습은 contrastive learning을 이용한다.
    • 여기서 학습될때는 RoBERTa 부분 전체가 학습된다? 그러면 DA가 매 step에서 이뤄지는 것 같음
  • 다른모델 + CLED
    • 여기서는 다른모델이 RoBERTa와 같은 개념인거 같다
    • 왜냐하면 다른 모델은 PLM+additional layer로 구성되어 있고 아마 마지막 hidden embedding을 사용하는거 같다.
    • 그리고 매 스텝 DA이뤄지면서 학습되는것으로 추정되는데..
    • 논문의 말에 따르면 다른모델은 추가적인 학습이 안이뤄진다고 한다. 뭐지?
    • 추가적인 학습이 없다는게 기학습된 모델을 초기 상태로 사용한다는건가?
  • 논문 요약
    • ERC에서 사용되는 감정 클래스의 불균형을 해결하려고 data augmentation을 제안한다.
    • data augmentation은 현재 발화의 임베딩과 augment할 감정을 가진 발화의 평균 임베딩과 linear interpolations을 통해 수행된다. (Markovian property통한 emotion shift)
    • 또한 neutral 감정을 다른 감정과 구별되는 공간으로 임베딩 시키기 위해 contrastive learning을 제안한다.
    • neutral 감정과의 다른 감정들과 강하게 밀어내기 위해 N_neu을 제안한다.
    • 제안한 방법인 CLED는 ERC 모델에 상관없이 성능 향상에 효과적이다.
  • 강점
    • 논문의 동기가 명확히 설명되어 있다.
    • 제안한 data augmentation은 simcse와 같은 다른 augmentation 방법보다 효과가 좋다.
    • contrastive learning을 통해, neutral이 다른 감정들과 좀 더 잘 분리됨을 광범위하게 분석하였다. 
    • 제안한 방법은 ERC 모델들의 성능 향상에 효과적이다.
  • 단점
    • 증강된 데이터가 어떻게 학습에 활용되는지 애매모호한 부분이 있다.
      • 1. DA는 매 학습 step에서 수행됩니까?
      • 2. 학습되는 파라미터는 ERC 모델 전부입니까?
        • 알고리즘 1에서, 학습되는 파라미터는 PLM와 Encoder 부분으로 보여진다.
      • 3. line 190에서 data agumentation은 PLM의 embedding으로부터 수행되는 것 같습니다. 다른 ERC 모델은 (RoBERTa가 아닌) 어떤 hidden embedding을 사용하는 것입니까?
        • 내가 이해하기로는 알고리즘 1에서 ERC model의 마지막 embedding이 활용되는 것 같다.
      • 4. line 355: original settings을 유지한다는 것은 어떤 의미입니까? 
        • 비교 ERC 모델들은 추가적인 튜닝이 없는 것 같습니다.
        • 그렇다면 비교 ERC 모델들의 trained parameter가 freeze 됩니까?
        • 저는 RoBERTa ERC 모델은 전체 파라미터가 학습되고 비교 ERC 모델은 어느 파라미터가 학습되는지 헷갈립니다.
  • 제안
    • 식 3에서의 transition matrix의 value는 고정된다.
      • 저자들이 제안한 방식이 이상한 것은 아니지만, 실제로 대화에 따라 현재 감정에 따른 다음 감정의 transition probability는 다를 것이다.
      • 더 나은 방법은 현재 감정과 context을 기반으로한 다음 감정의 확률을 예측하는 모델을 제안하는 것이다. (λij = p(ej|ei, context))
    • 알고리즘 1이 언급되지 않았다.
      • 알고리즘 1에서 최종 loss은 L_ce+L_CLED이다.
      • line 321은 최종 loss가 L_CLED로 잘못 이해될 수 있다.
    • 테이블 1이 언급되지 않았다.

0 Abstract

  • 대화 중 감정 인식 (ERC)는 다양한 응용 분야로 인해 큰 관심을 받고 있습니다. 
  • 이 분야에서는 계속해서 발전이 이루어지고 있지만, 데이터셋으로 인한 불가피한 어려움이 있습니다. 
  • ERC 데이터셋은 감정 분포가 심각하게 불균형하게 나타납니다. 
  • 중립적인 감정을 나타내는 발언이 데이터에서 우세하며, 현재의 접근 방식에서는 이 감정 레이블을 다른 감정 레이블과 동일하게 처리합니다. 
  • 데이터셋에서 발생하는 문제를 해결하기 위해 우리는 ERC 작업에 특별히 맞춘 supervised contrastive learning을 제안합니다. 
  • 우리는 대화에서 emotion dynamics을 모방하는 새로운 data augmentation을 사용하고 중립적인 감정의 우세함과 모호함을 다루기 위한 supervised contrastive learning 방법을 고안합니다. 
  • 네 개의 벤치마크 데이터셋에서의 실험 결과는 우리의 접근 방식의 효과를 입증합니다. 
  • 우리의 코드는 https://anonymous.4open.science/r/CLED-086A/ 에서 사용 가능합니다.

1 Introduction

  • 챗봇 서비스의 성공을 바탕으로, 대화 중의 감정 인식 (ERC)은 활발한 연구 분야가 되었으며, 이 작업은 대화에서의 감정을 예측하는 것입니다. 
  • ERC의 핵심 포인트는 각 발언과 해당 화자의 맥락을 효과적으로 모델링하는 방법입니다. 
  • 문맥 정보를 포착하기 위해 기존 작업에서는 일반적으로 recurrence-based methods, graph-based methods, knowledge-based methods, 및 pre-trained language model을 주로 활용합니다. 
  • 개선되었지만 ERC 데이터셋에서는 여전히 본질적인 어려움이 남아 있습니다.
  • ERC 데이터셋에서 나오는 한 가지 어려움은 감정 레이블이 종종 불균형하다는 점입니다. 
    • 이전 연구에서는 ERC에서 불균형한 데이터셋이 예측 성능에 부정적인 영향을 미친다는 것을 지적했습니다. 
    • 구체적으로, 샘플 수가 가장 적은 클래스는 상대적으로 훈련용 데이터가 부족하기 때문에 고통을 겪습니다. 
    • 일부 연구는 데이터셋의 제한을 극복하기 위해 도입되었습니다. 
    • Guibon (2021)은 episodic 접근법에서 few-shot 설정을 사용하며, 이는 각 클래스당 몇 가지 예제만 있는 상황을 모방합니다. 
    • SPCL은 contrastive learning에서 각 category의 prototype을 활용하며, 이는 동일한 category의 최소한 하나의 positive sample과 다른 모든 카테고리의 negative samples을 가지고 있습니다.
  • ERC의 두 번째 어려움은 데이터셋을 지배하는 주요 클래스인 neutral 감정 레이블에서 나옵니다. 
    • 이 감정 레이블은 대부분의 데이터를 차지하며 모호합니다.
    • 이전 연구에서는 모델이 감정을 neutral으로 잘못 분류하는 경향이 있다는 것을 지적했습니다. 
    • 이 현상의 주요 원인은 모델이 ERC에서 주요 클래스인 neutral 감정으로 예측하려는 경향이 있다는 것입니다. 
    • 또한, neutral 감정은 default 감정으로 설정되어 있으며, non-neutral 감정은 인간 주석자에 의해 양성 샘플의 감정 intensity (arousal)가 충분히 강할 때에만 주석이 달렸습니다. 
    • 이 설정은 non-neutral 감정 중에서 다른 감정을 구별할 수 있지만, neutral과 non-neutral 감정 사이의 구별은 모호해집니다. 
    • 이러한 어려움에도 불구하고, ERC의 대부분의 기존 연구는 neutral 감정을 다른 non-neutral 감정과 동일하게 처리합니다. 
    • 최근에는 일부 작업에서 neutral 감정을 다른 감정과 다르게 처리하는 방식을 시도했습니다. 
    • 예를 들어, auxiliary 작업을 통해 중립과 비중립 감정 간의 혼란을 완화하거나, coarse-grained level에서 먼저 neutral을 감지하는 방식입니다. 
    • 먼저 neutral이냐 아니냐를 판단하고, 아닐 경우에는 세부적으로 감정을 인식하는 방법일려나?
    • 그러나 두 단계 학습 방식으로 인해 이러한 모델들은 본질적으로 최적이 아닙니다.
  • ERC 데이터셋의 한계를 극복하기 위해, 우리는 ERC 데이터셋을 특별히 고려한 새로운 supervised Contrastive Learning 프레임워크를(CLED) 소개합니다. 
  • ERC 데이터셋의 첫 번째 어려움을(data imbalance) 해결하기 위해 CLED는 pre-trained language model (PLM) 임베딩에서 얻은 중심점을 활용하는 새로운 data augmentation 기술을 사용합니다. 
    • 이 중심점을 interpolation하여 augmented utterances을 생성하는데, 이 보간은 Markovian 속성을 통해 감정 변화를 반영하도록 수행됩니다. 
    • 훈련 데이터로부터 각 transition 확률을 계산하고 데이터 증강에 완전히 활용합니다. 
    • 우리의 방법은 emotion shift를 반영하는 현실적인 시나리오를 기반으로 한 고유한 interpolation 기술을 사용합니다.
    • 감정간의 interpolation을 통해 데이터증강을 해서 데이터 불균형을 해결해보자!
  • 또한, ERC 데이터셋의 두 번째 어려움, 즉 neutral 감정의 제한적인 사용에 대한 문제를 해결합니다. 
    • 우리는 neutral 감정에 특별히 특화된 contrastive learning을 설계합니다. 
    • neutral 감정이 다른 감정과 밀접하게 교차되기 때문에, 각 레이블의 경계를 명확하게 하기 위해 neutral 레이블을 다른 레이블보다 강하게 밀어내는 목적 함수를 고안합니다. 
    • 따라서 CLED는 neutral으로부터의 더 강한 밀어내는 힘을 적용하여 non-neutral 감정을 neutral 감정과 더 명확하게 구분합니다.
    • 데이터가 균형적으로 있어도, neutral은 다르게 처리해야 하지 않을까?
    • 그래서 neutral과 non-neutral하고 거리가 멀어지도록? contrastive learning을 제안한다.
  • 효과를 확인하기 위해 우리는 우리가 제안한 방법을 다섯 가지 최근의 ERC 모델과 이 연구를 위해 추가로 구현한 RoBERTa-large 기반 분류기를 포함한 여섯 가지 베이스라인에 구현합니다. 
  • 우리는 네 개의 벤치마크 ERC 데이터셋을 사용하여 결과를 비교합니다. 
  • 실험 결과는 우리가 제안한 두 가지 작업이 일관되게 성능을 향상시킨다는 것을 보여줍니다. 
  • 또한, 우리의 방법이 다른 데이터 증강 방법보다 훨씬 우수한 성능을 보인다는 것을 보여줍니다. 
  • 우리의 기여는 세 가지로 요약할 수 있습니다.
    • 1) 우리는 ERC 데이터셋의 제한 사항을 해결하기 위해 data augmentation 및 neutral 감정을 다른 감정과 분리하는 새로운 contrastive learning을 제안합니다.
    • 2) 우리가 아는한, 이것이 ERC에 데이터 증강 방법을 적용한 첫 시도입니다. 이 데이터 증강은 대화의 특성과 감정 변화를 반영하도록 ERC에 맞춰져 있습니다.
    • 3) 우리는 ERC에서 네 개의 벤치마크 데이터셋으로 실험을 수행했습니다. 광범위한 실험을 통해 우리가 제안한 방법의 효과를 검증하고 우리가 도입한 각 작업이 모델 성능에 어떻게 기여하는지를 보여줍니다.

2 Methodology 

2.1 Problem Formulation

  • 우리는 ERC 데이터셋이 D = {C1, C2, ..., C|D|}로 구성되어 있으며, 이는 |D| 대화의 모음입니다.
  • 대화는 {(u1, s1, y1), (u2, s2, y2), ..., (un, sn, yn)}와 같이 대화의 발언 순서입니다. 
    • 여기서 si, yi는 ui의 화자와 라벨을 나타내며, n은 대화에서의 발언 수를 나타냅니다. 
    • 각 발화 ui는 토큰의 시퀀스로 구성되며, ui = {wi1, wi2, ..., wim}와 같이 표현됩니다. 
    • 여기서 m은 토큰의 수를 나타냅니다. 
  • 대상 발화 (ut, st)과 이에 대한 문맥 {(u1, s1), (u2, s2), ..., (ut-1, st-1)}이 주어질 때, ERC의 목표는 대상 ut의 감정 라벨 (yt)을 예측하는 것입니다.

2.2 Overview

  • 우리 접근 방법의 전체 프로세스는 도식화된 그림 1에 나와 있습니다. 
  • 도식화된 그림 1은 설명 목적을 위한 가상의 ERC 데이터를 나타내며, 각 색은 다른 감정 라벨을 나타냅니다. 
  • 그림 1(a)의 데이터는 어떠한 처리도 거치지 않은 초기 임베딩을 나타냅니다. 
  • 그림 1(b)에서는 우리의 CLED에서 제안된 데이터 증가 방법을 통해 클래스 불균형 문제가 완화되었습니다. 
    • 그러나 ERC 데이터셋의 특성으로 인해 중립적인 데이터 포인트는 거의 구별되지 않습니다. 
  • 그림 1(c)에 표시된 것처럼, 우리의 제안된 대조적 학습 접근 방법은 이 문제에 특히 더 강력한 밀어내기 힘을 적용합니다. 
  • 이후에 각 작업에 대한 더 자세한 내용을 제공하겠습니다.

2.3 Data Augmentation for ERC

  • ERC에 특화된 데이터 증가 방법을 소개합니다. 
  • 저희의 데이터 증가 방법은 TMix (Chen 등, 2020)에서 영감을 받은 것으로, interpolation을 통해 hidden space에서 데이터를 증가시킵니다. 
  • TMix와 달리, 독립적인 문장에서 데이터를 생성하는 대신 sequence-level data augmentation를 수행합니다. 
  • ERC에서 utterances은 시퀀스로 처리되므로, 우리는 contextual modeling을 위해 hidden space representation을 활용하고 emotion dynamics을 캡쳐합니다. 
  • 구체적으로, 저희 접근 방법은 대화에서 감정이 어떻게 유발되는지를 모방합니다. 
    • next utterance의 감정은 current utterance에 영향을 받습니다. 
  • 우리의 방법은 각 centroid 및 현재 발화 임베딩을 사용한 linear interpolations을 통해 virtual training samples을 생성합니다. 
    • 이는 현재 컨텍스트 (hi)에서 다음 단계를 위한 새로운 발화를 생성하는 것으로 볼 수 있습니다. 
  • 훈련 중에 이러한 샘플은 ERC 모델을 통해 추출된 특성에 대한 대화 구조를 추가 처리하지만, 추론 시에는 버려집니다. 
  • 우리의 데이터 증가에 대한 전반적인 프로세스는 그림 2에서 요약되며, 각 감정의 centroid 및 transition 행렬이 interpolations에 사용됩니다.
  • Data Augmentation on hidden space
    • 우리는 pre-trained language model (PLM)을 임베딩 모듈로 사용합니다. 
    • 각 발화에 speaker를 앞에 추가하고, 현재 발화에 이전 대화의 내용을 연결하는 방식으로 컨텍스트를 만듭니다. 
    • 컨텍스트 정보를 반영한 임베딩을 얻기 위해 특수 토큰 [CLS]를 사용합니다. 
    • 임베딩 단계에서 ui의 입력과 출력은 다음과 같습니다:
    • 여기서 hl_i는 ui의 [CLS] 임베딩이 l번째 숨겨진(hidden) 레이어에서의 임베딩을 나타냅니다. 
      • 즉 [CLS] 위치(첫 번째) 토큰의 hidden logit(embedding)을 의미하는 것
    • L은 대상(target)의 숨겨진(hidden) 상태를 보강하기 위해 선택한 레이어 집합(layer set)입니다. 
    • PLM은 multi-layer model이므로 동일한 입력에 대해 각 숨겨진 레이어에서 diverse embeddings을 얻을 수 있습니다. 
    • 제 4.7 섹션에서는 hi에 대한 여러 hidden layers combinations이 시도되었고 각 조합의 성능을 보고하였습니다.
  • Emotion centroids 
    • emotion centroids을 사용하여 data augmentation을 수행하며, 이러한 중심점 주변에서 증강된 데이터를 생성합니다. 
    • 우리는 프로토타입 네트워크(Prototypical Networks)에서 영감을 얻었으며, 프로토타입(prototype) 아이디어를 차용했습니다. 
    • 각각의 감정 클래스에 대해, 해당 감정 레이블과 관련된 모든 발화 임베딩을 수집하고, 각각에 대한 중심점을 계산합니다. 
    • set of centroids은 다음과 같이 표현될 수 있습니다:
    • where K is the set of emotion centroids. E is the emotion label set.
    • 기쁨 감정의 중심점은, 기쁜 감정의 해당하는 (학습데이터내) 각각의 발화의 hidden embedding의 평균을 내는 것으로 보여짐.
  • Interpolations with emotion shift 
    • 이전 연구에서는 대화의 감정이 inter- and intra-speaker 내 종속성과 label copying 속성과 같은 종속성을 가지고 있음을 발견했습니다.
    • u1의 감정이 u2에 영향을 미치며, 이 과정은 대화 전체를 통해 순차적으로 계속됩니다. 
    • 이에 기반하여 우리는 순차적 감정 종속성을 마르코프 전이 행렬로 나타냅니다. 
      • 즉 uk의 감정은 uk-1만 고려해도 된다.
      • 왜냐하면 u1~ik-2의 고려한게 uk-1에 녹아있기 때문 
    • 대화에서 현재 감정이 다음 감정으로 어떻게 변화하는지를 계산하고 훈련 데이터에서 확률로 변환합니다. 
    • transition 행렬은 대화에서 현재 감정 i가 다음 감정 j로 어떻게 변하는지를 나타냅니다. 
      • transition 행렬에 대한 자세한 정보는 별첨서 B에서 찾을 수 있습니다.
      • 아마 학습데이터에서 기쁨 -> 슬픔 으로 변한 transition 값은 num(기쁨->슬픔)/num(기쁨->모든감정) 으로 보는 거 같음
      • 즉 마크로프 가정이 들어가므로 1-step만 보고 transition matrix를 계산한다
    • 계산된 transition matrix을 사용하여 각 감정 중심점과 ui의 임베딩 hi 간의 interpolation을 수행합니다. 
    • 주어진 임베딩 hi를 기반으로 감정 레이블 j를 가지는 virtual 샘플이 다음과 같이 증강됩니다.
    • 여기서 λij는 transition matrix의 yi 행에서 감정 j에 해당하는 값을 나타내며, kj ∈ K는 중심 감정 j입니다
      • λ가 크면 감정 j를 가진 새로운 데이터가 hi에 큰 영향을 받을 수 있습니다. 
      • λij = 현재턴 i감정에서 다음턴 j감정으로 될 확률
      • 현재턴 발화의 감정은 기쁨, 다음턴 발화의 감정이 슬픔인 데이터를 증강시킨다고 생각해보자.
      • 데이터증강은 λ(기쁨->슬픔)h(기쁨)+(1-λ(기쁨->슬픔))k(슬픔) 이렇게 하는거 같음
      • 암튼 아래 그림처럼 데이터 증강 시킨다는 의미! (증강된 데이터는 슬픔 감정)
      • 이 DA 데이터는 다음 발화라고 간주할 수 있는게 마크로프 가정이 있기 때문인거 같다.
      • 근데, 결국 증강된 데이터는 PLM의 hidden space에서 인데, 이를 학습데이터로 사용하는 것은 다른 모델에서도 같은 PLM을 써야하는 것?
      • 또한 다른 모델에서는 PLM이 학습되기 때문에 같은 hidden space가 아닐텐데 이는 어떻게 변하게 되는거지?

    • 우리의 전략은 대화에서 감정 종속성을 나타내는 보간 지점을 사용하고 PLM의 임베딩을 통한 증강을 제공하기 때문에 ERC를 위한 구체적인 생성된 샘플을 생성합니다. 
    • 위에서 설명한 방식으로 생성된 데이터는 모델 훈련 중에 대비 손실을 계산하기 위해 원본 데이터와 함께 사용됩니다. 
    • CLED 프레임워크는 알고리즘 1에서 자세히 설명되며, 가상 데이터 생성 프로세스는 라인 5-13에서 개요를 제시합니다.

2.4 CLED: Supervised Contrastive Learning for ERC Dataset 

  • ERC에서는 중립적인 감정이 기본으로 설정되지만, 많은 기존 연구에서는 훈련 과정에서 중립 감정을 다른 비중립 감정과 동일하게 처리합니다. 
  • 일부 연구에서는 중립을 간단히 평가에서 제외하기도 합니다. 
  • 본 연구에서는 이 문제에 대해 다른 관점에서 접근합니다. 
  • 이는 두 가지 관찰을 바탕으로 동기부여를 받았습니다. 
  • 우리는 인간 어노테이터들이 발화가 weak 감정을 나타낼 때 또는 발화가 비중립적인 감정 후보 중 어느 하나에 할당되지 못할 때 중립 레이블을 지정했다는 것을 관찰했습니다. 
    • 다시 말해, 중립 발화는 식별하기 어려우며 비중립적인 다른 감정 학습을 방해할 수 있습니다. 
    • 즉 태깅할때, 감정이 클래스 어디에도 딱히 강하게 포함되지 않은것 같은 경우 중립으로 레이블 한 경우가 있다는 이전의 연구가 있다.
  • 이 문제를 해결하기 위해 CLED는 supervised contrastive learning을 재정의하여 중립 감정을 다른 비중립 감정과 분리하기에 초점을 맞춥니다.
  • Supervised Contrastive Learning은 주어진 샘플 hi(즉, ui의 임베딩)을 기준으로 앵커와 동일한 레이블을 가진 샘플을 끌어당기고, 앵커로부터 다른 레이블을 가진 샘플을 밀어내는 방식으로 대조 손실을 계산합니다. 
  • contrastive loss을 위해 SupCon은 다음과 같이 양성 및 음성 점수를 계산합니다.
  • F is computed using a cosine similarity with temperature τ between two instances.
  • 식 5에서의 P(i)는 hi와 동일한 레이블을 가진 양성 샘플의 집합을 나타내며, 이에는 우리의 데이터 증강을 통해 생성된 가상 데이터도 포함됩니다. 
  • 식 6에서의 A(i)는 hi와 다른 레이블을 가진 샘플 및 증강 데이터로 이루어진 음성 집합을 나타내며, 식 5와 6에서 양쪽 점수는 앵커와 샘플 간의 유사성의 합으로 구성됩니다.
    • P = 같은 감정을 가진 샘플끼리의 유사도 합
    • Nsup = 다른 감정을 가진 샘플과의 유사도 합
  • ERC 데이터셋 내에서 중립(neutral)은 다른 모든 감정과 어느 정도의 유사성을 공유하며, 임베딩 공간에서 다른 감정과 상대적으로 겹칩니다. 
  • negative 셋의 모든 데이터가 레이블에 관계없이 동일한 힘에 의해 밀려난다면, 비중립 레이블 간의 공간은 비교적 쉽게 분리될 수 있습니다. 
    • 그러나 중립 데이터는 여전히 다른 레이블과 영역을 공유합니다. 
    • 즉 contrasive learning으로 다른 레이블끼리 공간을 잘 분리된다면, neutral도 잘 분리될 것이다.
    • 하지만 τ를 이용해도 그렇게 잘 되진 않더라. 
  • 별첨서 C.1에 나와 있는 것처럼 하이퍼파라미터 τ를 조정하여 부정적인 쌍을 밀어내려고 시도하는 것은 SupCon보다 성능이 더 나빠집니다. 
  • 중립의 본질을 이해하고 다른 감정 영역에서 효과적으로 분리하기 위해, 중립에 특별히 맞춘 추가적인 부정적인 점수를 도입했습니다. 
  • SupCon을 기반으로 식 6을 조정하여 neutral 점수를 계산하도록 수정했습니다.
    • 식 7은 hi와 neutral 레이블을 가진 샘플 간의 유사성 점수를 수집하여 비중립 감정 레이블을 다른 감정으로부터 밀어내는 것을 나타냅니다. 
    • Nneu = 비중립 감정 샘플에서 중립 샘플들과의 유사도함
    • 식 8에서는 중립 점수를 SupCon의 부정 점수와 결합하며, 이로써 중립 감정에 대한 추가적인 밀어내는 힘을 가져옵니다. 
    • Nsup은 현재 감정과 다른 모든 감정들과 멀어지게 하는 것이고, Nneu는 중립감정들과 멀어지게 하는 것이다.
    • 이를 weighted sum하는 것임. 
    • 그러면 사실 중립감정 샘플들과 멀어지게 하는 weight가 커지게 되는 것
    • Nneu없이 Nsup으로만 학습하는게 SupCon
    • 중립에 대한 힘은 매개변수 α를 통해 조절합니다. 
  • 마지막으로, 우리가 최적화하는 손실은 아래와 같이 나타납니다.
    • 위에서 계산한 N을 통해 최종 loss 설계
    • loss가 작아진다는 것은 log안의 값이 커진다는 것
    • 즉 P는 커지고 N은 작아진다. ==> 같은 감정의 샘플들끼리 유사도는 커지고, 다른 감정 샘플들과는 유사도가 작아진다.
    • 왜 이런 loss을 사용했을까?
    • 학습되는 파라미터는 그럼 무엇일까? hi을 만드는 PLM?
    • 이론적으로는 hi을 만드는 모델이 업데이트가 되야할거 같고, 그럼 CoMPM+CLED라는 것은 hi을 CoMPM으로 만든다는 의미인지?
  • 최종 loss는 알고리즘에 있는거 같음 (기본적인 CE포함). 
    • 여기에서 알고리즘 언급과 함께 말해주는게 좋을거 같음
    • 아마 인퍼런스할 때는 CE 부분을 사용하겠지?

3 Experimental Settings

3.1 Datasets

  • 우리는 네 개의 ERC 벤치마크 데이터셋에서 실험을 진행합니다: IEMOCAP, EmoryNLP, MELD 및 DailyDialog. 표 1은 각 데이터셋의 통계를 보여줍니다. 
  • 평가 메트릭으로 이전 연구를 따라 DailyDialog의 경우 주된 클래스(중립)를 제외한 micro-F1를 사용하고, 다른 ERC 데이터셋의 경우 weighted-F1를 사용합니다.
  • IEMOCAP은 텍스트, 오디오, 비디오 및 모션 캡처 정보가 포함된 dyadic 다중 모달 데이터셋입니다. 
    • ERC 작업에서는 텍스트 데이터만 사용합니다. 
    • 레이블 세트에는 기쁨, 슬픔, 화남, 흥분, 좌절 및 중립이 포함됩니다.
  • EmoryNLP은 TV 프로그램 "Friends" 대본에서 추출한 텍스트 데이터셋입니다. 
    • 각 발화는 슬픔, 공포, 분노, 강력함, 평온함, 기쁨 및 중립으로 레이블이 지정되어 있으며, 이들 레이블은 Willcox의 feeling wheel에 기반합니다.
  • MELD는 인기 있는 TV 시리즈 "Friends"에서 수집한 다중 참가자 다중 모달 데이터셋입니다. 
    • 각 발화는 분노, 혐오, 두려움, 기쁨, 놀라움, 슬픔 및 중립 중 하나로 주석이 달렸습니다.
  • DailyDialog은 dyadic(두명) 화자를 가진 텍스트 데이터셋입니다. 
    • 레이블 세트에는 Ekman의 여섯 가지 기본 감정(Ekman et al., 1999)과 기타 감정인 분노, 혐오, 두려움, 기쁨, 놀라움, 슬픔 및 중립이 포함됩니다.
    • 언급이 없음

3.2 Baselines

  • 우리는 강력한 기준 모델에 우리의 학습 방식을 적용합니다. 
  • 엄격한 비교를 위해 기준 모델의 원래 설정을 유지하며, 우리의 방식을 적용할 때 각 모델을 추가 조정하지 않습니다.
    • 즉 CoMPM에 CLED같은것을 적용할 때 CoMPM이 PLM으로보고 사용하는 것인가?
    • 이 말은 그냥 초기 상태를 기학습된 모델로 시작하고, 학습되는 전체가 학습되는 형태인가? (알고리즘 부분 보면..)
  • RoBERTa, Psychological, CoMPM, EmoNotOne-SA, SPCL, EmotionFlow

3.3 Implementation Details

  • 우리는 사전 훈련된 RoBERTa-large 모델을 사용합니다. 
  • 학습률은 1e-6로 설정됩니다. 
  • 에포크 수와 배치 크기는 각각 10과 8입니다. 
  • 모델은 단일 Nvidia A100에서 훈련 및 테스트됩니다. 식 4에서 τ를 0.05로 고정시킵니다. 
  • 식 8에서 α에 대한 매개변수는 검증 세트를 사용하여 조정합니다. 
  • 일반적으로 중립의 백분율에 비해 큰 값으로 α를 고정하는 것이 더 좋은 성능을 제공합니다. 
  • 우리의 실험에서는 DailyDialog에 대해 약 83%의 데이터가 중립으로 태그되어 있으므로 α는 0.9로 설정됩니다. 
  • EmoryNLP의 경우 상대적으로 중립의 비율이 작기 때문에 α는 0.2로 설정됩니다. 
  • α는 중립에 대한 추가적인 힘으로 해석될 수 있으며, alpha는 전반적으로 (1+α)의 효과를 갖습니다. 
  • 섹션 4.6에서는 CLED가 α의 다양한 설정에 대해 견고한 성능을 보여주는 방법을 보여줍니다.
    • 언급이 없음
    • 전체 loss은 Lce+Lcled로 이뤄짐
    • 학습되는 부분은 PLM과 Encoder라고 써있는거보면 전체 프레임워크를 의미함. RoBERTa나 CoMPM이나 등등
    • 그렇다면 DA는 매 스텝에서 이뤄줘야할거 같음
    • negative sample은 매 스텝에서 다른 모든 감정에 대해 DA하는 듯

4 Experiments

4.1 Comparisons with State-of-the-art Methods 

  • 우리의 제안된 방법은 모델에 독립적이며, ERC에서 기존 접근 방식에 적용할 수 있습니다. 
  • 우리는 여섯 가지 베이스라인 모델을 사용하고 각 모델에 우리의 방식을 원래 베이스라인에 플러그 앤 플레이(Plug-and-Play) 방식으로 구현한 결과를 비교합니다. 
  • 이러한 베이스라인 모델은 ERC 문헌에서 선택되었으며, 가장 최근의 최상의 성능 모델(SPCL)을 포함하여 최첨단 결과를 달성한 모델입니다. 
  • 코드가 공개되지 않은 모델은 실험에서 포함되지 않습니다. 
  • 표 2는 우리의 방식의 효과를 보여줍니다. 
  • 여기에서 우리는 하나의 데이터셋에서 한 모델을 제외하고 모든 베이스라인에서 일관된 성능 향상을 달성합니다. 
  • 각 데이터셋에 대한 최상의 결과는 굵게 표시됩니다. 
  • 또한, 우리의 방식을 이미 강력한 일부 베이스라인과 함께 사용하면 간단한 RoBERTa 모델조차도 일부 경쟁 베이스라인을 뛰어넘을 수 있음을 주목할 가치가 있습니다. 
  • 그러나 SPCL에 우리의 방식을 적용하면 원래 모델보다 성능이 하락합니다. 
  • 그 이유는 IEMOCAP 데이터셋이 비교적 균형 잡혀 있으며, SPCL이 다른 측면에서 이득을 보고 IEMOCAP의 다른 베이스라인 중에서 최상의 성능을 달성하고 있어 우리의 방식을 통해 향상의 여지가 제한적하기 때문일 수 있습니다.

4.2 Ablation Study

  • 이곳에서는 각 구성 요소를 제거하여 우리의 주장을 검증하기 위한 유도 연구를 수행합니다. 
  • 우리는 모든 벤치마크 데이터셋에 우리의 방법을 적용하고 있으며, 표 3은 CLED의 각 작업이 모델 성능에 기여하는 것을 보여줍니다.
    • RoBERTa에서 실험한 것
  • CLED에서 데이터 증강을 통해 생성된 샘플을 제외할 경우, 모든 벤치마크에서 성능이 낮아집니다.
  • 방정식 7에서 중립적인 점수를 negative score 와 결합하지 않는 것은 모든 데이터셋에서 일관된 성능 하락을 초래합니다. 
  • 또한, 우리의 두 구성 요소를 제거하면(즉, RoBERTa와 vanilla-supervised contrastive learning), 성능이 떨어지며, 데이터 증강 및 중립적 분리의 효과를 강조합니다.

4.3 Comparison with Different Types of Data Augmentation

  • 우리의 데이터 증강 접근 방법의 효과를 더 잘 보여주기 위해, 우리는 다른 데이터 증강 방법과 비교합니다. 
  • 이 실험을 위해 기본 모델로 RoBERTa와 SupCon 손실을 사용합니다. 
  • 표 4는 다양한 데이터 증강 방법을 사용한 성능을 보여줍니다. 
  • 무작위 삭제, 교환, 삽입 및 EDA의 동의어 교체는 대화에서 n개의 단어를 무작위로 선택하고 변환하는 기술입니다. 
  • 우리는 대화의 핵심 구성 요소로서 context understanding and emotional dependency을 믿습니다. 
  • 이는 또한 표 4의 결과에서 확인되었습니다. 
  • 또한, SimCSE에서 제안된 드롭아웃를 테스트합니다. 
  • 우리의 데이터 증강은 모든 데이터셋에서 Dropout을 능가합니다.

4.4 Performance on Minor Label

  • 우리는 MELD 데이터셋의 각 클래스 레이블에서 우리가 제안한 모델의 성능을 보고하며, 우리의 방법은 항상 각 감정 클래스에서 성능을 향상시킵니다. 
  • 표 5에 제시된대로, RoBERTa의 결과는 소수 레이블을 분류하는 것이 어렵다는 것을 보여줍니다. 
  • 주요 레이블(중립)의 성능과 비교하여 소수 레이블(공포)의 성능은 66.29%로 급격히 감소합니다. 
  • RoBERTa를 우리의 방법과 결합할 때, 모델은 모든 감정에 대해 일관되게 일반 RoBERTa보다 우수한 성능을 보입니다. 
  • 특히, 우리의 방법은 가장 적게 발생하는 레이블 중 하나인 공포에 대해 상당한 성능 향상을 보여줍니다. 
  • 이는 증강을 통해 더 많은 샘플을 통해 모델이 성능 향상을 달성한다고 추론할 수 있습니다. 
  • 이러한 증가된 데이터는 모델이 익숙하지 않은 레이블을 분류하는 데 도움이 됩니다.

4.5 Silhouette Score on Neutral Label

  • Yang (2022)에 따르면, 중립은 어느 정도 다른 레이블과 유사하며 다른 레이블과 겹쳐져 있습니다. 
  • 우리는 중립 감정을 포함하는 임베딩에서 silhouette scores(Rousseeuw, 1987)를 계산하여 CLED의 효과를 수치적으로 검증하며, 이는 그림 3에 제시되어 있습니다. 
  • 우리는 세 가지 다른 손실로 최적화된 RoBERTa에서 얻은 점수를 비교합니다: 크로스 엔트로피(CE), SupCon 및 CLED. 
  • 그림 3은 CLED의 실루엣 점수가 모든 데이터셋에서 다른 손실로 얻은 점수를 능가함을 보여줍니다. 
  • CE는 중립에 대항하지 않기 때문에 중립은 임베딩 공간에 퍼져 있어 세 가지 목적 함수 중 가장 낮은 점수를 얻습니다.
  • SupCon과 비교하여 CLED는 중립을 다른 감정으로부터 격리하는 데 중점을 두고 있습니다. 
  • 또한, 우리의 손실을 질적으로 평가하기 위해 CE 및 CLED로 표현을 시각화합니다(Appendix C.2).

4.6 Sensitivity Analysis on parameter α

  • 표 6에서는 방정식 8에서 중립 인스턴스에 대한 추가 부정적 점수 부과를 제어하는 매개변수 (α)에 대한 민감성 분석을 수행합니다.
  • 우리는 두 가지 대표적인 데이터셋을 사용하여 실험을 진행합니다. 
  • MELD 데이터셋은 중립 레이블로 편향된 데이터 분포를 나타내며, EmoryNLP 데이터셋은 상대적으로 균형 잡힌 레이블 분포를 가지고 있습니다. 
  • α가 0으로 설정되면 손실은 일반적인 대조 학습으로 등가됩니다. 
  • α를 0보다 높게 설정하면 중립 레이블 주변에 추가적인 밀어내는 힘을 주입하는 것을 의미합니다. 
  • 우리는 모든 α 설정에서 일관된 성능 향상을 달성하며, 이는 CLED의 견고성을 반영할 수 있습니다. 
  • 이러한 결과는 다른 데이터셋 간에도 항상 성능 향상을 달성한다는 점에서 의미가 있다고 여겨집니다. 
  • 또한, 다른 데이터셋에서의 최적 α는 간접적으로 중립 비율 측면에서 데이터 특성을 반영합니다. 
  • MELD에서의 최적 α는 0.8이고, EmoryNLP에서의 최적 α는 0.2입니다.

4.7 Comparison for Layer Set in Data Augmentation

  • 위의 모든 실험에서는 데이터 증강을 위해 PLM의 마지막 레이어만 사용했습니다. 
  • 우리의 증강은 PLM 또는 데이터셋에 따라 의존적일 수 있는 숨겨진 레이어의 최적 조합을 찾음으로써 더 개선될 수 있습니다. 
    • 이 말을 보면 다른 모델에는 어떻게 작용한거지?
    • RoBERTa에 적용한다고 했을 때도, PLM은 학습안되는건지?
    • PLM이 학습되면 DA도 매번 새롭게 진행하는건지?
  • 주요 결과에서는 최상의 조합을 찾지 않았습니다. 
  • 여기에서는 (Jawahar et al., 2019)의 연구를 따라 표 7에 나와 있는 레이어 세트 L에 대한 다양한 구성을 조사합니다. 
  • 표 7의 결과는 향후 연구 가능한 방향을 시사합니다. 
  • RoBERTa-large를 사용한 우리의 모델은 L = {5, 6, 7}일 때 최상의 성능을 달성합니다. 
  • 더 자세한 내용은 부록 C.3에서 확인할 수 있습니다.

5 Conclusion

  • 본 논문에서는 ERC 데이터셋에서의 어려움을 논의합니다. 
  • 이 데이터셋은 불균형한 레이블 분포와 다른 감정과 구별하기 어려운 중립적인 감정의 우세함을 나타냅니다. 
  • 우리는 ERC 데이터셋의 어려움을 해결하기 위한 새로운 방법인 CLED를 제시합니다. 
  • CLED는 대화에서의 맥락과 감정 종속성을 반영하는 새로운 데이터 증강을 사용합니다. 
  • 증강된 데이터를 통해 우리는 ERC 데이터셋을 위해 특별히 설계된 지도형 대조 학습 손실을 다시 정의하여 중립적인 감정과 중립이 아닌 감정을 더 잘 구별합니다. 
  • 우리는 플러그 앤 플레이를 통해 이전의 베이스라인을 지속적으로 향상시킴으로써 우리 방법의 효과를 검증하기 위해 광범위한 실험을 수행합니다.

Limitations

  • 이 연구에는 두 가지 제한 사항이 있습니다. 
    • 1) 우리의 제안된 데이터 증강 방법은 사전 훈련된 모델을 기반으로 하기 때문에, 이를 이용하는 모델과만 결합할 수 있으며, 데이터 증강에 대한 인간 평가가 없습니다. 
    • 2) PLM의 마지막 레이어에 데이터 증강을 수행하는 것은 충분히 효과적이지만, Section 4.7에서 더 많은 레이어가 성능을 향상시킨다는 것을 확인했습니다. 
  • 그러나 PLM의 더 많은 숨겨진 상태를 활용하면 계산 리소스가 증가합니다. 
  • 성능과 계산 비용 간의 균형을 고려해야 합니다.
Reference
  • https://openreview.net/pdf?id=pL2HY2ojFu

댓글