◼ Comment

Improving Contrastive Learning in Emotion Recognition in Conversation via Data Augmentation and Decoupled Neutral Emotion
RoBERTa+CLED

중간 hidden layer에서 embedding을 추출하고, 이를 이용해 DA을 진행한다.
DA된 hidden embedding은 나머지 layer은 그대로 통과해서 학습에 사용된다.
학습은 contrastive learning을 이용한다.
여기서 학습될때는 RoBERTa 부분 전체가 학습된다? 그러면 DA가 매 step에서 이뤄지는 것 같음

다른모델 + CLED

여기서는 다른모델이 RoBERTa와 같은 개념인거 같다
왜냐하면 다른 모델은 PLM+additional layer로 구성되어 있고 아마 마지막 hidden embedding을 사용하는거 같다.
그리고 매 스텝 DA이뤄지면서 학습되는것으로 추정되는데..
논문의 말에 따르면 다른모델은 추가적인 학습이 안이뤄진다고 한다. 뭐지?
추가적인 학습이 없다는게 기학습된 모델을 초기 상태로 사용한다는건가?

논문 요약

ERC에서 사용되는 감정 클래스의 불균형을 해결하려고 data augmentation을 제안한다.
data augmentation은 현재 발화의 임베딩과 augment할 감정을 가진 발화의 평균 임베딩과 linear interpolations을 통해 수행된다. (Markovian property통한 emotion shift)
또한 neutral 감정을 다른 감정과 구별되는 공간으로 임베딩 시키기 위해 contrastive learning을 제안한다.
neutral 감정과의 다른 감정들과 강하게 밀어내기 위해 N_neu을 제안한다.
제안한 방법인 CLED는 ERC 모델에 상관없이 성능 향상에 효과적이다.

강점

논문의 동기가 명확히 설명되어 있다.
제안한 data augmentation은 simcse와 같은 다른 augmentation 방법보다 효과가 좋다.
contrastive learning을 통해, neutral이 다른 감정들과 좀 더 잘 분리됨을 광범위하게 분석하였다.
제안한 방법은 ERC 모델들의 성능 향상에 효과적이다.

단점

증강된 데이터가 어떻게 학습에 활용되는지 애매모호한 부분이 있다.

1. DA는 매 학습 step에서 수행됩니까?
2. 학습되는 파라미터는 ERC 모델 전부입니까?

알고리즘 1에서, 학습되는 파라미터는 PLM와 Encoder 부분으로 보여진다.

3. line 190에서 data agumentation은 PLM의 embedding으로부터 수행되는 것 같습니다. 다른 ERC 모델은 (RoBERTa가 아닌) 어떤 hidden embedding을 사용하는 것입니까?

내가 이해하기로는 알고리즘 1에서 ERC model의 마지막 embedding이 활용되는 것 같다.

4. line 355: original settings을 유지한다는 것은 어떤 의미입니까?

비교 ERC 모델들은 추가적인 튜닝이 없는 것 같습니다.
그렇다면 비교 ERC 모델들의 trained parameter가 freeze 됩니까?
저는 RoBERTa ERC 모델은 전체 파라미터가 학습되고 비교 ERC 모델은 어느 파라미터가 학습되는지 헷갈립니다.

제안

식 3에서의 transition matrix의 value는 고정된다.

저자들이 제안한 방식이 이상한 것은 아니지만, 실제로 대화에 따라 현재 감정에 따른 다음 감정의 transition probability는 다를 것이다.
더 나은 방법은 현재 감정과 context을 기반으로한 다음 감정의 확률을 예측하는 모델을 제안하는 것이다. (λij = p(ej|ei, context))

알고리즘 1이 언급되지 않았다.

알고리즘 1에서 최종 loss은 L_ce+L_CLED이다.
line 321은 최종 loss가 L_CLED로 잘못 이해될 수 있다.

테이블 1이 언급되지 않았다.

0 Abstract

대화 중 감정 인식 (ERC)는 다양한 응용 분야로 인해 큰 관심을 받고 있습니다.
이 분야에서는 계속해서 발전이 이루어지고 있지만, 데이터셋으로 인한 불가피한 어려움이 있습니다.
ERC 데이터셋은 감정 분포가 심각하게 불균형하게 나타납니다.
중립적인 감정을 나타내는 발언이 데이터에서 우세하며, 현재의 접근 방식에서는 이 감정 레이블을 다른 감정 레이블과 동일하게 처리합니다.
데이터셋에서 발생하는 문제를 해결하기 위해 우리는 ERC 작업에 특별히 맞춘 supervised contrastive learning을 제안합니다.
우리는 대화에서 emotion dynamics을 모방하는 새로운 data augmentation을 사용하고 중립적인 감정의 우세함과 모호함을 다루기 위한 supervised contrastive learning 방법을 고안합니다.
네 개의 벤치마크 데이터셋에서의 실험 결과는 우리의 접근 방식의 효과를 입증합니다.
우리의 코드는 https://anonymous.4open.science/r/CLED-086A/ 에서 사용 가능합니다.

1 Introduction

챗봇 서비스의 성공을 바탕으로, 대화 중의 감정 인식 (ERC)은 활발한 연구 분야가 되었으며, 이 작업은 대화에서의 감정을 예측하는 것입니다.
ERC의 핵심 포인트는 각 발언과 해당 화자의 맥락을 효과적으로 모델링하는 방법입니다.
문맥 정보를 포착하기 위해 기존 작업에서는 일반적으로 recurrence-based methods, graph-based methods, knowledge-based methods, 및 pre-trained language model을 주로 활용합니다.
개선되었지만 ERC 데이터셋에서는 여전히 본질적인 어려움이 남아 있습니다.
ERC 데이터셋에서 나오는 한 가지 어려움은 감정 레이블이 종종 불균형하다는 점입니다.

이전 연구에서는 ERC에서 불균형한 데이터셋이 예측 성능에 부정적인 영향을 미친다는 것을 지적했습니다.
구체적으로, 샘플 수가 가장 적은 클래스는 상대적으로 훈련용 데이터가 부족하기 때문에 고통을 겪습니다.
일부 연구는 데이터셋의 제한을 극복하기 위해 도입되었습니다.
Guibon (2021)은 episodic 접근법에서 few-shot 설정을 사용하며, 이는 각 클래스당 몇 가지 예제만 있는 상황을 모방합니다.
SPCL은 contrastive learning에서 각 category의 prototype을 활용하며, 이는 동일한 category의 최소한 하나의 positive sample과 다른 모든 카테고리의 negative samples을 가지고 있습니다.

ERC의 두 번째 어려움은 데이터셋을 지배하는 주요 클래스인 neutral 감정 레이블에서 나옵니다.

이 감정 레이블은 대부분의 데이터를 차지하며 모호합니다.
이전 연구에서는 모델이 감정을 neutral으로 잘못 분류하는 경향이 있다는 것을 지적했습니다.
이 현상의 주요 원인은 모델이 ERC에서 주요 클래스인 neutral 감정으로 예측하려는 경향이 있다는 것입니다.
또한, neutral 감정은 default 감정으로 설정되어 있으며, non-neutral 감정은 인간 주석자에 의해 양성 샘플의 감정 intensity (arousal)가 충분히 강할 때에만 주석이 달렸습니다.
이 설정은 non-neutral 감정 중에서 다른 감정을 구별할 수 있지만, neutral과 non-neutral 감정 사이의 구별은 모호해집니다.
이러한 어려움에도 불구하고, ERC의 대부분의 기존 연구는 neutral 감정을 다른 non-neutral 감정과 동일하게 처리합니다.
최근에는 일부 작업에서 neutral 감정을 다른 감정과 다르게 처리하는 방식을 시도했습니다.
예를 들어, auxiliary 작업을 통해 중립과 비중립 감정 간의 혼란을 완화하거나, coarse-grained level에서 먼저 neutral을 감지하는 방식입니다.
먼저 neutral이냐 아니냐를 판단하고, 아닐 경우에는 세부적으로 감정을 인식하는 방법일려나?
그러나 두 단계 학습 방식으로 인해 이러한 모델들은 본질적으로 최적이 아닙니다.

ERC 데이터셋의 한계를 극복하기 위해, 우리는 ERC 데이터셋을 특별히 고려한 새로운 supervised Contrastive Learning 프레임워크를(CLED) 소개합니다.
ERC 데이터셋의 첫 번째 어려움을(data imbalance) 해결하기 위해 CLED는 pre-trained language model (PLM) 임베딩에서 얻은 중심점을 활용하는 새로운 data augmentation 기술을 사용합니다.

이 중심점을 interpolation하여 augmented utterances을 생성하는데, 이 보간은 Markovian 속성을 통해 감정 변화를 반영하도록 수행됩니다.
훈련 데이터로부터 각 transition 확률을 계산하고 데이터 증강에 완전히 활용합니다.
우리의 방법은 emotion shift를 반영하는 현실적인 시나리오를 기반으로 한 고유한 interpolation 기술을 사용합니다.
감정간의 interpolation을 통해 데이터증강을 해서 데이터 불균형을 해결해보자!

또한, ERC 데이터셋의 두 번째 어려움, 즉 neutral 감정의 제한적인 사용에 대한 문제를 해결합니다.

우리는 neutral 감정에 특별히 특화된 contrastive learning을 설계합니다.
neutral 감정이 다른 감정과 밀접하게 교차되기 때문에, 각 레이블의 경계를 명확하게 하기 위해 neutral 레이블을 다른 레이블보다 강하게 밀어내는 목적 함수를 고안합니다.
따라서 CLED는 neutral으로부터의 더 강한 밀어내는 힘을 적용하여 non-neutral 감정을 neutral 감정과 더 명확하게 구분합니다.
데이터가 균형적으로 있어도, neutral은 다르게 처리해야 하지 않을까?
그래서 neutral과 non-neutral하고 거리가 멀어지도록? contrastive learning을 제안한다.

효과를 확인하기 위해 우리는 우리가 제안한 방법을 다섯 가지 최근의 ERC 모델과 이 연구를 위해 추가로 구현한 RoBERTa-large 기반 분류기를 포함한 여섯 가지 베이스라인에 구현합니다.
우리는 네 개의 벤치마크 ERC 데이터셋을 사용하여 결과를 비교합니다.
실험 결과는 우리가 제안한 두 가지 작업이 일관되게 성능을 향상시킨다는 것을 보여줍니다.
또한, 우리의 방법이 다른 데이터 증강 방법보다 훨씬 우수한 성능을 보인다는 것을 보여줍니다.
우리의 기여는 세 가지로 요약할 수 있습니다.

1) 우리는 ERC 데이터셋의 제한 사항을 해결하기 위해 data augmentation 및 neutral 감정을 다른 감정과 분리하는 새로운 contrastive learning을 제안합니다.
2) 우리가 아는한, 이것이 ERC에 데이터 증강 방법을 적용한 첫 시도입니다. 이 데이터 증강은 대화의 특성과 감정 변화를 반영하도록 ERC에 맞춰져 있습니다.
3) 우리는 ERC에서 네 개의 벤치마크 데이터셋으로 실험을 수행했습니다. 광범위한 실험을 통해 우리가 제안한 방법의 효과를 검증하고 우리가 도입한 각 작업이 모델 성능에 어떻게 기여하는지를 보여줍니다.

2 Methodology

2.1 Problem Formulation

우리는 ERC 데이터셋이 D = {C1, C2, ..., C|D|}로 구성되어 있으며, 이는 |D| 대화의 모음입니다.
대화는 {(u1, s1, y1), (u2, s2, y2), ..., (un, sn, yn)}와 같이 대화의 발언 순서입니다.

여기서 si, yi는 ui의 화자와 라벨을 나타내며, n은 대화에서의 발언 수를 나타냅니다.
각 발화 ui는 토큰의 시퀀스로 구성되며, ui = {wi1, wi2, ..., wim}와 같이 표현됩니다.
여기서 m은 토큰의 수를 나타냅니다.

대상 발화 (ut, st)과 이에 대한 문맥 {(u1, s1), (u2, s2), ..., (ut-1, st-1)}이 주어질 때, ERC의 목표는 대상 ut의 감정 라벨 (yt)을 예측하는 것입니다.

2.2 Overview

우리 접근 방법의 전체 프로세스는 도식화된 그림 1에 나와 있습니다.
도식화된 그림 1은 설명 목적을 위한 가상의 ERC 데이터를 나타내며, 각 색은 다른 감정 라벨을 나타냅니다.
그림 1(a)의 데이터는 어떠한 처리도 거치지 않은 초기 임베딩을 나타냅니다.
그림 1(b)에서는 우리의 CLED에서 제안된 데이터 증가 방법을 통해 클래스 불균형 문제가 완화되었습니다.

그러나 ERC 데이터셋의 특성으로 인해 중립적인 데이터 포인트는 거의 구별되지 않습니다.

그림 1(c)에 표시된 것처럼, 우리의 제안된 대조적 학습 접근 방법은 이 문제에 특히 더 강력한 밀어내기 힘을 적용합니다.
이후에 각 작업에 대한 더 자세한 내용을 제공하겠습니다.

2.3 Data Augmentation for ERC

ERC에 특화된 데이터 증가 방법을 소개합니다.
저희의 데이터 증가 방법은 TMix (Chen 등, 2020)에서 영감을 받은 것으로, interpolation을 통해 hidden space에서 데이터를 증가시킵니다.
TMix와 달리, 독립적인 문장에서 데이터를 생성하는 대신 sequence-level data augmentation를 수행합니다.
ERC에서 utterances은 시퀀스로 처리되므로, 우리는 contextual modeling을 위해 hidden space representation을 활용하고 emotion dynamics을 캡쳐합니다.
구체적으로, 저희 접근 방법은 대화에서 감정이 어떻게 유발되는지를 모방합니다.

next utterance의 감정은 current utterance에 영향을 받습니다.

우리의 방법은 각 centroid 및 현재 발화 임베딩을 사용한 linear interpolations을 통해 virtual training samples을 생성합니다.

이는 현재 컨텍스트 (hi)에서 다음 단계를 위한 새로운 발화를 생성하는 것으로 볼 수 있습니다.

훈련 중에 이러한 샘플은 ERC 모델을 통해 추출된 특성에 대한 대화 구조를 추가 처리하지만, 추론 시에는 버려집니다.
우리의 데이터 증가에 대한 전반적인 프로세스는 그림 2에서 요약되며, 각 감정의 centroid 및 transition 행렬이 interpolations에 사용됩니다.
Data Augmentation on hidden space

우리는 pre-trained language model (PLM)을 임베딩 모듈로 사용합니다.
각 발화에 speaker를 앞에 추가하고, 현재 발화에 이전 대화의 내용을 연결하는 방식으로 컨텍스트를 만듭니다.
컨텍스트 정보를 반영한 임베딩을 얻기 위해 특수 토큰 [CLS]를 사용합니다.
임베딩 단계에서 ui의 입력과 출력은 다음과 같습니다:
여기서 hl_i는 ui의 [CLS] 임베딩이 l번째 숨겨진(hidden) 레이어에서의 임베딩을 나타냅니다.

즉 [CLS] 위치(첫 번째) 토큰의 hidden logit(embedding)을 의미하는 것

L은 대상(target)의 숨겨진(hidden) 상태를 보강하기 위해 선택한 레이어 집합(layer set)입니다.
PLM은 multi-layer model이므로 동일한 입력에 대해 각 숨겨진 레이어에서 diverse embeddings을 얻을 수 있습니다.
제 4.7 섹션에서는 hi에 대한 여러 hidden layers combinations이 시도되었고 각 조합의 성능을 보고하였습니다.

Emotion centroids

emotion centroids을 사용하여 data augmentation을 수행하며, 이러한 중심점 주변에서 증강된 데이터를 생성합니다.
우리는 프로토타입 네트워크(Prototypical Networks)에서 영감을 얻었으며, 프로토타입(prototype) 아이디어를 차용했습니다.
각각의 감정 클래스에 대해, 해당 감정 레이블과 관련된 모든 발화 임베딩을 수집하고, 각각에 대한 중심점을 계산합니다.
set of centroids은 다음과 같이 표현될 수 있습니다:
where K is the set of emotion centroids. E is the emotion label set.
기쁨 감정의 중심점은, 기쁜 감정의 해당하는 (학습데이터내) 각각의 발화의 hidden embedding의 평균을 내는 것으로 보여짐.

Interpolations with emotion shift

이전 연구에서는 대화의 감정이 inter- and intra-speaker 내 종속성과 label copying 속성과 같은 종속성을 가지고 있음을 발견했습니다.
u1의 감정이 u2에 영향을 미치며, 이 과정은 대화 전체를 통해 순차적으로 계속됩니다.
이에 기반하여 우리는 순차적 감정 종속성을 마르코프 전이 행렬로 나타냅니다.

즉 uk의 감정은 uk-1만 고려해도 된다.
왜냐하면 u1~ik-2의 고려한게 uk-1에 녹아있기 때문

대화에서 현재 감정이 다음 감정으로 어떻게 변화하는지를 계산하고 훈련 데이터에서 확률로 변환합니다.
transition 행렬은 대화에서 현재 감정 i가 다음 감정 j로 어떻게 변하는지를 나타냅니다.

transition 행렬에 대한 자세한 정보는 별첨서 B에서 찾을 수 있습니다.
아마 학습데이터에서 기쁨 -> 슬픔 으로 변한 transition 값은 num(기쁨->슬픔)/num(기쁨->모든감정) 으로 보는 거 같음
즉 마크로프 가정이 들어가므로 1-step만 보고 transition matrix를 계산한다

계산된 transition matrix을 사용하여 각 감정 중심점과 ui의 임베딩 hi 간의 interpolation을 수행합니다.
주어진 임베딩 hi를 기반으로 감정 레이블 j를 가지는 virtual 샘플이 다음과 같이 증강됩니다.
여기서 λij는 transition matrix의 yi 행에서 감정 j에 해당하는 값을 나타내며, kj ∈ K는 중심 감정 j입니다

λ가 크면 감정 j를 가진 새로운 데이터가 hi에 큰 영향을 받을 수 있습니다.
λij = 현재턴 i감정에서 다음턴 j감정으로 될 확률
현재턴 발화의 감정은 기쁨, 다음턴 발화의 감정이 슬픔인 데이터를 증강시킨다고 생각해보자.
데이터증강은 λ(기쁨->슬픔)h(기쁨)+(1-λ(기쁨->슬픔))k(슬픔) 이렇게 하는거 같음
암튼 아래 그림처럼 데이터 증강 시킨다는 의미! (증강된 데이터는 슬픔 감정)
이 DA 데이터는 다음 발화라고 간주할 수 있는게 마크로프 가정이 있기 때문인거 같다.
근데, 결국 증강된 데이터는 PLM의 hidden space에서 인데, 이를 학습데이터로 사용하는 것은 다른 모델에서도 같은 PLM을 써야하는 것?
또한 다른 모델에서는 PLM이 학습되기 때문에 같은 hidden space가 아닐텐데 이는 어떻게 변하게 되는거지?

우리의 전략은 대화에서 감정 종속성을 나타내는 보간 지점을 사용하고 PLM의 임베딩을 통한 증강을 제공하기 때문에 ERC를 위한 구체적인 생성된 샘플을 생성합니다.
위에서 설명한 방식으로 생성된 데이터는 모델 훈련 중에 대비 손실을 계산하기 위해 원본 데이터와 함께 사용됩니다.
CLED 프레임워크는 알고리즘 1에서 자세히 설명되며, 가상 데이터 생성 프로세스는 라인 5-13에서 개요를 제시합니다.

2.4 CLED: Supervised Contrastive Learning for ERC Dataset

ERC에서는 중립적인 감정이 기본으로 설정되지만, 많은 기존 연구에서는 훈련 과정에서 중립 감정을 다른 비중립 감정과 동일하게 처리합니다.
일부 연구에서는 중립을 간단히 평가에서 제외하기도 합니다.
본 연구에서는 이 문제에 대해 다른 관점에서 접근합니다.
이는 두 가지 관찰을 바탕으로 동기부여를 받았습니다.
우리는 인간 어노테이터들이 발화가 weak 감정을 나타낼 때 또는 발화가 비중립적인 감정 후보 중 어느 하나에 할당되지 못할 때 중립 레이블을 지정했다는 것을 관찰했습니다.

다시 말해, 중립 발화는 식별하기 어려우며 비중립적인 다른 감정 학습을 방해할 수 있습니다.
즉 태깅할때, 감정이 클래스 어디에도 딱히 강하게 포함되지 않은것 같은 경우 중립으로 레이블 한 경우가 있다는 이전의 연구가 있다.

이 문제를 해결하기 위해 CLED는 supervised contrastive learning을 재정의하여 중립 감정을 다른 비중립 감정과 분리하기에 초점을 맞춥니다.
Supervised Contrastive Learning은 주어진 샘플 hi(즉, ui의 임베딩)을 기준으로 앵커와 동일한 레이블을 가진 샘플을 끌어당기고, 앵커로부터 다른 레이블을 가진 샘플을 밀어내는 방식으로 대조 손실을 계산합니다.
contrastive loss을 위해 SupCon은 다음과 같이 양성 및 음성 점수를 계산합니다.
F is computed using a cosine similarity with temperature τ between two instances.
식 5에서의 P(i)는 hi와 동일한 레이블을 가진 양성 샘플의 집합을 나타내며, 이에는 우리의 데이터 증강을 통해 생성된 가상 데이터도 포함됩니다.
식 6에서의 A(i)는 hi와 다른 레이블을 가진 샘플 및 증강 데이터로 이루어진 음성 집합을 나타내며, 식 5와 6에서 양쪽 점수는 앵커와 샘플 간의 유사성의 합으로 구성됩니다.

P = 같은 감정을 가진 샘플끼리의 유사도 합
Nsup = 다른 감정을 가진 샘플과의 유사도 합

ERC 데이터셋 내에서 중립(neutral)은 다른 모든 감정과 어느 정도의 유사성을 공유하며, 임베딩 공간에서 다른 감정과 상대적으로 겹칩니다.
negative 셋의 모든 데이터가 레이블에 관계없이 동일한 힘에 의해 밀려난다면, 비중립 레이블 간의 공간은 비교적 쉽게 분리될 수 있습니다.

그러나 중립 데이터는 여전히 다른 레이블과 영역을 공유합니다.
즉 contrasive learning으로 다른 레이블끼리 공간을 잘 분리된다면, neutral도 잘 분리될 것이다.
하지만 τ를 이용해도 그렇게 잘 되진 않더라.

별첨서 C.1에 나와 있는 것처럼 하이퍼파라미터 τ를 조정하여 부정적인 쌍을 밀어내려고 시도하는 것은 SupCon보다 성능이 더 나빠집니다.
중립의 본질을 이해하고 다른 감정 영역에서 효과적으로 분리하기 위해, 중립에 특별히 맞춘 추가적인 부정적인 점수를 도입했습니다.
SupCon을 기반으로 식 6을 조정하여 neutral 점수를 계산하도록 수정했습니다.

식 7은 hi와 neutral 레이블을 가진 샘플 간의 유사성 점수를 수집하여 비중립 감정 레이블을 다른 감정으로부터 밀어내는 것을 나타냅니다.
Nneu = 비중립 감정 샘플에서 중립 샘플들과의 유사도함
식 8에서는 중립 점수를 SupCon의 부정 점수와 결합하며, 이로써 중립 감정에 대한 추가적인 밀어내는 힘을 가져옵니다.
Nsup은 현재 감정과 다른 모든 감정들과 멀어지게 하는 것이고, Nneu는 중립감정들과 멀어지게 하는 것이다.
이를 weighted sum하는 것임.
그러면 사실 중립감정 샘플들과 멀어지게 하는 weight가 커지게 되는 것
Nneu없이 Nsup으로만 학습하는게 SupCon
중립에 대한 힘은 매개변수 α를 통해 조절합니다.

마지막으로, 우리가 최적화하는 손실은 아래와 같이 나타납니다.

위에서 계산한 N을 통해 최종 loss 설계
loss가 작아진다는 것은 log안의 값이 커진다는 것
즉 P는 커지고 N은 작아진다. ==> 같은 감정의 샘플들끼리 유사도는 커지고, 다른 감정 샘플들과는 유사도가 작아진다.
왜 이런 loss을 사용했을까?
학습되는 파라미터는 그럼 무엇일까? hi을 만드는 PLM?
이론적으로는 hi을 만드는 모델이 업데이트가 되야할거 같고, 그럼 CoMPM+CLED라는 것은 hi을 CoMPM으로 만든다는 의미인지?

최종 loss는 알고리즘에 있는거 같음 (기본적인 CE포함).

여기에서 알고리즘 언급과 함께 말해주는게 좋을거 같음
아마 인퍼런스할 때는 CE 부분을 사용하겠지?

3 Experimental Settings

3.1 Datasets

우리는 네 개의 ERC 벤치마크 데이터셋에서 실험을 진행합니다: IEMOCAP, EmoryNLP, MELD 및 DailyDialog. 표 1은 각 데이터셋의 통계를 보여줍니다.
평가 메트릭으로 이전 연구를 따라 DailyDialog의 경우 주된 클래스(중립)를 제외한 micro-F1를 사용하고, 다른 ERC 데이터셋의 경우 weighted-F1를 사용합니다.
IEMOCAP은 텍스트, 오디오, 비디오 및 모션 캡처 정보가 포함된 dyadic 다중 모달 데이터셋입니다.

ERC 작업에서는 텍스트 데이터만 사용합니다.
레이블 세트에는 기쁨, 슬픔, 화남, 흥분, 좌절 및 중립이 포함됩니다.

EmoryNLP은 TV 프로그램 "Friends" 대본에서 추출한 텍스트 데이터셋입니다.

각 발화는 슬픔, 공포, 분노, 강력함, 평온함, 기쁨 및 중립으로 레이블이 지정되어 있으며, 이들 레이블은 Willcox의 feeling wheel에 기반합니다.

MELD는 인기 있는 TV 시리즈 "Friends"에서 수집한 다중 참가자 다중 모달 데이터셋입니다.

각 발화는 분노, 혐오, 두려움, 기쁨, 놀라움, 슬픔 및 중립 중 하나로 주석이 달렸습니다.

DailyDialog은 dyadic(두명) 화자를 가진 텍스트 데이터셋입니다.

레이블 세트에는 Ekman의 여섯 가지 기본 감정(Ekman et al., 1999)과 기타 감정인 분노, 혐오, 두려움, 기쁨, 놀라움, 슬픔 및 중립이 포함됩니다.

언급이 없음

3.2 Baselines

우리는 강력한 기준 모델에 우리의 학습 방식을 적용합니다.
엄격한 비교를 위해 기준 모델의 원래 설정을 유지하며, 우리의 방식을 적용할 때 각 모델을 추가 조정하지 않습니다.

즉 CoMPM에 CLED같은것을 적용할 때 CoMPM이 PLM으로보고 사용하는 것인가?
이 말은 그냥 초기 상태를 기학습된 모델로 시작하고, 학습되는 전체가 학습되는 형태인가? (알고리즘 부분 보면..)

RoBERTa, Psychological, CoMPM, EmoNotOne-SA, SPCL, EmotionFlow

3.3 Implementation Details

우리는 사전 훈련된 RoBERTa-large 모델을 사용합니다.
학습률은 1e-6로 설정됩니다.
에포크 수와 배치 크기는 각각 10과 8입니다.
모델은 단일 Nvidia A100에서 훈련 및 테스트됩니다. 식 4에서 τ를 0.05로 고정시킵니다.
식 8에서 α에 대한 매개변수는 검증 세트를 사용하여 조정합니다.
일반적으로 중립의 백분율에 비해 큰 값으로 α를 고정하는 것이 더 좋은 성능을 제공합니다.
우리의 실험에서는 DailyDialog에 대해 약 83%의 데이터가 중립으로 태그되어 있으므로 α는 0.9로 설정됩니다.
EmoryNLP의 경우 상대적으로 중립의 비율이 작기 때문에 α는 0.2로 설정됩니다.
α는 중립에 대한 추가적인 힘으로 해석될 수 있으며, alpha는 전반적으로 (1+α)의 효과를 갖습니다.
섹션 4.6에서는 CLED가 α의 다양한 설정에 대해 견고한 성능을 보여주는 방법을 보여줍니다.

언급이 없음
전체 loss은 Lce+Lcled로 이뤄짐
학습되는 부분은 PLM과 Encoder라고 써있는거보면 전체 프레임워크를 의미함. RoBERTa나 CoMPM이나 등등
그렇다면 DA는 매 스텝에서 이뤄줘야할거 같음
negative sample은 매 스텝에서 다른 모든 감정에 대해 DA하는 듯

4 Experiments

4.1 Comparisons with State-of-the-art Methods

우리의 제안된 방법은 모델에 독립적이며, ERC에서 기존 접근 방식에 적용할 수 있습니다.
우리는 여섯 가지 베이스라인 모델을 사용하고 각 모델에 우리의 방식을 원래 베이스라인에 플러그 앤 플레이(Plug-and-Play) 방식으로 구현한 결과를 비교합니다.
이러한 베이스라인 모델은 ERC 문헌에서 선택되었으며, 가장 최근의 최상의 성능 모델(SPCL)을 포함하여 최첨단 결과를 달성한 모델입니다.
코드가 공개되지 않은 모델은 실험에서 포함되지 않습니다.
표 2는 우리의 방식의 효과를 보여줍니다.
여기에서 우리는 하나의 데이터셋에서 한 모델을 제외하고 모든 베이스라인에서 일관된 성능 향상을 달성합니다.
각 데이터셋에 대한 최상의 결과는 굵게 표시됩니다.
또한, 우리의 방식을 이미 강력한 일부 베이스라인과 함께 사용하면 간단한 RoBERTa 모델조차도 일부 경쟁 베이스라인을 뛰어넘을 수 있음을 주목할 가치가 있습니다.
그러나 SPCL에 우리의 방식을 적용하면 원래 모델보다 성능이 하락합니다.
그 이유는 IEMOCAP 데이터셋이 비교적 균형 잡혀 있으며, SPCL이 다른 측면에서 이득을 보고 IEMOCAP의 다른 베이스라인 중에서 최상의 성능을 달성하고 있어 우리의 방식을 통해 향상의 여지가 제한적하기 때문일 수 있습니다.

4.2 Ablation Study

이곳에서는 각 구성 요소를 제거하여 우리의 주장을 검증하기 위한 유도 연구를 수행합니다.
우리는 모든 벤치마크 데이터셋에 우리의 방법을 적용하고 있으며, 표 3은 CLED의 각 작업이 모델 성능에 기여하는 것을 보여줍니다.

RoBERTa에서 실험한 것

CLED에서 데이터 증강을 통해 생성된 샘플을 제외할 경우, 모든 벤치마크에서 성능이 낮아집니다.
방정식 7에서 중립적인 점수를 negative score 와 결합하지 않는 것은 모든 데이터셋에서 일관된 성능 하락을 초래합니다.
또한, 우리의 두 구성 요소를 제거하면(즉, RoBERTa와 vanilla-supervised contrastive learning), 성능이 떨어지며, 데이터 증강 및 중립적 분리의 효과를 강조합니다.

4.3 Comparison with Different Types of Data Augmentation

우리의 데이터 증강 접근 방법의 효과를 더 잘 보여주기 위해, 우리는 다른 데이터 증강 방법과 비교합니다.
이 실험을 위해 기본 모델로 RoBERTa와 SupCon 손실을 사용합니다.
표 4는 다양한 데이터 증강 방법을 사용한 성능을 보여줍니다.
무작위 삭제, 교환, 삽입 및 EDA의 동의어 교체는 대화에서 n개의 단어를 무작위로 선택하고 변환하는 기술입니다.
우리는 대화의 핵심 구성 요소로서 context understanding and emotional dependency을 믿습니다.
이는 또한 표 4의 결과에서 확인되었습니다.
또한, SimCSE에서 제안된 드롭아웃를 테스트합니다.
우리의 데이터 증강은 모든 데이터셋에서 Dropout을 능가합니다.

4.4 Performance on Minor Label

우리는 MELD 데이터셋의 각 클래스 레이블에서 우리가 제안한 모델의 성능을 보고하며, 우리의 방법은 항상 각 감정 클래스에서 성능을 향상시킵니다.
표 5에 제시된대로, RoBERTa의 결과는 소수 레이블을 분류하는 것이 어렵다는 것을 보여줍니다.
주요 레이블(중립)의 성능과 비교하여 소수 레이블(공포)의 성능은 66.29%로 급격히 감소합니다.
RoBERTa를 우리의 방법과 결합할 때, 모델은 모든 감정에 대해 일관되게 일반 RoBERTa보다 우수한 성능을 보입니다.
특히, 우리의 방법은 가장 적게 발생하는 레이블 중 하나인 공포에 대해 상당한 성능 향상을 보여줍니다.
이는 증강을 통해 더 많은 샘플을 통해 모델이 성능 향상을 달성한다고 추론할 수 있습니다.
이러한 증가된 데이터는 모델이 익숙하지 않은 레이블을 분류하는 데 도움이 됩니다.

4.5 Silhouette Score on Neutral Label

Yang (2022)에 따르면, 중립은 어느 정도 다른 레이블과 유사하며 다른 레이블과 겹쳐져 있습니다.
우리는 중립 감정을 포함하는 임베딩에서 silhouette scores(Rousseeuw, 1987)를 계산하여 CLED의 효과를 수치적으로 검증하며, 이는 그림 3에 제시되어 있습니다.
우리는 세 가지 다른 손실로 최적화된 RoBERTa에서 얻은 점수를 비교합니다: 크로스 엔트로피(CE), SupCon 및 CLED.
그림 3은 CLED의 실루엣 점수가 모든 데이터셋에서 다른 손실로 얻은 점수를 능가함을 보여줍니다.
CE는 중립에 대항하지 않기 때문에 중립은 임베딩 공간에 퍼져 있어 세 가지 목적 함수 중 가장 낮은 점수를 얻습니다.
SupCon과 비교하여 CLED는 중립을 다른 감정으로부터 격리하는 데 중점을 두고 있습니다.
또한, 우리의 손실을 질적으로 평가하기 위해 CE 및 CLED로 표현을 시각화합니다(Appendix C.2).

4.6 Sensitivity Analysis on parameter α

표 6에서는 방정식 8에서 중립 인스턴스에 대한 추가 부정적 점수 부과를 제어하는 매개변수 (α)에 대한 민감성 분석을 수행합니다.
우리는 두 가지 대표적인 데이터셋을 사용하여 실험을 진행합니다.
MELD 데이터셋은 중립 레이블로 편향된 데이터 분포를 나타내며, EmoryNLP 데이터셋은 상대적으로 균형 잡힌 레이블 분포를 가지고 있습니다.
α가 0으로 설정되면 손실은 일반적인 대조 학습으로 등가됩니다.
α를 0보다 높게 설정하면 중립 레이블 주변에 추가적인 밀어내는 힘을 주입하는 것을 의미합니다.
우리는 모든 α 설정에서 일관된 성능 향상을 달성하며, 이는 CLED의 견고성을 반영할 수 있습니다.
이러한 결과는 다른 데이터셋 간에도 항상 성능 향상을 달성한다는 점에서 의미가 있다고 여겨집니다.
또한, 다른 데이터셋에서의 최적 α는 간접적으로 중립 비율 측면에서 데이터 특성을 반영합니다.
MELD에서의 최적 α는 0.8이고, EmoryNLP에서의 최적 α는 0.2입니다.

4.7 Comparison for Layer Set in Data Augmentation

위의 모든 실험에서는 데이터 증강을 위해 PLM의 마지막 레이어만 사용했습니다.
우리의 증강은 PLM 또는 데이터셋에 따라 의존적일 수 있는 숨겨진 레이어의 최적 조합을 찾음으로써 더 개선될 수 있습니다.

이 말을 보면 다른 모델에는 어떻게 작용한거지?
RoBERTa에 적용한다고 했을 때도, PLM은 학습안되는건지?
PLM이 학습되면 DA도 매번 새롭게 진행하는건지?

주요 결과에서는 최상의 조합을 찾지 않았습니다.
여기에서는 (Jawahar et al., 2019)의 연구를 따라 표 7에 나와 있는 레이어 세트 L에 대한 다양한 구성을 조사합니다.
표 7의 결과는 향후 연구 가능한 방향을 시사합니다.
RoBERTa-large를 사용한 우리의 모델은 L = {5, 6, 7}일 때 최상의 성능을 달성합니다.
더 자세한 내용은 부록 C.3에서 확인할 수 있습니다.

5 Conclusion

본 논문에서는 ERC 데이터셋에서의 어려움을 논의합니다.
이 데이터셋은 불균형한 레이블 분포와 다른 감정과 구별하기 어려운 중립적인 감정의 우세함을 나타냅니다.
우리는 ERC 데이터셋의 어려움을 해결하기 위한 새로운 방법인 CLED를 제시합니다.
CLED는 대화에서의 맥락과 감정 종속성을 반영하는 새로운 데이터 증강을 사용합니다.
증강된 데이터를 통해 우리는 ERC 데이터셋을 위해 특별히 설계된 지도형 대조 학습 손실을 다시 정의하여 중립적인 감정과 중립이 아닌 감정을 더 잘 구별합니다.
우리는 플러그 앤 플레이를 통해 이전의 베이스라인을 지속적으로 향상시킴으로써 우리 방법의 효과를 검증하기 위해 광범위한 실험을 수행합니다.

Limitations

이 연구에는 두 가지 제한 사항이 있습니다.

1) 우리의 제안된 데이터 증강 방법은 사전 훈련된 모델을 기반으로 하기 때문에, 이를 이용하는 모델과만 결합할 수 있으며, 데이터 증강에 대한 인간 평가가 없습니다.
2) PLM의 마지막 레이어에 데이터 증강을 수행하는 것은 충분히 효과적이지만, Section 4.7에서 더 많은 레이어가 성능을 향상시킨다는 것을 확인했습니다.

그러나 PLM의 더 많은 숨겨진 상태를 활용하면 계산 리소스가 증가합니다.
성능과 계산 비용 간의 균형을 고려해야 합니다.

Reference

https://openreview.net/pdf?id=pL2HY2ojFu

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-194, Improving Contrastive Learning in Emotion Recognition in Conversation via Data Augmentation and Decoupled Neutral Emotion, ARR Review 2310 (EACL 2024)

◼ Comment

0 Abstract

1 Introduction

2 Methodology

2.1 Problem Formulation

2.2 Overview

2.3 Data Augmentation for ERC

2.4 CLED: Supervised Contrastive Learning for ERC Dataset

3 Experimental Settings

3.1 Datasets

3.2 Baselines

3.3 Implementation Details

4 Experiments

4.1 Comparisons with State-of-the-art Methods

4.2 Ablation Study

4.3 Comparison with Different Types of Data Augmentation

4.4 Performance on Minor Label

4.5 Silhouette Score on Neutral Label

4.6 Sensitivity Analysis on parameter α

4.7 Comparison for Layer Set in Data Augmentation

5 Conclusion

Limitations

댓글

댓글 쓰기