NL-194, Improving Contrastive Learning in Emotion Recognition in Conversation via Data Augmentation and Decoupled Neutral Emotion, ARR Review 2310 (EACL 2024)
◼ Comment
- Improving Contrastive Learning in Emotion Recognition in Conversation via Data Augmentation and Decoupled Neutral Emotion
- RoBERTa+CLED
- 중간 hidden layer에서 embedding을 추출하고, 이를 이용해 DA을 진행한다.
- DA된 hidden embedding은 나머지 layer은 그대로 통과해서 학습에 사용된다.
- 학습은 contrastive learning을 이용한다.
- 여기서 학습될때는 RoBERTa 부분 전체가 학습된다? 그러면 DA가 매 step에서 이뤄지는 것 같음
- 다른모델 + CLED
- 여기서는 다른모델이 RoBERTa와 같은 개념인거 같다
- 왜냐하면 다른 모델은 PLM+additional layer로 구성되어 있고 아마 마지막 hidden embedding을 사용하는거 같다.
- 그리고 매 스텝 DA이뤄지면서 학습되는것으로 추정되는데..
- 논문의 말에 따르면 다른모델은 추가적인 학습이 안이뤄진다고 한다. 뭐지?
- 추가적인 학습이 없다는게 기학습된 모델을 초기 상태로 사용한다는건가?
- 논문 요약
- ERC에서 사용되는 감정 클래스의 불균형을 해결하려고 data augmentation을 제안한다.
- data augmentation은 현재 발화의 임베딩과 augment할 감정을 가진 발화의 평균 임베딩과 linear interpolations을 통해 수행된다. (Markovian property통한 emotion shift)
- 또한 neutral 감정을 다른 감정과 구별되는 공간으로 임베딩 시키기 위해 contrastive learning을 제안한다.
- neutral 감정과의 다른 감정들과 강하게 밀어내기 위해 N_neu을 제안한다.
- 제안한 방법인 CLED는 ERC 모델에 상관없이 성능 향상에 효과적이다.
- 강점
- 논문의 동기가 명확히 설명되어 있다.
- 제안한 data augmentation은 simcse와 같은 다른 augmentation 방법보다 효과가 좋다.
- contrastive learning을 통해, neutral이 다른 감정들과 좀 더 잘 분리됨을 광범위하게 분석하였다.
- 제안한 방법은 ERC 모델들의 성능 향상에 효과적이다.
- 단점
- 증강된 데이터가 어떻게 학습에 활용되는지 애매모호한 부분이 있다.
- 1. DA는 매 학습 step에서 수행됩니까?
- 2. 학습되는 파라미터는 ERC 모델 전부입니까?
- 알고리즘 1에서, 학습되는 파라미터는 PLM와 Encoder 부분으로 보여진다.
- 3. line 190에서 data agumentation은 PLM의 embedding으로부터 수행되는 것 같습니다. 다른 ERC 모델은 (RoBERTa가 아닌) 어떤 hidden embedding을 사용하는 것입니까?
- 내가 이해하기로는 알고리즘 1에서 ERC model의 마지막 embedding이 활용되는 것 같다.
- 4. line 355: original settings을 유지한다는 것은 어떤 의미입니까?
- 비교 ERC 모델들은 추가적인 튜닝이 없는 것 같습니다.
- 그렇다면 비교 ERC 모델들의 trained parameter가 freeze 됩니까?
- 저는 RoBERTa ERC 모델은 전체 파라미터가 학습되고 비교 ERC 모델은 어느 파라미터가 학습되는지 헷갈립니다.
- 제안
- 식 3에서의 transition matrix의 value는 고정된다.
- 저자들이 제안한 방식이 이상한 것은 아니지만, 실제로 대화에 따라 현재 감정에 따른 다음 감정의 transition probability는 다를 것이다.
- 더 나은 방법은 현재 감정과 context을 기반으로한 다음 감정의 확률을 예측하는 모델을 제안하는 것이다. (λij = p(ej|ei, context))
- 알고리즘 1이 언급되지 않았다.
- 알고리즘 1에서 최종 loss은 L_ce+L_CLED이다.
- line 321은 최종 loss가 L_CLED로 잘못 이해될 수 있다.
- 테이블 1이 언급되지 않았다.
0 Abstract
- 대화 중 감정 인식 (ERC)는 다양한 응용 분야로 인해 큰 관심을 받고 있습니다.
- 이 분야에서는 계속해서 발전이 이루어지고 있지만, 데이터셋으로 인한 불가피한 어려움이 있습니다.
- ERC 데이터셋은 감정 분포가 심각하게 불균형하게 나타납니다.
- 중립적인 감정을 나타내는 발언이 데이터에서 우세하며, 현재의 접근 방식에서는 이 감정 레이블을 다른 감정 레이블과 동일하게 처리합니다.
- 데이터셋에서 발생하는 문제를 해결하기 위해 우리는 ERC 작업에 특별히 맞춘 supervised contrastive learning을 제안합니다.
- 우리는 대화에서 emotion dynamics을 모방하는 새로운 data augmentation을 사용하고 중립적인 감정의 우세함과 모호함을 다루기 위한 supervised contrastive learning 방법을 고안합니다.
- 네 개의 벤치마크 데이터셋에서의 실험 결과는 우리의 접근 방식의 효과를 입증합니다.
- 우리의 코드는 https://anonymous.4open.science/r/CLED-086A/ 에서 사용 가능합니다.
1 Introduction
- 챗봇 서비스의 성공을 바탕으로, 대화 중의 감정 인식 (ERC)은 활발한 연구 분야가 되었으며, 이 작업은 대화에서의 감정을 예측하는 것입니다.
- ERC의 핵심 포인트는 각 발언과 해당 화자의 맥락을 효과적으로 모델링하는 방법입니다.
- 문맥 정보를 포착하기 위해 기존 작업에서는 일반적으로 recurrence-based methods, graph-based methods, knowledge-based methods, 및 pre-trained language model을 주로 활용합니다.
- 개선되었지만 ERC 데이터셋에서는 여전히 본질적인 어려움이 남아 있습니다.
- ERC 데이터셋에서 나오는 한 가지 어려움은 감정 레이블이 종종 불균형하다는 점입니다.
- 이전 연구에서는 ERC에서 불균형한 데이터셋이 예측 성능에 부정적인 영향을 미친다는 것을 지적했습니다.
- 구체적으로, 샘플 수가 가장 적은 클래스는 상대적으로 훈련용 데이터가 부족하기 때문에 고통을 겪습니다.
- 일부 연구는 데이터셋의 제한을 극복하기 위해 도입되었습니다.
- Guibon (2021)은 episodic 접근법에서 few-shot 설정을 사용하며, 이는 각 클래스당 몇 가지 예제만 있는 상황을 모방합니다.
- SPCL은 contrastive learning에서 각 category의 prototype을 활용하며, 이는 동일한 category의 최소한 하나의 positive sample과 다른 모든 카테고리의 negative samples을 가지고 있습니다.
- ERC의 두 번째 어려움은 데이터셋을 지배하는 주요 클래스인 neutral 감정 레이블에서 나옵니다.
- 이 감정 레이블은 대부분의 데이터를 차지하며 모호합니다.
- 이전 연구에서는 모델이 감정을 neutral으로 잘못 분류하는 경향이 있다는 것을 지적했습니다.
- 이 현상의 주요 원인은 모델이 ERC에서 주요 클래스인 neutral 감정으로 예측하려는 경향이 있다는 것입니다.
- 또한, neutral 감정은 default 감정으로 설정되어 있으며, non-neutral 감정은 인간 주석자에 의해 양성 샘플의 감정 intensity (arousal)가 충분히 강할 때에만 주석이 달렸습니다.
- 이 설정은 non-neutral 감정 중에서 다른 감정을 구별할 수 있지만, neutral과 non-neutral 감정 사이의 구별은 모호해집니다.
- 이러한 어려움에도 불구하고, ERC의 대부분의 기존 연구는 neutral 감정을 다른 non-neutral 감정과 동일하게 처리합니다.
- 최근에는 일부 작업에서 neutral 감정을 다른 감정과 다르게 처리하는 방식을 시도했습니다.
- 예를 들어, auxiliary 작업을 통해 중립과 비중립 감정 간의 혼란을 완화하거나, coarse-grained level에서 먼저 neutral을 감지하는 방식입니다.
- 먼저 neutral이냐 아니냐를 판단하고, 아닐 경우에는 세부적으로 감정을 인식하는 방법일려나?
- 그러나 두 단계 학습 방식으로 인해 이러한 모델들은 본질적으로 최적이 아닙니다.
- ERC 데이터셋의 한계를 극복하기 위해, 우리는 ERC 데이터셋을 특별히 고려한 새로운 supervised Contrastive Learning 프레임워크를(CLED) 소개합니다.
- ERC 데이터셋의 첫 번째 어려움을(data imbalance) 해결하기 위해 CLED는 pre-trained language model (PLM) 임베딩에서 얻은 중심점을 활용하는 새로운 data augmentation 기술을 사용합니다.
- 이 중심점을 interpolation하여 augmented utterances을 생성하는데, 이 보간은 Markovian 속성을 통해 감정 변화를 반영하도록 수행됩니다.
- 훈련 데이터로부터 각 transition 확률을 계산하고 데이터 증강에 완전히 활용합니다.
- 우리의 방법은 emotion shift를 반영하는 현실적인 시나리오를 기반으로 한 고유한 interpolation 기술을 사용합니다.
- 감정간의 interpolation을 통해 데이터증강을 해서 데이터 불균형을 해결해보자!
- 또한, ERC 데이터셋의 두 번째 어려움, 즉 neutral 감정의 제한적인 사용에 대한 문제를 해결합니다.
- 우리는 neutral 감정에 특별히 특화된 contrastive learning을 설계합니다.
- neutral 감정이 다른 감정과 밀접하게 교차되기 때문에, 각 레이블의 경계를 명확하게 하기 위해 neutral 레이블을 다른 레이블보다 강하게 밀어내는 목적 함수를 고안합니다.
- 따라서 CLED는 neutral으로부터의 더 강한 밀어내는 힘을 적용하여 non-neutral 감정을 neutral 감정과 더 명확하게 구분합니다.
- 데이터가 균형적으로 있어도, neutral은 다르게 처리해야 하지 않을까?
- 그래서 neutral과 non-neutral하고 거리가 멀어지도록? contrastive learning을 제안한다.
- 효과를 확인하기 위해 우리는 우리가 제안한 방법을 다섯 가지 최근의 ERC 모델과 이 연구를 위해 추가로 구현한 RoBERTa-large 기반 분류기를 포함한 여섯 가지 베이스라인에 구현합니다.
- 우리는 네 개의 벤치마크 ERC 데이터셋을 사용하여 결과를 비교합니다.
- 실험 결과는 우리가 제안한 두 가지 작업이 일관되게 성능을 향상시킨다는 것을 보여줍니다.
- 또한, 우리의 방법이 다른 데이터 증강 방법보다 훨씬 우수한 성능을 보인다는 것을 보여줍니다.
- 우리의 기여는 세 가지로 요약할 수 있습니다.
- 1) 우리는 ERC 데이터셋의 제한 사항을 해결하기 위해 data augmentation 및 neutral 감정을 다른 감정과 분리하는 새로운 contrastive learning을 제안합니다.
- 2) 우리가 아는한, 이것이 ERC에 데이터 증강 방법을 적용한 첫 시도입니다. 이 데이터 증강은 대화의 특성과 감정 변화를 반영하도록 ERC에 맞춰져 있습니다.
- 3) 우리는 ERC에서 네 개의 벤치마크 데이터셋으로 실험을 수행했습니다. 광범위한 실험을 통해 우리가 제안한 방법의 효과를 검증하고 우리가 도입한 각 작업이 모델 성능에 어떻게 기여하는지를 보여줍니다.
2 Methodology
2.1 Problem Formulation
- 우리는 ERC 데이터셋이 D = {C1, C2, ..., C|D|}로 구성되어 있으며, 이는 |D| 대화의 모음입니다.
- 대화는 {(u1, s1, y1), (u2, s2, y2), ..., (un, sn, yn)}와 같이 대화의 발언 순서입니다.
- 여기서 si, yi는 ui의 화자와 라벨을 나타내며, n은 대화에서의 발언 수를 나타냅니다.
- 각 발화 ui는 토큰의 시퀀스로 구성되며, ui = {wi1, wi2, ..., wim}와 같이 표현됩니다.
- 여기서 m은 토큰의 수를 나타냅니다.
- 대상 발화 (ut, st)과 이에 대한 문맥 {(u1, s1), (u2, s2), ..., (ut-1, st-1)}이 주어질 때, ERC의 목표는 대상 ut의 감정 라벨 (yt)을 예측하는 것입니다.
2.2 Overview
- 우리 접근 방법의 전체 프로세스는 도식화된 그림 1에 나와 있습니다.
- 도식화된 그림 1은 설명 목적을 위한 가상의 ERC 데이터를 나타내며, 각 색은 다른 감정 라벨을 나타냅니다.
- 그림 1(a)의 데이터는 어떠한 처리도 거치지 않은 초기 임베딩을 나타냅니다.
- 그림 1(b)에서는 우리의 CLED에서 제안된 데이터 증가 방법을 통해 클래스 불균형 문제가 완화되었습니다.
- 그러나 ERC 데이터셋의 특성으로 인해 중립적인 데이터 포인트는 거의 구별되지 않습니다.
- 그림 1(c)에 표시된 것처럼, 우리의 제안된 대조적 학습 접근 방법은 이 문제에 특히 더 강력한 밀어내기 힘을 적용합니다.
- 이후에 각 작업에 대한 더 자세한 내용을 제공하겠습니다.
2.3 Data Augmentation for ERC
- ERC에 특화된 데이터 증가 방법을 소개합니다.
- 저희의 데이터 증가 방법은 TMix (Chen 등, 2020)에서 영감을 받은 것으로, interpolation을 통해 hidden space에서 데이터를 증가시킵니다.
- TMix와 달리, 독립적인 문장에서 데이터를 생성하는 대신 sequence-level data augmentation를 수행합니다.
- ERC에서 utterances은 시퀀스로 처리되므로, 우리는 contextual modeling을 위해 hidden space representation을 활용하고 emotion dynamics을 캡쳐합니다.
- 구체적으로, 저희 접근 방법은 대화에서 감정이 어떻게 유발되는지를 모방합니다.
- next utterance의 감정은 current utterance에 영향을 받습니다.
- 우리의 방법은 각 centroid 및 현재 발화 임베딩을 사용한 linear interpolations을 통해 virtual training samples을 생성합니다.
- 이는 현재 컨텍스트 (hi)에서 다음 단계를 위한 새로운 발화를 생성하는 것으로 볼 수 있습니다.
- 훈련 중에 이러한 샘플은 ERC 모델을 통해 추출된 특성에 대한 대화 구조를 추가 처리하지만, 추론 시에는 버려집니다.
- 우리의 데이터 증가에 대한 전반적인 프로세스는 그림 2에서 요약되며, 각 감정의 centroid 및 transition 행렬이 interpolations에 사용됩니다.
- Data Augmentation on hidden space
- 우리는 pre-trained language model (PLM)을 임베딩 모듈로 사용합니다.
- 각 발화에 speaker를 앞에 추가하고, 현재 발화에 이전 대화의 내용을 연결하는 방식으로 컨텍스트를 만듭니다.
- 컨텍스트 정보를 반영한 임베딩을 얻기 위해 특수 토큰 [CLS]를 사용합니다.
- 임베딩 단계에서 ui의 입력과 출력은 다음과 같습니다:
- 여기서 hl_i는 ui의 [CLS] 임베딩이 l번째 숨겨진(hidden) 레이어에서의 임베딩을 나타냅니다.
- 즉 [CLS] 위치(첫 번째) 토큰의 hidden logit(embedding)을 의미하는 것
- L은 대상(target)의 숨겨진(hidden) 상태를 보강하기 위해 선택한 레이어 집합(layer set)입니다.
- PLM은 multi-layer model이므로 동일한 입력에 대해 각 숨겨진 레이어에서 diverse embeddings을 얻을 수 있습니다.
- 제 4.7 섹션에서는 hi에 대한 여러 hidden layers combinations이 시도되었고 각 조합의 성능을 보고하였습니다.
- Emotion centroids
- emotion centroids을 사용하여 data augmentation을 수행하며, 이러한 중심점 주변에서 증강된 데이터를 생성합니다.
- 우리는 프로토타입 네트워크(Prototypical Networks)에서 영감을 얻었으며, 프로토타입(prototype) 아이디어를 차용했습니다.
- 각각의 감정 클래스에 대해, 해당 감정 레이블과 관련된 모든 발화 임베딩을 수집하고, 각각에 대한 중심점을 계산합니다.
- set of centroids은 다음과 같이 표현될 수 있습니다:
- where K is the set of emotion centroids. E is the emotion label set.
- 기쁨 감정의 중심점은, 기쁜 감정의 해당하는 (학습데이터내) 각각의 발화의 hidden embedding의 평균을 내는 것으로 보여짐.
- Interpolations with emotion shift
- 이전 연구에서는 대화의 감정이 inter- and intra-speaker 내 종속성과 label copying 속성과 같은 종속성을 가지고 있음을 발견했습니다.
- u1의 감정이 u2에 영향을 미치며, 이 과정은 대화 전체를 통해 순차적으로 계속됩니다.
- 이에 기반하여 우리는 순차적 감정 종속성을 마르코프 전이 행렬로 나타냅니다.
- 즉 uk의 감정은 uk-1만 고려해도 된다.
- 왜냐하면 u1~ik-2의 고려한게 uk-1에 녹아있기 때문
- 대화에서 현재 감정이 다음 감정으로 어떻게 변화하는지를 계산하고 훈련 데이터에서 확률로 변환합니다.
- transition 행렬은 대화에서 현재 감정 i가 다음 감정 j로 어떻게 변하는지를 나타냅니다.
- transition 행렬에 대한 자세한 정보는 별첨서 B에서 찾을 수 있습니다.
- 아마 학습데이터에서 기쁨 -> 슬픔 으로 변한 transition 값은 num(기쁨->슬픔)/num(기쁨->모든감정) 으로 보는 거 같음
- 즉 마크로프 가정이 들어가므로 1-step만 보고 transition matrix를 계산한다
- 계산된 transition matrix을 사용하여 각 감정 중심점과 ui의 임베딩 hi 간의 interpolation을 수행합니다.
- 주어진 임베딩 hi를 기반으로 감정 레이블 j를 가지는 virtual 샘플이 다음과 같이 증강됩니다.
- 여기서 λij는 transition matrix의 yi 행에서 감정 j에 해당하는 값을 나타내며, kj ∈ K는 중심 감정 j입니다
- λ가 크면 감정 j를 가진 새로운 데이터가 hi에 큰 영향을 받을 수 있습니다.
- λij = 현재턴 i감정에서 다음턴 j감정으로 될 확률
- 현재턴 발화의 감정은 기쁨, 다음턴 발화의 감정이 슬픔인 데이터를 증강시킨다고 생각해보자.
- 데이터증강은 λ(기쁨->슬픔)h(기쁨)+(1-λ(기쁨->슬픔))k(슬픔) 이렇게 하는거 같음
- 암튼 아래 그림처럼 데이터 증강 시킨다는 의미! (증강된 데이터는 슬픔 감정)
- 이 DA 데이터는 다음 발화라고 간주할 수 있는게 마크로프 가정이 있기 때문인거 같다.
- 근데, 결국 증강된 데이터는 PLM의 hidden space에서 인데, 이를 학습데이터로 사용하는 것은 다른 모델에서도 같은 PLM을 써야하는 것?
- 또한 다른 모델에서는 PLM이 학습되기 때문에 같은 hidden space가 아닐텐데 이는 어떻게 변하게 되는거지?
- 우리의 전략은 대화에서 감정 종속성을 나타내는 보간 지점을 사용하고 PLM의 임베딩을 통한 증강을 제공하기 때문에 ERC를 위한 구체적인 생성된 샘플을 생성합니다.
- 위에서 설명한 방식으로 생성된 데이터는 모델 훈련 중에 대비 손실을 계산하기 위해 원본 데이터와 함께 사용됩니다.
- CLED 프레임워크는 알고리즘 1에서 자세히 설명되며, 가상 데이터 생성 프로세스는 라인 5-13에서 개요를 제시합니다.
2.4 CLED: Supervised Contrastive Learning for ERC Dataset
- ERC에서는 중립적인 감정이 기본으로 설정되지만, 많은 기존 연구에서는 훈련 과정에서 중립 감정을 다른 비중립 감정과 동일하게 처리합니다.
- 일부 연구에서는 중립을 간단히 평가에서 제외하기도 합니다.
- 본 연구에서는 이 문제에 대해 다른 관점에서 접근합니다.
- 이는 두 가지 관찰을 바탕으로 동기부여를 받았습니다.
- 우리는 인간 어노테이터들이 발화가 weak 감정을 나타낼 때 또는 발화가 비중립적인 감정 후보 중 어느 하나에 할당되지 못할 때 중립 레이블을 지정했다는 것을 관찰했습니다.
- 다시 말해, 중립 발화는 식별하기 어려우며 비중립적인 다른 감정 학습을 방해할 수 있습니다.
- 즉 태깅할때, 감정이 클래스 어디에도 딱히 강하게 포함되지 않은것 같은 경우 중립으로 레이블 한 경우가 있다는 이전의 연구가 있다.
- 이 문제를 해결하기 위해 CLED는 supervised contrastive learning을 재정의하여 중립 감정을 다른 비중립 감정과 분리하기에 초점을 맞춥니다.
- Supervised Contrastive Learning은 주어진 샘플 hi(즉, ui의 임베딩)을 기준으로 앵커와 동일한 레이블을 가진 샘플을 끌어당기고, 앵커로부터 다른 레이블을 가진 샘플을 밀어내는 방식으로 대조 손실을 계산합니다.
- contrastive loss을 위해 SupCon은 다음과 같이 양성 및 음성 점수를 계산합니다.
- F is computed using a cosine similarity with temperature τ between two instances.
- 식 5에서의 P(i)는 hi와 동일한 레이블을 가진 양성 샘플의 집합을 나타내며, 이에는 우리의 데이터 증강을 통해 생성된 가상 데이터도 포함됩니다.
- 식 6에서의 A(i)는 hi와 다른 레이블을 가진 샘플 및 증강 데이터로 이루어진 음성 집합을 나타내며, 식 5와 6에서 양쪽 점수는 앵커와 샘플 간의 유사성의 합으로 구성됩니다.
- P = 같은 감정을 가진 샘플끼리의 유사도 합
- Nsup = 다른 감정을 가진 샘플과의 유사도 합
- ERC 데이터셋 내에서 중립(neutral)은 다른 모든 감정과 어느 정도의 유사성을 공유하며, 임베딩 공간에서 다른 감정과 상대적으로 겹칩니다.
- negative 셋의 모든 데이터가 레이블에 관계없이 동일한 힘에 의해 밀려난다면, 비중립 레이블 간의 공간은 비교적 쉽게 분리될 수 있습니다.
- 그러나 중립 데이터는 여전히 다른 레이블과 영역을 공유합니다.
- 즉 contrasive learning으로 다른 레이블끼리 공간을 잘 분리된다면, neutral도 잘 분리될 것이다.
- 하지만 τ를 이용해도 그렇게 잘 되진 않더라.
- 별첨서 C.1에 나와 있는 것처럼 하이퍼파라미터 τ를 조정하여 부정적인 쌍을 밀어내려고 시도하는 것은 SupCon보다 성능이 더 나빠집니다.
- 중립의 본질을 이해하고 다른 감정 영역에서 효과적으로 분리하기 위해, 중립에 특별히 맞춘 추가적인 부정적인 점수를 도입했습니다.
- SupCon을 기반으로 식 6을 조정하여 neutral 점수를 계산하도록 수정했습니다.
- 식 7은 hi와 neutral 레이블을 가진 샘플 간의 유사성 점수를 수집하여 비중립 감정 레이블을 다른 감정으로부터 밀어내는 것을 나타냅니다.
- Nneu = 비중립 감정 샘플에서 중립 샘플들과의 유사도함
- 식 8에서는 중립 점수를 SupCon의 부정 점수와 결합하며, 이로써 중립 감정에 대한 추가적인 밀어내는 힘을 가져옵니다.
- Nsup은 현재 감정과 다른 모든 감정들과 멀어지게 하는 것이고, Nneu는 중립감정들과 멀어지게 하는 것이다.
- 이를 weighted sum하는 것임.
- 그러면 사실 중립감정 샘플들과 멀어지게 하는 weight가 커지게 되는 것
- Nneu없이 Nsup으로만 학습하는게 SupCon
- 중립에 대한 힘은 매개변수 α를 통해 조절합니다.
- 마지막으로, 우리가 최적화하는 손실은 아래와 같이 나타납니다.
- 위에서 계산한 N을 통해 최종 loss 설계
- loss가 작아진다는 것은 log안의 값이 커진다는 것
- 즉 P는 커지고 N은 작아진다. ==> 같은 감정의 샘플들끼리 유사도는 커지고, 다른 감정 샘플들과는 유사도가 작아진다.
- 왜 이런 loss을 사용했을까?
- 학습되는 파라미터는 그럼 무엇일까? hi을 만드는 PLM?
- 이론적으로는 hi을 만드는 모델이 업데이트가 되야할거 같고, 그럼 CoMPM+CLED라는 것은 hi을 CoMPM으로 만든다는 의미인지?
- 최종 loss는 알고리즘에 있는거 같음 (기본적인 CE포함).
- 여기에서 알고리즘 언급과 함께 말해주는게 좋을거 같음
- 아마 인퍼런스할 때는 CE 부분을 사용하겠지?
3 Experimental Settings
3.1 Datasets
- 우리는 네 개의 ERC 벤치마크 데이터셋에서 실험을 진행합니다: IEMOCAP, EmoryNLP, MELD 및 DailyDialog. 표 1은 각 데이터셋의 통계를 보여줍니다.
- 평가 메트릭으로 이전 연구를 따라 DailyDialog의 경우 주된 클래스(중립)를 제외한 micro-F1를 사용하고, 다른 ERC 데이터셋의 경우 weighted-F1를 사용합니다.
- IEMOCAP은 텍스트, 오디오, 비디오 및 모션 캡처 정보가 포함된 dyadic 다중 모달 데이터셋입니다.
- ERC 작업에서는 텍스트 데이터만 사용합니다.
- 레이블 세트에는 기쁨, 슬픔, 화남, 흥분, 좌절 및 중립이 포함됩니다.
- EmoryNLP은 TV 프로그램 "Friends" 대본에서 추출한 텍스트 데이터셋입니다.
- 각 발화는 슬픔, 공포, 분노, 강력함, 평온함, 기쁨 및 중립으로 레이블이 지정되어 있으며, 이들 레이블은 Willcox의 feeling wheel에 기반합니다.
- MELD는 인기 있는 TV 시리즈 "Friends"에서 수집한 다중 참가자 다중 모달 데이터셋입니다.
- 각 발화는 분노, 혐오, 두려움, 기쁨, 놀라움, 슬픔 및 중립 중 하나로 주석이 달렸습니다.
- DailyDialog은 dyadic(두명) 화자를 가진 텍스트 데이터셋입니다.
- 레이블 세트에는 Ekman의 여섯 가지 기본 감정(Ekman et al., 1999)과 기타 감정인 분노, 혐오, 두려움, 기쁨, 놀라움, 슬픔 및 중립이 포함됩니다.
- 언급이 없음
3.2 Baselines
- 우리는 강력한 기준 모델에 우리의 학습 방식을 적용합니다.
- 엄격한 비교를 위해 기준 모델의 원래 설정을 유지하며, 우리의 방식을 적용할 때 각 모델을 추가 조정하지 않습니다.
- 즉 CoMPM에 CLED같은것을 적용할 때 CoMPM이 PLM으로보고 사용하는 것인가?
- 이 말은 그냥 초기 상태를 기학습된 모델로 시작하고, 학습되는 전체가 학습되는 형태인가? (알고리즘 부분 보면..)
- RoBERTa, Psychological, CoMPM, EmoNotOne-SA, SPCL, EmotionFlow
3.3 Implementation Details
- 우리는 사전 훈련된 RoBERTa-large 모델을 사용합니다.
- 학습률은 1e-6로 설정됩니다.
- 에포크 수와 배치 크기는 각각 10과 8입니다.
- 모델은 단일 Nvidia A100에서 훈련 및 테스트됩니다. 식 4에서 τ를 0.05로 고정시킵니다.
- 식 8에서 α에 대한 매개변수는 검증 세트를 사용하여 조정합니다.
- 일반적으로 중립의 백분율에 비해 큰 값으로 α를 고정하는 것이 더 좋은 성능을 제공합니다.
- 우리의 실험에서는 DailyDialog에 대해 약 83%의 데이터가 중립으로 태그되어 있으므로 α는 0.9로 설정됩니다.
- EmoryNLP의 경우 상대적으로 중립의 비율이 작기 때문에 α는 0.2로 설정됩니다.
- α는 중립에 대한 추가적인 힘으로 해석될 수 있으며, alpha는 전반적으로 (1+α)의 효과를 갖습니다.
- 섹션 4.6에서는 CLED가 α의 다양한 설정에 대해 견고한 성능을 보여주는 방법을 보여줍니다.
- 언급이 없음
- 전체 loss은 Lce+Lcled로 이뤄짐
- 학습되는 부분은 PLM과 Encoder라고 써있는거보면 전체 프레임워크를 의미함. RoBERTa나 CoMPM이나 등등
- 그렇다면 DA는 매 스텝에서 이뤄줘야할거 같음
- negative sample은 매 스텝에서 다른 모든 감정에 대해 DA하는 듯
4 Experiments
4.1 Comparisons with State-of-the-art Methods
- 우리의 제안된 방법은 모델에 독립적이며, ERC에서 기존 접근 방식에 적용할 수 있습니다.
- 우리는 여섯 가지 베이스라인 모델을 사용하고 각 모델에 우리의 방식을 원래 베이스라인에 플러그 앤 플레이(Plug-and-Play) 방식으로 구현한 결과를 비교합니다.
- 이러한 베이스라인 모델은 ERC 문헌에서 선택되었으며, 가장 최근의 최상의 성능 모델(SPCL)을 포함하여 최첨단 결과를 달성한 모델입니다.
- 코드가 공개되지 않은 모델은 실험에서 포함되지 않습니다.
- 표 2는 우리의 방식의 효과를 보여줍니다.
- 여기에서 우리는 하나의 데이터셋에서 한 모델을 제외하고 모든 베이스라인에서 일관된 성능 향상을 달성합니다.
- 각 데이터셋에 대한 최상의 결과는 굵게 표시됩니다.
- 또한, 우리의 방식을 이미 강력한 일부 베이스라인과 함께 사용하면 간단한 RoBERTa 모델조차도 일부 경쟁 베이스라인을 뛰어넘을 수 있음을 주목할 가치가 있습니다.
- 그러나 SPCL에 우리의 방식을 적용하면 원래 모델보다 성능이 하락합니다.
- 그 이유는 IEMOCAP 데이터셋이 비교적 균형 잡혀 있으며, SPCL이 다른 측면에서 이득을 보고 IEMOCAP의 다른 베이스라인 중에서 최상의 성능을 달성하고 있어 우리의 방식을 통해 향상의 여지가 제한적하기 때문일 수 있습니다.
4.2 Ablation Study
- 이곳에서는 각 구성 요소를 제거하여 우리의 주장을 검증하기 위한 유도 연구를 수행합니다.
- 우리는 모든 벤치마크 데이터셋에 우리의 방법을 적용하고 있으며, 표 3은 CLED의 각 작업이 모델 성능에 기여하는 것을 보여줍니다.
- RoBERTa에서 실험한 것
- CLED에서 데이터 증강을 통해 생성된 샘플을 제외할 경우, 모든 벤치마크에서 성능이 낮아집니다.
- 방정식 7에서 중립적인 점수를 negative score 와 결합하지 않는 것은 모든 데이터셋에서 일관된 성능 하락을 초래합니다.
- 또한, 우리의 두 구성 요소를 제거하면(즉, RoBERTa와 vanilla-supervised contrastive learning), 성능이 떨어지며, 데이터 증강 및 중립적 분리의 효과를 강조합니다.
4.3 Comparison with Different Types of Data Augmentation
- 우리의 데이터 증강 접근 방법의 효과를 더 잘 보여주기 위해, 우리는 다른 데이터 증강 방법과 비교합니다.
- 이 실험을 위해 기본 모델로 RoBERTa와 SupCon 손실을 사용합니다.
- 표 4는 다양한 데이터 증강 방법을 사용한 성능을 보여줍니다.
- 무작위 삭제, 교환, 삽입 및 EDA의 동의어 교체는 대화에서 n개의 단어를 무작위로 선택하고 변환하는 기술입니다.
- 우리는 대화의 핵심 구성 요소로서 context understanding and emotional dependency을 믿습니다.
- 이는 또한 표 4의 결과에서 확인되었습니다.
- 또한, SimCSE에서 제안된 드롭아웃를 테스트합니다.
- 우리의 데이터 증강은 모든 데이터셋에서 Dropout을 능가합니다.
4.4 Performance on Minor Label
- 우리는 MELD 데이터셋의 각 클래스 레이블에서 우리가 제안한 모델의 성능을 보고하며, 우리의 방법은 항상 각 감정 클래스에서 성능을 향상시킵니다.
- 표 5에 제시된대로, RoBERTa의 결과는 소수 레이블을 분류하는 것이 어렵다는 것을 보여줍니다.
- 주요 레이블(중립)의 성능과 비교하여 소수 레이블(공포)의 성능은 66.29%로 급격히 감소합니다.
- RoBERTa를 우리의 방법과 결합할 때, 모델은 모든 감정에 대해 일관되게 일반 RoBERTa보다 우수한 성능을 보입니다.
- 특히, 우리의 방법은 가장 적게 발생하는 레이블 중 하나인 공포에 대해 상당한 성능 향상을 보여줍니다.
- 이는 증강을 통해 더 많은 샘플을 통해 모델이 성능 향상을 달성한다고 추론할 수 있습니다.
- 이러한 증가된 데이터는 모델이 익숙하지 않은 레이블을 분류하는 데 도움이 됩니다.
4.5 Silhouette Score on Neutral Label
- Yang (2022)에 따르면, 중립은 어느 정도 다른 레이블과 유사하며 다른 레이블과 겹쳐져 있습니다.
- 우리는 중립 감정을 포함하는 임베딩에서 silhouette scores(Rousseeuw, 1987)를 계산하여 CLED의 효과를 수치적으로 검증하며, 이는 그림 3에 제시되어 있습니다.
- 우리는 세 가지 다른 손실로 최적화된 RoBERTa에서 얻은 점수를 비교합니다: 크로스 엔트로피(CE), SupCon 및 CLED.
- 그림 3은 CLED의 실루엣 점수가 모든 데이터셋에서 다른 손실로 얻은 점수를 능가함을 보여줍니다.
- CE는 중립에 대항하지 않기 때문에 중립은 임베딩 공간에 퍼져 있어 세 가지 목적 함수 중 가장 낮은 점수를 얻습니다.
- SupCon과 비교하여 CLED는 중립을 다른 감정으로부터 격리하는 데 중점을 두고 있습니다.
- 또한, 우리의 손실을 질적으로 평가하기 위해 CE 및 CLED로 표현을 시각화합니다(Appendix C.2).
4.6 Sensitivity Analysis on parameter α
- 표 6에서는 방정식 8에서 중립 인스턴스에 대한 추가 부정적 점수 부과를 제어하는 매개변수 (α)에 대한 민감성 분석을 수행합니다.
- 우리는 두 가지 대표적인 데이터셋을 사용하여 실험을 진행합니다.
- MELD 데이터셋은 중립 레이블로 편향된 데이터 분포를 나타내며, EmoryNLP 데이터셋은 상대적으로 균형 잡힌 레이블 분포를 가지고 있습니다.
- α가 0으로 설정되면 손실은 일반적인 대조 학습으로 등가됩니다.
- α를 0보다 높게 설정하면 중립 레이블 주변에 추가적인 밀어내는 힘을 주입하는 것을 의미합니다.
- 우리는 모든 α 설정에서 일관된 성능 향상을 달성하며, 이는 CLED의 견고성을 반영할 수 있습니다.
- 이러한 결과는 다른 데이터셋 간에도 항상 성능 향상을 달성한다는 점에서 의미가 있다고 여겨집니다.
- 또한, 다른 데이터셋에서의 최적 α는 간접적으로 중립 비율 측면에서 데이터 특성을 반영합니다.
- MELD에서의 최적 α는 0.8이고, EmoryNLP에서의 최적 α는 0.2입니다.
4.7 Comparison for Layer Set in Data Augmentation
- 위의 모든 실험에서는 데이터 증강을 위해 PLM의 마지막 레이어만 사용했습니다.
- 우리의 증강은 PLM 또는 데이터셋에 따라 의존적일 수 있는 숨겨진 레이어의 최적 조합을 찾음으로써 더 개선될 수 있습니다.
- 이 말을 보면 다른 모델에는 어떻게 작용한거지?
- RoBERTa에 적용한다고 했을 때도, PLM은 학습안되는건지?
- PLM이 학습되면 DA도 매번 새롭게 진행하는건지?
- 주요 결과에서는 최상의 조합을 찾지 않았습니다.
- 여기에서는 (Jawahar et al., 2019)의 연구를 따라 표 7에 나와 있는 레이어 세트 L에 대한 다양한 구성을 조사합니다.
- 표 7의 결과는 향후 연구 가능한 방향을 시사합니다.
- RoBERTa-large를 사용한 우리의 모델은 L = {5, 6, 7}일 때 최상의 성능을 달성합니다.
- 더 자세한 내용은 부록 C.3에서 확인할 수 있습니다.
5 Conclusion
- 본 논문에서는 ERC 데이터셋에서의 어려움을 논의합니다.
- 이 데이터셋은 불균형한 레이블 분포와 다른 감정과 구별하기 어려운 중립적인 감정의 우세함을 나타냅니다.
- 우리는 ERC 데이터셋의 어려움을 해결하기 위한 새로운 방법인 CLED를 제시합니다.
- CLED는 대화에서의 맥락과 감정 종속성을 반영하는 새로운 데이터 증강을 사용합니다.
- 증강된 데이터를 통해 우리는 ERC 데이터셋을 위해 특별히 설계된 지도형 대조 학습 손실을 다시 정의하여 중립적인 감정과 중립이 아닌 감정을 더 잘 구별합니다.
- 우리는 플러그 앤 플레이를 통해 이전의 베이스라인을 지속적으로 향상시킴으로써 우리 방법의 효과를 검증하기 위해 광범위한 실험을 수행합니다.
Limitations
- 이 연구에는 두 가지 제한 사항이 있습니다.
- 1) 우리의 제안된 데이터 증강 방법은 사전 훈련된 모델을 기반으로 하기 때문에, 이를 이용하는 모델과만 결합할 수 있으며, 데이터 증강에 대한 인간 평가가 없습니다.
- 2) PLM의 마지막 레이어에 데이터 증강을 수행하는 것은 충분히 효과적이지만, Section 4.7에서 더 많은 레이어가 성능을 향상시킨다는 것을 확인했습니다.
- 그러나 PLM의 더 많은 숨겨진 상태를 활용하면 계산 리소스가 증가합니다.
- 성능과 계산 비용 간의 균형을 고려해야 합니다.
Reference
- https://openreview.net/pdf?id=pL2HY2ojFu
댓글
댓글 쓰기