NL-206, Emotion-Anchored Contrastive Learning Framework for Emotion Recognition in Conversation, ARR Review 2312

◼ Comment

  • 써머리
    • 논문은 anchor representation을 활용하여 감정을 인식하는 EACL을 소개합니다.
    • 비슷한 감정에 대해서 모델이 혼동하는 문제를 해결하기 위해, 각 감정의 앵커의 representation vector을 효과적으로 분리합니다.
    • 모델의 백본은 simcse 입니다.
    • 학습은 representation learning과 emotion anchor adaptation 두가지 스텝으로 분리됩니다.
  • 강점
    • 논문은 contrastive learning으로 다른 감정을 가진 발화간의 representation vector을 효과적으로 분리합니다.
    • anchor을 이용한 ERC 테스크를 새롭게 해결합니다.
    • 각 감정의 anchor 사이의 각도는 emotion anchor learning으로 uniform하게 유지합니다.
    • emotion anchor adaptation은 각 감정의 anchor가 해당하는 발화들을 대표하는 위치로 조정시킵니다.
    • 이러한 training 프레임워크로 anchor representation vector을 통해 ERC을 수행합니다.
    • 논문의 동기는, 유사한 감정끼리 잘 분리가 되도록 유도해서 모델의 혼동을 줄이기 위함입니다.
    • EACL의 성능은 비교 모델들보다 성능이 뛰어납니다.
  • 단점
    • 제안한 방법은 비슷한 감정의(happy <-> excited) representation vector을 강제적으로 떨어지게 함으로써 성능은 향상됐지만, 이상적으론 비슷한 space에 있는게 정상입니다.
      • 즉 모든 감정사이의 각도가 uniform한 것은 오히려 이상할 수 있습니다.
      • 예를 들어, 2개 이상의 감정 예측이 필요한 경우는 EACL은 오히려 성능이 떨어질 것으로 예상이 됩니다.
      • 제안한 방법은 top-1 감정인식의 성능을 강제로 향상시키는데에 적절해보입니다.
      • 학습을 통해 다른 감정을 가진 anchor간의 각도가 uniform한지 분석하면 좋을 것 같습니다.
    • prompt의 [mask] 토큰이 발화를 대표하게 됩니다.
      • 왜 일반적으로 사용되는 [CLS] 토큰을 사용하지 않았습니까?
      • prompt을 구성함에 따른 분석도 필요해 보입니다.
    • anchor representation
      • line 269
        • Utterance Representation Learning에서 Za는 고정된다면, Za을 통해 gradient desecent가 이루어지지 않는 것인가? (LM은 Zmask을 통해서만 학습?)
      • line 353
        • Emotion Anchor Adaptation 에서 Za을 통해서만 gradient descent가 이루어지는 것인가? (Zmask에 대한 gradient은 계산안됨)
      • 식4에서 one-step으로 anchor representation을(Za 및 Zmask을 통해 같이 학습) 학습하면 왜 불안정한가?
    • 식 8의 하이퍼파라미터의 선택이 휴리스틱하기 때문에, 각 데이터세트에서 잘 작동하는 하이퍼파라미터를 매번 탐색해야 합니다.
  • 제안
    • MLP_CE layer을 통한 성능도 같이 확인하면 좋을 것 같습니다.
    • 인퍼런스시 컨텍스트에 따른 anchor representation vector은 매번 계산해야합니다.
      • 모든 컨텍스트에서 같은 감정을 가진 학습 발화들의 representation vector의 평균으로 고정된 anchor vector를 사용하는 방법은 어떤가요?
    • Recommend reference
      • soft-label로 감정을 인식하고자 하는 다음의 연구도 고려해야할 것 같습니다.
      • The Emotion is Not One-hot Encoding: Learning with Grayscale Label for Emotion Recognition in Conversation, INTERSPEECH 2022
      • Label confusion learning to enhance text classification models, AAAI 2021

Abstract

  • 'Emotion Recognition in Conversation (ERC)는 대화 내 각 발화의 기저 감정을 감지하는 것을 포함합니다. 
  • 효과적으로 발화에 대한 표현을 생성하는 것은 이 작업에서 여전히 중요한 도전입니다. 
  • 최근 연구에서는 이 문제에 대한 다양한 모델을 제안했지만 여전히 흥분과 행복과 같은 유사한 감정을 구별하는 데 어려움을 겪고 있습니다. 
  • 이 문제를 완화하기 위해 저희는 Emotion-Anchored Contrastive Learning (EACL) 프레임워크를 제안합니다. 
  • 이 프레임워크는 유사한 감정에 대해 더 구별 가능한 발화 표현을 생성할 수 있습니다. 
  • 이를 위해 레이블 인코딩을 앵커로 활용하여 발화 표현의 학습을 안내하고 유사한 감정을 위한 앵커의 효과적인 분리를 보장하기 위한 보조 손실을 설계합니다. 
  • 게다가 추가적인 적응 과정이 제안되어 앵커를 효과적인 분류기로 적응시켜 성능을 향상시킵니다. 
  • 다양한 실험을 통해 우리가 제안한 EACL은 감정 인식 성능에서 최고 수준을 달성하며 유사한 감정에서 우수한 성능을 나타냅니다.

1 Introduction

  • 대화 내 감정 인식 (ERC)은 대화의 각 발화에서 감정을 식별하는 것을 목표로 합니다. 
  • 이는 챗봇, 의료 응용 프로그램 및 소셜 미디어에서 의견 채굴과 같은 다양한 시나리오에서 중요한 역할을 합니다. 
  • 그러나 ERC 작업은 몇 가지 도전에 직면하고 있습니다. 
  • 맥락에 따라 유사한 진술은 완전히 다른 감정 속성을 나타낼 수 있습니다. 
  • 동시에 유사한 감정 속성을 포함한 대화 텍스트를 구별하는 것은 매우 어렵습니다 (Ong 등, 2022; Zhang 등, 2023). 
  • 그림 1은 남성과 여성 간의 채팅의 예시입니다. 
  • 기계가 행복과 흥분을 구별하는 것은 유사한 맥락에서의 빈번한 발생으로 인해 도전적일 수 있습니다. 
    • 부록 A는 감정에 대한 양적 분석을 나타냅니다. 
    • 이는 모델이 맥락을 기반으로 다양한 감정을 정확하게 구별해야 하는 작업을 필요로 합니다.
    • 근데 비슷한 감정에 대한 모델의 예측 확률이 비슷할 순 있어도, 결과적으로 잘 top-1을 도출하면 되는거 아닌가?
    • 어찌보면 비슷한 뉘앙스의 감정은 예측 확률이 비슷한게 정상인 것
  • 따라서 두 가지 방향에서 구별 가능한 언어 표현을 얻기 위해 명시적으로 많은 노력이 기울여졌습니다. 
  • 이는 모델 디자인 및 표현 학습 두 가지 접근 방식을 포함합니다. 
    • 전자에 해당하는 대표적인 모델로는 DialogueRNN (Majumder 등, 2019)이 있으며, 이는 분류를 위해 대화 기록을 추적하기 위한 순환 모듈을 설계합니다. 
    • 표현 학습 방법은 주로 지도 대조 학습(Supervised Contrastive Learning, SupCon) (Khosla 등, 2020)을 활용하여 발화 표현을 학습합니다. 
      • SPCL (Song 등, 2022)은 클래스 불균형 문제를 완화하고 최고 수준의 성능을 달성하기 위한 프로토타입 대조 학습 방법을 제안합니다. 
  • 그러나 Figure 2에 나타난 것처럼, 우리의 선도적인 미세 조정 실험 결과는 SPCL이 여전히 유사한 감정을 효과적으로 구별하는 데 어려움을 겪고 있음을 시사합니다.
  • 상기 언급된 문제를 해결하기 위해 본 논문은 새로운 감정 기반 대조 학습 프레임워크 (Emotion-Anchored Contrastive Learning, EACL)를 제안합니다. 
  • EACL은 텍스트 감정 레이블을 활용하여 감정적으로 의미가 풍부한 앵커를 생성합니다. 
  • 이러한 표현은 앵커로서 유사한 감정들 간의 구별을 명시적으로 강화합니다. 
  • 구체적으로, 우리는 코사인 유사도가 가장 큰 감정을 대상으로 하는 패널티 손실을 소개합니다. 
    • 이 손실 함수는 해당 감정 앵커가 표현 공간에서 개선된 각도 분리를 나타내도록 장려합니다. 
    • 이렇게 함으로써 더 많이 분리된 감정 앵커는 유사한 감정을 가진 발화 표현이 더 큰 차이를 학습하도록 이끌어, 향상된 구별력을 얻게 됩니다. 
    • 이 논문은 어떠한 감정이든간에, 감정간의 거리가 멀어져야 한다고 간주하는 듯
  • 분리된 발화 표현을 생성한 후, 우리는 발화 표현이 할당될 감정 앵커의 최적 위치를 계산하려 합니다. 
  • 더 나은 할당을 위해, 두 단계 프레임워크에서 영감을 받아 (Kang 등, 2019; Menon 등, 2020; Nam 등, 2023), 고정된 발화 표현과 함께 감정 앵커의 결정 경계를 이동하여 더 나은 분류 성능을 달성하는 두 번째 단계를 제안합니다. 
  • 이는 간단하면서도 효과적입니다.
  • 저희는 세 가지 널리 사용되는 벤치마크 데이터셋에서 실험을 수행했고, 결과는 EACL이 새로운 최고 수준의 성능을 달성함을 보여줍니다. 
  • 더욱이, EACL은 유사한 감정 간에 훨씬 더 높은 분리도를 달성하며, 이는 우리의 방법의 효과를 입증합니다. 
  • 본 논문의 주요 기여는 다음과 같이 요약됩니다:
    • 우리는 ERC를 위한 새로운 감정 기반 대조 학습 프레임워크를 제안했습니다. 이는 발화에 대해 더 구별 가능한 표현을 생성할 수 있습니다.
    • 우리의 방법은 우리의 지식으로는 감정 유사성 문제를 명시적으로 완화하는 최초의 방법으로, ERC 모델링에서 라벨 의미 정보를 도입하여 효과적으로 표현 학습을 안내할 수 있습니다. --> EmoOne 논문 언급
    • 실험 결과는 우리의 제안된 EACL이 벤치마크 데이터셋에서 새로운 최고 수준의 성능을 달성한다는 것을 보여줍니다.

2 Related Work

2.1 Emotion Recognition in Conversation 

  • 현재 대부분의 연구는 그래프 기반 및 순차적 방법을 채택하고 있습니다. DialogueGCN (Ghosal 등, 2019)은 발화를 노드로 취급하고 서로 다른 엣지 유형을 설정하여 발화자 간 및 발화자 내 관계를 모델링합니다. MMGCN (Hu 등, 2021b)은 다중 모달 발화 표현을 그래프로 통합합니다. 반면, DAG-ERC (Shen 등, 2021)은 방향성이 있는 비순환 그래프를 활용하여 대화의 공간 및 시간 구조를 자연스럽게 포착합니다. COGMEN (Joshi 등, 2022)은 그래프 신경망과 그래프 트랜스포머를 결합하여 각각 지역 및 전역 정보를 활용합니다.
  • 또 다른 연구 그룹은 트랜스포머 및 순환 모델을 활용하여 발화 간 상호 작용을 학습합니다. DialogueRNN (Majumder 등, 2019)은 여러 RNN을 결합하여 대화의 동적을 모델링합니다. DialogueCRN (Hu 등, 2021a)은 인지 추론 모듈을 도입합니다. 상식 지식은 KET (Zhong 등, 2019) 및 COSMIC (Ghosal 등, 2020)에서 탐색됩니다. Cog-BART (Li 등, 2022a)은 BART (Lewis 등, 2019)를 활용하여 대화의 감정을 동시에 생성하고 대조 학습의 보조로 감지합니다. EmoCaps (Li 등, 2022c) 및 DialogueEIN (Liu 등, 2022)은 감정 경향 및 관성, 대화에서의 로컬 및 글로벌 정보를 명시적으로 모델링하기 위한 여러 모듈을 설계합니다. 언어 모델의 능력은 CoMPM (Lee와 Lee, 2021)에 의해 활용되며 언어 모델 자체에 의해 맥락 정보를 학습하고 추적합니다. SPCL (Song 등, 2022)은 데이터 불균형 문제를 완화하기 위한 원형 지도 대조 학습 방법으로 언어 모델의 능력을 활용합니다. 
  • SACL (Hu 등, 2023)은 강인한 표현을 학습하기 위해 적대적인 예제를 도입합니다. 우리의 EACL도 이러한 트랙을 따릅니다. 위의 접근법과 달리 HCL (Yang 등, 2022)은 모든 ERC 모델에 적용할 수 있는 일반적인 커리큘럼 학습 패러다임을 제안합니다.

2.2 Supervised Contrastive Learning

  • 최근에는 (Chen 등, 2020; He 등, 2020a)의 비지도 대조 학습에서, 표현 학습을 위한 유사성 기반 학습 프레임워크를 제공합니다. 이러한 방법들은 양성 샘플 간의 유사성을 극대화하면서 음성 샘플 쌍 간의 유사성을 최소화합니다. 감독 정보를 활용하기 위해 지도 대조 학습(SupCon) (Gunel 등, 2020)은 동일한 레이블을 가진 데이터를 표현 공간에서 가깝게 만들고 다른 레이블을 가진 데이터를 멀리 밀어내는 것을 목표로 합니다. 그러나 SupCon은 데이터 불균형 설정에서 성능이 좋지 않습니다. 이 문제를 완화하기 위해 KCL (Kang 등, 2021)은 명시적으로 균형 잡힌 표현 공간을 추구합니다. TSC (Li 등, 2022b)는 초구에서 목표를 균일하게 설정하고 데이터 표현을 목표에 가깝게 만듭니다. BCL (Zhu 등, 2022)는 표현 공간에서 분류기 가중치를 프로토타입으로 간주하고 대조 손실에 통합합니다. LaCon (Zhang 등, 2022)은 언어 이해를 더 잘하기 위해 레이블 임베딩을 통합합니다. 
  • 우리의 방법은 TSC에서 영감을 받았지만, 다르게 표현 공간에 감정 의미론을 통합하고 감정 앵커를 동적으로 조절하여 더 나은 분류를 목표로 합니다.

3 Methodology

3.1 Problem Definition

  • 대화는 발화의 시퀀스 {u1, u2, u3, ..., un}로 나타낼 수 있으며, 각 발화 ut는 대화 참여자 중 한 명인 sj에 의해 발화됩니다. 
  • 대화에는 m (m ≥ 2) 명의 참여자가 있으며 {s1, s2, ..., sm}로 나타냅니다. 
  • 감정 레이블 집합 E 및 대화 컨텍스트 {(u1, su1), (u2, su2), ..., (ut, sut)}가 주어지면, ERC 작업은 현재 발화 ut에 대한 감정 et(et ∈ E)을 예측하는 것을 목표로 합니다. 
  • 여기서 E는 감정의 집합입니다. 
  • 예를 들어 IEMOCAP 데이터셋에서는 E = {excited, frustrated, sad, neutral, angry, happy}입니다.

3.2 Model Overview

  • 저희 모델의 개요는 그림 3에 나와 있습니다. 
  • 모델의 인코딩 전략은 프롬프트 학습 패러다임(섹션 3.3)을 채택합니다. 
  • 훈련 과정은 두 단계로 구성되어 있습니다.
  • 첫 번째 단계(섹션 3.4)는 "representation learning"으로 불리며, 감정 앵커를 사용하여 더 독특한 표현을 학습하는 것을 목표로 합니다. 
    • 구체적으로는 의미 정보를 포함하는 앵커를 대조 학습 프레임워크에 통합하고 발화 표현의 학습을 안내하는 데 사용합니다. 
    • 우리의 목표는 (1) 동일한 감정을 가진 발화를 해당 앵커에 가깝게 가져가고 다른 감정을 가진 발화를 더 멀리 밀어내는 것, 그리고 (2) 하이퍼스페이스에서 앵커의 보다 균일한 분포를 달성하여 다른 감정을 더 잘 분류하는 것입니다.
    • contrastive representation learning으로 비슷한 감정끼리 모이고 다른 감정은 멀리 한다.
    • 여기서 emotion anchor은 같은 감정을 가진 발화의 representation의 평균 개념인가?
    • 즉 emotion ancher learning은 다른 감정끼리의 distance가 유니폼하게 떨어지도록 하는 것 같음 
  • 두 번째 단계(섹션 3.5)는 "emotion anchor adaptation"으로 불리며, 앵커를 약간 조정하여 분류 성능을 더 향상시키는 것을 목표로 합니다. 
    • 첫 번째 단계의 앵커는 모델이 발화의 분리 가능한 표현을 학습하는 데 도움이 될 수 있습니다. 
    • 그러나 분리된 감정 앵커는 발화에 대한 최적 위치에 정확하게 위치하지 않을 수 있습니다. 
    • 따라서 두 번째 단계에서는 약간의 조정을 통해 감정 앵커의 위치를 조정하여 더 나은 분류 성능을 위한 결정 경계를 이동시킵니다. 
    • 이 단계에서 언어 모델의 매개변수를 동결하고 감정 앵커만을 세세하게 조정합니다. 
    • 이는 그림 3의 오른쪽에 나와 있습니다. 
  • 마지막으로 EACL은 발화 표현을 가장 유사한 감정 앵커와 일치시켜 예측을 수행합니다.

3.3 Prompt Context Encoding 

  • 이전 연구를 따라 (Song 등, 2022), 저희는 미리 훈련된 언어 모델을 활용하고 프롬프트 튜닝을 채택하여 분류를 마스크된 언어 모델링으로 변환합니다. 
  • 효과적인 프롬프트 템플릿은 다운스트림 작업을 언어 모델의 사전 훈련 단계에서 학습한 대규모 의미 정보와 일치시켜 모델의 성능을 향상시킵니다. 
  • 발화 ut의 감정을 예측하기 위해 t 이전의 k 발화를 문맥으로 삼아 et를 예측합니다. 
  • 형식적으로, 언어 모델의 입력은 다음과 같이 구성됩니다:
  • where Prompt P = "For utterance ut , speaker st feels [mask]" . 
    • We take the last hidden state of [mask] as utterance representation. 
    • 좀 특이하게 LM을 학습하는데, 위처럼 prompt을 대화의 마지막에 append한다.
    • 그리고 [mask]의 출력이 (BERT의 [cls] 토큰처럼) 문장의 representation을 가지도록 하는 것 같다.
    • 왜 이 프롬프트를 사용하는지? / [CLS] 토큰을 활용하지 않는지?
    • 학습은 다음 섹션에서 설명하는 듯

3.4 Stage One: Representation Learning

  • 이 섹션에서는 EACL의 첫 번째 단계에서 두 가지 주요 구성 요소를 소개합니다: 
    • 발화 표현 학습과 감정 앵커 학습. (utterance representation learning and emotion anchor learning)

3.4.1 Utterance Representation Learning 

  • 이 섹션의 목표는 각 개별 발화에 대한 식별 가능한 표현을 얻는 것입니다. 
    • 이를 달성하기 위해 우리는 감정 앵커를 생성하고 대조 학습 프레임워크에 통합하기 위해 레이블 인코딩을 사용합니다. 
    • 이러한 앵커를 활용하여 우리는 효과적으로 표현 학습 프로세스를 조절할 수 있습니다.
  • 일괄 처리된 샘플 X = {x1, x2, . . . , xb} ∈ R^b×ℓ, 여기서 b는 batch size, ℓ은 입력의 최대 길이입니다. 
    • 우리는 X를 미리 훈련된 언어 모델에 공급하고 마지막 숨겨진 상태 Z = Encoder(X)를 얻습니다. 
    • 그런 다음 문장 끝의 [mask] 토큰의 숨겨진 상태를 발화 ut의 표현으로 사용합니다. 
    • 마지막으로 MLP 레이어를 사용하여 발화의 표현을 얻습니다:
    • where R = {r1, r2, . . . , rb} and R ∈ R^b×d, d is dimension of the encoder. 
  • 마찬가지로 텍스트 감정 레이블을 언어 모델의 입력으로 취하여 모든 감정 E = {e1, e2, . . . , es}에 대한 감정 앵커를 얻습니다:
    • 여기서 A ∈ R^s×d, 각 행은 감정 앵커를 나타냅니다. 
    • s는 감정의 수를 나타냅니다. 
    • 안정된 앵커 표현을 얻기 위해 Za는 훈련 과정에서 고정됩니다.
    • 즉 발화 각각에 대해서는 prompt에서 "speaker st feels [mask]" 에서 mask 토큰이 representation이 되고
    • angry anchor은 "speaker st feels angry" angry의 토큰출력이 representation이 되는 것 같은데?
    • Za가 고정된다는 것은 어떤 의미를 말하는 거지?
    • 아마도 각 감정(angry 등)이 mask위치로 가서, 추출된 embedding쪽은 gradient가 계산이 안된다는 의미.
    • 대신에 [mask]쪽만을 활용해서 학습됨
  • 우리는 감정 레이블 의미론을 활용하여 더 나은 표현 학습을 위한 감정 앵커 대조 학습 손실을 제안합니다. 
    • 더 구체적으로 각 미니 배치에서 V = {v1, v2, . . . , vb+s} = R ∪ A로 두고 
    • V^+i는 발화 ri와 레이블을 제외한 자신과 동일한 레이블을 가진 발화 또는 앵커 표현의 집합을 나타냅니다. 
    • angry 발화 u2가 있다고하면, v2와 v_angry을 뺀 나머지 집합이 V^+_2라는 것
    • 마지막으로 우리의 감정 앵커 대조 손실은 다음과 같습니다:
    • 여기서 |V^+_i|는 양성 예제의 수를 나타냅니다. 
    • τ는 대조 손실의 온도 초매개변수입니다. 
    • sim은 유사성 함수를 나타내며, 여기서는 코사인 유사성을 채택합니다.
    • ui가 주어졌을 때, 다른 uj와의 코사인유사도를 계산하고 exponential을 취한 것을 f(ui,uj)라고 하자.
    • 그때 모든 uj와의 f(ui,uj)의 합이 분모이고
    • V^+_i에 대한 (본인 발화와 레이블감정 앵커뺀) f(ui, uj)가 분자로 들어간다.
    • V^+_i의 발화-발화에는 positive가 있고 negative sample 이 있을 것이다.
    • 이걸 구분안하고 그냥 다 더해버리는 이유가 뭐지?
    • 이론적으론 loss가 작아져야하므로, 분자값이 커져야한다.
    • 음.. 생각해보면 분자값이 커진다 = cosine 유사도가 커진다 = positive sample 양수, negative는 음수 이렇게 된다는 것인가?
  • 식(4)에서 표현 사이의 상호 작용은 세 가지 구성 요소로 나눌 수 있습니다: 
    • 발화-발화, 앵커-발화 및 앵커-앵커. 동일한 레이블을 가진 표현은 서로 가까이 가져오고 다른 레이블은 더 멀리 밀어냅니다. 
    • 발화-발화 상호 작용은 전통적인 대조 학습과 유사하며, 
    • 앵커-발화 상호 작용은 anchor-guided utterance representation learning의 과정을 나타냅니다. 
    • 앵커-앵커 상호 작용은 다른 감정 간의 더 나은 구별을 보장합니다.
  • 최근 연구(Gunel 등, 2020)는 교차 엔트로피 손실을 대조 학습과 결합하는 것이 더 구별력 있는 언어 모델을 도와준다는 것을 나타냈습니다. 
    • 따라서 교차 엔트로피 손실이 표현 학습을 개선하는 데 도움이 되도록 추가되었습니다. 또한 분류를 위한 선형 매핑도 추가되었습니다:
    • 여기서는 contrastive learning때 쓰는 벡터를 쓰는게 아니라 CE을 위한 MLP layer을 추가해서 학습하는 방법
    • 여기서 Y ∈ˆ R b×s는 b 발화가 s 감정에 대한 가능성 분포를 나타냅니다. 
    • yij는 Yˆ의 i번째 행과 j번째 열의 원소를 나타냅니다. 
    • MLPce는 분류를 위한 선형 레이어입니다.

3.4.2 Emotion Anchor Learning

  • 비록 표현 간 상호 작용(interaction between representations)이 구현되었지만, 3.4.1절에서 언급된 세 가지 상호 작용 유형만으로는 가장 유사한 감정 앵커들 간의 거리를 명시적으로 분산시키기에는 충분하지 않습니다. 
  • 유사성 문제를 더 해결하기 위해 우리는 앵커 각도 손실(anchor angle loss)을 제안합니다. 
  • 이 손실은 감정 앵커들에게 대비 공간 내에서 자신과 가장 유사한 감정 앵커들과의 각도를 최대화하도록 동기부여하는 데 의도되었습니다:
    • 여기서 ai는 A에 있는 i번째 감정 앵커 표현을 나타냅니다. 
    • ai와 aj사이의 각도들이 있는데, 이 중 ai와 가장 각도가 작은(별 차이가 안나는) aj을 골라서
    • ai와 aj사이의 각도를 크게 하도록 학습이 된다. (각도의 -값이 loss이므로)
    • LAg는 모든 감정 앵커 간의 최대 쌍별 코사인 유사도를 최소화하도록 목표로 합니다. 
    • 이는 최소 쌍별 각도를 최대화하는 것과 동등합니다. 
    • 쉽게 생각해서 contrastive learning외에 강제적으로 각도가 벌어지도록 loss을 설정했다는 것
    • 근데 결과가 uniform한 각도들을 원하는 것일텐데.. 모든 감정간의 거리가 uniform 하다는 것은 이상하지 않은가?
  • 감정 앵커들이 더 흩어져 있으면 그들은 유사한 감정을 더 잘 인식할 수 있습니다. 
  • 1단계에서 언급된 모든 구성 요소를 결합하면 전체 손실은 교차 엔트로피 손실, 앵커 각도 손실 및 대조 손실의 가중 평균으로 주어진 식 8과 같습니다.
    • where λ1 and λ2 are hyper-parameters to balance loss terms.

3.5 Stage Two: Emotion Anchor Adaptation 

  • 첫 번째 단계에서는 감정 라벨에서 생성된 감정 앵커를 사용하여 발화 표현이 서로 다른 감정 클러스터로 수렴하도록 이끌었습니다. 
    • 이러한 감정 앵커는 각각의 감정을 대표하는데 사용되며, 발화 표현에 대한 효과적인 최근접 이웃 분류기로 작동하기에 적합합니다. 
    • 그러나 첫 번째 단계에서 훈련된 분리된 감정 앵커는 최적의 위치에 정확하게 배치되지 않았기 때문에 감정 앵커의 분류 능력이 약화됩니다. 
    • 발화 표현과 감정 앵커 간의 정렬을 보장하기 위해 두 번째 단계를 제안하여 감정 앵커를 조정하고 소수의 에포크로 훈련하여 결정 경계를 이동시킵니다. 
    • 이 방법은 감정 앵커의 분류 능력을 강화하기 위한 것입니다.
  • 더 구체적으로 말하면 언어 모델의 매개변수를 동결하고 첫 번째 단계에서 유래된 감정 앵커 ai(i = 1, ..., s)를 학습 가능한 매개변수로 만듭니다. 
    • 이는 그림 3의 오른쪽 부분에 해당합니다. 
    • 표현 학습과 일관성을 유지하기 위해 감정 앵커를 조정할 때 여전히 동일한 유사성 측정을 사용합니다.
  • 감정 앵커 적응을 위한 손실 함수:
    • 여기서 cij는 i번째 발화 표현 ri와 j번째 감정 앵커 aj 간의 조정된 코사인 유사성을 나타냅니다. 
    • 목적은 앵커의 representation이 같은 감정을 가진 발화 representation의 평균위치로 가기를 원하는 것 같다.
    • 근데 그러면 그냥 anchor representation을 동일 감정 발화들 representation의 평균내면 안되는건가?
    • 느낌에는, 발화-엥커 간의 contrastive learning을 한번더 하는거 같은데
    • 차이는 발화의 representation은 고정하고, 앵커의 representation은 학습된다.
    • 그러기 위해서는 step-1에서 학습된 LM에서 발화 representation vector을 추출할 땐 gradient descent 안흐르게 하고
    • anchor representation vector을 추출할 땐 gradient descent가 흐르게 하는 것?
    • 설명이 부족한듯..
    • 'Emotion Anchor Adaptation'에서 Z_mask에 대한 그레디언트는 계산되지 않습니다. 이는 LM 및 MLP_cl을 고정시켜서 발화 표현이 더 이상 변하지 않기 때문입니다. Emotion Anchor Adaptation에서 우리는 앵커 자체를 trainable 매개변수로 직접 설정하고 LM 및 MLP_cl에서 분리시킵니다. 따라서 Za에 대한 그레디언트가 계산되지 않고 앵커 ai에 대해서만 계산됩니다.
  • τ는 첫 번째 단계에서의 동일한 온도 하이퍼파라미터입니다.

 3.6 Emotion Prediction

  • 추론 단계에서는 각 발화 표현을 가장 가까운 감정 앵커와 매칭하여 감정 라벨을 예측합니다:
    • 여기서 ri는 발화 xi의 표현이고, aj는 j 클래스의 감정 앵커입니다.

4 Experiments

4.1 Experimental setup

  • 특별한 명시 없이 언어 모델은 SimCSE-Roberta-Large(Gao 등, 2021)에서 초기 매개변수를 로드합니다. 
  • 모든 실험은 단일 NVIDIA A100 GPU 80GB에서 수행되며, PyTorch 2.0 프레임워크를 사용하여 모델을 구현했습니다. 
  • 추가 실험 세부사항은 부록 B에서 제공됩니다.

4.2 Datasets

  • 이 섹션에서는 세 가지 채택된 인기 있는 벤치마크 데이터셋을 소개하겠습니다: IEMOCAP (Busso 등, 2008), MELD (Poria 등, 2018) 및 EmoryNLP (Zahiri와 Choi, 2017).
  • (1) IEMOCAP: 2명의 화자 대화를 담은 151개의 비디오로 구성되어 있으며, 7433개의 발화가 포함되어 있습니다. 각 발화는 흥분, 좌절, 슬픔, 중립, 분노 및 행복과 같은 6개 클래스의 감정 라벨로 주석이 달려 있습니다.
  • (2) MELD: TV 프로그램 Friends에서 추출되었습니다. 1433개 대화에서 약 13000개의 발화를 포함하고 있으며, 각 발화는 놀라움, 중립, 분노, 슬픔, 싫음, 기쁨 및 공포 중 하나의 7가지 감정 라벨로 레이블이 지정되어 있습니다.
  • (3) EmoryNLP: TV 프로그램 Friends에서 97개 에피소드, 897개 씬, 12606개의 발화를 포함하고 있습니다. MELD와 다르게 감정 태그에는 기쁨, 슬픔, 강력함, 분노, 중립, 겁, 평온이 포함되어 있습니다.
  • 우리의 실험에서는 텍스트 모드만 사용합니다. 
  • 세 데이터셋의 자세한 통계는 표 1에 나와 있습니다.

4.3 Metrics

  • Following previous works (Lee and Lee, 2021; Song et al., 2022), we choose the weighted-average F1 score as the evaluation metric.

4.4 Baselines

  • For a comprehensive evaluation, we compare our method with the following baselines:
  • (1) 그래프 기반 모델: 
    • DialogueGCN은 GCN을 사용하여 발화 표현을 학습하기 위해 문맥 특성을 수집합니다. 
    • Shen (Shen 등, 2021)은 특성 추출기를 Roberta-Large로 교체하는 성능을 보여줍니다. 
    • RGAT (Ishiwatari 등, 2020)은 스피커 관계와 순차적 정보를 모델링하기 위해 관계형 위치 인코딩을 제안합니다. 
    • DAG-ERC (Shen 등, 2021)는 비순환 그래프 신경망을 사용하여 대화의 자연 구조를 직관적으로 모델링하며 외부 정보를 도입하지 않습니다. 
    • DAG-ERC+HCL (Yang 등, 2022)은 DAG-ERC와 결합된 커리큘럼 학습 패러다임을 제안하여 쉬운 것부터 어려운 것까지 학습합니다.
  • (2) Sequence-based 모델: 
    • COSMIC (Ghosal 등, 2020)은 상식적인 요소들을 통합하고 이를 활용하여 자체 화자 의존성을 학습합니다. 
    • Cog-BART (Li 등, 2022a)은 대화 응답 생성을 고려하기 위해 대조 학습을 사용한 BART를 적용합니다. 
    • DialogueEIN (Liu 등, 2022)은 감정 상호 작용과 경향 블록을 디자인하여 감정 관성과 자극을 명시적으로 시뮬레이트합니다. 
    • CoMPM (Lee and Lee, 2021)은 사전 훈련된 모델을 직접 사용하여 문맥 정보를 학습하고 대화 기록을 추적합니다. 
    • EmoCaps (Li 등, 2022c)은 트랜스포머를 Emoformer라는 새로운 아키텍처로 개발하여 발화의 감정적 경향을 추출합니다. 
    • SACL (Hu 등, 2023)은 강력한 표현을 위해 대조 학습과 적대적 훈련을 결합합니다. 
    • SPCL+CL (Song 등, 2022)은 프로토타입 대조 학습과 커리큘럼 학습을 결합하여 감정 클래스 불균형 문제에 대처합니다. 
    • ChatGPT (Zhao 등, 2023)는 3-샷 성능의 초기 결과를 보고합니다.

5 Results and Analysis

5.1 Main Results

  • Table 2에서는 우리의 방법과 기준선들의 결과를 보고합니다. 
    • 우리의 모델은 다른 기준선들을 능가하며 IEMOCAP, MELD 및 EmoryNLP 데이터셋에서 새로운 최고 수준의 성능을 달성합니다. 
    • 결과는 우리의 감정 앵커 기반 대조 학습 프레임워크의 효과를 나타냅니다. 
    • 결과를 통해 순차 기반 방법이 전반적으로 그래프 기반 방법보다 더 나은 성능을 보이는 것을 관찰할 수 있습니다. 
    • 그래프 기반 모델과 비교했을 때, EACL은 DAG-ERC (Shen 등, 2021)보다 3가지 벤치마크 데이터셋에서 추가 지식을 도입하지 않은 최고 수준의 그래프 기반 방법에 대해 2.38%, 3.57%, 1.22%의 큰 향상을 이뤄냅니다.
  • sequence-to-sequence 방법과 비교했을 때, EACL은 대조 학습 방법인 SACL 및 SPCL+CL을 큰 폭으로 능가합니다. 
    • 특히 SPCL은 클래스 표현을 저장하는 큐 사용과 작은 배치에서의 프로토타입 생성으로 인해 불안정한 표현 학습을 초래합니다. 
    • 훈련 중에 겪는 프로토타입의 큰 이동과 언어 모델의 매개변수로 큐 표현을 비동기적으로 업데이트하는 것은 최적의 발화 표현을 얻기 어렵게 만듭니다. 
    • EACL은 IEMOCAP 데이터셋에서 0.92%, MELD 데이터셋에서 0.6%, EmoryNLP 데이터셋에서 0.59%의 큰 향상을 이뤄냅니다. 
    • 또한 EACL은 ChatGPT에 압도적인 성능 우위를 보입니다. 
    • 그 이유 중 하나는 몇 개의 샷 프롬프트 설정이 만족스러운 성능을 달성하기에는 충분하지 않을 수 있습니다.
  • Table 3에서는 벤치마크 데이터셋에서의 세부적인 성능을 보고합니다. 
    • EACL은 대부분의 감정 범주에서 SPCL+CL보다 뛰어난 성능을 보이고 있습니다. 
    • 특히 IEMOCAP 데이터셋에서 유사한 감정 두 쌍인 행복과 흥분에서 각각 7.33%와 4.55% 증가, 좌절과 분노에서 각각 3.80%와 2.72% 증가하는 등 성능이 크게 향상되었습니다. 
    • 자세한 성능 분석은 부록 C에서 제공됩니다.

5.2 Ablation Study

  • 우리는 우리 방법의 구성 요소의 효과를 확인하기 위해 일련의 실험을 수행했습니다. 
  • 결과는 표 4에 나와 있습니다. 
  • EACL의 어떤 요소를 제거하더라도 전반적인 성능이 나빠집니다. 
  • 첫 번째 단계에서 구성 요소의 효과를 검증하기 위해 우리는 서로 다른 감정 앵커의 각도를 균일하게 하는 LAg를 제거했습니다. 
    • 우리는 LAg의 부재가 성능에 유의한 0.5% 정도의 저하를 가져온다는 것을 표 4의 2행에서 보여줍니다. 
    • 이는 감정 앵커 학습이 발화 표현을 분리하는 데 도움이 된다는 것을 나타냅니다. 
    • 성능에는 도움이 되는 건 맞는거 같으나..
    • top-2 등의 감정이 필요한 경우 단점이 될 수 있긴 할 듯
  • 또한 LCE의 제거는 평균적으로 성능을 약 0.5% 저하시키며, 이 결과는 감독 학습이 언어 모델의 세부 조정에 도움이 된다는 것을 보여줍니다.
    • LCE로 학습하고 이 layer을 꼭 안쓰더라도 성능에는 도움이 된 다는 사실은 처음 알았음
  • 두 번째 단계에서는 감정 앵커 및 감정 의미를 적응하는 것이 필요한지를 탐색합니다. 
    • 분류기 재훈련과 유사하게(Kang et al., 2019; Nam et al., 2023), 우리는 발화 표현을 학습한 후 데이터 분포에서 멀리 떨어진 위치에 무작위로 감정 앵커를 초기화합니다. 
    • 처음부터 훈련하는 것은 cold start이며 최적 위치에 도달할 수 없습니다. 
    • 표 4의 4행 결과는 감정 앵커를 상속하는 중요성을 확인하며 훈련된 감정 앵커가 더 강력한 인식 능력을 표현한다는 것을 보여줍니다. 
    • 앵커 적응을 제거하면 성능이 크게 저하되며, 이는 감정 앵커의 부적절한 위치가 분류 성능을 약화시키고 두 번째 단계의 중요성을 확인합니다. 
    • 표 4의 5행은 이 가정을 확인합니다. 
    • 요약하면, 우리 방법의 구성 요소는 결과에 상당한 기여를 합니다.

5.3 Analysis of Contrastive Learning

  • 감정 앵커를 장착한 상태에서, 발화 표현은 자체 의미적 위치로 이동하며, 이는 일반적인 지도 대조 학습에서는 누락된 응집 능력을 갖추게 됩니다. 
  • EACL은 유사한 감정을 갖는 발화에 대해 더 많은 분리성을 달성합니다. 
  • 4(a) 그림에서 감정 앵커가 균일하게 분포되어 있으며, 흥분된(excited)과 행복한(happy)이 먼 위치에 있고, 좌절된(frustrated)과 화가난(angry)이 멀리 떨어져 있음을 관찰할 수 있습니다. 
  • 동시에 다른 감정을 가진 발화 표현도 유의한 분산을 나타냅니다. 
  • 4(b) 그림은 SupCon에 의해 얻은 유사한 감정 표현이 EACL보다 가깝고, 따라서 구별하기 어렵다는 것을 보여줍니다. 
  • 약간의 시각적 차이는 SimCSE에서 사용된 대조적 학습에 기인하며, 이는 구별된 표현을 학습하는 데 도움이 됩니다. 
  • ablation 연구는 감정 앵커를 제거함으로써 EACL의 우수한 성능을 보여줍니다. 
  • 부록 D에 기록된 정량적 비교는 EACL이 감정 유사성을 상당한 정도로 완화시킵니다.

5.4 Performance on Different Language Models

  • 우리 학습 프레임워크의 다양성을 평가하기 위해, 우리는 다양한 사전 훈련된 언어 모델을 사용하여 실험을 진행했습니다. 
  • 구체적으로, 우리는 두 가지 추가적으로 인기 있는 언어 모델인 Deberta-Large (He et al., 2020b)와 Promcse-Roberta-Large (Jiang et al., 2022)에서 우리 프레임워크의 성능을 조사했습니다. 
  • 표 5에 제시된 결과는 모든 사전 훈련된 모델이 경쟁력 있는 성능을 제공함을 보여줍니다. 
  • 이 관찰은 우리의 프레임워크가 다양한 사전 훈련된 언어 모델에서의 견고성과 효과적인 성능을 나타내는 증거로 작용합니다. 
  • 이는 또한 우리의 접근 방식이 대화형 감정 인식 작업에서의 일반성을 강조합니다. 
  • 세부적인 성능은 부록 E에서 보고되었습니다.

6 Conclusion

  • 이 논문은 감정 앵커 대조 학습이라고 불리는 대화형 감정 인식을 위한 새로운 프레임워크를 소개합니다. 
  • 제안된 EACL은 감정 표현을 앵커로 활용하여 독특한 발화 표현의 학습 과정을 강화합니다. 
  • 이 기반 위에서 우리는 더 나아가 감정 앵커를 fine-tuning을 통해 조정하여 최적의 위치로 이동시키고 분류 목적에 더 적합하게 만듭니다. 
  • 세 가지 인기 있는 벤치마크 데이터셋에서의 포괄적인 실험과 평가를 통해 우리의 접근 방식은 새로운 최고 수준의 성능을 달성합니다. 
  • 제안된 EACL 프레임워크가 대화 모델링에 상당한 이점을 제공하며, 더 정확한 감정 인식을 위해 발화 표현의 학습을 강화하는 것을 확인하기 위한 제거 연구와 평가가 진행되었습니다.

Limitations

  • 현재의 방법은 먼 대화 이력을 추적하는 데 제한이 있습니다. 
  • 이 제약은 우리가 사용하는 언어 모델의 입력 길이 제한에서 비롯됩니다. 
  • 그러나 우리는 장기간의 대화 모델링의 중요성을 인식하고 이를 향한 향후 연구를 유망한 방향으로 고려하고 있습니다. 
  • 덧붙여, 우리의 방법은 텍스트 입력에만 중점을 두며 다중 모달 설정을 포함하지 않습니다. 
  • 우리는 감정 인식을 얼굴 표정과 음조와 함께 보완함으로써 유용한 정보를 제공할 수 있다는 점을 인식합니다. 
  • 다중 모달 입력을 고려하는 것은 향후 개선의 흥미로운 방향입니다. 
  • 이는 전반적인 성능과 우리 감정 인식 프레임워크의 풍부성을 향상시킬 잠재력이 있습니다.

Reference

댓글