◼ Comment

논문의 노벨티는 있다고 생각된다.
프레임워크의 흐름이 기존의 감정인식과 다르다.
인코딩 부분

입력: speaker information을 명시적으로 소개하기 위해, 우리는 speakr S(uj)을 각 utteracne uj 앞에 prepend한다. 그리고나서, target utterance ui는 과거와 미래 대화들을 모두 concatenated하여 context-aware input u^i을 획득한다.
여기서 약간 의아한게, 한 세션의 모든 발화를 concat하는것 같다.
즉 미래 정보를 쓰는 것으로 부터 오는 장점이 있어 보임.
CLS 토큰의 출력이 이 입력을 대표하는 x=represented vector로 사용된다.
이 x를 4개의 벡터로 분리한다.
V,A,D,C로 V,A,D는 감정을 나타내는 3가지 축이고, C는 content feature이다.
여기서도 집고 넘어가야할 게, 입력부분에서 target utterance을 표시하는 부분이 있어야 말이 될 것 같다.

아니면 V,A,D,C는 타겟 발화에 해당하는 정보인지 알 수가 없다.

x로부터 이젠, 4개의 mu, sigma와을 뽑는다. (MLP 같은 것으로 뽑을듯? 설명없음)
그리고 이로부터 가우시안 샘플링을해서 z^V, z^A, z^D, z^C을 뽑는다.
마치 VAE에서 reparameterization trick와 유사하다고 보면 된다.

보조 테스크: 문장 재구성 (식3)

z^V, z^A, z^D, z^C은 concat되어서 z을 이루고, 이 z을 decoder(BART)에 넣어서 기존 입력을 (세션발화들) 재구성하도록 학습된다.

z는 BART의 초기화 값으로 사용된다.

근데 이론적으론 z^V, z^A, z^D, z^C은 모든 발화에 해당하는 정보가 아니고 타겟 발화의 정보이기 때문에 target utterance만 재구성하도록 학습되어야 하는 것이 아닌가?
그림에서는 모든 발화를 재구성하는 것처럼 보이지만, 글에서는 타겟발화만 재구성한다고 써있다.
또한 loss식이 안나와있다.

보조 테스크: VAD 학습 (L_ELBO)

V,A,D는 샘플링할 때, 가우시안 분포를 따른다고 가정하여 샘플링되는 것이다.
즉 V,A,D의 분포가 가우시안 분포가 되도록 학습을 시켜주는데
식 4처럼 계산을 하면 된다.
실제 식4 계산은 VAE 관련 자료를 찾아보면 어떻게 해야하는지 나온다.

보조 테스크: VAD 학습 (L_INFO)

z^V, z^A, z^D가 정말로 Valence, Arousal, Dominance을 뜻하도록 supervision signals을 이용하여 학습한다.
NRC-VAD란 외부 데이터를 활용하는 것이다.
쉽게 생각해서 NRC-VAD는 각 감정에 대해 V,A,D의 점수를 매겨뒀다.
이 점수가 레이블이 되는 것이다.
예로 z^V을 식5처럼 transform하고 식6처럼 loss을 계산하여 학습

보조 테스크: VAD 학습 (L_MI)

z^V, z^A, z^D가 독립적으로 정보를 표현하기 위해 학습을 시킨다.
꼭 V,A,D가 독립적이어야 할 필요가 있을까? 라는 생각이 들어서 motivation이 약하다고 생각들긴하는데..
ablation study에서 이것에 대한 분석을 해두긴 했다.
이 부분의 백그라운드는 약해서 완벽이해는 못했지만 식7을 유도해서 학습시켰다.

메인 테스크: 감정인식 (L_DER)

concated z을 이용해서 감정을 인식하도록 한다.
특별한 것은 없고 그냥 MLP을 태운것이다.

Abstract

DER(대화 감정 인식)에서 대상 발화의 감정은 해당 컨텍스트에 밀접하게 의존합니다.
따라서 기존 연구에서는 context 정보를 활용하여 감정을 인식하는 것을 목표로 하는 target utterance의 response을 재구성하도록 모델을 훈련합니다.
그러나 adjacent response generation은 long-range dependencies을 무시하고 많은 경우 제한된 정서적 정보를 제공합니다.
또한 대부분의 DER 모델은 interpretability과 robustness이 부족한 각 발화에 대한 unified distributed representation을 학습합니다.
이러한 문제를 해결하기 위해 VAD-VAE(Variational AutoEncoder)를 제안합니다.
먼저 Variational Autoencoder를 기반으로 하는 target utterance reconstruction 작업을 도입한 다음 latent space에서 VAD(Valance-Arousal-Dominance) 세 가지 영향 표현을 분리합니다.
또한 sentiment lexicon에서 VAD supervision signals를 도입하고 VAD 분포 간의 mutual information를 최소화하여 분리된 표현을 향상시킵니다.
실험 결과 VAD-VAE가 세 가지 데이터 세트에서 최신 모델보다 성능이 우수함을 보여줍니다.
추가 분석을 통해 제안된 각 모듈의 효율성과 disentangled VAD representations의 품질이 입증되었습니다.
Code will be available online upon acceptance.

1 Introduction

DER(대화 감정 인식)은 미리 정의된 감정 범주에서 대화 내 각 발화의 감정을 식별하는 것을 목표로 합니다.
텍스트에서 기존의 감정 감지를 확장한 DER은 감정이입 대화 시스템, 감정 관련 소셜 미디어 분석 및 고객 리뷰의 의견 마이닝과 같은 실제 시나리오에서 사용하기에 더 적합하기 때문에 NLP 커뮤니티에서 점점 더 많은 연구 관심을 끌고 있습니다.
그러나 응답 생성은 인접한 두 발화 간의 종속성만 조사하는 반면 target utterance에 대한 long-range history의 영향은 무시됩니다.

다음 문장을 재구성하는 것은 또한 discussion topic의 갑작스러운 변화와 같은 많은 경우에 대상 발화에 대한 제한된 affective information를 제공합니다.

위의 사항을 증명하기 위한 예가 그림 1에 나와 있습니다.

그림에서 운동얘기하다가 갑자기 라디오 시끄럽다고 끄라고 한다.
즉, 토픽이 갑자기 바뀌며 화난 상태를, 운동얘기를 했던 이전 내용만 가지고 예측하기는 어렵다?

예시된 바와 같이, 대상 발화의 감정은 장기간의 이력에 의존하며, 응답 생성은 다음 발화에서 논의 주제가 변경됨에 따라 제한된 정서적 정보를 제공한다.
우리는 DER이 대상 발화 표현에 중심을 두기 때문에 대상 발화 자체의 context-aware reconstruction이 더 적절하다고 주장합니다.
또한 현재 DER 방법은 대부분 각 대상 발화에 대한 unified distributed representation을 학습합니다.

인상적인 결과를 달성했지만 entangled features은 해석 가능성과 견고성이 부족합니다.
affective text generation 모델의 성공은 또한 콘텐츠에서 감정적 특징을 분리하는 실행 가능성을 입증합니다.
이러한 이슈를 해결하기 위해, 우리는 VAE disentangled Variational AutoEncoder (VAD-VAE)을 DER을 위해 제안한다.

먼저, response을 재구성하는 대신, 우리는 VAE 생성모델을 기반으로 target utterance 재구성 테스크를 소개한다.

우리는 PLM-based context-aware encoder를 고안하여 대화를 모델링하고 utterance representations에서 추정된 가우시안 분포에서 latent representations을 샘플링합니다.
가우스 분포는 또한 잠재 공간을 정규화하는 것을 목표로 합니다.
그런 다음 다른 PLM 기반 디코더를 활용하여 잠재 표현에서 대상 발화를 재구성합니다.
VAD-VAE는 3개의 DER 데이터 세트에서 최첨단 모델보다 성능이 뛰어납니다.

둘째, 발화 표현에서 중요한 features을 분리하기 위해 disentangled representation learning 기술을 활용합니다.

심리학의 정서 표현 모델에 대한 연구에서는 VAD(Valance Arousal-Dominance)가 정서 상태를 정의하는 데 적합한 직교 및 양극성 모두임을 지적합니다.
따라서 우리는 VAE의 잠재 공간에서 세 가지 VAD features을 분리할 것을 제안합니다.
여기에서 발화 표현에서 추정된 해당 가우시안 분포에서 각 VAD 표현을 샘플링합니다.
그런 다음 DER 및 target utterance reconstruction tasks을 위해 disentangled features 이 결합됩니다.

셋째, disentangled VAD representations을 향상시키기 위해 두 가지 기술이 사용됩니다.

우리는 모든 감정에 대한 인간의 VAD 등급을 포함하는 감정 어휘집인 NRC-VAD의 감독 신호를 도입하여 정보성을 높입니다.
latent spaces의 독립성을 강화하기 위해 VAD 표현 간의 MI(Mutual Information)를 최소화합니다.
training 중에 MI의 vCLUB(variational Contrastive Log-ratio Upper-Bound)를 추정하고 최소화합니다.
추가 분석을 통해 풀린 VAD 표현의 품질이 입증되었습니다.

To summarise, this work mainly makes the following contributions:

우리는 모델 성능을 향상시키고 latent spaces을 정규화하는 DER을 위한 VAE-based target utterance reconstruction auxiliary task 을 제안합니다.
DER에서 처음으로 utterance representations에서 세 가지 VAD features을 명시적으로 분리합니다.

분석 결과 interpretability과 robustness에 이점이 있으며 affective text generation 작업에서 잠재력이 있음을 보여줍니다.
이걸로 이러한 장점이 생긴다는걸 엄밀히 증명 가능?

우리는 lexicon NRC-VAD의 VAD supervision 신호로 분리된 표현의 정보성을 향상시키고 상호 정보의 vCLUB 추정치를 최소화하여 독립성을 향상시킵니다.

2 Related Work

2.1 Dialogue Emotion Recognition

DER의 경우 대화 참가자의 감정은 주로 대화 기록의 영향을 받기 때문에 컨텍스트 모델링이 핵심 과제입니다.
초기 작업은 순환 신경망(RNN)을 활용하여 각 참가자의 대화 흐름을 시퀀스로 모델링하고 각 시간 단계에서 메모리로 수정합니다.
다자간 관계를 고려하여 Majumder는 또 다른 글로벌 상태 RNN을 활용하여 화자 간 종속성과 감정 역학을 모델링합니다.
복잡한 모델 구조를 설계하지 않기 위해 최근 작업에서는 PLM의 강력한 컨텍스트 모델링 기능을 활용하여 대화를 전체적으로 모델링합니다.
일부 다른 작업에서는 각 발언을 노드로 사용하여 대화를 기반으로 그래프를 작성하고 그래프 신경망을 활용하여 DER을 노드 분류 작업으로 모델링합니다.
발화 표현을 향상시키는 것도 DER에 중요합니다.
일부 작업은 task-related information를 통합합니다.
예를 들어, 의미론적 공간을 풍부하게 하기 위해 상식적인 지식이 도입됩니다.
대화 모델링 능력을 향상시키기 위해 일부 방법은 대규모 대화 데이터에 대해 모델을 사전 훈련하고 가중치를 DER로 전달합니다.
다중 작업 학습은 또한 감정 추론을 돕기 위해 topic information, discourse rolesand(역할) speaker-utterance relations를 소개하는 데 활용됩니다.
Park (2021); Mukherjee(2021)는 VAD 정보를 통합하여 세분화된 감정 감독을 도입합니다.
유사한 감정을 가진 발화를 구별하기 위해 contrastive learning도 고안되었습니다.

2.2 Disentangled Representation Learning

DRL(Disentangled Representation Learning)은 데이터의 주요 기능을 고유하고 종속적인 저차원 잠재 공간에 매핑하는 것을 목표로 합니다.
현재 DRL 방법은 주로 unsupervised and supervised disentanglement로 나뉩니다.
Early unsupervised methods은 주로 잠재 공간에 대한 제약을 설계하여 information capacity and mutual information 격차와 같은 각 차원의 독립성을 강화합니다.
Supervised methods은 잠재 공간의 다른 부분에 supervision 신호를 도입하여 정보성을 강화합니다.
일부 작업은 구문 구문 분석 트리 및 스타일 레이블과 같은 해당 생성 요소의 실측 레이블을 활용합니다.
대조적으로, 다른 작업은 표현과 semi-supervised ground-truth labels간의 쌍별 유사성을 포함하여 약하게 감독된 신호를 사용합니다.
여전히 감독된 방법은 상호 정보 최소화 및 적대적 학습과 같은 기술을 고안하여 풀린 표현의 독립성과 불변성을 강화합니다.

3 Methodology

3.1 Task Definition

DER 테스크는 다음과 같이 정의된다.

dialogue D는 u 발화들 {u1, u2, ..., un}을 가지고, 이는 해당하는 ground truth emotion labels {y1, y2, ..., yn}와 함께하고, 여기서 yi ∈ E으로 E는 pre-defined emotion label set이다.

각 ui는 mi tokens으로 구성된다.

{u^1_i , u^2_i , ..., u^mi_i}.

대화는 speaker list S(D) = {S(u1), S(u2), ..., S(un)}도 동반하고, 여기서 ui는 S(ui) ∈ S가 말한 것이고, S는 대화 참여자의 세트이다.
위의 정보들과 함께, DER은 각 target utterance ui의 감정을 식별하는 것이 목표고, $\tilde{y_i} = f(u_i , D, S(D))$로 형식화된다.

즉 발화, 대화, 화자들 정보를 입력으로해서 감정 $\tilde{y_i}$을 예측하는 것 느낌

3.2 Target Utterance Reconstruction

이 섹션은 target utterance reconstruction 보조 테스크를 소개한다.
context-aware utterance encoder을 기반으로, 우리는 utterance representation으로부터 VAD latent representation을 disentangle하고 VAE-based generative model을 설계해서 target utterance을 재구성한다, 이는 VAD-VAE의 백본으로 그림2에서 설명한다.

아마 VAD(Valance-Arousal-Dominance)이니까, V, A, D는 각각을 의미하고 C는 context을 의미하는 것인가?
즉 VAD prediction이라는게 utterance representation으로부터 V, A, D, C를 분리한다?
분리한것을 concatenation하여 감정도 인식하고, 이로 target utterance도 다시 재구성하도록 학습하도록 보조 테스크를 도입한 듯?

3.2.1 Context-Aware Utterance Encoder

speaker information을 명시적으로 소개하기 위해, 우리는 speakr S(uj)을 각 utteracne uj 앞에 prepend한다.
그리고나서, target utterance ui는 과거와 미래 대화들을 모두 concatenated하여 context-aware input u^i을 획득한다.

음? 이렇게 하면 미래 정보를 땡겨서 쓰는건데?

encoder을 활용하여, 우리는 context-aware utterance embeddings을 얻는다.

Encoder은 RoBERTa-Large utterance encoder을 가리키고, ri ∈ R^{S×Dh}은 utterance representations을, S은 sequence length, Dh는 hidden state dimension을 가리킨다.
즉 출력 ri는 각 토큰에 대한 출력벡터들을 말하는 것

우리는 position 0에서 start-of-sentence token의 embedding을 활용한다.

$r^{[CLS]}_i \in \mathbb{R}^{D_h}$ as the utterance-level representation of ui.

3.2.2 VAE-based Generative Model

우리는 VAE-based generative model을 설계하고 utterance representation으로부터 3개의 latent features Valance-Arousal-Dominance (VAD)로 disentangle한다.

여기서 Valance는 자극의 유쾌함(pleasantness)을 반영하고,
Arousal은 자극에 의해 유발된 감정의 강도(intensity of emotion)를 반영하며,
Dominance는 자극에 의해 발휘되는 통제 정도(degree of control)를 반영합니다.
valence는 감정의 긍정 혹은 부정적인 정도를 나타냅니다.
가령 공포는 아주 부정적인 valence를 가지고 지루함이나 흥분감은 중간 정도의 valence를, 행복이나 편안함은 긍정적인 valence를 가집니다.
arousal은 감정의 흥분 정도를 이야기하는 척도로 이 값이 작을수록 차분한 감정인데, 지루함이나 편안함, 졸림 등이 여기에 해당합니다.
반대로 arousal이 큰 감정에는 흥분감, 분노, 공포 등이 있습니다.
dominance는 이 감정이 내가 주체적으로 느끼는 감정인지 아닌지를 나타내는 개념입니다.
예를 들어 분노와 공포는 둘 다 부정적인 valence와 높은 arousal을 가지지만 분노는 내가 주체가 되는 감정인 데 반해 공포는 내가 다른 요소에 의해 수동적으로 느끼게 되는 감정입니다.

또한 우리는 "Content" feature을 정의하고 이는 target utterance의 conten generation을 컨트롤한다.
VAE는 각 latent space Z에 대해 표준 prior distribution을 부과하는 모델을 평가하는데 활용된다.
deterministic utterance representation은 posterior qϕ(z|x)의 근사치로 대체되고, 이는 neural network로 파라미터화된다.

우리는 4개의 feed-forward neural networks을 활용하여 $x = r^{[CLS]}_i$을 R ∈ {V, A, D, C}로 표시되는 Valance, Arousal, Dominance 및 Content의 잠재 분포를 매개변수화하는 4개의 가우시안 분포 매개변수 (μ, σ) 세트에 매핑합니다.
즉 x는 CLS 토큰의 출력벡터고, 이를 조건으로하여 {V, A, D, C}로 분리하는 것이다.
{V, A, D, C}는 각각의 가우시안 분포에서 샘플링해서 뽑힌다고 보는 것이고
이 가우시안 분포를 찾기 위해, 각각에 대해 가우시안 분포 (μ, σ) 세트에 매핑하는 식인 듯
이는 VAE에서 reparameterization 트릭을 사용한다고 보면된다.

각 feature에 대해 reparameterisation 트릭을 사용하여 해당하는 $(μ^{(R)}, σ^{(R)})$로 정의된 가우시안 분포에서 latent representation $z^{(R)}$을 샘플링합니다.

z = mu + sigma * N(0,1) 보통 이렇게 하는데.. 식이 좀 다른데?
where $z^{(R)}_i ∈ R^{D(R)}$, D(R) is the pre-defined latent space dimension.

Then the latent representations are concatenated: zi = [zVi ; zAi ; zDi ; zCi].
zi는 디코더를 초기화하고 target 발화를 재구성하는 데 사용됩니다.

where Softmax denotes the softmax operation, uji denotes the j-th generated tokens, and u<ji denotes the previously generated tokens.
이는 loss로 사용안되나?

Huggingface 구현에서 RoBERTa-Large와 어휘를 공유하고 많은 생성 작업에서 강력한 것으로 입증되었기 때문에 BART-Large 디코더를 디코더로 사용합니다.
표준 VAE에서와 같이 각 latent space에 대한 KL-divergence 항을 포함하여 대략적인 posterior를 prior distribution에 가깝게 유지합니다.
training 중에 ELBO(Evidence Lower BOund)를 training objective로 활용합니다.

where ϕ and θ denote the parameters of the encoder and decoder
each αR weights the corresponding KL-divergence term, and standard Gaussian prior is used for each p(z (R) i ).

3.3 Enhancing VAD Representations

우리는 다음의 2가지 관점을 따라 disentangled VAD reprsentation을 강화하는 목표를 가진다.

(a). informativeness: 해당 생성 요인을 잘 예측할 수 있는 충분한 정보가 표현에 포함되어야 합니다.
(b). Independence: 각 생성 요소에 대해 표현은 independent latent space에 있어야 합니다.

따라서 우리는 정보성을 강화하기 위해 sentiment lexicon(어휘집)에서 supervision 신호를 도입하고 독립성을 강화하기 위해 mutual information 최소화 목표를 도입합니다.

3.3.1 Informativeness

representation의 능력을 강화해서 해당하는 generative factor을 예측하기 위해서, 우리는 NRC-VAD으로부터 supervision signals을 소개한다.

NRC-VAD: VAD sentiment lexicon으로 20,000 영어 용어를 위한 VAD에 대한 신뢰할만한 human ratings을 포함한다.

모든 NRC-VAD term은 감정을 나타내거나 암시하며 일반적으로 사용되는 sentiment lexicions and tweets으로부터 선택된다.

각 term은 크라우드소싱 어노테이터를 사용하여 best-worst scaling을 통해 엄격하게 어노테이트하고, aggregation porcess는 0부터 1까지 범위의 각 term에 대한 VAD을 계산한다.

예를들어, emotion happiness(기쁨)은 vad_happiness = {0.960, 0.732, 0.850}으로 할당된다.
NRC-VAD의 좀 더 자세한 내용은 부록A에 있다.

NRC-VAD(Mohammad, 2018)는 20,000개 이상의 영어 단어에 대한 인간의 Valence, Arousal 및 Dominance 등급을 포함하는 감정 어휘집입니다. NRC-VAD의 모든 용어는 감정을 나타내거나 암시합니다. 구체적으로 NRC 감정 어휘집, General Inquirer, ANEW, Warriner 및 Hashtag Emotion Corpus(Mohammad, 2012)의 일부에 있는 모든 단어에서 용어를 선택합니다.
이러한 용어는 우선 크라우드소싱 주석자를 사용하여 최상-최악 스케일링을 통해 매우 엄격하게 주석이 추가됩니다. 그런 다음 집계 프로세스는 0에서 1 사이의 각 용어에 대한 VAD를 계산합니다. Valance를 예로 들어 보겠습니다. 어노테이터는 한 번에 4개의 단어(4-튜플)를 제시하고 Valence가 가장 높고 낮은 단어를 선택하도록 요청받습니다. 설문지는 원자가 차원의 두 끝을 나타내는 패러다임 단어를 사용합니다. 최종 VAD 점수는 응답에서 계산됩니다. 각 항목에 대해 점수는 항목이 최고(최고 V/A/D)로 선택된 횟수의 비율에서 항목이 최악(최저 최저)으로 선택된 횟수의 비율을 뺀 값입니다. V/A/D). 점수는 구간 0(가장 낮은 V/A/D)에서 1(가장 높은 V/A/D)로 선형 변환되었습니다.
표 5, 6 및 7의 세 가지 데이터 세트 모두에 대해 각 감정의 NRC-VAD 할당을 제공합니다.

사전 정의된 카테고리 감정 셋 E을 가지고, 우리는 VAD score $vad_{e_j} = \{ vad^{V}_{e_j}, vad^{A}_{e_j}, vad^{D}_{e_j} \}을 NRC-VAD로부터 각 emotion ej ∈ E 을 추출한다.

여기서 j ∈ [1, |E|]

fine-grained VAD supervision signals가 도입되었기 때문에, 우리는 VAD representations의 informativeness와 DER의 모델성능을 둘 다 향상시킬 것을 기대한다.

즉, 테이블 5,6,7처럼 각 감정에 대해 V,A,D 점수가 있다.
이를 signal로 활용하면 V,A,D로 분리하는 학습이 잘 이뤄질 것이라는 것

특히, 각 R ∈ {V, A, D}에 대해 feed-forward neural network predictor를 사용하여 latent representation에서 해당 예측을 계산합니다.

여기서 W(Rˆ) 및 b(Rˆ)는 Rˆ에 해당하는 predictor의 파라미터들이다.
R ∈ {V, A, D}이고 식2에서 Z^R을 뽑고 그것을 활용해서 P^R을 뽑는다
근데 R^으로 표시하는 이유는?

training 목표로 예측과 supervision signals 사이의 mean squared error 손실을 계산합니다.

여기서 φ와 λ는 encoder와 predictor의 매개변수를 나타내고, yi는 i번째 발화의 감정 레이블을 나타내며, N은 배치 크기를 나타냅니다.
인코더란, roberta와 mu, sigma까지 뽑는 부분을 말하는것으로

roberta는 발화를 cls 토큰으로 하나의 임베딩 값으로 추출하고,
그 임베딩에서 mu, sigma을 뽑고, 이로 통해 z까지 샘플링하는게 인코더과정

predictor은 이 z^R으로부터 V,A,D의 각각 값을 예측하는 부분을 의미한다고 보면 될듯 (식5에서 W, b)
vad는 일종의 레이블 값이라고 생각하면됨

3.3.2 Independence

우리는 distribution을 가능한 다르게 만들어서 모든 disentangled latent spaces의 독립성을 향상시킨다.

즉 위에서 V,A,D로 분리해내는건 학습하는데 이 분포가 독립적이었으면 좋겠다는 것이다.
근데 꼭 독립적이어야 좋은건가? 연관성이 있을 수도 있지 않은가? (ablation study 필요)

흔한 방법은 spaces의 각 쌍사이의 Mutual Information (MI)을 최소화하는 것이다.
latent varibales의 각쌍 사이의 conditional distribution은 또한 우리의 케이스에서는 사용불가능하다.
그래서, 우리는 Variational Contrastive Logratio Upper-Bound (vCLUB)을 활용해서 MI을 추정한다.
추가적인 supervision signals가 소개되지 않았기 때문에, 우리는 모델이 여전히 각 latent space의 독립성에 대한 trade-off로써 비슷한 성능을 달성할 것으로 예상한다.

근데 굳이 이를 왜 학습하지?
어차피 V,A,D 의 레이블 학습을 그대로 학습하는 것일텐데

특히, 우리는 estimator로써 feed-forward neural network을 별도로 사용해서 VAD variables에서 각 쌍의 conditional distribution을 근사화한다.

P(Rˆi |Rˆj ) 여기서 i != j이고 매개변수는 각 time step에서 VAD-VAE와 함께 업데이트됩니다.

각 쌍 Rˆi, Rˆj ∈ {V, A, D} 사이의 편향되지 않은 vCLUB 추정값을 합산하여 training objective로 MI minimisation 손실을 얻습니다.

where δij denotes the parameters of the corresponding estimator.
이거 계산도 식 4처럼, z을 가우시안 분포라고 생각하고 계산하는건가?

The detailed proof of Eqn. 7 is in Appendix B.

3.4 Model Training

DER 작업의 경우 concatenated latent representation zi를 사용하여 final classification probability을 계산합니다.

where W0 and b0 are learnable parameters.

Then we compute the DER loss LDER using standard cross-entropy loss:

where yji and yˆji are j-th element of yi and yˆi .
결국 감정 인식은 이걸로 학습되는 건데 z^R을 concat한 z을 MLP을 통해 감정분류하도록 됨
근데 생각해보면, VAD가 잘구분되면 이거자체로 그냥 바로 감정 매핑이 1-1로 될거 같은데?

Finally, we combine all proposed modules and train in a multi-task learning manner:

where the µs are the pre-defined weight coefficients

4 Experimental Settings

4.1 Benchmark Datasets

We evaluate our model on the following three benchmark datasets:
IEMOCAP (Busso et al., 2008):

An acted two-party multi-modal conversation dataset.
The pre-defined categorical emotion labels are neutral, sadness, anger, happiness, frustrated, excited.
Train/Val/Test split is 100/20/31 and 49.2 utterances per dialogue on average.

MELD (Poria et al., 2019a):

A multi-modal dataset collected from the TV show Friends.
The pre-defined emotion labels are neutral, sadness, anger, disgust, fear, happiness, surprise.
Train/Val/Test split is 1,038/114/280 and 9.6 utterances per dialogue on average.

DD (DailyDialog) (Li et al., 2017):

From human-written daily conversations with only two parties involved.
The pre-defined emotion labels are neutral, happiness, surprise, sadness, anger, disgust, fear.
Train/Val/Test split is 11,118/1,000/1,000 and 7.9 utterances per dialogue on average.

4.2 Baseline Models

We select the following baseline models for comparison:
TL-ERC (Hazarika et al., 2021):

이 방법은 대규모 대화 데이터에 대해 인코더-디코더 아키텍처를 사전 훈련한 다음 가중치를 DER로 전송합니다.

BERT-Large (Devlin et al., 2019):

사전 훈련된 BERT-Large 가중치에서 초기화한 다음 DER에 대해 미세 조정합니다.

DialogXL (Shen et al., 2021a):

PLM 기반 모델은 화자 종속성을 모델링하기 위해 대화 인식 셀프 어텐션을 사용합니다.

DAG-ERC (Shen et al., 2021b):

RoBERTa-Large를 기반으로 하는 이 모델은 대화에 방향성 비순환 그래프(DAG)를 구축합니다.

SKAIG (Li et al., 2021):

이 작업은 대화에 그래프를 만들고 심리적 지식을 활용하여 가장자리 표현을 풍부하게 합니다.

COSMIC (Ghosal et al., 2020):

대화 시퀀스 기반 구조로 화자의 심리 상태를 모델링하기 위해 발화 수준의 심리 상태 지식을 도입합니다.

Dis-VAE (Ong et al., 2022):

이 작업은 VAE를 활용하여 감독되지 않은 방식으로 담화 정보를 모델링합니다.

SGED (Bao et al., 2022):

이 방법은 DER에 대한 화자 정보를 활용하기 위한 화자 안내 인코더-디코더 프레임워크를 제안합니다.

CoG-BART (Li et al., 2022):

BART-Large를 기반으로 하는 이 작업은 발화 표현을 향상시키기 위해 대조 학습 및 응답 생성 작업을 활용합니다.
CoG-BART는 DER에 대해 BART 인코더와 디코더를 모두 사용하지만 우리 모델은 인코더 부분만 사용하므로 사용된 매개변수의 수가 비슷하고 비교가 대부분 공정합니다.

4.3 Implementation Details

모든 실험은 80GB 메모리의 단일 Nvidia 441 Tesla A100 GPU를 사용하여 수행합니다.
우리는 모든 PLM의 사전 훈련된 가중치를 초기화하고 Huggingface에서 제공하는 토큰화 도구를 사용합니다(Wolf et al., 2019).
AdamW 옵티마이저(Loshchilov and Hutter, 2019)를 활용하여 모델을 훈련합니다.
모든 하이퍼 매개변수는 검증 세트에서 조정됩니다.
MELD 및 IEMOCAP에 대한 평가 지표로 가중 F1 측정을 사용합니다.
"중립"이 DD의 대부분을 차지하므로 이 데이터 세트에 micro-F1을 사용하고 이전 작업에서와 같이 결과를 계산할 때 "중립" 레이블을 무시합니다(Shen et al., 2021b; Li et al., 2022).
보고된 모든 결과는 무작위 실행 5회의 평균입니다.
자세한 내용은 부록 C에 있습니다.

5 Results and Analysis

5.1 Overall Performance

VAD-VAE의 성능과 표 1의 세 가지 벤치마크 데이터 세트에 대한 기본 모델을 제시합니다.
결과에 따르면 BERT-Large 및 DialogXL은 모든 데이터 세트에서 TL-ERC를 능가하여 처음부터 사전 학습하는 RNN 기반 모델에 비해 PLM 기반 방법의 이점을 보여줍니다.
COSMIC은 컨텍스트를 풍부하게 하기 위해 정신 상태 정보를 명시적으로 도입하고 단순 컨텍스트 데이터 세트 MELD 및 DD에서 성능이 크게 향상됩니다.
Dis-VAE 및 SGED는 화자 관련 정보를 암시적으로 도입하고 IEMOCAP에서 68% 이상을 달성합니다.
발화 표현을 향상시키기 위해 DAG-ERC 및 SKAIG는 대화 수준 그래프를 구축하여 컨텍스트 모델링에 대한 사전 정보를 도입하고 모든 데이터 세트에서 잘 수행됩니다.
CoG-BART의 경쟁력 있는 성능은 대조 학습 및 응답 생성의 효율성도 입증합니다.
전반적으로 VAD-VAE는 IEMOCAP에서 70.22%, MELD에서 65.94%, DD에서 62.14%의 새로운 최첨단 성능을 달성합니다.
우리 모델은 IEMOCAP에서 4.04%, CoG-BART에 비해 DD에서 5.85% 향상을 달성하여 응답 생성에 비해 VAE 기반 대상 발화 재구성의 이점을 보여줍니다.
부록 D에서 이 이점을 자세히 조사하기 위한 사례 연구를 제공합니다.
또한 우리의 방법은 NRC-VAD 정보를 도입하고 여러 강력한 지식 도입 방법을 능가합니다.
예를 들어 VAD-VAE는 IEMOCAP 및 DD 모두에서 COSMIC보다 4% 이상 성능이 우수하며 RoBERTa-Large를 발화 인코더로 활용하고 정신 상태 지식을 도입합니다.
이러한 이점은 VAD 감독 신호의 효율성을 반영합니다.

5.2 Ablation Study

각 모듈의 효과를 검사하기 위해, 우리는 table 3에서 ablation study을 제공한다.

- 가 모듈을 삭제한 것을 말한다.
vCLUB은 MI minimisation 모듈들을 가리킨다.
VAE Decoder은 target utterance reconstruction을 위한 VAE decoder 모듈을 가리킨다.
“V Sup.”, “A Sup.”, and “D Sup.”은 Valance, Arousal, Dominance에 해당하는 supervision을 가리킨다.
“Utter. Encoder”은 바로 DER을 utterance encoder을 학습한 것을 가리킨다.

roberta fine-tuning하고 같은 것인가?

결과에 따르면 VAD-VAE는 "-vCLUB"와 유사한 성능을 달성했으며 이는 초기 가설과 일치합니다.
"-VAE Decoder"를 사용하면 모든 데이터 세트에서 성능이 크게 떨어지고 대상 발화 재구성 작업의 효율성을 나타냅니다.
"-V, A, D Sup"은 NRC-VAD 감독 신호가 DER 성능을 향상시키기 위한 적절한 정보를 제공한다는 것을 보여주면서 모든 데이터 세트에서 상당한 하락을 초래합니다.
V, A 및 D를 개별적으로 제거하는 비교에서 모든 데이터 세트에서 "D Sup" 또는 "A Sup"을 제거할 때 성능이 가장 많이 떨어집니다.
유사한 감정은 주로 Arousal과 Dominance에서 다르기 때문에 우리 모델은 유사한 감정을 구별하기 위해 A와 D의 세분화된 정보에서 더 많은 이점을 얻습니다.

5.3 Disentanglement Evaluation

우리는 VAD disentanglement 향상에 대한 VAD 감독 신호(L_INFO) 및 MI 최소화(L_MI)의 효과를 분석합니다.
표 2에는 잠재적 표현에서 예측된 VAD 점수와 세 가지 테스트 세트 모두에 대한 NRC-VAD의 감독 신호 사이의 Pearson’s Correlation Coefficients(PCC)가 나와 있습니다.

L_INFO가 없으면, NRC-VAD 데이터를 안쓴 것이기 때문에, 사실상 V,A,D가 잘 구분안되는거 같다.
MI 관점에서는 L_MI가 생기면 확줄어즌다.

값이 높을수록 더 정확한 예측을 나타내며 더 나은 정보성을 나타냅니다.
또한 각 테스트 세트의 VAD 잠재 분포 간 MI의 평균 vCLUB 추정치를 제공하며 값이 낮을수록 MI 상한의 추정치가 낮고 독립성이 우수함을 나타냅니다.
또한 부록 E에서 DER과 독립성 성능 간의 균형을 조사합니다.

5.3.1 Informativeness

결과에 따르면 이 모델은 VAE 재구성 손실(L_ELBO) 또는 L_MI가 도입된 모든 데이터 세트(대부분의 경우 PCC가 0.2 미만)에서 성능이 좋지 않습니다.

VAD features은 특정 감독 없이 콘텐츠 공간에 내장될 수 있기 때문입니다.

우리는 L_INFO를 사용하여 VAD에 대한 정보성에서 상당한 개선을 관찰했으며, 이는 IEMOCAP의 경우 0.5 PCC 이득, MELD 및 DD의 경우 0.3 이상의 PCC 이득을 가져옵니다.

이러한 결과는 NRC-VAD 감시 신호의 효율성을 반영합니다.

L_INFO 외에도 L_MI는 대부분의 경우 PCC 점수를 더욱 향상시키며, 이는 MI 최소화가 VAD 표현의 정보성 향상에도 어느 정도 도움이 된다는 것을 보여줍니다.

MI을 학습해서 얻을 수 있는 이점

5.3.2 Independence

모든 데이터 세트에 대해 vCLUB estimates는 VAE의 unified distributed representation이 각 부분 간의 강력한 상관 관계를 장려하기 때문에 L_ELBO만 도입된 상태로 높게 유지됩니다.
L_INFO를 사용하면 MELD 및 DD에서 훨씬 더 높은 vCLUB를 관찰할 수 있습니다.

이 경우 우리 모델은 정보성에 대해서만 최적화되어 있으며 모든 잠재 공간을 최대한 활용하여 높은 MI로 이어집니다.
L_INFO을 사용한다는 것은 V,A,D 분리되게 학습된다는 것이고 MI는 고려하지 않는 것

모든 데이터 세트에서 vCLUB이 가장 낮은 L_MI만 소개합니다.

그러나 Informativeness에서 나쁜 성능을 달성합니다.

L_MI와 L_INFO를 모두 사용하면 VAD-VAE는 VAD 예측에서 최상의 결과를 얻을 뿐만 아니라 L_INFO와 비교하여 vCLUB를 크게 줄여 정보성과 독립성 간의 만족스러운 균형을 보여줍니다.

하지만 테이블 3처럼 vCLUB은 감정인식에 크게 영향을 미치지 않는다.
즉 V,A,D가 독립성을 가진다고 감정 인식에 효과적인건 아닌거 같은데..?

5.4 VAD Visualisation

disentangled representations에 대한 보다 해석 가능한 분석을 수행하기 위해 그림 3의 네 가지 대표적인 감정에 대한 (IEMOCAP 테스트 세트에서) VAD representations의 UMAP 시각화와 표 4의 해당 NRC-VAD 할당을 제시합니다.

테스트세트들에 대해 모델이 뽑은 V,A,D point을 찍은 것인가?

그림과 같이 Valance와 Dominance의 경우 긍정적인 감정과 부정적인 감정이 잘 분리되어 있고 한 극성 내의 감정이 중첩됩니다.
Arousal의 시각화에서 "행복", "흥분" 및 "좌절"은 가까이 있고 "슬픔"은 떨어져 있습니다.
이러한 관찰은 본질적으로 NRC-VAD 할당과 일치하며 학습된 VAD 표현의 품질을 추가로 나타냅니다.
또한 각 감정의 분포는 continuity과 completeness의 조건을 보여준다.
향후 작업에서는 정서적 텍스트 생성 작업에서 VAD-VAE의 잠재력을 탐색할 것입니다.
categorical 감정을 제어하는 이전 작업과 달리 우리 모델은 V, A 및 D를 별도로 조정하여 보다 세분화된 감정을 제어할 수 있습니다.

5.5 Robustness Evaluation

그림 4에서는 훈련 레이블의 백분율(0% ~ 50%)을 임의로 잘못된 레이블로 대체한 다음 VAD-VAE와 일반 VAE 방법의 성능 감소율을 비교하여 분리된 표현의 견고성을 평가합니다.

performance decrease rate: For α% replacement, the rate is computed as (F1 f or α% replacement)/(F1 f or 0% replacement)
즉 랜덤 레이블이 증가했을 때, VAD-VAE가 좋다는 것을 말한다.
VAD로 분리해서 학습하기 때문에 성능 감소가 덜하다는 것인가?
추가적으로 랜덤 레이블말고, 학습 데이터의 수를 줄여보는게 어떨까?

Higher rates는 더 나은 성능과 더 견고함을 나타냅니다.
결과에 따르면, 모든 데이터 세트에서 disentangled VAD representations은 entangled representations보다 더 높은 성능 감소율을 달성합니다.
예를 들어, VAD-VAE는 모든 label replacement percentages(주황색 음영 영역)에서 평균 12.24% VAE를 능가합니다.
50%의 임의 라벨 교체로 VAD-VAE는 모든 테스트 세트에서 75% 이상의 성능을 유지하는 반면 VAE의 성능은 모두 70% 미만으로 떨어집니다.
이러한 결과는 VAD-VAE가 훈련 중에 더 높은 수준의 잘못된 정보를 허용할 수 있음을 보여 주며, 이는 entangled representations에 대한 disentangled VAD representations의 견고성을 나타냅니다.
가능한 이유는 다른 기능이 오해의 소지가 있을 때 추론 중에 유용한 지침을 제공하는 VAD 정보를 추출하도록 분리된 표현이 명시적으로 훈련되었기 때문입니다.

6 Conclusion

이 논문은 대화 감정 인식을 위한 VAD-VAE을 제안한다.
우리는 VAE와 disentangle 3 feature Valance, Arousal, Dominance을 통한 auxiliary target utterance reconsturction task을 소개한다.
VAD supervision signals과 mutual information minimisation task은 disentangled representations을 강화하도록 활용된다.
실험들은 VAD-VAE가 3 DER datasets에서 SoTA을 달성하고 적절하게 분리된 VAD representations을 학습한다.
추후, 우리는 affective text generation을 위한 VAD-based fine-grained emotion control 을 탐구할 것이다.

Reference

https://arxiv.org/pdf/2305.14071.pdf

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-175, Disentangled Variational Autoencoder for Dialogue Emotion Recognition, Transactions on Affective Computing 2023 (ARR Review 2212)

◼ Comment

Abstract

1 Introduction

2 Related Work

2.1 Dialogue Emotion Recognition

2.2 Disentangled Representation Learning

3 Methodology

3.1 Task Definition

3.2 Target Utterance Reconstruction

3.2.1 Context-Aware Utterance Encoder

3.2.2 VAE-based Generative Model

3.3 Enhancing VAD Representations

3.3.1 Informativeness

3.3.2 Independence

3.4 Model Training

4 Experimental Settings

4.1 Benchmark Datasets

4.2 Baseline Models

4.3 Implementation Details

5 Results and Analysis

5.1 Overall Performance

5.2 Ablation Study

5.3 Disentanglement Evaluation

5.3.1 Informativeness

5.3.2 Independence

5.4 VAD Visualisation

5.5 Robustness Evaluation

6 Conclusion

댓글

댓글 쓰기