NL-175, Disentangled Variational Autoencoder for Dialogue Emotion Recognition, Transactions on Affective Computing 2023 (ARR Review 2212)
◼ Comment
- 논문의 노벨티는 있다고 생각된다.
- 프레임워크의 흐름이 기존의 감정인식과 다르다.
- 인코딩 부분
- 입력: speaker information을 명시적으로 소개하기 위해, 우리는 speakr S(uj)을 각 utteracne uj 앞에 prepend한다. 그리고나서, target utterance ui는 과거와 미래 대화들을 모두 concatenated하여 context-aware input u^i을 획득한다.
- 여기서 약간 의아한게, 한 세션의 모든 발화를 concat하는것 같다.
- 즉 미래 정보를 쓰는 것으로 부터 오는 장점이 있어 보임.
- CLS 토큰의 출력이 이 입력을 대표하는 x=represented vector로 사용된다.
- 이 x를 4개의 벡터로 분리한다.
- V,A,D,C로 V,A,D는 감정을 나타내는 3가지 축이고, C는 content feature이다.
- 여기서도 집고 넘어가야할 게, 입력부분에서 target utterance을 표시하는 부분이 있어야 말이 될 것 같다.
- 아니면 V,A,D,C는 타겟 발화에 해당하는 정보인지 알 수가 없다.
- x로부터 이젠, 4개의 mu, sigma와을 뽑는다. (MLP 같은 것으로 뽑을듯? 설명없음)
- 그리고 이로부터 가우시안 샘플링을해서 z^V, z^A, z^D, z^C을 뽑는다.
- 마치 VAE에서 reparameterization trick와 유사하다고 보면 된다.
- 보조 테스크: 문장 재구성 (식3)
- z^V, z^A, z^D, z^C은 concat되어서 z을 이루고, 이 z을 decoder(BART)에 넣어서 기존 입력을 (세션발화들) 재구성하도록 학습된다.
- z는 BART의 초기화 값으로 사용된다.
- 근데 이론적으론 z^V, z^A, z^D, z^C은 모든 발화에 해당하는 정보가 아니고 타겟 발화의 정보이기 때문에 target utterance만 재구성하도록 학습되어야 하는 것이 아닌가?
- 그림에서는 모든 발화를 재구성하는 것처럼 보이지만, 글에서는 타겟발화만 재구성한다고 써있다.
- 또한 loss식이 안나와있다.
- 보조 테스크: VAD 학습 (L_ELBO)
- V,A,D는 샘플링할 때, 가우시안 분포를 따른다고 가정하여 샘플링되는 것이다.
- 즉 V,A,D의 분포가 가우시안 분포가 되도록 학습을 시켜주는데
- 식 4처럼 계산을 하면 된다.
- 실제 식4 계산은 VAE 관련 자료를 찾아보면 어떻게 해야하는지 나온다.
- 보조 테스크: VAD 학습 (L_INFO)
- z^V, z^A, z^D가 정말로 Valence, Arousal, Dominance을 뜻하도록 supervision signals을 이용하여 학습한다.
- NRC-VAD란 외부 데이터를 활용하는 것이다.
- 쉽게 생각해서 NRC-VAD는 각 감정에 대해 V,A,D의 점수를 매겨뒀다.
- 이 점수가 레이블이 되는 것이다.
- 예로 z^V을 식5처럼 transform하고 식6처럼 loss을 계산하여 학습
- 보조 테스크: VAD 학습 (L_MI)
- z^V, z^A, z^D가 독립적으로 정보를 표현하기 위해 학습을 시킨다.
- 꼭 V,A,D가 독립적이어야 할 필요가 있을까? 라는 생각이 들어서 motivation이 약하다고 생각들긴하는데..
- ablation study에서 이것에 대한 분석을 해두긴 했다.
- 이 부분의 백그라운드는 약해서 완벽이해는 못했지만 식7을 유도해서 학습시켰다.
- 메인 테스크: 감정인식 (L_DER)
- concated z을 이용해서 감정을 인식하도록 한다.
- 특별한 것은 없고 그냥 MLP을 태운것이다.
Abstract
- DER(대화 감정 인식)에서 대상 발화의 감정은 해당 컨텍스트에 밀접하게 의존합니다.
- 따라서 기존 연구에서는 context 정보를 활용하여 감정을 인식하는 것을 목표로 하는 target utterance의 response을 재구성하도록 모델을 훈련합니다.
- 그러나 adjacent response generation은 long-range dependencies을 무시하고 많은 경우 제한된 정서적 정보를 제공합니다.
- 또한 대부분의 DER 모델은 interpretability과 robustness이 부족한 각 발화에 대한 unified distributed representation을 학습합니다.
- 이러한 문제를 해결하기 위해 VAD-VAE(Variational AutoEncoder)를 제안합니다.
- 먼저 Variational Autoencoder를 기반으로 하는 target utterance reconstruction 작업을 도입한 다음 latent space에서 VAD(Valance-Arousal-Dominance) 세 가지 영향 표현을 분리합니다.
- 또한 sentiment lexicon에서 VAD supervision signals를 도입하고 VAD 분포 간의 mutual information를 최소화하여 분리된 표현을 향상시킵니다.
- 실험 결과 VAD-VAE가 세 가지 데이터 세트에서 최신 모델보다 성능이 우수함을 보여줍니다.
- 추가 분석을 통해 제안된 각 모듈의 효율성과 disentangled VAD representations의 품질이 입증되었습니다.
- Code will be available online upon acceptance.
1 Introduction
- DER(대화 감정 인식)은 미리 정의된 감정 범주에서 대화 내 각 발화의 감정을 식별하는 것을 목표로 합니다.
- 텍스트에서 기존의 감정 감지를 확장한 DER은 감정이입 대화 시스템, 감정 관련 소셜 미디어 분석 및 고객 리뷰의 의견 마이닝과 같은 실제 시나리오에서 사용하기에 더 적합하기 때문에 NLP 커뮤니티에서 점점 더 많은 연구 관심을 끌고 있습니다.
- 그러나 응답 생성은 인접한 두 발화 간의 종속성만 조사하는 반면 target utterance에 대한 long-range history의 영향은 무시됩니다.
- 다음 문장을 재구성하는 것은 또한 discussion topic의 갑작스러운 변화와 같은 많은 경우에 대상 발화에 대한 제한된 affective information를 제공합니다.
- 위의 사항을 증명하기 위한 예가 그림 1에 나와 있습니다.
- 그림에서 운동얘기하다가 갑자기 라디오 시끄럽다고 끄라고 한다.
- 즉, 토픽이 갑자기 바뀌며 화난 상태를, 운동얘기를 했던 이전 내용만 가지고 예측하기는 어렵다?
- 예시된 바와 같이, 대상 발화의 감정은 장기간의 이력에 의존하며, 응답 생성은 다음 발화에서 논의 주제가 변경됨에 따라 제한된 정서적 정보를 제공한다.
- 우리는 DER이 대상 발화 표현에 중심을 두기 때문에 대상 발화 자체의 context-aware reconstruction이 더 적절하다고 주장합니다.
- 또한 현재 DER 방법은 대부분 각 대상 발화에 대한 unified distributed representation을 학습합니다.
- 인상적인 결과를 달성했지만 entangled features은 해석 가능성과 견고성이 부족합니다.
- affective text generation 모델의 성공은 또한 콘텐츠에서 감정적 특징을 분리하는 실행 가능성을 입증합니다.
- 이러한 이슈를 해결하기 위해, 우리는 VAE disentangled Variational AutoEncoder (VAD-VAE)을 DER을 위해 제안한다.
- 먼저, response을 재구성하는 대신, 우리는 VAE 생성모델을 기반으로 target utterance 재구성 테스크를 소개한다.
- 우리는 PLM-based context-aware encoder를 고안하여 대화를 모델링하고 utterance representations에서 추정된 가우시안 분포에서 latent representations을 샘플링합니다.
- 가우스 분포는 또한 잠재 공간을 정규화하는 것을 목표로 합니다.
- 그런 다음 다른 PLM 기반 디코더를 활용하여 잠재 표현에서 대상 발화를 재구성합니다.
- VAD-VAE는 3개의 DER 데이터 세트에서 최첨단 모델보다 성능이 뛰어납니다.
- 둘째, 발화 표현에서 중요한 features을 분리하기 위해 disentangled representation learning 기술을 활용합니다.
- 심리학의 정서 표현 모델에 대한 연구에서는 VAD(Valance Arousal-Dominance)가 정서 상태를 정의하는 데 적합한 직교 및 양극성 모두임을 지적합니다.
- 따라서 우리는 VAE의 잠재 공간에서 세 가지 VAD features을 분리할 것을 제안합니다.
- 여기에서 발화 표현에서 추정된 해당 가우시안 분포에서 각 VAD 표현을 샘플링합니다.
- 그런 다음 DER 및 target utterance reconstruction tasks을 위해 disentangled features 이 결합됩니다.
- 셋째, disentangled VAD representations을 향상시키기 위해 두 가지 기술이 사용됩니다.
- 우리는 모든 감정에 대한 인간의 VAD 등급을 포함하는 감정 어휘집인 NRC-VAD의 감독 신호를 도입하여 정보성을 높입니다.
- latent spaces의 독립성을 강화하기 위해 VAD 표현 간의 MI(Mutual Information)를 최소화합니다.
- training 중에 MI의 vCLUB(variational Contrastive Log-ratio Upper-Bound)를 추정하고 최소화합니다.
- 추가 분석을 통해 풀린 VAD 표현의 품질이 입증되었습니다.
- To summarise, this work mainly makes the following contributions:
- 우리는 모델 성능을 향상시키고 latent spaces을 정규화하는 DER을 위한 VAE-based target utterance reconstruction auxiliary task 을 제안합니다.
- DER에서 처음으로 utterance representations에서 세 가지 VAD features을 명시적으로 분리합니다.
- 분석 결과 interpretability과 robustness에 이점이 있으며 affective text generation 작업에서 잠재력이 있음을 보여줍니다.
- 이걸로 이러한 장점이 생긴다는걸 엄밀히 증명 가능?
- 우리는 lexicon NRC-VAD의 VAD supervision 신호로 분리된 표현의 정보성을 향상시키고 상호 정보의 vCLUB 추정치를 최소화하여 독립성을 향상시킵니다.
2 Related Work
2.1 Dialogue Emotion Recognition
- DER의 경우 대화 참가자의 감정은 주로 대화 기록의 영향을 받기 때문에 컨텍스트 모델링이 핵심 과제입니다.
- 초기 작업은 순환 신경망(RNN)을 활용하여 각 참가자의 대화 흐름을 시퀀스로 모델링하고 각 시간 단계에서 메모리로 수정합니다.
- 다자간 관계를 고려하여 Majumder는 또 다른 글로벌 상태 RNN을 활용하여 화자 간 종속성과 감정 역학을 모델링합니다.
- 복잡한 모델 구조를 설계하지 않기 위해 최근 작업에서는 PLM의 강력한 컨텍스트 모델링 기능을 활용하여 대화를 전체적으로 모델링합니다.
- 일부 다른 작업에서는 각 발언을 노드로 사용하여 대화를 기반으로 그래프를 작성하고 그래프 신경망을 활용하여 DER을 노드 분류 작업으로 모델링합니다.
- 발화 표현을 향상시키는 것도 DER에 중요합니다.
- 일부 작업은 task-related information를 통합합니다.
- 예를 들어, 의미론적 공간을 풍부하게 하기 위해 상식적인 지식이 도입됩니다.
- 대화 모델링 능력을 향상시키기 위해 일부 방법은 대규모 대화 데이터에 대해 모델을 사전 훈련하고 가중치를 DER로 전달합니다.
- 다중 작업 학습은 또한 감정 추론을 돕기 위해 topic information, discourse rolesand(역할) speaker-utterance relations를 소개하는 데 활용됩니다.
- Park (2021); Mukherjee(2021)는 VAD 정보를 통합하여 세분화된 감정 감독을 도입합니다.
- 유사한 감정을 가진 발화를 구별하기 위해 contrastive learning도 고안되었습니다.
2.2 Disentangled Representation Learning
- DRL(Disentangled Representation Learning)은 데이터의 주요 기능을 고유하고 종속적인 저차원 잠재 공간에 매핑하는 것을 목표로 합니다.
- 현재 DRL 방법은 주로 unsupervised and supervised disentanglement로 나뉩니다.
- Early unsupervised methods은 주로 잠재 공간에 대한 제약을 설계하여 information capacity and mutual information 격차와 같은 각 차원의 독립성을 강화합니다.
- Supervised methods은 잠재 공간의 다른 부분에 supervision 신호를 도입하여 정보성을 강화합니다.
- 일부 작업은 구문 구문 분석 트리 및 스타일 레이블과 같은 해당 생성 요소의 실측 레이블을 활용합니다.
- 대조적으로, 다른 작업은 표현과 semi-supervised ground-truth labels간의 쌍별 유사성을 포함하여 약하게 감독된 신호를 사용합니다.
- 여전히 감독된 방법은 상호 정보 최소화 및 적대적 학습과 같은 기술을 고안하여 풀린 표현의 독립성과 불변성을 강화합니다.
3 Methodology
3.1 Task Definition
- DER 테스크는 다음과 같이 정의된다.
- dialogue D는 u 발화들 {u1, u2, ..., un}을 가지고, 이는 해당하는 ground truth emotion labels {y1, y2, ..., yn}와 함께하고, 여기서 yi ∈ E으로 E는 pre-defined emotion label set이다.
- 각 ui는 mi tokens으로 구성된다.
- {u^1_i , u^2_i , ..., u^mi_i}.
- 대화는 speaker list S(D) = {S(u1), S(u2), ..., S(un)}도 동반하고, 여기서 ui는 S(ui) ∈ S가 말한 것이고, S는 대화 참여자의 세트이다.
- 위의 정보들과 함께, DER은 각 target utterance ui의 감정을 식별하는 것이 목표고, $\tilde{y_i} = f(u_i , D, S(D))$로 형식화된다.
- 즉 발화, 대화, 화자들 정보를 입력으로해서 감정 $\tilde{y_i}$을 예측하는 것 느낌
3.2 Target Utterance Reconstruction
- 이 섹션은 target utterance reconstruction 보조 테스크를 소개한다.
- context-aware utterance encoder을 기반으로, 우리는 utterance representation으로부터 VAD latent representation을 disentangle하고 VAE-based generative model을 설계해서 target utterance을 재구성한다, 이는 VAD-VAE의 백본으로 그림2에서 설명한다.
- 아마 VAD(Valance-Arousal-Dominance)이니까, V, A, D는 각각을 의미하고 C는 context을 의미하는 것인가?
- 즉 VAD prediction이라는게 utterance representation으로부터 V, A, D, C를 분리한다?
- 분리한것을 concatenation하여 감정도 인식하고, 이로 target utterance도 다시 재구성하도록 학습하도록 보조 테스크를 도입한 듯?
3.2.1 Context-Aware Utterance Encoder
- speaker information을 명시적으로 소개하기 위해, 우리는 speakr S(uj)을 각 utteracne uj 앞에 prepend한다.
- 그리고나서, target utterance ui는 과거와 미래 대화들을 모두 concatenated하여 context-aware input u^i을 획득한다.
- 음? 이렇게 하면 미래 정보를 땡겨서 쓰는건데?
- encoder을 활용하여, 우리는 context-aware utterance embeddings을 얻는다.
- Encoder은 RoBERTa-Large utterance encoder을 가리키고, ri ∈ R^{S×Dh}은 utterance representations을, S은 sequence length, Dh는 hidden state dimension을 가리킨다.
- 즉 출력 ri는 각 토큰에 대한 출력벡터들을 말하는 것
- 우리는 position 0에서 start-of-sentence token의 embedding을 활용한다.
- $r^{[CLS]}_i \in \mathbb{R}^{D_h}$ as the utterance-level representation of ui.
3.2.2 VAE-based Generative Model
- 우리는 VAE-based generative model을 설계하고 utterance representation으로부터 3개의 latent features Valance-Arousal-Dominance (VAD)로 disentangle한다.
- 여기서 Valance는 자극의 유쾌함(pleasantness)을 반영하고,
- Arousal은 자극에 의해 유발된 감정의 강도(intensity of emotion)를 반영하며,
- Dominance는 자극에 의해 발휘되는 통제 정도(degree of control)를 반영합니다.
- valence는 감정의 긍정 혹은 부정적인 정도를 나타냅니다.
- 가령 공포는 아주 부정적인 valence를 가지고 지루함이나 흥분감은 중간 정도의 valence를, 행복이나 편안함은 긍정적인 valence를 가집니다.
- arousal은 감정의 흥분 정도를 이야기하는 척도로 이 값이 작을수록 차분한 감정인데, 지루함이나 편안함, 졸림 등이 여기에 해당합니다.
- 반대로 arousal이 큰 감정에는 흥분감, 분노, 공포 등이 있습니다.
- dominance는 이 감정이 내가 주체적으로 느끼는 감정인지 아닌지를 나타내는 개념입니다.
- 예를 들어 분노와 공포는 둘 다 부정적인 valence와 높은 arousal을 가지지만 분노는 내가 주체가 되는 감정인 데 반해 공포는 내가 다른 요소에 의해 수동적으로 느끼게 되는 감정입니다.
- 또한 우리는 "Content" feature을 정의하고 이는 target utterance의 conten generation을 컨트롤한다.
- VAE는 각 latent space Z에 대해 표준 prior distribution을 부과하는 모델을 평가하는데 활용된다.
- deterministic utterance representation은 posterior qϕ(z|x)의 근사치로 대체되고, 이는 neural network로 파라미터화된다.
- 우리는 4개의 feed-forward neural networks을 활용하여 $x = r^{[CLS]}_i$을 R ∈ {V, A, D, C}로 표시되는 Valance, Arousal, Dominance 및 Content의 잠재 분포를 매개변수화하는 4개의 가우시안 분포 매개변수 (μ, σ) 세트에 매핑합니다.
- 즉 x는 CLS 토큰의 출력벡터고, 이를 조건으로하여 {V, A, D, C}로 분리하는 것이다.
- {V, A, D, C}는 각각의 가우시안 분포에서 샘플링해서 뽑힌다고 보는 것이고
- 이 가우시안 분포를 찾기 위해, 각각에 대해 가우시안 분포 (μ, σ) 세트에 매핑하는 식인 듯
- 이는 VAE에서 reparameterization 트릭을 사용한다고 보면된다.
- 각 feature에 대해 reparameterisation 트릭을 사용하여 해당하는 $(μ^{(R)}, σ^{(R)})$로 정의된 가우시안 분포에서 latent representation $z^{(R)}$을 샘플링합니다.
- z = mu + sigma * N(0,1) 보통 이렇게 하는데.. 식이 좀 다른데?
- where $z^{(R)}_i ∈ R^{D(R)}$, D(R) is the pre-defined latent space dimension.
- Then the latent representations are concatenated: zi = [zVi ; zAi ; zDi ; zCi].
- zi는 디코더를 초기화하고 target 발화를 재구성하는 데 사용됩니다.
- where Softmax denotes the softmax operation, uji denotes the j-th generated tokens, and u<ji denotes the previously generated tokens.
- 이는 loss로 사용안되나?
- Huggingface 구현에서 RoBERTa-Large와 어휘를 공유하고 많은 생성 작업에서 강력한 것으로 입증되었기 때문에 BART-Large 디코더를 디코더로 사용합니다.
- 표준 VAE에서와 같이 각 latent space에 대한 KL-divergence 항을 포함하여 대략적인 posterior를 prior distribution에 가깝게 유지합니다.
- training 중에 ELBO(Evidence Lower BOund)를 training objective로 활용합니다.
3.3 Enhancing VAD Representations
- 우리는 다음의 2가지 관점을 따라 disentangled VAD reprsentation을 강화하는 목표를 가진다.
- (a). informativeness: 해당 생성 요인을 잘 예측할 수 있는 충분한 정보가 표현에 포함되어야 합니다.
- (b). Independence: 각 생성 요소에 대해 표현은 independent latent space에 있어야 합니다.
- 따라서 우리는 정보성을 강화하기 위해 sentiment lexicon(어휘집)에서 supervision 신호를 도입하고 독립성을 강화하기 위해 mutual information 최소화 목표를 도입합니다.
3.3.1 Informativeness
- representation의 능력을 강화해서 해당하는 generative factor을 예측하기 위해서, 우리는 NRC-VAD으로부터 supervision signals을 소개한다.
- NRC-VAD: VAD sentiment lexicon으로 20,000 영어 용어를 위한 VAD에 대한 신뢰할만한 human ratings을 포함한다.
- 모든 NRC-VAD term은 감정을 나타내거나 암시하며 일반적으로 사용되는 sentiment lexicions and tweets으로부터 선택된다.
- 각 term은 크라우드소싱 어노테이터를 사용하여 best-worst scaling을 통해 엄격하게 어노테이트하고, aggregation porcess는 0부터 1까지 범위의 각 term에 대한 VAD을 계산한다.
- 예를들어, emotion happiness(기쁨)은 vad_happiness = {0.960, 0.732, 0.850}으로 할당된다.
- NRC-VAD의 좀 더 자세한 내용은 부록A에 있다.
- NRC-VAD(Mohammad, 2018)는 20,000개 이상의 영어 단어에 대한 인간의 Valence, Arousal 및 Dominance 등급을 포함하는 감정 어휘집입니다. NRC-VAD의 모든 용어는 감정을 나타내거나 암시합니다. 구체적으로 NRC 감정 어휘집, General Inquirer, ANEW, Warriner 및 Hashtag Emotion Corpus(Mohammad, 2012)의 일부에 있는 모든 단어에서 용어를 선택합니다.
- 이러한 용어는 우선 크라우드소싱 주석자를 사용하여 최상-최악 스케일링을 통해 매우 엄격하게 주석이 추가됩니다. 그런 다음 집계 프로세스는 0에서 1 사이의 각 용어에 대한 VAD를 계산합니다. Valance를 예로 들어 보겠습니다. 어노테이터는 한 번에 4개의 단어(4-튜플)를 제시하고 Valence가 가장 높고 낮은 단어를 선택하도록 요청받습니다. 설문지는 원자가 차원의 두 끝을 나타내는 패러다임 단어를 사용합니다. 최종 VAD 점수는 응답에서 계산됩니다. 각 항목에 대해 점수는 항목이 최고(최고 V/A/D)로 선택된 횟수의 비율에서 항목이 최악(최저 최저)으로 선택된 횟수의 비율을 뺀 값입니다. V/A/D). 점수는 구간 0(가장 낮은 V/A/D)에서 1(가장 높은 V/A/D)로 선형 변환되었습니다.
- 표 5, 6 및 7의 세 가지 데이터 세트 모두에 대해 각 감정의 NRC-VAD 할당을 제공합니다.
- 사전 정의된 카테고리 감정 셋 E을 가지고, 우리는 VAD score $vad_{e_j} = \{ vad^{V}_{e_j}, vad^{A}_{e_j}, vad^{D}_{e_j} \}을 NRC-VAD로부터 각 emotion ej ∈ E 을 추출한다.
- 여기서 j ∈ [1, |E|]
- fine-grained VAD supervision signals가 도입되었기 때문에, 우리는 VAD representations의 informativeness와 DER의 모델성능을 둘 다 향상시킬 것을 기대한다.
- 즉, 테이블 5,6,7처럼 각 감정에 대해 V,A,D 점수가 있다.
- 이를 signal로 활용하면 V,A,D로 분리하는 학습이 잘 이뤄질 것이라는 것
- 특히, 각 R ∈ {V, A, D}에 대해 feed-forward neural network predictor를 사용하여 latent representation에서 해당 예측을 계산합니다.
- 여기서 W(Rˆ) 및 b(Rˆ)는 Rˆ에 해당하는 predictor의 파라미터들이다.
- R ∈ {V, A, D}이고 식2에서 Z^R을 뽑고 그것을 활용해서 P^R을 뽑는다
- 근데 R^으로 표시하는 이유는?
- training 목표로 예측과 supervision signals 사이의 mean squared error 손실을 계산합니다.
3.3.2 Independence
- 우리는 distribution을 가능한 다르게 만들어서 모든 disentangled latent spaces의 독립성을 향상시킨다.
- 즉 위에서 V,A,D로 분리해내는건 학습하는데 이 분포가 독립적이었으면 좋겠다는 것이다.
- 근데 꼭 독립적이어야 좋은건가? 연관성이 있을 수도 있지 않은가? (ablation study 필요)
- 흔한 방법은 spaces의 각 쌍사이의 Mutual Information (MI)을 최소화하는 것이다.
- latent varibales의 각쌍 사이의 conditional distribution은 또한 우리의 케이스에서는 사용불가능하다.
- 그래서, 우리는 Variational Contrastive Logratio Upper-Bound (vCLUB)을 활용해서 MI을 추정한다.
- 추가적인 supervision signals가 소개되지 않았기 때문에, 우리는 모델이 여전히 각 latent space의 독립성에 대한 trade-off로써 비슷한 성능을 달성할 것으로 예상한다.
- 근데 굳이 이를 왜 학습하지?
- 어차피 V,A,D 의 레이블 학습을 그대로 학습하는 것일텐데
- 특히, 우리는 estimator로써 feed-forward neural network을 별도로 사용해서 VAD variables에서 각 쌍의 conditional distribution을 근사화한다.
- P(Rˆi |Rˆj ) 여기서 i != j이고 매개변수는 각 time step에서 VAD-VAE와 함께 업데이트됩니다.
- 각 쌍 Rˆi, Rˆj ∈ {V, A, D} 사이의 편향되지 않은 vCLUB 추정값을 합산하여 training objective로 MI minimisation 손실을 얻습니다.
- where δij denotes the parameters of the corresponding estimator.
- 이거 계산도 식 4처럼, z을 가우시안 분포라고 생각하고 계산하는건가?
- The detailed proof of Eqn. 7 is in Appendix B.
3.4 Model Training
- DER 작업의 경우 concatenated latent representation zi를 사용하여 final classification probability을 계산합니다.
- Then we compute the DER loss LDER using standard cross-entropy loss:
- where yji and yˆji are j-th element of yi and yˆi .
- 결국 감정 인식은 이걸로 학습되는 건데 z^R을 concat한 z을 MLP을 통해 감정분류하도록 됨
- 근데 생각해보면, VAD가 잘구분되면 이거자체로 그냥 바로 감정 매핑이 1-1로 될거 같은데?
- Finally, we combine all proposed modules and train in a multi-task learning manner:
4 Experimental Settings
4.1 Benchmark Datasets
- We evaluate our model on the following three benchmark datasets:
- IEMOCAP (Busso et al., 2008):
- An acted two-party multi-modal conversation dataset.
- The pre-defined categorical emotion labels are neutral, sadness, anger, happiness, frustrated, excited.
- Train/Val/Test split is 100/20/31 and 49.2 utterances per dialogue on average.
- MELD (Poria et al., 2019a):
- A multi-modal dataset collected from the TV show Friends.
- The pre-defined emotion labels are neutral, sadness, anger, disgust, fear, happiness, surprise.
- Train/Val/Test split is 1,038/114/280 and 9.6 utterances per dialogue on average.
- DD (DailyDialog) (Li et al., 2017):
- From human-written daily conversations with only two parties involved.
- The pre-defined emotion labels are neutral, happiness, surprise, sadness, anger, disgust, fear.
- Train/Val/Test split is 11,118/1,000/1,000 and 7.9 utterances per dialogue on average.
4.2 Baseline Models
- We select the following baseline models for comparison:
- TL-ERC (Hazarika et al., 2021):
- 이 방법은 대규모 대화 데이터에 대해 인코더-디코더 아키텍처를 사전 훈련한 다음 가중치를 DER로 전송합니다.
- BERT-Large (Devlin et al., 2019):
- 사전 훈련된 BERT-Large 가중치에서 초기화한 다음 DER에 대해 미세 조정합니다.
- DialogXL (Shen et al., 2021a):
- PLM 기반 모델은 화자 종속성을 모델링하기 위해 대화 인식 셀프 어텐션을 사용합니다.
- DAG-ERC (Shen et al., 2021b):
- RoBERTa-Large를 기반으로 하는 이 모델은 대화에 방향성 비순환 그래프(DAG)를 구축합니다.
- SKAIG (Li et al., 2021):
- 이 작업은 대화에 그래프를 만들고 심리적 지식을 활용하여 가장자리 표현을 풍부하게 합니다.
- COSMIC (Ghosal et al., 2020):
- 대화 시퀀스 기반 구조로 화자의 심리 상태를 모델링하기 위해 발화 수준의 심리 상태 지식을 도입합니다.
- Dis-VAE (Ong et al., 2022):
- 이 작업은 VAE를 활용하여 감독되지 않은 방식으로 담화 정보를 모델링합니다.
- SGED (Bao et al., 2022):
- 이 방법은 DER에 대한 화자 정보를 활용하기 위한 화자 안내 인코더-디코더 프레임워크를 제안합니다.
- CoG-BART (Li et al., 2022):
- BART-Large를 기반으로 하는 이 작업은 발화 표현을 향상시키기 위해 대조 학습 및 응답 생성 작업을 활용합니다.
- CoG-BART는 DER에 대해 BART 인코더와 디코더를 모두 사용하지만 우리 모델은 인코더 부분만 사용하므로 사용된 매개변수의 수가 비슷하고 비교가 대부분 공정합니다.
4.3 Implementation Details
- 모든 실험은 80GB 메모리의 단일 Nvidia 441 Tesla A100 GPU를 사용하여 수행합니다.
- 우리는 모든 PLM의 사전 훈련된 가중치를 초기화하고 Huggingface에서 제공하는 토큰화 도구를 사용합니다(Wolf et al., 2019).
- AdamW 옵티마이저(Loshchilov and Hutter, 2019)를 활용하여 모델을 훈련합니다.
- 모든 하이퍼 매개변수는 검증 세트에서 조정됩니다.
- MELD 및 IEMOCAP에 대한 평가 지표로 가중 F1 측정을 사용합니다.
- "중립"이 DD의 대부분을 차지하므로 이 데이터 세트에 micro-F1을 사용하고 이전 작업에서와 같이 결과를 계산할 때 "중립" 레이블을 무시합니다(Shen et al., 2021b; Li et al., 2022).
- 보고된 모든 결과는 무작위 실행 5회의 평균입니다.
- 자세한 내용은 부록 C에 있습니다.
5 Results and Analysis
5.1 Overall Performance
- VAD-VAE의 성능과 표 1의 세 가지 벤치마크 데이터 세트에 대한 기본 모델을 제시합니다.
- 결과에 따르면 BERT-Large 및 DialogXL은 모든 데이터 세트에서 TL-ERC를 능가하여 처음부터 사전 학습하는 RNN 기반 모델에 비해 PLM 기반 방법의 이점을 보여줍니다.
- COSMIC은 컨텍스트를 풍부하게 하기 위해 정신 상태 정보를 명시적으로 도입하고 단순 컨텍스트 데이터 세트 MELD 및 DD에서 성능이 크게 향상됩니다.
- Dis-VAE 및 SGED는 화자 관련 정보를 암시적으로 도입하고 IEMOCAP에서 68% 이상을 달성합니다.
- 발화 표현을 향상시키기 위해 DAG-ERC 및 SKAIG는 대화 수준 그래프를 구축하여 컨텍스트 모델링에 대한 사전 정보를 도입하고 모든 데이터 세트에서 잘 수행됩니다.
- CoG-BART의 경쟁력 있는 성능은 대조 학습 및 응답 생성의 효율성도 입증합니다.
- 전반적으로 VAD-VAE는 IEMOCAP에서 70.22%, MELD에서 65.94%, DD에서 62.14%의 새로운 최첨단 성능을 달성합니다.
- 우리 모델은 IEMOCAP에서 4.04%, CoG-BART에 비해 DD에서 5.85% 향상을 달성하여 응답 생성에 비해 VAE 기반 대상 발화 재구성의 이점을 보여줍니다.
- 부록 D에서 이 이점을 자세히 조사하기 위한 사례 연구를 제공합니다.
- 또한 우리의 방법은 NRC-VAD 정보를 도입하고 여러 강력한 지식 도입 방법을 능가합니다.
- 예를 들어 VAD-VAE는 IEMOCAP 및 DD 모두에서 COSMIC보다 4% 이상 성능이 우수하며 RoBERTa-Large를 발화 인코더로 활용하고 정신 상태 지식을 도입합니다.
- 이러한 이점은 VAD 감독 신호의 효율성을 반영합니다.
5.2 Ablation Study
- 각 모듈의 효과를 검사하기 위해, 우리는 table 3에서 ablation study을 제공한다.
- - 가 모듈을 삭제한 것을 말한다.
- vCLUB은 MI minimisation 모듈들을 가리킨다.
- VAE Decoder은 target utterance reconstruction을 위한 VAE decoder 모듈을 가리킨다.
- “V Sup.”, “A Sup.”, and “D Sup.”은 Valance, Arousal, Dominance에 해당하는 supervision을 가리킨다.
- “Utter. Encoder”은 바로 DER을 utterance encoder을 학습한 것을 가리킨다.
- roberta fine-tuning하고 같은 것인가?
- 결과에 따르면 VAD-VAE는 "-vCLUB"와 유사한 성능을 달성했으며 이는 초기 가설과 일치합니다.
- "-VAE Decoder"를 사용하면 모든 데이터 세트에서 성능이 크게 떨어지고 대상 발화 재구성 작업의 효율성을 나타냅니다.
- "-V, A, D Sup"은 NRC-VAD 감독 신호가 DER 성능을 향상시키기 위한 적절한 정보를 제공한다는 것을 보여주면서 모든 데이터 세트에서 상당한 하락을 초래합니다.
- V, A 및 D를 개별적으로 제거하는 비교에서 모든 데이터 세트에서 "D Sup" 또는 "A Sup"을 제거할 때 성능이 가장 많이 떨어집니다.
- 유사한 감정은 주로 Arousal과 Dominance에서 다르기 때문에 우리 모델은 유사한 감정을 구별하기 위해 A와 D의 세분화된 정보에서 더 많은 이점을 얻습니다.
5.3 Disentanglement Evaluation
- 우리는 VAD disentanglement 향상에 대한 VAD 감독 신호(L_INFO) 및 MI 최소화(L_MI)의 효과를 분석합니다.
- 표 2에는 잠재적 표현에서 예측된 VAD 점수와 세 가지 테스트 세트 모두에 대한 NRC-VAD의 감독 신호 사이의 Pearson’s Correlation Coefficients(PCC)가 나와 있습니다.
- L_INFO가 없으면, NRC-VAD 데이터를 안쓴 것이기 때문에, 사실상 V,A,D가 잘 구분안되는거 같다.
- MI 관점에서는 L_MI가 생기면 확줄어즌다.
- 값이 높을수록 더 정확한 예측을 나타내며 더 나은 정보성을 나타냅니다.
- 또한 각 테스트 세트의 VAD 잠재 분포 간 MI의 평균 vCLUB 추정치를 제공하며 값이 낮을수록 MI 상한의 추정치가 낮고 독립성이 우수함을 나타냅니다.
- 또한 부록 E에서 DER과 독립성 성능 간의 균형을 조사합니다.
5.3.1 Informativeness
- 결과에 따르면 이 모델은 VAE 재구성 손실(L_ELBO) 또는 L_MI가 도입된 모든 데이터 세트(대부분의 경우 PCC가 0.2 미만)에서 성능이 좋지 않습니다.
- VAD features은 특정 감독 없이 콘텐츠 공간에 내장될 수 있기 때문입니다.
- 우리는 L_INFO를 사용하여 VAD에 대한 정보성에서 상당한 개선을 관찰했으며, 이는 IEMOCAP의 경우 0.5 PCC 이득, MELD 및 DD의 경우 0.3 이상의 PCC 이득을 가져옵니다.
- 이러한 결과는 NRC-VAD 감시 신호의 효율성을 반영합니다.
- L_INFO 외에도 L_MI는 대부분의 경우 PCC 점수를 더욱 향상시키며, 이는 MI 최소화가 VAD 표현의 정보성 향상에도 어느 정도 도움이 된다는 것을 보여줍니다.
- MI을 학습해서 얻을 수 있는 이점
5.3.2 Independence
- 모든 데이터 세트에 대해 vCLUB estimates는 VAE의 unified distributed representation이 각 부분 간의 강력한 상관 관계를 장려하기 때문에 L_ELBO만 도입된 상태로 높게 유지됩니다.
- L_INFO를 사용하면 MELD 및 DD에서 훨씬 더 높은 vCLUB를 관찰할 수 있습니다.
- 이 경우 우리 모델은 정보성에 대해서만 최적화되어 있으며 모든 잠재 공간을 최대한 활용하여 높은 MI로 이어집니다.
- L_INFO을 사용한다는 것은 V,A,D 분리되게 학습된다는 것이고 MI는 고려하지 않는 것
- 모든 데이터 세트에서 vCLUB이 가장 낮은 L_MI만 소개합니다.
- 그러나 Informativeness에서 나쁜 성능을 달성합니다.
- L_MI와 L_INFO를 모두 사용하면 VAD-VAE는 VAD 예측에서 최상의 결과를 얻을 뿐만 아니라 L_INFO와 비교하여 vCLUB를 크게 줄여 정보성과 독립성 간의 만족스러운 균형을 보여줍니다.
- 하지만 테이블 3처럼 vCLUB은 감정인식에 크게 영향을 미치지 않는다.
- 즉 V,A,D가 독립성을 가진다고 감정 인식에 효과적인건 아닌거 같은데..?
5.4 VAD Visualisation
- disentangled representations에 대한 보다 해석 가능한 분석을 수행하기 위해 그림 3의 네 가지 대표적인 감정에 대한 (IEMOCAP 테스트 세트에서) VAD representations의 UMAP 시각화와 표 4의 해당 NRC-VAD 할당을 제시합니다.
- 테스트세트들에 대해 모델이 뽑은 V,A,D point을 찍은 것인가?
- 그림과 같이 Valance와 Dominance의 경우 긍정적인 감정과 부정적인 감정이 잘 분리되어 있고 한 극성 내의 감정이 중첩됩니다.
- Arousal의 시각화에서 "행복", "흥분" 및 "좌절"은 가까이 있고 "슬픔"은 떨어져 있습니다.
- 이러한 관찰은 본질적으로 NRC-VAD 할당과 일치하며 학습된 VAD 표현의 품질을 추가로 나타냅니다.
- 또한 각 감정의 분포는 continuity과 completeness의 조건을 보여준다.
- 향후 작업에서는 정서적 텍스트 생성 작업에서 VAD-VAE의 잠재력을 탐색할 것입니다.
- categorical 감정을 제어하는 이전 작업과 달리 우리 모델은 V, A 및 D를 별도로 조정하여 보다 세분화된 감정을 제어할 수 있습니다.
5.5 Robustness Evaluation
- 그림 4에서는 훈련 레이블의 백분율(0% ~ 50%)을 임의로 잘못된 레이블로 대체한 다음 VAD-VAE와 일반 VAE 방법의 성능 감소율을 비교하여 분리된 표현의 견고성을 평가합니다.
- performance decrease rate: For α% replacement, the rate is computed as (F1 f or α% replacement)/(F1 f or 0% replacement)
- 즉 랜덤 레이블이 증가했을 때, VAD-VAE가 좋다는 것을 말한다.
- VAD로 분리해서 학습하기 때문에 성능 감소가 덜하다는 것인가?
- 추가적으로 랜덤 레이블말고, 학습 데이터의 수를 줄여보는게 어떨까?
- Higher rates는 더 나은 성능과 더 견고함을 나타냅니다.
- 결과에 따르면, 모든 데이터 세트에서 disentangled VAD representations은 entangled representations보다 더 높은 성능 감소율을 달성합니다.
- 예를 들어, VAD-VAE는 모든 label replacement percentages(주황색 음영 영역)에서 평균 12.24% VAE를 능가합니다.
- 50%의 임의 라벨 교체로 VAD-VAE는 모든 테스트 세트에서 75% 이상의 성능을 유지하는 반면 VAE의 성능은 모두 70% 미만으로 떨어집니다.
- 이러한 결과는 VAD-VAE가 훈련 중에 더 높은 수준의 잘못된 정보를 허용할 수 있음을 보여 주며, 이는 entangled representations에 대한 disentangled VAD representations의 견고성을 나타냅니다.
- 가능한 이유는 다른 기능이 오해의 소지가 있을 때 추론 중에 유용한 지침을 제공하는 VAD 정보를 추출하도록 분리된 표현이 명시적으로 훈련되었기 때문입니다.
6 Conclusion
- 이 논문은 대화 감정 인식을 위한 VAD-VAE을 제안한다.
- 우리는 VAE와 disentangle 3 feature Valance, Arousal, Dominance을 통한 auxiliary target utterance reconsturction task을 소개한다.
- VAD supervision signals과 mutual information minimisation task은 disentangled representations을 강화하도록 활용된다.
- 실험들은 VAD-VAE가 3 DER datasets에서 SoTA을 달성하고 적절하게 분리된 VAD representations을 학습한다.
- 추후, 우리는 affective text generation을 위한 VAD-based fine-grained emotion control 을 탐구할 것이다.
Reference
- https://arxiv.org/pdf/2305.14071.pdf
댓글
댓글 쓰기