NL-179, "We care": Improving Code Mixed Speech Emotion Recognition in Customer-Care Conversations, ARR Review 2304

◼ Comment

  • 논문의 퀄리티가 꽤 떨어지는 것 같다..
    • 그림도 aligin이 좀 안되고, 쪽수도 좀 부실하고
    • 노벨티도 거의 없는 듯하다.
  • contribution으로 주장하는 것은, SER 데이터를 만든다.
    • 다국어 데이터이다. (힌디어, 영어, 마라티어)
    • 이미있는 STT 모델로 음성을 text로 떨궜고, 이를 사람이 수정한 것 같다.
    • 이 데이터는 부정적인 감정을 도출하는데 효과적으로 사용될 수 있다고 주장하고 부정적인 감정을 잘 검출하면 고객 서비스츨면에서 효과적일 것이라고 말한다.
  • 모델 학습은 그냥 있는거 fine-tuning한것이다.
    • wave2vec이랑, bert을 각각 음성, 텍스트 feature 추출로 사용하고
    • NRC-VAD lexicon으로 단어레벨의 추가적인 feature vector을 뽑아서 사용한것으로 보인다.
    • 아무래도 다국어다보니, wave2vec이랑 bert가 multi-lingual 버전이어야 좋을텐데, 음성쪽은 다국어가 없어서 이 부분이 약점이라고 한다.
  • 다른 contribution은 NRC VAD을 이용해서 성능을 향상시켰다고 하는데, 이러한 연구가 없는 것도 아닌거 같은데 딱히 주장하는 바가 새 발견으로 보이진 않는다.
  • 그리고 음성, 텍스트간의 모달리티의 영향에 대한 추가적인 분석이 있으면 좋을 것 같다.

0 Abstract

  • Speech Emotion Recognition (SER)은 말한 발화에서 표현된 감정을 식별하는 테스크이다.
  • 감정인식은 law, healthcare, education, customer support와 같은 도메인에서 강력한 대화 에이전트를 구축하는데 필수적이다.
  • SER에서 퍼블리시된 대부분의 연구들은 noise-free 환경에서 전문 배우를 고용해서 생성된 데이터세트들을 사용한다.
  • 고객케어 대화와같은 자연스러운 세팅에서는, 화자들이 다른 언어들 사이를 바꿔가면서 audio가 자주 노이즈하다.
  • 우리는 Conversational AI sector에서 선도적인 유니콘과 함께 콜라보로 Natural Speech Emotion Dataset (NSED)을 개발한다.
  • NSED는 자연스러운 cond-mixed speech 감정 데이터세트로 대화속 각 발화가 emotion, sentiment, valence, arousal, dominance (VAD) 값들로 어노테이트된다.
  • 이 논문에서, 우리는 word-level VAD 값들을 결합하여, 우리는 SER의 테스크에서 NSER을 위한 베이스라인보다 negative emotions 에서 2% 성능을 향상시킨다.
  • complaints and dissatisfaction이 눈덩이처럼 불어나 통제 불능 상태가 되지 않도록 부정적인 의견이나 견해를 표현하는 고객을 긴급하게 진정시켜야 하므로 부정적 감정 인식에 대한 높은 정확도는 필수입니다. 
  • 부정적인 의견을 신속하게 에스컬레이션하는 것은 비즈니스 이익을 위해 매우 중요합니다. 
  • 이러한 상황에서 더욱 정중하고 공감할 수 있는 대화 에이전트를 개발하는 데 이번 연구가 활용될 수 있습니다.

1 Introduction

  • 대화에 효과적으로 참여할 수 있는 대화형 에이전트는 다양한 도메인들에서 많은 어플리케이션을 가진다.
  • Mensio은 대화형 에이전트를 위한 3가지 진화 단계를 논의한다.
    • textual interaction
    • vocal interaction
    • embodied interaction
  • 최근에, OpenAI에서 릴리즈한 ChatGPT는 LLM GPT3.5을 기반으로한 다국어 textual conversational model이다.
    • ChatGPT는 사전 학습 단계뿐만 아니라 대화 맥락에서 얻은 지식을 유지하면서 "후속 질문에 답하고, 실수를 인정하고, 잘못된 전제에 이의를 제기하고, 부적절한 요청을 거부"하는 작업을 효과적으로 수행할 수 있습니다. 
    • ChatGPT는 제로 샷 환경에서 다양한 작업에 대해 최첨단 LLM을 능가하는 성능을 보였습니다. 
    • 대화형 기능을 통해 요약 작업에서는 ChatGPT의 성능을 8% ROUGE-1, 기계 번역 작업에서는 2% ChrF++까지 향상시킬 수 있다는 사실이 밝혀졌습니다. 
    • 대화형 기능의 통합으로 ChatGPT는 법률, 의료, 금융, 교육 등 여러 영역에 걸쳐 기존 LLM을 뛰어넘는 애플리케이션으로 도약했습니다.
    • 많은 상황에서 음성 모달리티를 통한 대화는 텍스트 모달리티에 비해 유리하고 편리합니다. 
    • ChatGPT는 훌륭한 대화 에이전트이지만 텍스트 방식에서만 작동할 수 있습니다.
  • speech input을 취하여 공손하고 감정인 speech response을 줄 수 있는 (end-to-end 방법) 대화형 에이전트는, 대화형 챗봇의 다음단계의 진화이다.
    • ChatGPT와 같은 대화형 에이전트는 자연스럽게 공손하고 공감하는 응답들을 주기위해 human interlocuter의 감정을 올바르게 인식할 필요가 있다.
    • 챗봇이 감정 인식을 효율적으로 수행하면 대화가 더욱 사람과 비슷해집니다. 
    • 음성 감정 인식은 음성 대화 챗봇을 개발할 때 중요한 하위 작업입니다.
  • 우리의 구체적인 문제는 Speech Emotion Recognition (SER)을 해결하는 것이고, 여기서 자연스러운 code-mixed speech dataset에서  입력은 2명의 대화에서 발화의 raw audio가 입력이고, 출력은 해당하는 감정 label, valence, arousal, dominance이다.
  • SER(음성 감정 인식)은 음성 발화의 감정을 식별하는 작업입니다. 
  • Dimensional 모델은 arousal, dominance and valence의 세 가지 차원에 걸쳐 감정을 표시합니다. 
    • Arousal, valence and dominance은 각각 감정이 발휘하는 intensity, polarity 및 control을 나타냅니다. 
  • 예를 들어, 
    • 분노는 arousal이 높고, valence가 부정적이며, dominance이 높은 반면, 
    • 두려움은 arousal이 낮고, valence가 부정적이며, dominance이 낮습니다. 

  • Categorical 모델은 다양한 다운스트림 작업에 대해 분노, 행복, 슬픔과 같은 개별적인 감정 클래스를 정의합니다.
  • Our contributions are:
    • 1. A model trained on a natural code-mixed speech emotion dataset, Natural Speech Emotion Dataset (NSED), for the task of Speech Emotion Recognition (SER)
      • NSED has over 5000 conversational utterances annotated for emotion, sentiment, valence, arousal, and dominance.
    • 2. industry에서 단어 수준의 VAD 값을 통합하여 부정적인 감정에 대한 SER 성능을 2% 향상시키는 기술을 사용하고 있습니다. 
      • 부정적인 의견이나 견해를 표현하는 고객을 긴급하게 진정시켜 불만과 불만이 눈덩이처럼 불어나 통제 불능 상태가 되지 않도록 해야 하므로 부정적 감정 인식에 대한 높은 정확도는 필수적입니다. 
      • 부정적인 의견을 신속하게 에스컬레이션하는 것은 비즈니스 이익을 위해 매우 중요합니다.

1.1 Motivation 

  • SER은 연구자들에게 중요하면서도 어려운 과제였습니다. 
  • 음성만 전달할 수 있는 환경에서 인간과 기계가 상호 작용할 때마다 SER은 기계가 적절한 응답을 생성하기 위한 핵심 단계가 됩니다. 
  • 대화에서의 감정 인식(ERC) 작업에는 대화 상대방의 감정 상태를 설명하는 문맥, 주제, 논증 논리, 화자/청자 성격 등 많은 제어 변수가 있습니다.
  • 최근 연구(카타니아 및 가르조토, 2022)에서는 감정을 이해하고 표현하기 어려운 상태인 실어증을 가진 사람들을 돕기 위해 감정 인식 챗봇을 사용할 때의 이점에 대해 살펴봤습니다. 
    • 실어증은 신경발달장애(NDD)를 가진 사람들에게 흔합니다. 
    • 챗봇은 사용자에게 다양한 발화를 제공하고 기쁨이나 분노와 같은 감정을 유도하여 해당 발화를 모방하도록 요청했습니다. 
    • 사용자가 챗봇에 익숙해지면 챗봇과의 상호작용이 더욱 간단해지는 것으로 나타났습니다. 
    • 19명의 참가자 중 17명이 진행자의 도움 없이도 모든 감정 활동을 수행할 수 있었습니다.
  • 현재 사용 가능한 대부분의 SER 데이터 세트는 잡음이 없는 깨끗한 환경에서 전문 배우를 고용하여 만들어졌습니다. 
    • 자연스러운 환경에서는 대화가 즉흥적으로 이루어지며 힌디어, 영어, 마라티어 등 여러 언어 간에 코드 혼합과 코드 전환이 빈번하게 이루어집니다. 
  • 고객 관리 환경에서는 대화하는 상담원이 고객이 표현하는 감정에 예의를 갖추고 공감하는 것이 필수적입니다. 
    • 이는 전반적인 고객 만족도와 고객 유지율 향상으로 이어집니다.
  • 우리는 그들과 협력하여 음성 감정 인식을 연구하고 있습니다. 
  • 그들과의 논의를 통해 이 문제에 접근할 수 있는 다양한 방법을 모색했습니다. 
  • 그 결과 대화형 AI 분야에 존재하는 현실적인 과제를 명확하게 파악할 수 있었습니다. 
  • 몇 가지 주요 과제는 다음과 같습니다:
    • 잦은 코드 혼용, 저품질 녹음, 주석이 달린 자연스러운 대화 데이터 세트가 부족합니다.
  • 나중에 자세히 설명하겠지만, 실험을 위해 주석이 달린 데이터 세트인 NSED에는 고객 지원 서비스의 에스컬레이션 부서에서 발생한 고객 지원 대화가 포함되어 있습니다.
  • 부정적인 의견이나 의견을 표현하는 고객을 긴급하게 진정시켜 불만과 불만이 눈덩이처럼 불어나 통제 불능 상태가 되지 않도록 해야 하므로 부정적인 감정 인식을 위한 높은 정확도는 필수적입니다. 
    • 부정적인 의견을 신속하게 에스컬레이션하는 것은 비즈니스 이익을 위해 매우 중요합니다. 
    • 이는 에스컬레이션 부서에서 작동하는 음성 감정 인식 모델이 대화에서 부정적인 감정을 감지하는 데 매우 뛰어나야 한다는 것을 말해줍니다.
    • 고객 응대를 할 때 불만을 잘 접수해서 조기에 처리하기 위해서 부정적인 감정을 잘 캐치해야한다.
    • 그러기 위해서 즉흥적인? 대화 데이터가 필요하고, 이는 다양한 언어로 (힌디어, 영어, 마라티어 등) 구성될 수 있다.
    • 따라서 이를 위한 데이터를 만들었다고 한다.
    • 이전까지는 전문 배우를 고용하여 만들어진 데이터밖에 없기 때문에 잡음이 없고 깨끗한 환경의 데이터세트만 있는 것이다.
  • 문맥 정보를 잘 포착할 수 있고 자연어 코드가 혼합된 대화 데이터 세트에서 발생하는 변형에 강한 SER 모델을 개발해야 합니다. 
  • 이 모델은 에스컬레이션 부서 환경에서 음성 대화 상담원이 더욱 정중하고 공감할 수 있도록 만드는 데 활용될 수 있습니다.
    • 그림 설명 없음

2 Related work

  • 전통적으로 음향 음성 특징은 SER 작업에 통계적 머신러닝 모델과 함께 사용되어 왔습니다(Schuller et al., 2003). 
  • 그러나 특정 작업에 대해 이러한  low-level features의 적절한 조합을 선택하려면 많은 도메인 지식이 필요합니다. 
  • ASR과 같은 다른 음성 처리 작업을 위해 훈련된 사전 학습된 딥러닝 기반 모델을 SER에 맞게 미세 조정하여 더 나은 결과를 얻었습니다(Lu et al., 2020). 
  • 최근에는 음성 인식을 위해 적절한 음성 표현을 자동으로 학습하는 Wav2Vec 2.0과 같은 자가 지도 기술이 등장했습니다.
  • Pepino(2021)에서는 음성 감정 인식을 위한 다운스트림 모델에서 Wav2Vec 2.0의 학습된 음성 표현을 활용합니다.
  • 제안된 모델은 IEMOCAP(Busso 2008) 및 RAVDESS(Livingstone and Russo, 2018) 데이터 세트에 대해 최신 기술을 능가하는 성능을 보였습니다. 
    • 이 연구는 또한 low-level acoustic features과 Wav2Vec 2.0 음성 표현을 결합하면 성능이 향상된다는 것을 보여주었습니다. 
    • 즉, low-level feature과 pretrained model feature을 함께 사용해서 성능을 향상 시킨듯 함
  • Poria(2019)에서는 대화에서 emotional shift를 감지하는 것이 여전히 SER의 병목 현상임을 보여주었습니다. 
    • Tian(2015)에서는 비언어적 특징을 low-level descriptors와 결합하여 IEMOCAP 데이터 세트의 대화 대화에서 감정 인식 성능을 개선했습니다.
    • Vaudable과 Devillers(2012)에서는 부정적인 감정이 콜센터 대화의 품질에 미치는 영향을 조사했습니다. 
    • 한 연구에 따르면 turn number, 대화 주제 광고 고객/상담원 응답 시간과 같은 대화 기능을 포함하면 텍스트 기반 감정 인식 시스템의 성능을 크게 향상시킬 수 있습니다(Herzig et al., 2016). 
    • Han (2020)은 SER에 대한 categorical SER 작업을 ordinal SER 작업으로 변환함으로써 고객 관리 통화에 대한 성능을 향상시킬 수 있음을 보여주었습니다. 
    • Deschamps-Berger(2022)는 Wav2vec2-xlsr-53(음성용) 및 FlauBERT(텍스트용)와 같은 트랜스포머 기반 아키텍처를 사용하면 기준선보다 성능 정확도가 20% 이상 향상된다는 것을 보여주었습니다. 
    • Late fusion of speech and text features은 SER 작업에서 성능 향상을 보여주었습니다. 
    • 쿨카르니와 바타차르야(2021)는 VAD values을 word-embeddings에 개조함으로써 감정을 더 잘 인식하는 임베딩을 생성할 수 있음을 보여주었습니다. 
    • 최근 연구에 따르면 감정 인식을 주 작업으로 하고 intensity 예측을 보조 작업으로 하는 muti-task framework와 VAD 값을 활용하면 자살 메모에 대한 감정 인식 성능이 향상되는 것으로 나타났습니다(Ghosh 2023). 
  • 오늘날에는 Wav2vec2 및 BERT와 같은 트랜스포머 기반 아키텍처를 사용하고 서로 다른 성격의 features을 융합하면 SER에 가장 적합한 결과를 얻을 수 있습니다.

3 Modeling

  • 우리 모델은 아래의 argmax 방정식을 사용하여 수학적으로 나타낼 수 있습니다.
  • 여기서 E*은 feature set, <F>, 발화의 word-level VAD values, <VAD>가 주어졌을 때, 함수 확률을 최대화하는 감정클래스이다.
  • 우리의 작업은 feature set <VAD>를 포함하면 natural code-mixed dataset에 대한 SER의 성능이 향상된다는 것을 보여주는 것을 목표로 합니다.

4 Block Diagram and Architecture

  • 그림 2는 제안하는 기법의 전체적인 구조를 보여준다. 
  • 음성 기반 기능은 Wav2Vec2 모델을 사용하여 추출됩니다.
  • 다국어 BERT 모델을 사용하여 ASR 성적표에서 텍스트 기능을 추출합니다. 
  • Word-level valence, arousal, and dominance (VAD) values은 NRG-VAD lexicon을 사용하여 ASR transcripts에서 추출됩니다.
  • 일단 추출된 이러한 모든 feature은 함께 융합되어 BiLSTM 모델에 입력됩니다.
  • 그런 다음 softmax 레이어와 함께 완전히 연결된 레이어를 사용하여 최종적으로 예측된 감정을 생성합니다.

5 Datasets

  • 감정 인식을 위해 고객 관리 대화를 녹음하고 주석을 달았습니다.
  • 이어지는 주석 방법론은 아래에 설명되어 있습니다.

5.1 Natural Call Center Speech Emotion Dataset

  • NSED(Natural Speech Emotion Dataset)는 업계 파트너와 협력하여 생성된 코드가 혼합된 일대일 고객 관리 대화 데이터 세트입니다.
  • 다음은 이 데이터 세트를 만드는 단계입니다.
  • Data Recording: 
    • 당사의 업계 파트너는 몇 초에서 약 1시간에 이르는 길이의 18,000개 이상의 2쌍 고객 관리 오디오 녹음과 해당 기계 생성 텍스트 기록을 제공했습니다.
    • 모든 오디오 녹음은 샘플링 속도가 8000Hz인 단일 채널(모노)이었습니다.
    • 대화는 고객과 자동차 서비스 회사의 불만 에스컬레이션 팀의 고객 관리 임원 간의 상호 작용입니다.
    • 대부분의 오디오 녹음에서 두 화자는 마라티어와 같은 언어로 된 지역 단어를 가끔 사용하면서 힌디어와 영어 사이를 자유롭게 전환합니다.
  • Data Processing: 
    • 30개의 오디오 녹음이 선택되었으며, 각각은 8-10분 길이로 총 4.5시간 길이의 오디오 녹음이 되었습니다.
    • audacity 도구는 오디오 파일을 처리하는 데 사용되었습니다.
    • 이러한 각 오디오 녹음은 각 말하기 차례에 해당하는 더 작은 오디오 클립으로 잘렸습니다.
    • 말하기 차례는 다른 화자가 말하기 전과 후에 특정 화자에 해당하는 발화로 정의됩니다.
    • 그런 다음 각 오디오 클립을 해당 machine-generated transcripts과 정렬하고 말하는 사람에 따라 "고객" 또는 "임원"으로 태그를 지정했습니다.
    • 기계로 생성된 녹취록에는 "escalation"이라는 단어를 "cancellation"으로 잘못 표기하는 등 결정적인 오류가 많이 포함되어 있습니다.
    • 따라서 더 나은 텍스트 데이터 품질을 얻기 위해 성적표를 수동으로 수정했습니다.
    • 어떤 경우에는 오디오 품질이 급격히 떨어지며 말하는 단어를 이해하기가 매우 어렵습니다.
    • 이 경우, 해당 사본 대신 태그가 사용되며 추가 주석이 수행되지 않습니다.
    • 즉 AI STT로 자막떨구고 수동으로 수정했다, 알아듣기 말과 너무 이상한 대본은 tag?가 사용된다
  • Emotion Annotation: 
    • 감정 주석은 영어와 힌디어에 능통한 대학원 학위를 가진 4명의 주석자가 수행했습니다.
    • 주석 작성자는 쌍으로 작업하여 이 클립을 듣고 emotion (중립, 행복, 슬픔, 흥분, 분노, 두려움, 놀람, 좌절, 혐오), sentiment (중립, 긍정적, 부정적), valence, arousal and dominance (VAD)로 주석을 달았습니다. .
    • VAD 값은 (5, 5, 5)가 완전히 중립적인 감정의 VAD 값에 해당하는 1에서 10까지의 척도로 주석을 달았습니다.
    • VAD의 경우 1은 최소값을 나타내고 10은 차원이 가질 수 있는 최대값을 나타냅니다. 
    • valence의 경우 1은 가장 부정적인 감정을 나타내고 10은 모든 감정이 얻을 수 있는 가장 긍정적인 감정을 나타냅니다.
    • VAD 차원 모델을 사용하여 1000개의 감정을 표현할 수 있고 범주형 감정 모델을 사용하여 9개만 표현할 수 있으므로 "중립" 태그가 지정된 모든 발화가 (5, 5, 5)의 VAD 값을 갖는 것은 아닙니다.
    • 각 쌍은 그들 사이의 일치를 계산하기 위해 동일한 데이터에 주석을 달았습니다.

6 Methodology

  • 텍스트 기능, Wav2vec2 features및 word-level VAD values이 추출되고 함께 융합됩니다.
    • word-level VAD는 추출하는 방법이 뭐지?
    • 위에보면 NRG-VAD을 이용해서 추출한다고 하는데
  • Indic-Wav2Vec2는 768차원 벡터를 구성하는 음성 특징을 추출하는 데 사용됩니다. 
  • Whisper-large(Radford 2022)는 대화의 각 발화에 대한 transcripts를 생성하는 데 사용됩니다.
  • 다국어 BERT 모델은 각 발화에 대한 텍스트 임베딩을 생성하여 768차원 벡터를 생성하는 데 사용됩니다.
  • 그런 다음 융합된 기능은 BiLSTM 레이어와 완전 연결 레이어를 통과합니다.
  • 마지막으로 발화에 해당하는 감정을 예측하는 데 소프트맥스 레이어가 사용됩니다.
  • 음성 특징을 추출하기 전에 wav2vec2 아키텍처는 아래 설명된 대로 지속적으로 사전 훈련됩니다.
    • 이 그림 설명이 없음

6.1 Pre-training Wav2Vec2

  • 데이터 주석은 업계 파트너가 제공하는 레이블이 지정되지 않은 전체 음성 데이터 세트(최대 18000개의 고객 관리 오디오 파일)에 대해 수행할 수 없는 비용 집약적인 작업입니다.
  • Wav2vec2는 원시 오디오 신호에서 음성 표현을 직접 학습하는 자체 감독 음성 모델입니다.
  • 이러한 음성 표현은 여러 음성 처리 작업에 매우 유용한 것으로 나타났습니다.
  • Wav2vec2는 52,0000시간 분량의 Librispeech 데이터 세트에서 사전 훈련을 받았습니다. 그 이유는 이미 해당 데이터 세트에 있는 음성의 다양한 특성을 학습했기 때문입니다.
  • 데이터 세트에 대한 더 나은 표현을 얻기 위해 레이블이 지정되지 않은 자체 음성 데이터 세트로 사전 훈련 단계를 계속하는 연속 사전 훈련이라는 기술을 적용합니다.
  • Kessler(2022)는 wav2vec2 아키텍처에 대한 어댑터 기반 연속 사전 훈련 접근 방식을 사용하여 계산 비용을 크게 줄인다는 것을 보여줍니다.
  • 레이블이 지정되지 않은 NSED 데이터 세트를 사용하여 Wav2vec2 아키텍처를 사전 훈련하기 위해 유사한 접근 방식을 사용합니다.
  • 사전 교육 후 Wav2Vec2 아키텍처는 NSED가 지속적인 사전 교육 유무에 관계없이 SER의 성능을 평가하도록 미세 조정됩니다.
  • 표 2는 Wav2Vec2-xlsr 및 Indic-Wav2Vec2에 대한 중립 클래스에 대한 정밀도와 부정 및 긍정적 감정에 대한 가중 평균 정밀도를 보여줍니다.
  • Indic-Wav2Vec2는 지속적인 사전 훈련으로 최고의 성능을 제공합니다.
  • 우리는 이 지속적으로 사전 훈련된 indic-wav2vec2 모델을 실험에 사용합니다.

7 Experimental Setup

  • NSED 데이터 세트는 각각 80%, 10% 및 10%의 비율로 학습, 개발 및 테스트 세트로 분할되었습니다. 
  • 각 실험 실행에서 데이터 세트는 모델에 공급하기 전에 다른 seed 값과 섞였습니다.
  • NViDia RTXA6000 GPU는 모든 실험에 사용되었습니다.
  • 단일 실험 실행을 완료하는 데 약 1시간이 걸렸습니다.
  • 랜덤 검색 기법을 사용하여 하이퍼 매개변수 튜닝을 수행했습니다.
  • 부정적인 감정에 대해 전반적으로 최고의 성능을 제공하는 하이퍼 매개변수가 결국 사용되었습니다.
  • 이 논문에 나타난 결과는 weighted-average precision 측면에서 부정적인 감정에 대한 최상의 실험 실행 성능을 제공합니다.

8 Results and Analysis

  • Table 3 gives the performance of the BiLSTM model using different types of features. 

8.1 Analysis 

  • Wav2Vec2(W) 기능을 사용하는 것만으로 우리 모델은 모든 부정적인 감정에 대해 평균 0.61의 정확도를 달성합니다.
    • 이것은 우리 실험의 기준선을 형성합니다.
  • Wav2Vec2(W)와 텍스트 BERT(T) 기능이 함께 연결되면 모델은 모든 부정적인 감정에 대해 0.64의 가중 평균 정확도를 달성합니다.
    • 이것은 텍스트의 특징이 speech의 특징에만 없는 부가적인 감정 정보를 가지고 있음을 보여준다.
  • NRG-VAD 어휘집에서 추출한 단어 수준 VAD 값(VAD)을 Wav2Vec2(W) 및 텍스트 BERT(T) 기능과 함께 연결하면 모든 부정적 감정에 대해 가중 평균 정밀도가 0.66으로 2% 향상되는 것을 확인할 수 있습니다. 
  • 이는 단어 수준의 VAD 값을 활용하여 부정적인 감정에 대한 SER 모델의 성능을 개선할 수 있음을 보여줍니다.
    • 중립 감정 클래스의 경우 모든 모델이 90% 이상의 정밀도를 달성합니다.
    • 긍정적인 감정에 대한 결과는 만족스럽지 못하며 제안된 모델은 모든 긍정적인 감정에 대해 0.16의 가중 평균 정확도를 제공합니다.
    • 왜 부정적인 감정에 대해서만 성능이 올라가는지 분석이 필요
  • 이는 NSED에서 긍정적인 감정을 가진 발화의 양이 적기 때문일 수 있습니다.
  • 우리 모델의 성능은 긍정적인 감정에 대해서는 좋지 않지만 부정적인 감정에 대해서는 잘 수행됩니다. 
  • 고객이 일반적으로 제품이나 서비스에 만족하지 않는 고객 통화 대화를 처리하기 때문에 이상적입니다.
    • 부정적인 서비스가 목표라면, 왜 세부적인 부정적인 감정이 필요한가?
    • binary classification으로 접근해도 되는것 아닌가?

8.2 Challenges

  • 우리는 code-mixed speech dataset를 다루는 동안 예상할 수 있는 많은 문제에 직면했습니다.
  • 몇 가지 과제는 다음과 같습니다.
  • Audio Quality: 
    • 오디오 녹음의 품질이 좋지 않아 작업이 더욱 어려워졌습니다.
    • 네트워크 불규칙성으로 인해 많은 녹음의 오디오 품질이 급격히 떨어져 주석 작성자가 제대로 주석을 달기가 어렵습니다.
    • 통화 녹음은 두 사람이 동시에 말할 경우 오디오 클립을 분리하기 어려운 단일 채널 형식(모노)으로 생성되었습니다.
  • Transcription Errors: 
    • 우리의 ASR 모델은 음성 발화에 대한 일관된 전사를 생성하기 위해 지속적인 code-switching 및 시끄러운 환경으로 어려움을 겪었습니다.
    • 그런 다음 이러한 오류는 잘못된 텍스트 임베딩 및 누락된 단어 수준 VAD 값으로 반영되었습니다.
  • Neutral Utterances:
    • 표 1에서 볼 수 있듯이 데이터 세트에 있는 발화의 61%는 본질적으로 중립적입니다.
    • 이 때문에 우리 모델은 다른 감정 클래스보다 중립 클래스를 예측하는 데 더 편향되었습니다.
  • Frequent code-mixing and code-switching: 
    • Code-mixing and code-switching으로 인해 좋은 features을 추출하기가 어렵습니다.
    • 음성 입력의 경우 힌디어+영어 코드 혼합 데이터에 미세 조정된 Wav2vec2 모델이 없습니다.
    • 힌디어로 미세 조정된 다국어 모델 Wav2vec2-xlsr-53이 음성 표현을 생성하는 데 사용되었습니다.
    • ASR 이후에 생성된 텍스트는 힌디어로 음역되었습니다.
    • 다국어 BERT-large 모델은 음역된 힌디어 텍스트에 대한 텍스트 임베딩을 생성하는 데 사용되었습니다.
    • 이 음역된 힌디어 텍스트는 단어 수준의 VAD 값을 찾는 데에도 사용되었습니다.
    • 음역이 병목 현상으로 인해 NRC-VAD 어휘집에서 많은 단어에 대한 VAD 값을 찾을 수 없었습니다.
    • NRC-VAD lexicon에 없는 단어는 VAD을 어떻게 처리했는가?

9 Conclusion and Future Work

  • 이 논문에서는 NSED(Natural Speech Emotion Dataset)의 SER에 단어 수준 VAD 값을 통합하는 효과에 대해 논의했습니다.
  • 또한 NSED 생성과 관련된 단계도 설명했습니다.
  • 잦은 code-mixing 및 노이즈 환경은 자연 데이터 세트에서 SER을 수행하는 데 있어 가장 큰 문제입니다.
  • 단어 수준의 VAD 값을 통합함으로써 우리는 부정적인 감정에 대한 SER의 기준선보다 2%의 개선을 달성할 수 있었습니다.
  • 앞으로 우리는 모든 감정이 실질적인 예를 가질 수 있도록 이 데이터 세트를 확장하기를 기대합니다.
  • 당사의 SER 시스템은 좌절/화난 고객을 진정시키기 위해 정중하고 공감적인 진술을 생성하는 대화형 에이전트를 개발하는 데 사용할 수 있습니다.
  • SER에 대한 다양한 감독되지 않은 기술을 탐색할 수 있습니다.
  • 이를 통해 주석 비용을 줄일 수 있습니다.
  • 음성 기반 데이터 증대 기술을 사용하여 사용 가능한 데이터의 양을 늘릴 수도 있습니다.
Reference
  • https://arxiv.org/pdf/2308.03150.pdf

댓글