◼ Comment

논문의 퀄리티가 꽤 떨어지는 것 같다..

그림도 aligin이 좀 안되고, 쪽수도 좀 부실하고
노벨티도 거의 없는 듯하다.

contribution으로 주장하는 것은, SER 데이터를 만든다.

다국어 데이터이다. (힌디어, 영어, 마라티어)
이미있는 STT 모델로 음성을 text로 떨궜고, 이를 사람이 수정한 것 같다.
이 데이터는 부정적인 감정을 도출하는데 효과적으로 사용될 수 있다고 주장하고 부정적인 감정을 잘 검출하면 고객 서비스츨면에서 효과적일 것이라고 말한다.

모델 학습은 그냥 있는거 fine-tuning한것이다.

wave2vec이랑, bert을 각각 음성, 텍스트 feature 추출로 사용하고
NRC-VAD lexicon으로 단어레벨의 추가적인 feature vector을 뽑아서 사용한것으로 보인다.
아무래도 다국어다보니, wave2vec이랑 bert가 multi-lingual 버전이어야 좋을텐데, 음성쪽은 다국어가 없어서 이 부분이 약점이라고 한다.

다른 contribution은 NRC VAD을 이용해서 성능을 향상시켰다고 하는데, 이러한 연구가 없는 것도 아닌거 같은데 딱히 주장하는 바가 새 발견으로 보이진 않는다.
그리고 음성, 텍스트간의 모달리티의 영향에 대한 추가적인 분석이 있으면 좋을 것 같다.

0 Abstract

Speech Emotion Recognition (SER)은 말한 발화에서 표현된 감정을 식별하는 테스크이다.
감정인식은 law, healthcare, education, customer support와 같은 도메인에서 강력한 대화 에이전트를 구축하는데 필수적이다.
SER에서 퍼블리시된 대부분의 연구들은 noise-free 환경에서 전문 배우를 고용해서 생성된 데이터세트들을 사용한다.
고객케어 대화와같은 자연스러운 세팅에서는, 화자들이 다른 언어들 사이를 바꿔가면서 audio가 자주 노이즈하다.
우리는 Conversational AI sector에서 선도적인 유니콘과 함께 콜라보로 Natural Speech Emotion Dataset (NSED)을 개발한다.
NSED는 자연스러운 cond-mixed speech 감정 데이터세트로 대화속 각 발화가 emotion, sentiment, valence, arousal, dominance (VAD) 값들로 어노테이트된다.
이 논문에서, 우리는 word-level VAD 값들을 결합하여, 우리는 SER의 테스크에서 NSER을 위한 베이스라인보다 negative emotions 에서 2% 성능을 향상시킨다.
complaints and dissatisfaction이 눈덩이처럼 불어나 통제 불능 상태가 되지 않도록 부정적인 의견이나 견해를 표현하는 고객을 긴급하게 진정시켜야 하므로 부정적 감정 인식에 대한 높은 정확도는 필수입니다.
부정적인 의견을 신속하게 에스컬레이션하는 것은 비즈니스 이익을 위해 매우 중요합니다.
이러한 상황에서 더욱 정중하고 공감할 수 있는 대화 에이전트를 개발하는 데 이번 연구가 활용될 수 있습니다.

1 Introduction

대화에 효과적으로 참여할 수 있는 대화형 에이전트는 다양한 도메인들에서 많은 어플리케이션을 가진다.
Mensio은 대화형 에이전트를 위한 3가지 진화 단계를 논의한다.

textual interaction
vocal interaction
embodied interaction

최근에, OpenAI에서 릴리즈한 ChatGPT는 LLM GPT3.5을 기반으로한 다국어 textual conversational model이다.

ChatGPT는 사전 학습 단계뿐만 아니라 대화 맥락에서 얻은 지식을 유지하면서 "후속 질문에 답하고, 실수를 인정하고, 잘못된 전제에 이의를 제기하고, 부적절한 요청을 거부"하는 작업을 효과적으로 수행할 수 있습니다.
ChatGPT는 제로 샷 환경에서 다양한 작업에 대해 최첨단 LLM을 능가하는 성능을 보였습니다.
대화형 기능을 통해 요약 작업에서는 ChatGPT의 성능을 8% ROUGE-1, 기계 번역 작업에서는 2% ChrF++까지 향상시킬 수 있다는 사실이 밝혀졌습니다.
대화형 기능의 통합으로 ChatGPT는 법률, 의료, 금융, 교육 등 여러 영역에 걸쳐 기존 LLM을 뛰어넘는 애플리케이션으로 도약했습니다.
많은 상황에서 음성 모달리티를 통한 대화는 텍스트 모달리티에 비해 유리하고 편리합니다.
ChatGPT는 훌륭한 대화 에이전트이지만 텍스트 방식에서만 작동할 수 있습니다.

speech input을 취하여 공손하고 감정인 speech response을 줄 수 있는 (end-to-end 방법) 대화형 에이전트는, 대화형 챗봇의 다음단계의 진화이다.

ChatGPT와 같은 대화형 에이전트는 자연스럽게 공손하고 공감하는 응답들을 주기위해 human interlocuter의 감정을 올바르게 인식할 필요가 있다.
챗봇이 감정 인식을 효율적으로 수행하면 대화가 더욱 사람과 비슷해집니다.
음성 감정 인식은 음성 대화 챗봇을 개발할 때 중요한 하위 작업입니다.

우리의 구체적인 문제는 Speech Emotion Recognition (SER)을 해결하는 것이고, 여기서 자연스러운 code-mixed speech dataset에서 입력은 2명의 대화에서 발화의 raw audio가 입력이고, 출력은 해당하는 감정 label, valence, arousal, dominance이다.
SER(음성 감정 인식)은 음성 발화의 감정을 식별하는 작업입니다.
Dimensional 모델은 arousal, dominance and valence의 세 가지 차원에 걸쳐 감정을 표시합니다.

Arousal, valence and dominance은 각각 감정이 발휘하는 intensity, polarity 및 control을 나타냅니다.

예를 들어,

분노는 arousal이 높고, valence가 부정적이며, dominance이 높은 반면,
두려움은 arousal이 낮고, valence가 부정적이며, dominance이 낮습니다.

Categorical 모델은 다양한 다운스트림 작업에 대해 분노, 행복, 슬픔과 같은 개별적인 감정 클래스를 정의합니다.
Our contributions are:

1. A model trained on a natural code-mixed speech emotion dataset, Natural Speech Emotion Dataset (NSED), for the task of Speech Emotion Recognition (SER).

NSED has over 5000 conversational utterances annotated for emotion, sentiment, valence, arousal, and dominance.

2. industry에서 단어 수준의 VAD 값을 통합하여 부정적인 감정에 대한 SER 성능을 2% 향상시키는 기술을 사용하고 있습니다.
- 부정적인 의견이나 견해를 표현하는 고객을 긴급하게 진정시켜 불만과 불만이 눈덩이처럼 불어나 통제 불능 상태가 되지 않도록 해야 하므로 부정적 감정 인식에 대한 높은 정확도는 필수적입니다.
- 부정적인 의견을 신속하게 에스컬레이션하는 것은 비즈니스 이익을 위해 매우 중요합니다.

1.1 Motivation

SER은 연구자들에게 중요하면서도 어려운 과제였습니다.
음성만 전달할 수 있는 환경에서 인간과 기계가 상호 작용할 때마다 SER은 기계가 적절한 응답을 생성하기 위한 핵심 단계가 됩니다.
대화에서의 감정 인식(ERC) 작업에는 대화 상대방의 감정 상태를 설명하는 문맥, 주제, 논증 논리, 화자/청자 성격 등 많은 제어 변수가 있습니다.
최근 연구(카타니아 및 가르조토, 2022)에서는 감정을 이해하고 표현하기 어려운 상태인 실어증을 가진 사람들을 돕기 위해 감정 인식 챗봇을 사용할 때의 이점에 대해 살펴봤습니다.

실어증은 신경발달장애(NDD)를 가진 사람들에게 흔합니다.
챗봇은 사용자에게 다양한 발화를 제공하고 기쁨이나 분노와 같은 감정을 유도하여 해당 발화를 모방하도록 요청했습니다.
사용자가 챗봇에 익숙해지면 챗봇과의 상호작용이 더욱 간단해지는 것으로 나타났습니다.
19명의 참가자 중 17명이 진행자의 도움 없이도 모든 감정 활동을 수행할 수 있었습니다.

현재 사용 가능한 대부분의 SER 데이터 세트는 잡음이 없는 깨끗한 환경에서 전문 배우를 고용하여 만들어졌습니다.

자연스러운 환경에서는 대화가 즉흥적으로 이루어지며 힌디어, 영어, 마라티어 등 여러 언어 간에 코드 혼합과 코드 전환이 빈번하게 이루어집니다.

고객 관리 환경에서는 대화하는 상담원이 고객이 표현하는 감정에 예의를 갖추고 공감하는 것이 필수적입니다.

이는 전반적인 고객 만족도와 고객 유지율 향상으로 이어집니다.

우리는 그들과 협력하여 음성 감정 인식을 연구하고 있습니다.
그들과의 논의를 통해 이 문제에 접근할 수 있는 다양한 방법을 모색했습니다.
그 결과 대화형 AI 분야에 존재하는 현실적인 과제를 명확하게 파악할 수 있었습니다.
몇 가지 주요 과제는 다음과 같습니다:

잦은 코드 혼용, 저품질 녹음, 주석이 달린 자연스러운 대화 데이터 세트가 부족합니다.

나중에 자세히 설명하겠지만, 실험을 위해 주석이 달린 데이터 세트인 NSED에는 고객 지원 서비스의 에스컬레이션 부서에서 발생한 고객 지원 대화가 포함되어 있습니다.
부정적인 의견이나 의견을 표현하는 고객을 긴급하게 진정시켜 불만과 불만이 눈덩이처럼 불어나 통제 불능 상태가 되지 않도록 해야 하므로 부정적인 감정 인식을 위한 높은 정확도는 필수적입니다.

부정적인 의견을 신속하게 에스컬레이션하는 것은 비즈니스 이익을 위해 매우 중요합니다.
이는 에스컬레이션 부서에서 작동하는 음성 감정 인식 모델이 대화에서 부정적인 감정을 감지하는 데 매우 뛰어나야 한다는 것을 말해줍니다.
고객 응대를 할 때 불만을 잘 접수해서 조기에 처리하기 위해서 부정적인 감정을 잘 캐치해야한다.
그러기 위해서 즉흥적인? 대화 데이터가 필요하고, 이는 다양한 언어로 (힌디어, 영어, 마라티어 등) 구성될 수 있다.
따라서 이를 위한 데이터를 만들었다고 한다.
이전까지는 전문 배우를 고용하여 만들어진 데이터밖에 없기 때문에 잡음이 없고 깨끗한 환경의 데이터세트만 있는 것이다.

문맥 정보를 잘 포착할 수 있고 자연어 코드가 혼합된 대화 데이터 세트에서 발생하는 변형에 강한 SER 모델을 개발해야 합니다.
이 모델은 에스컬레이션 부서 환경에서 음성 대화 상담원이 더욱 정중하고 공감할 수 있도록 만드는 데 활용될 수 있습니다.

그림 설명 없음

2 Related work

전통적으로 음향 음성 특징은 SER 작업에 통계적 머신러닝 모델과 함께 사용되어 왔습니다(Schuller et al., 2003).
그러나 특정 작업에 대해 이러한 low-level features의 적절한 조합을 선택하려면 많은 도메인 지식이 필요합니다.
ASR과 같은 다른 음성 처리 작업을 위해 훈련된 사전 학습된 딥러닝 기반 모델을 SER에 맞게 미세 조정하여 더 나은 결과를 얻었습니다(Lu et al., 2020).
최근에는 음성 인식을 위해 적절한 음성 표현을 자동으로 학습하는 Wav2Vec 2.0과 같은 자가 지도 기술이 등장했습니다.
Pepino(2021)에서는 음성 감정 인식을 위한 다운스트림 모델에서 Wav2Vec 2.0의 학습된 음성 표현을 활용합니다.
제안된 모델은 IEMOCAP(Busso 2008) 및 RAVDESS(Livingstone and Russo, 2018) 데이터 세트에 대해 최신 기술을 능가하는 성능을 보였습니다.

이 연구는 또한 low-level acoustic features과 Wav2Vec 2.0 음성 표현을 결합하면 성능이 향상된다는 것을 보여주었습니다.
즉, low-level feature과 pretrained model feature을 함께 사용해서 성능을 향상 시킨듯 함

Poria(2019)에서는 대화에서 emotional shift를 감지하는 것이 여전히 SER의 병목 현상임을 보여주었습니다.

Tian(2015)에서는 비언어적 특징을 low-level descriptors와 결합하여 IEMOCAP 데이터 세트의 대화 대화에서 감정 인식 성능을 개선했습니다.
Vaudable과 Devillers(2012)에서는 부정적인 감정이 콜센터 대화의 품질에 미치는 영향을 조사했습니다.
한 연구에 따르면 turn number, 대화 주제 광고 고객/상담원 응답 시간과 같은 대화 기능을 포함하면 텍스트 기반 감정 인식 시스템의 성능을 크게 향상시킬 수 있습니다(Herzig et al., 2016).
Han (2020)은 SER에 대한 categorical SER 작업을 ordinal SER 작업으로 변환함으로써 고객 관리 통화에 대한 성능을 향상시킬 수 있음을 보여주었습니다.
Deschamps-Berger(2022)는 Wav2vec2-xlsr-53(음성용) 및 FlauBERT(텍스트용)와 같은 트랜스포머 기반 아키텍처를 사용하면 기준선보다 성능 정확도가 20% 이상 향상된다는 것을 보여주었습니다.
Late fusion of speech and text features은 SER 작업에서 성능 향상을 보여주었습니다.
쿨카르니와 바타차르야(2021)는 VAD values을 word-embeddings에 개조함으로써 감정을 더 잘 인식하는 임베딩을 생성할 수 있음을 보여주었습니다.
최근 연구에 따르면 감정 인식을 주 작업으로 하고 intensity 예측을 보조 작업으로 하는 muti-task framework와 VAD 값을 활용하면 자살 메모에 대한 감정 인식 성능이 향상되는 것으로 나타났습니다(Ghosh 2023).

오늘날에는 Wav2vec2 및 BERT와 같은 트랜스포머 기반 아키텍처를 사용하고 서로 다른 성격의 features을 융합하면 SER에 가장 적합한 결과를 얻을 수 있습니다.

3 Modeling

우리 모델은 아래의 argmax 방정식을 사용하여 수학적으로 나타낼 수 있습니다.
여기서 E*은 feature set, <F>, 발화의 word-level VAD values, <VAD>가 주어졌을 때, 함수 확률을 최대화하는 감정클래스이다.
우리의 작업은 feature set <VAD>를 포함하면 natural code-mixed dataset에 대한 SER의 성능이 향상된다는 것을 보여주는 것을 목표로 합니다.

4 Block Diagram and Architecture

그림 2는 제안하는 기법의 전체적인 구조를 보여준다.
음성 기반 기능은 Wav2Vec2 모델을 사용하여 추출됩니다.
다국어 BERT 모델을 사용하여 ASR 성적표에서 텍스트 기능을 추출합니다.
Word-level valence, arousal, and dominance (VAD) values은 NRG-VAD lexicon을 사용하여 ASR transcripts에서 추출됩니다.
일단 추출된 이러한 모든 feature은 함께 융합되어 BiLSTM 모델에 입력됩니다.
그런 다음 softmax 레이어와 함께 완전히 연결된 레이어를 사용하여 최종적으로 예측된 감정을 생성합니다.

5 Datasets

감정 인식을 위해 고객 관리 대화를 녹음하고 주석을 달았습니다.
이어지는 주석 방법론은 아래에 설명되어 있습니다.

5.1 Natural Call Center Speech Emotion Dataset

NSED(Natural Speech Emotion Dataset)는 업계 파트너와 협력하여 생성된 코드가 혼합된 일대일 고객 관리 대화 데이터 세트입니다.
다음은 이 데이터 세트를 만드는 단계입니다.
Data Recording:

당사의 업계 파트너는 몇 초에서 약 1시간에 이르는 길이의 18,000개 이상의 2쌍 고객 관리 오디오 녹음과 해당 기계 생성 텍스트 기록을 제공했습니다.
모든 오디오 녹음은 샘플링 속도가 8000Hz인 단일 채널(모노)이었습니다.
대화는 고객과 자동차 서비스 회사의 불만 에스컬레이션 팀의 고객 관리 임원 간의 상호 작용입니다.
대부분의 오디오 녹음에서 두 화자는 마라티어와 같은 언어로 된 지역 단어를 가끔 사용하면서 힌디어와 영어 사이를 자유롭게 전환합니다.

Data Processing:

30개의 오디오 녹음이 선택되었으며, 각각은 8-10분 길이로 총 4.5시간 길이의 오디오 녹음이 되었습니다.
audacity 도구는 오디오 파일을 처리하는 데 사용되었습니다.
이러한 각 오디오 녹음은 각 말하기 차례에 해당하는 더 작은 오디오 클립으로 잘렸습니다.
말하기 차례는 다른 화자가 말하기 전과 후에 특정 화자에 해당하는 발화로 정의됩니다.
그런 다음 각 오디오 클립을 해당 machine-generated transcripts과 정렬하고 말하는 사람에 따라 "고객" 또는 "임원"으로 태그를 지정했습니다.
기계로 생성된 녹취록에는 "escalation"이라는 단어를 "cancellation"으로 잘못 표기하는 등 결정적인 오류가 많이 포함되어 있습니다.
따라서 더 나은 텍스트 데이터 품질을 얻기 위해 성적표를 수동으로 수정했습니다.
어떤 경우에는 오디오 품질이 급격히 떨어지며 말하는 단어를 이해하기가 매우 어렵습니다.
이 경우, 해당 사본 대신 태그가 사용되며 추가 주석이 수행되지 않습니다.
즉 AI STT로 자막떨구고 수동으로 수정했다, 알아듣기 말과 너무 이상한 대본은 tag?가 사용된다

Emotion Annotation:

감정 주석은 영어와 힌디어에 능통한 대학원 학위를 가진 4명의 주석자가 수행했습니다.
주석 작성자는 쌍으로 작업하여 이 클립을 듣고 emotion (중립, 행복, 슬픔, 흥분, 분노, 두려움, 놀람, 좌절, 혐오), sentiment (중립, 긍정적, 부정적), valence, arousal and dominance (VAD)로 주석을 달았습니다. .
VAD 값은 (5, 5, 5)가 완전히 중립적인 감정의 VAD 값에 해당하는 1에서 10까지의 척도로 주석을 달았습니다.
VAD의 경우 1은 최소값을 나타내고 10은 차원이 가질 수 있는 최대값을 나타냅니다.
valence의 경우 1은 가장 부정적인 감정을 나타내고 10은 모든 감정이 얻을 수 있는 가장 긍정적인 감정을 나타냅니다.
VAD 차원 모델을 사용하여 1000개의 감정을 표현할 수 있고 범주형 감정 모델을 사용하여 9개만 표현할 수 있으므로 "중립" 태그가 지정된 모든 발화가 (5, 5, 5)의 VAD 값을 갖는 것은 아닙니다.
각 쌍은 그들 사이의 일치를 계산하기 위해 동일한 데이터에 주석을 달았습니다.

6 Methodology

텍스트 기능, Wav2vec2 features및 word-level VAD values이 추출되고 함께 융합됩니다.

word-level VAD는 추출하는 방법이 뭐지?
위에보면 NRG-VAD을 이용해서 추출한다고 하는데

Indic-Wav2Vec2는 768차원 벡터를 구성하는 음성 특징을 추출하는 데 사용됩니다.
Whisper-large(Radford 2022)는 대화의 각 발화에 대한 transcripts를 생성하는 데 사용됩니다.
다국어 BERT 모델은 각 발화에 대한 텍스트 임베딩을 생성하여 768차원 벡터를 생성하는 데 사용됩니다.
그런 다음 융합된 기능은 BiLSTM 레이어와 완전 연결 레이어를 통과합니다.
마지막으로 발화에 해당하는 감정을 예측하는 데 소프트맥스 레이어가 사용됩니다.
음성 특징을 추출하기 전에 wav2vec2 아키텍처는 아래 설명된 대로 지속적으로 사전 훈련됩니다.

이 그림 설명이 없음

6.1 Pre-training Wav2Vec2

데이터 주석은 업계 파트너가 제공하는 레이블이 지정되지 않은 전체 음성 데이터 세트(최대 18000개의 고객 관리 오디오 파일)에 대해 수행할 수 없는 비용 집약적인 작업입니다.
Wav2vec2는 원시 오디오 신호에서 음성 표현을 직접 학습하는 자체 감독 음성 모델입니다.
이러한 음성 표현은 여러 음성 처리 작업에 매우 유용한 것으로 나타났습니다.
Wav2vec2는 52,0000시간 분량의 Librispeech 데이터 세트에서 사전 훈련을 받았습니다. 그 이유는 이미 해당 데이터 세트에 있는 음성의 다양한 특성을 학습했기 때문입니다.
데이터 세트에 대한 더 나은 표현을 얻기 위해 레이블이 지정되지 않은 자체 음성 데이터 세트로 사전 훈련 단계를 계속하는 연속 사전 훈련이라는 기술을 적용합니다.
Kessler(2022)는 wav2vec2 아키텍처에 대한 어댑터 기반 연속 사전 훈련 접근 방식을 사용하여 계산 비용을 크게 줄인다는 것을 보여줍니다.
레이블이 지정되지 않은 NSED 데이터 세트를 사용하여 Wav2vec2 아키텍처를 사전 훈련하기 위해 유사한 접근 방식을 사용합니다.
사전 교육 후 Wav2Vec2 아키텍처는 NSED가 지속적인 사전 교육 유무에 관계없이 SER의 성능을 평가하도록 미세 조정됩니다.
표 2는 Wav2Vec2-xlsr 및 Indic-Wav2Vec2에 대한 중립 클래스에 대한 정밀도와 부정 및 긍정적 감정에 대한 가중 평균 정밀도를 보여줍니다.
Indic-Wav2Vec2는 지속적인 사전 훈련으로 최고의 성능을 제공합니다.
우리는 이 지속적으로 사전 훈련된 indic-wav2vec2 모델을 실험에 사용합니다.

7 Experimental Setup

NSED 데이터 세트는 각각 80%, 10% 및 10%의 비율로 학습, 개발 및 테스트 세트로 분할되었습니다.
각 실험 실행에서 데이터 세트는 모델에 공급하기 전에 다른 seed 값과 섞였습니다.
NViDia RTXA6000 GPU는 모든 실험에 사용되었습니다.
단일 실험 실행을 완료하는 데 약 1시간이 걸렸습니다.
랜덤 검색 기법을 사용하여 하이퍼 매개변수 튜닝을 수행했습니다.
부정적인 감정에 대해 전반적으로 최고의 성능을 제공하는 하이퍼 매개변수가 결국 사용되었습니다.
이 논문에 나타난 결과는 weighted-average precision 측면에서 부정적인 감정에 대한 최상의 실험 실행 성능을 제공합니다.

8 Results and Analysis

Table 3 gives the performance of the BiLSTM model using different types of features.

8.1 Analysis

Wav2Vec2(W) 기능을 사용하는 것만으로 우리 모델은 모든 부정적인 감정에 대해 평균 0.61의 정확도를 달성합니다.

이것은 우리 실험의 기준선을 형성합니다.

Wav2Vec2(W)와 텍스트 BERT(T) 기능이 함께 연결되면 모델은 모든 부정적인 감정에 대해 0.64의 가중 평균 정확도를 달성합니다.

이것은 텍스트의 특징이 speech의 특징에만 없는 부가적인 감정 정보를 가지고 있음을 보여준다.

NRG-VAD 어휘집에서 추출한 단어 수준 VAD 값(VAD)을 Wav2Vec2(W) 및 텍스트 BERT(T) 기능과 함께 연결하면 모든 부정적 감정에 대해 가중 평균 정밀도가 0.66으로 2% 향상되는 것을 확인할 수 있습니다.
이는 단어 수준의 VAD 값을 활용하여 부정적인 감정에 대한 SER 모델의 성능을 개선할 수 있음을 보여줍니다.

중립 감정 클래스의 경우 모든 모델이 90% 이상의 정밀도를 달성합니다.
긍정적인 감정에 대한 결과는 만족스럽지 못하며 제안된 모델은 모든 긍정적인 감정에 대해 0.16의 가중 평균 정확도를 제공합니다.
왜 부정적인 감정에 대해서만 성능이 올라가는지 분석이 필요

이는 NSED에서 긍정적인 감정을 가진 발화의 양이 적기 때문일 수 있습니다.
우리 모델의 성능은 긍정적인 감정에 대해서는 좋지 않지만 부정적인 감정에 대해서는 잘 수행됩니다.
고객이 일반적으로 제품이나 서비스에 만족하지 않는 고객 통화 대화를 처리하기 때문에 이상적입니다.

부정적인 서비스가 목표라면, 왜 세부적인 부정적인 감정이 필요한가?
binary classification으로 접근해도 되는것 아닌가?

8.2 Challenges

우리는 code-mixed speech dataset를 다루는 동안 예상할 수 있는 많은 문제에 직면했습니다.
몇 가지 과제는 다음과 같습니다.
Audio Quality:

오디오 녹음의 품질이 좋지 않아 작업이 더욱 어려워졌습니다.
네트워크 불규칙성으로 인해 많은 녹음의 오디오 품질이 급격히 떨어져 주석 작성자가 제대로 주석을 달기가 어렵습니다.
통화 녹음은 두 사람이 동시에 말할 경우 오디오 클립을 분리하기 어려운 단일 채널 형식(모노)으로 생성되었습니다.

Transcription Errors:

우리의 ASR 모델은 음성 발화에 대한 일관된 전사를 생성하기 위해 지속적인 code-switching 및 시끄러운 환경으로 어려움을 겪었습니다.
그런 다음 이러한 오류는 잘못된 텍스트 임베딩 및 누락된 단어 수준 VAD 값으로 반영되었습니다.

Neutral Utterances:

표 1에서 볼 수 있듯이 데이터 세트에 있는 발화의 61%는 본질적으로 중립적입니다.
이 때문에 우리 모델은 다른 감정 클래스보다 중립 클래스를 예측하는 데 더 편향되었습니다.

Frequent code-mixing and code-switching:

Code-mixing and code-switching으로 인해 좋은 features을 추출하기가 어렵습니다.
음성 입력의 경우 힌디어+영어 코드 혼합 데이터에 미세 조정된 Wav2vec2 모델이 없습니다.
힌디어로 미세 조정된 다국어 모델 Wav2vec2-xlsr-53이 음성 표현을 생성하는 데 사용되었습니다.
ASR 이후에 생성된 텍스트는 힌디어로 음역되었습니다.
다국어 BERT-large 모델은 음역된 힌디어 텍스트에 대한 텍스트 임베딩을 생성하는 데 사용되었습니다.
이 음역된 힌디어 텍스트는 단어 수준의 VAD 값을 찾는 데에도 사용되었습니다.
음역이 병목 현상으로 인해 NRC-VAD 어휘집에서 많은 단어에 대한 VAD 값을 찾을 수 없었습니다.
NRC-VAD lexicon에 없는 단어는 VAD을 어떻게 처리했는가?

9 Conclusion and Future Work

이 논문에서는 NSED(Natural Speech Emotion Dataset)의 SER에 단어 수준 VAD 값을 통합하는 효과에 대해 논의했습니다.
또한 NSED 생성과 관련된 단계도 설명했습니다.
잦은 code-mixing 및 노이즈 환경은 자연 데이터 세트에서 SER을 수행하는 데 있어 가장 큰 문제입니다.
단어 수준의 VAD 값을 통합함으로써 우리는 부정적인 감정에 대한 SER의 기준선보다 2%의 개선을 달성할 수 있었습니다.
앞으로 우리는 모든 감정이 실질적인 예를 가질 수 있도록 이 데이터 세트를 확장하기를 기대합니다.
당사의 SER 시스템은 좌절/화난 고객을 진정시키기 위해 정중하고 공감적인 진술을 생성하는 대화형 에이전트를 개발하는 데 사용할 수 있습니다.
SER에 대한 다양한 감독되지 않은 기술을 탐색할 수 있습니다.
이를 통해 주석 비용을 줄일 수 있습니다.
음성 기반 데이터 증대 기술을 사용하여 사용 가능한 데이터의 양을 늘릴 수도 있습니다.

Reference

https://arxiv.org/pdf/2308.03150.pdf

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-179, "We care": Improving Code Mixed Speech Emotion Recognition in Customer-Care Conversations, ARR Review 2304

◼ Comment

0 Abstract

1 Introduction

1.1 Motivation

2 Related work

3 Modeling

4 Block Diagram and Architecture

5 Datasets

5.1 Natural Call Center Speech Emotion Dataset

6 Methodology

6.1 Pre-training Wav2Vec2

7 Experimental Setup

8 Results and Analysis

8.1 Analysis

8.2 Challenges

9 Conclusion and Future Work

댓글

댓글 쓰기