NL-203, Handling Ambiguity in Emotion: From Out-of-Domain Detection to Distribution Estimation, ARR Review 2312

◼ Comment

  • NLP 감정인식과 좀 다른 느낌인데.. 음성감정인식에 가까운 연구이고
  • 하고자하는 방법도 좀 생소함. 생소하다고 나쁜건 아니지만 이해가 잘 안됨
    • evidence 이론 / 디리클레 분포 등을 잘 몰라서 찾아보면서 봤는데도 잘 이해안됨ㅠ
  • 써머리
    • 이 논문은 speech 감정인식에서, 모호한 감정을 해결하고자하고자 한다.
    • 모호한 감정이 되는 주 이유는, 학습되는 레이블이 다수의 어노테이터로부터 다수결을 통해 one-hot 인코딩으로 간주되기 때문이다.
    • 제안한 방법은, 감정의 불확실성을 감지하고 감정의 분포를 추정하는 작업으로 테스크를 reformulate한다.
  • 강점
    • 모델은 evidence theory 및 디리클레 분포를 통해 불확실성 분포를 학습한다.
    • 제안한 방법은 베이스라인과 성능은 비슷하지만, 불확실성 추정 및 OOD 검출 능력이 향상된다.
  • 약점
    • NLP 커뮤니티와 연관성이 적어 보인다.
      • NLP 커뮤니티에서는 일반적으로는 text 모달리티를 활용하며, 멀티모달로 확장할 시 text와 audio등을 결합하곤 한다.
      • 본 연구는 음성 모달리티를 기반으로 하며, 백본또한 speech와 관련된 모델이다.
    • 다수결대신 사용되는 soft-label을 만드는데 설명이 부족하다.
      • 식 8~10에서 디리클레 분포로 soft-label을 추정하는 것으로 보이는데, 백그라운드 및 설명이 더 필요해 보인다.
    • 논문의 비교모델은 저자들이 제안한 다른 간단한 방법이다.
      • 이전에 연구되었던 다른 방법들을 고려할 필요가 있다.
      • one-hot encoding 대신 soft-label을 통해 감정 분포를 학습하는 모델
  • 제안
    • reference 제안: soft-label을 만들어서 감정 분포를 학습하는 모델

Abstract

  • speech 감정의 지각과 해석은 매우 주관적이며, 이로 인해 인간 주석자들 간에 일관성 없는 레이블이 발생합니다. 
  • 일반적으로는 대다수의 동의를 얻은 레이블이 있는 데이터만 감정 분류기를 훈련시키며, 이는 대다수 동의 없는 데이터를 제외하고 모호한 감정 표현이 테스트에서 발견될 때 모델의 일반화 능력에 도전을 제기합니다. 
  • 모호한 감정적인 음성에 대처하기 위해 본 논문에서는 세 가지 방법을 연구합니다. 
  • 첫째, evidence theory을 기반으로 한 방법이 도입되어 감정 클래스 예측의 불확실성을 양적으로 표현하고 불확실성 점수를 사용하여 모호한 감정을 가진 발화를 도메인 밖 샘플로 감지합니다. 
  • 둘째, 모호한 감정 사이에서 세밀한 차이를 얻기 위해 감정 분류를 분포 추정 작업으로 재프레임하는 방법을 제안합니다. 
    • 여기서는 대다수 의견뿐만 아니라 각 개별 레이블이 훈련에서 고려됩니다. 
  • 마지막으로, 분류를 위한 증거 불확실성 측정을 감정 분포 추정의 불확실성을 양적으로 표현하기 위해 확장합니다. 
    • IEMOCAP 및 CREMA-D 데이터셋에서의 실험 결과는 우리의 방법이 신뢰할 수 있는 불확실성 측정과 함께 효과적인 감정 표현을 생성한다는 것을 보여줍니다.

1 Introduction

  • 인간 감정 인식의 본질적인 주관성은 말에서 감정을 주석으로 달기에 복잡성을 도입합니다. 
    • 감정 인식(SER) 데이터셋 주석에는 일반적으로 여러 주석자가 참여하며 대부분이 동의한(MA) 클래스가 일반적으로 참값으로 사용됩니다 (Busso et al., 2008; Cao et al., 2014). 
    • 대다수가 동의하지 않는 (NMA) 레이블이 지정되지 않은 발화 (즉, 동점 투표가 있는 경우)은 감정 분류기 훈련 중에 일반적으로 제외됩니다 (Kim et al., 2013; Poria et al., 2017; Yang et al., 2021), 이는 실제 응용에서 도메인 외(OOD) 문제를 초래할 수 있습니다.
  • 애매모호한 감정 데이터를 처리하기 위한 단순한 접근 방법은 이를 감정 분류에서 추가적인 OOD 클래스로 집계하는 것입니다. 
    • 그러나 이러한 발화는 여러 감정이 혼합되어 있기 때문에 모델은 더 복잡하고 다양한 NMA 감정 표현을 하나의 OOD 클래스로 분류하면서 나머지 데이터를 그들의 MA 감정 클래스로 구분해야 합니다.
  • 이 논문에서는 먼저 감정 분류기가 애매모호한 감정 데이터에 대해 "I don't know"라고 응답할 수 있는지 조사합니다. 
    • Dempster–Shafer belief theory(Dempster, 1968)을 기반으로 한 evidential 딥러닝(EDL) 접근 방법(Sensoy et al., 2018)을 채택하여 감정 분류의 불확실성을 양적으로 평가합니다. 
    • MA 데이터로 훈련된 감정 분류기가 테스트 중에 NMA 발화를 만나면 모델은 높은 불확실성 점수를 제공하여 이를 OOD 샘플로 식별해야 합니다. 
    • 이는 NMA 발화가 속할 수 있는 특정 감정 클래스에 대한 모델의 불확실성을 나타냅니다. 
    • 이론적으로는 대부분 동의한 감정 데이터만으로 학습한 모델이, 주석자 별로 다른 감정이라고 판단한 샘플은 OOD로 판단할 수 있어야 한다.
    • 그래서 실제로 기존 모델들이 이런지 조사를 해보자!
    • 감정 클래스에 대한 확률 할당을 다항 분포로 가정하고, 이 방법은 이러한 다항 분포 위에 디리클레 분포를 배치하여 그들의 확률을 두 번째 순서의 확률로 모델링합니다. 
    • 불확실성 측정을 위한 디리클레 분포의 집중 매개변수는 신경망 모델에 의해 예측됩니다.
  • Fig. 1에 표시된 예제를 고려해보겠습니다. 
    • 주석이 세 발언에 할당되어 있습니다. 
    • 예를 들어, (a) 발언에서 여덟 명의 주석자는 화가 된 말하는 사람으로 해석하고 한 명은 좌절되었다고 해석합니다. 
    • (a)와 (b) 발언 모두 다수의 감정 클래스가 "angry"임으로 인해 이들은 같은 "angry"이라는 라벨에 할당됩니다. 
    • 이는 같은 감정적 내용을 전달한다는 것을 의미하며 분명히 적절하지 않습니다. 
    • 즉 (a)와 (b)는 결국 angry로 할당되지만, (a)와 (b)가 완벽히 같은 감정이라 볼 수는 없다는 것
    • 반면에 (c) 발언은 NMA 발언임에도 불구하고 (b) 발언과 유사한 감정적 내용을 공유할 가능성이 더 높습니다. 
    • 감정적 내용을 더 포괄적으로 나타내기 위해 감정을 분포로 나타내고 감정 인식을 분포 추정 문제로 재구성하는 것을 제안합니다. 
    • 이 방법에서 시스템은 Dirichlet prior하에 다항 분포에서 모든 인간 주석을 관찰할 때 주어진 감정 분포의 marginal likelihood를 최대화하도록 훈련됩니다. 
    • 그런 다음 EDL 접근법은 분포 추정의 불확실성을 측정하는 데 일반화됩니다. 
    • 다수 예측, 불확실성 측정 및 분포 추정의 관점에서 제안된 시스템을 평가하기 위해 여러 평가 메트릭이 채택됩니다. 
    • "나는 모르겠다"라고 단순히 말하는 대신, 제안된 시스템은 NMA 발언의 감정 분포를 추정하고 분포 추정에 대한 신뢰할 수 있는 불확실성 측정을 제시하는 능력을 보여줍니다.
  • 논문의 나머지 부분은 다음과 같이 구성되어 있습니다. 
    • 섹션 2에서는 관련 연구를 요약합니다. 
    • 섹션 3과 4에서는 불확실성 양자화 및 분포 추정의 제안된 접근 방식을 소개합니다. 
    • 각각 섹션 5와 6에서는 평가 메트릭과 실험적 설정을 제시합니다. 
    • 실험 결과는 섹션 7에 나와 있으며, 결론은 이어집니다.

2 Related work

  • 개인의 경험과 문화적 배경에 따라 인간 주석자들은 종종 동일한 발화에 대한 감정을 다르게 해석합니다 (Busso et al., 2008; Cowen and Keltner, 2017; Sethu et al., 2019). MA 주석을 참고로 하는 대신, 일부 연구는 SER을 다중 레이블 작업으로 취급하는 것을 제안합니다 (Mower et al., 2010; Zadeh et al., 2018; Chochlakis et al., 2023). 여기서는 어떤 주석자가 지정한 모든 감정 클래스를 정확한 클래스로 간주하고 지면 실제 레이블을 다중 핫 벡터로 표현합니다. SER 모델은 각 발화에 대해 각 감정 클래스의 존재를 예측하도록 훈련됩니다. 이 방법의 문제점 중 하나는 서로 다른 감정 클래스의 강도 차이를 무시한다는 것입니다.
  • 대안적인 접근 방식은 각 감정 클래스의 상대 빈도로 정의된 "소프트 레이블"을 사용하여 지면 실제의 대리물로 삼습니다 (Fayek et al., 2016; Han et al., 2017; Kim and Kim, 2018). 소프트 레이블과 모델 예측 간의 Kullback–Leibler (KL) 발산 또는 거리 측정을 사용하여 모델을 훈련합니다. 그러나 소프트 레이블은 관찰된 샘플을 기반으로 한 기댓값 최대화 추정치로, 관측 수(주석)가 제한적인 경우 알려지지 않은 분포에 대한 정확한 근사치를 제공하지 않을 수 있습니다.
  • EmoOne은 grayscale을 제시했는데..
  • 지금까지 SER 모델의 보정에 대한 연구는 많이 이루어지지 않았습니다. 본 연구에서는 Dempster–Shafer 신념 이론 (Dempster, 1968)과 증거 기반 딥 러닝 (Sensoy et al., 2018)을 결합한 SER에 대한 새로운 접근 방식을 소개합니다. 이는 감정 내용 추정뿐만 아니라 모델 예측 신뢰도의 신뢰할 수 있는 측정값을 제공합니다.

3 Detecting NMA as OOD 

3.1 Limitation of modelling class probabilities with the softmax activation function

  • 신경망 모델 분류기는 출력 레이어의 연속 로짓을 소프트맥스 함수에 의해 클래스 확률로 변환합니다. 
  • 따라서 모델 예측은 모델 출력과 관련된 이산 클래스 확률을 가진 범주형 분포로 해석될 수 있습니다. 
  • 모델은 그런 다음 올바른 클래스의 categorical likelihood, 즉 교차 엔트로피 손실이라고 불리는 것을 최대화하여 최적화됩니다. 
  • 그러나 소프트맥스 활성화 함수는 로짓을 변환하기 위해 적용된 지수 함수로 인해 예측된 클래스의 확률을 과장하는 경향이 있어 신뢰할 수 없는 불확실성 추정을 유발할 수 있습니다 (Gal and Ghahramani, 2016; Guo et al., 2017). 
  • 더 나아가, 교차 엔트로피는 본질적으로 최대 우도 추정(MLE)이며, 예측 분포의 분산을 추론할 수 있는 능력이 부족한 빈도주의적 기술입니다. 
  • 이 섹션에서는 증거 기반 딥 러닝 (EDL) (Sensoy et al., 2018)이 모델의 불확실성을 추정하기 위해 도입되었으며, 이는 범주형 분포에 대한 2차 확률을 놓습니다.

3.2 Quantify emotion classification uncertainty by evidential deep learning

  • 미리 읽어볼것
    • https://federated-learning.tistory.com/entry/CVPR-2018-Evidential-Deep-Learning-1
    • https://ratsgo.github.io/statistics/2017/05/28/binomial/
  • 감정 클래스 레이블을 원핫 벡터로 취하는 경우, 감정이 클래스 k에 속하는 경우 yk는 1이고 그렇지 않으면 0입니다. 
    • y는 범주 분포 η에서 샘플링되며, 각 구성 요소 ηk는 클래스 k에서 레이블을 샘플링할 확률에 해당합니다.
  • Assume the categorical distribution is sampled from a Dirichlet distribution:
    • 여기서 B(·)은 베타 함수이며, αk는 디리클레 분포의 하이퍼파라미터이며, α0 = sum(αk)(k=1~K)합으로 디리클레 강도를 나타냅니다. 
    • 표준 신경망 분류기의 출력은 가능한 클래스에 대한 확률 할당이고, 디리클레 분포는 각각의 이러한 확률 할당의 밀도를 나타냅니다. 
    • 따라서 이는 두 번째 순서 확률과 불확실성을 모델링합니다.
  • 주관적 논리(Subjective logic)는 Dirichlet 분포와 Dempster–Shafer 신념 이론(Dempster, 1968) 또는 증거 이론으로 알려진 것과의 연결을 수립합니다. 
    • K개의 클래스가 각각 belief mass bk and an overall uncertainty mass u, which satisfies
    • belief mass bk과 전체 uncertainty mass u와 관련되어 있으며, 이는 u + sum(bk) (k=1~K)=1을 충족합니다. 
  • belief mass 할당은 Dirichlet 하이퍼파라미터인 αk에 해당합니다:
    •  bk = (αk − 1)/α0, 여기서 ek = αk−1은 일반적으로 evidence(증거)로 불리며(Sensoy et al., 2018), 전체 불확실성은 다음과 같이 계산될 수 있습니다:
    • 불확실성은 요렇게 계산이 되는 듯
  • 주어진 샘플 x(i)에 대해 신경망 fΛ는 Dir(η (i) | α(i))를 예측하기 위해 훈련될 수 있습니다. 
  • 여기서 Λ은 모델 매개변수를 나타냅니다. 
  • 이 네트워크는 분류를 위한 표준 신경망과 유사하지만 소프트맥스 출력 레이어가 ReLU 활성화 레이어로 대체되어 비음수 출력을 보장합니다. 
    • 이 비음수 출력은 예측된 디리클레 분포에 대한 evidence(증거) 벡터로 취급됩니다: fΛ(x(i)) = e(i).
    • 디리클레 분포의 집중 매개변수는 α(i) = fΛ(x(i)) + 1로 계산될 수 있습니다. 
  • Dir(η (i) | α(i))가 주어지면 클래스 k의 추정 확률은 다음과 같이 계산될 수 있습니다:
    • a0의 비율로 예측 클래스 확률을 나타내는 것인가?

3.2.1 Training

  • 간결함을 위해 이 섹션에서는 i의 슈퍼스크립트가 생략되었습니다.
  • 원핫 레이블 y와 예측된 디리클레 Dir(η|α)가 주어진 경우, 네트워크는 y를 디리클레 사전에 따라 샘플링하는 주변 우도를 최대화하여 훈련될 수 있습니다. 
  • 디리클레 분포는 범주 분포의 공액 사전(conjugate prior)이므로 주변 우도는 계산 가능합니다:
  • 이는 주변 우도의 음의 로그를 최소화하여 모델을 훈련시키는 것과 동등합니다:
    • 이론적 설명은 모르겠지만.. 이게 최종 loss 같다.
    • ak=model(x)k+1 형식으로 모델 출력에 +1한 값이다.
    • 모델은 끝에 softmax가 아닌 ReLU로 이뤄져있어서 무조건 양수의 값이다.
    • a0 = sum(ak)(k=1~K)로 모든 ak의 합이다.
    • log(a0)-log(ak)을 통해 모델이 학습이 되는 방식이다.
    • 즉 CE loss대신 이 loss로 학습하면, 불확실성을 고려하여 모델이 학습이 되는 식? 즉 top-1 감정만을 맞추라는 느낌이 아닌 감정 분포를 학습하게 되는 것이라고 주장하는게 아닐까 싶음
  • (Sensoy et al., 2018)을 따라, 오도되는 증거를 처벌하기 위해 정규화 항이 추가되었습니다:
  • 여기서 Dir(η|1)은 총 증거가 제로인 디리클레 분포를 나타내고, α˜ = y + (1 − y) ⊙ α는 예측된 α에서 오도되지 않는 증거를 제거한 후의 디리클레 매개변수입니다. 
  • 이 처벌은 샘플이 올바르게 분류되지 않을 경우 해당 샘플의 총 증거를 명시적으로 제로로 수축시킵니다. 
  • 전체 손실은 L = L NLL + λL R이며, 여기서 λ는 정규화 계수입니다.

4 Emotion distribution estimation

  • 감정의 세세한 표현을 얻기 위해, 우리는 감정을 단일 클래스 레이블이 아닌 분포로 설명합니다. 
  • 입력 발화 x(i)가 인간 주석자 {y(i)m}^Mi_m=1과 관련이 있고, 여기서 ym = [ym1, . . . , ymK]는 원-핫 벡터입니다. 
  • 감정 내용을 다수결 투표 클래스로 나타내는 대신, 우리는 관측 {y(i)m}Mi m=1을 기반으로 기본 감정 분포 η를 추정하는 것을 제안합니다. 
    • 감정 분류 문제는 관찰 {y(i)m}^Mi_m=1을 기반으로 하는 분포 추정 문제로 다시 구성됩니다. 
    • EmoOne이랑 같은 목표를 가진거 같은데?
  • 섹션 2의 "소프트 레이블" 방법과 대조적으로, 이 방법은 MLE을 사용하여 각 x(i)의 감정 분포를 D(i) = {y(i)m}^Mi_m=1에만 기반으로 근사화하는 대신, 
    • 제안된 방법은 Dmeta = {D(i)}N i=1 (여기서 N은 훈련 중의 발화 수)에 걸쳐 분포 추정기 fΛ를 메타-학습합니다. 
    • 이것은 다양한 발화에서 감정 표현 및 주석의 가변성에 대한 지식을 활용합니다.
  • 간결함을 위해 이후에는 superscript i가 생략됩니다. 
    • {ym}^M_m=1이 다항 분포에서 뽑힌 표본이라고 가정합니다. 
    • yˆ = sum(ym)(m=1~M)은 각 감정 클래스의 횟수를 나타냅니다.
  • 방정식 (1)의 범주 분포는 M = 1 일 때의 특수한 경우입니다. 
  • 네트워크는 예측된 디리클레 사전 Dir(η|α)이 주어진 상황에서 {ym}^M_m=1을 샘플링하는 marginal likelihood를 최대화하여 훈련됩니다.
  • 다항식 계수는 α와 독립적이므로 방정식 (11)의 NLL 손실 L을 일반적으로 분포 추정 프레임워크로 일반화할 수 있음을 확인하기 위해 yˆ로 원-핫 다수 레이블 y를 대체하는 것입니다.
    • 여기서 y^이 one-hot이 아니라, 식 8,9에서 soft-label로 근사화한다는 거 같은데..
    • context는 그냥 모델의 입력으로써만 고려가 되는 것인가?
  •  The regulariser in Eqn. (7) is then modified as:
    • 여기서 αˆ = y¯ + (1−y¯)⊙α 이고 y¯ = 1/M ∑ᵢ yₘ 이며 이는 소프트 레이블입니다. 
  • 명시적으로 예측된 다항 분포를 규제하기 위해 대체 규제항이 제안됩니다:
  • 따라서 우리는 분류를 위해 설명된 EDL 방법을 섹션 3.2에서 기술한 방법을 확장하여 분포 추정에서의 불확실성을 정량화하였습니다. 
  • 여기서 원래의 방법(Sensoy et al., 2018)은 M = 1이고 yˆ가 원-핫 다수 레이블 y가 되는 특수한 경우입니다. 
  • 또한, 제안된 방법은 모든 발화에 대해 고정된 주석자 수를 필요로하지 않으며 쉽게 다수의 주석자에 대해 일반화할 수 있습니다(즉, 크라우드 소싱된 데이터셋에 대해서도).

5 Evaluation metrics

  • 제안된 방법은 다수 예측, 불확실성 추정, OOD 탐지, 분포 추정 측면에서 평가된다.
  • Majority prediction. 
    • MA 발화에 대한 다수 예측은 분류 정확도 (ACC) 및 가중치가 없는 평균 리콜 (UAR)에 의해 평가됩니다. 
    • UAR은 클래스별 정확도의 합을 클래스 수로 나눈 값입니다.
  • Uncertainty estimation. 
    • 모델 보정은 예상 보정 오차 (ECE) (Naeini et al., 2015) 및 최대 보정 오차 (MCE) (Naeini et al., 2015)로 평가됩니다. 
    • ECE는 신뢰와 정확도 간의 기대값 차이를 계산하여 모델 보정을 측정합니다. 
    • 예측은 [0,1] 범위에서 동일하게 간격을 둔 Q 개의 구간으로 나누어지고 ECE는 다음과 같이 계산됩니다:
    • MCE는 가장 큰 교정 간격을 측정하는 ECE의 변형입니다.
  • OOD detection. 
    • 수신자 조작 특성 하의 면적 (AUROC) 및 Precision-Recall 곡선 하의 면적 (AUPRC)은 OOD(Out-of-Distribution) 감지 성능을 평가하는 데 사용됩니다. 
    • 추정된 불확실성은 AUROC 및 AUPRC 양쪽의 결정 임계값으로 사용됩니다. 
    • 기준은 AUROC에 대해 50%이며 AUPRC에 대해 양성의 비율입니다.
    • NMA 발화는 감지 대상으로 설정됩니다.
  • Distribution estimation. 
    • 감정 분포 추정 성능은 예측된 다항 분포에서 인간 주석을 샘플링하는데 사용된 부정 로그 우도 (NLL)로 측정됩니다.

6 Experimental setup

6.1 Baselines

  • 제안된 EDL 기반 방법은 여러 기준과 비교되었습니다. 
  • 이 중에는 다수결 투표 레이블과 모델 예측 간의 교차 엔트로피 손실을 사용하여 훈련된 소프트맥스 활성화를 가진 결정론적 분류 네트워크(MLP)와, 
  • 0.5의 드롭아웃 비율을 가진 Monte-Carlo dropout 모델(MCDP)이 포함됩니다.
    • MCDP는 추론 중에 100번 전진하여 100개의 샘플을 얻습니다. 
  • 또한, 동일한 구조의 10개 모델로 구성된 앙상블(Ensemble)은 bagging으로 훈련되었습니다. 
  • 또한, 추가적인 기준으로는 NMA를 추가 클래스로 하는 MLE 모델(MLE+)이 있습니다.
    • 분포 추정을 위한 또 다른 기준은 다음과 같이 정의된 소프트 레이블 y¯과 예측 사이의 KL 발산을 최소화하도록 훈련된 결정론적 소프트맥스 활성화 모델(MLE*)이며, 이는 one-hot 다수 투표 레이블에서 소프트 레이블로의 확장입니다.
  • 섹션 3.2에서 설명한 시스템은 "EDL"로 표시됩니다. 
  • "EDL*(R1)" 및 "EDL*(R2)"는 각각 방정식 (12) 및 방정식 (13)에서 정의된 규제 항을 사용하는 섹션 4에서 제안된 시스템을 나타냅니다. 
  • EDL 모델의 불확실성 추정은 방정식 (3)을 사용하며, 다른 방법들에 대해서는 최대 확률이 신뢰 측정값으로 사용됩니다.

6.2 Datasets

  • 실험에는 IEMOCAP (Busso et al., 2008) 및 CREMA-D (Cao et al., 2014) 두 개의 공개 데이터셋이 사용되었습니다.
  • IEMOCAP 코퍼스는 가장 널리 사용되는 감정 음성 인식(SER) 데이터셋 중 하나입니다. 5개의 이중 대화 세션에서 얻은 10,039개의 영어 발화로 구성되어 있습니다. 각 발화는 최소 세 명의 인간 주석자에 의해 10개의 감정 범주에 대해 평가되었으며, 발화당 평균 3.42개의 레이블이 있습니다. 전체 주석자가 동의한 감정 레이블이 있는 발화는 16.1%뿐입니다. 감정 분포는 행복(흥분과 병합), 슬픔, 중립, 화남 및 기타를 포함한 다섯 차원의 범주형 분포를 사용하여 나타내었습니다. "기타" 범주에는 이전 네 범주에 포함되지 않는 모든 감정이 포함되며, 주로 좌절에 지배되어 이 범주의 거의 92%를 차지합니다. 그룹화 후 1429개 (14.2%)의 발화는 다수의 동의를 얻은 감정 클래스 레이블이 없습니다.
  • CREMA-D 코퍼스에는 다양한 배경을 가진 91명의 배우들로부터 얻은 7,442개의 영어 발화가 포함되어 있습니다. 배우들은 12개의 문장 중 하나를 선택하여 분노, 혐오, 두려움, 기쁨, 중립 및 슬픔 중 하나의 여섯 가지 감정 중 하나를 표현했습니다. 데이터셋은 크라우드소싱으로 주석이 달렸습니다. 참가자들은 오디오 비주얼 프레젠테이션, 동영상만, 오디오만을 기반으로 감정을 평가했습니다. 본 연구에서는 오디오만을 기반으로 한 평가를 사용했습니다. 클립의 95% 이상은 7개 이상의 평가를 받았으며, 발화당 평균 9.21개의 평가가 있습니다. 644개 (8.7%)의 발화에는 다수 동의를 얻은 감정 클래스 레이블이 없습니다.
    • 오디오만을..? speech 연구인거 같은데
  • 두 데이터셋은 MA 하위집합과 NMA 하위집합으로 나누어집니다. MLE+를 제외한 모든 메소드는 MA 데이터만을 사용하여 훈련됩니다. MLE+의 경우 NMA는 75%는 훈련, 25%는 테스트로 나누어집니다. NMA (훈련) 데이터는 MLE+ 훈련에 포함됩니다. 따라서 MLE+에 대한 OOD(Out-of-Distribution) 감지는 MLE+의 NMA (테스트) 데이터에서만 평가되며 다른 모든 방법에 대해서는 전체 NMA 하위집합에서 평가됩니다. 다른 모든 방법은 비교를 위해 NMA (테스트) 하위집합에서도 평가됩니다. IEMOCAP의 경우 별도로 언급하지 않는 한, 모델은 세션 1-4의 MA 데이터에서 훈련되며 세션 5의 MA 데이터는 MA 테스트 세트로 보류됩니다. CREMA-D 데이터셋의 경우 MA 하위집합은 70 : 15 : 15 비율로 훈련, 검증, 테스트로 나뉩니다(Ristea and Ionescu, 2021).

6.3 Model structure

  • 이 논문에서 사용된 백본 구조는 upstream-downstream 패러다임(Bommasani et al., 2021)을 따릅니다. 
  • upstream 모델은 300M 파라미터를 가진 유니버설 음성 모델 (USM) (Zhang et al., 2023)을 사용합니다. 
    • 이 모델에는 CNN 기반의 특징 추출기와 1024 차원의 12개의 Conformer (Gulati et al., 2020) 인코더 블록이 있으며, 각각 8개의 어텐션 헤드를 갖습니다. 
    • USM은 BEST-RQ (Chiu et al., 2022)에 의해 사전 훈련되었으며, 이는 마스크 처리된 음성 특징을 사전 예측하는 오디오 입력을 위한 BERT 스타일의 훈련 작업을 사용합니다.
    • https://blog.research.google/2023/03/universal-speech-model-usm-state-of-art.html
    • 구글이 발표한 모델인데, ASR, 자동음성번역을 위한 백본 모델 같은데?
  • downstream 모델의 구조는 SUPERB (Yang et al., 2021)를 따르며, 이는 사전 훈련된 상류 모델을 평가하기 위한 벤치마크로 사용되며 발화 수준의 평균 풀링을 수행한 뒤에 완전 연결 레이어가 이어집니다. 
    • https://github.com/jungwoo-ha/WeeklyArxivTalk/issues/9#issuecomment-835776210
    • 벤치마크를 의미하는거 같음
  • 사전 훈련된 upstreamUSM 모델은 고정되어 있습니다. 
  • downstream 모델은 upstream모델의 각 레이어에서 추출된 히든 상태의 가중합을 계산합니다.

6.4 Implementation details

  • 모델은 Pax2를 사용하여 구현되었습니다. 배치 크기는 256으로 설정되었고, 계수 λ는 IEMOCAP의 경우 0.8로, CREMA-D의 경우 0.2로 설정되었습니다. 
  • Adafactor 옵티마이저와 Noam 학습률 스케줄러가 사용되었으며, 200개의 웜업 단계와 최대 학습률이 8.84×10^(-4)로 설정되었습니다. 
  • CREMA-D 데이터셋이 극도로 불균형되어 있기 때문에(중립이 50% 이상 차지), 훈련 중에 균형 샘플러가 적용되어 각 훈련 배치의 샘플이 대략 균형을 이루도록 합니다. 모델은 약 5시간이 소요되는 20,000 단계 동안 훈련되었으며, 이는 8대의 TPU v4에서 수행되었습니다.

7 Results

  • USM 기반의 백본 구조는 먼저 SUPERB 벤치마크 (Yang et al., 2021)의 감정 인식 작업 설정을 따라 평가되었습니다. 
  • 표 3에서 볼 수 있듯이, 백본 구조는 최첨단 기법들을 능가합니다.

7.1 Emotion classification uncertainty 

  • 제안된 EDL 기반 방법은 각각 IEMOCAP 및 CREMA-D 데이터셋에서 Table 1 및 2에서 기준선과 비교되었습니다. 
  • 먼저, 제안된 방법은 기준선과 비교하여 유사한 분류 성능을 보여주어 불확실성 추정의 확장이 모델의 능력을 약화시키지 않음을 시사합니다. 
    • 성능은 비슷한데, 불확실성 추정은 향상된다.
  • 또한, 제안된 방법은 가장 낮은 ECE 및 MCE 값을 보여주는 것으로 보아 모델 보정에서 우수한 성능을 제공합니다. 
  • 또한, 제안된 방법은 OOD 샘플로서 효과적으로 NMA를 식별하는 데 있어서 기준선을 능가합니다.

7.1.1 Including NMA as an additional category degrades the performance

  • MLE+ 결과는 NMA 클래스의 추가가 원래의 감정 클래스의 분류 성능에 부정적인 영향을 미친다는 것을 보여줍니다. 
  • Figure 2는 MLE+ 모델의 혼동 행렬을 보여줍니다. 
  • NMA 자체는 예측이 어려울 수 있으며, 이는 본질적으로 다양한 감정 콘텐츠를 포함하고 있기 때문일 수 있습니다. 
  • 이러한 발화를 하나의 클래스로 묶으면 모델을 혼란스럽게 할 수 있으며, 특히 중립, 슬픔, 좌절, 혐오와 같은 클래스에 대해서 그렇습니다.
    • 무턱대고 OOD 클래스를 하나로 간주하는 것은 더 혼란스러울 수 있긴 할 듯

7.1.2 Reject option for accuracy

  • Figure 3는 불확실성이 특정 임계값보다 큰 샘플이 제외될 때 정확도의 변화를 보여줍니다. 
  • 모델은 예측에 대해 더 확신할 때 더 정확한 예측을 제공하는 경향이 있습니다. 
  • 이는 불확실성 예측의 효과를 보여줍니다.

7.2 Emotion distribution estimation

  • 분포 기반 방법의 결과는 MA 데이터의 분류에 대한 Table 4에 표시되어 있습니다.
  • Table 1 및 Table 2의 분류 기반 방법과 비교하면, 분포 기반 방법은 감정 분류 및 모델 보정의 성능을 감소시키지 않음을 알 수 있습니다. 
  • 제안된 EDL* 방법은 예측된 감정 분포에서 대상 레이블을 샘플링하는 음의 로그 우도 측면에서 기준선과 비교됩니다. 
  • IEMOCAP 및 CREMA-D에서의 결과는 Table 5 및 Table 6에 표시되어 있습니다. 
  • EDL* 방법은 개선된 분포 추정을 생성하며, MA 및 NMA 데이터 모두에서 작은 NLL 값을 달성합니다. 
  • 서로 다른 정규화 항을 사용하는 두 EDL* 방법 중에서, Eqn. (13)에서 정의된 R2를 사용하는 EDL*은 예측된 분포에 직접 정규화를 적용하여 모델의 보정 능력을 희생하지 않으면서 더 나은 분포 추정을 보여줍니다.

7.2.1 Reject option for NLL

  • 거부 옵션은 정확도가 아닌 NLL에 대해 평가되어 모델 보정을 조사합니다. 잘 보정된 모델의 경우 모델이 더 자신감을 가질 때 NLL 값이 감소하여 분포 추정이 향상되기를 기대할 수 있습니다. Figure 4는 불확실성이 증가할 때 MA 데이터 및 NMA 데이터의 NLL의 변화를 시각화합니다. 훈련 중 모델이 본 데이터 유형인 MA에 대해서는 대부분의 방법이 불확실한 샘플을 성공적으로 거부할 수 있으며, 불확실성 임계값이 증가함에 따라 NLL 값이 증가함을 보여줍니다(MLE 및 Ensemble는 제외). 그러나 훈련 중에 모델이 보지 못한 NMA 데이터에 대해서는 EDL* 방법만이 NLL 값이 증가하는 경향을 보이는 능력을 나타냅니다.
  • 제안된 EDL* 방법들이 감정 분포를 추정하고 신뢰성 있는 신뢰 예측을 제공하는 능력은 방법이 얼레토릭 불확실성(Matthies, 2007; Der Kiureghian and Ditlevsen, 2009)과 에피스테믹 불확실성을 모두 추정할 수 있는 능력을 보여줍니다. 얼레토릭 불확실성은 데이터 복잡성 (즉, 감정 표현의 모호성)에서 발생하며, 에피스테믹 불확실성은 주관적 논리 (Jsang, 2018)에서의 확신되지 않은 신념의 양에 해당합니다.

7.2.2 Case study

  • 다양한 방법으로 추정된 감정 분포는 Figure 5에서 두 대표적인 예제에 대한 레이블 분포와 함께 시각화되어 있습니다. 일반적으로 분포 기반 방법은 분류 기반 방법보다 분포 추정에서 우수한 성능을 보여줍니다. 두 번의 "화남" 레이블과 두 번의 "좌절" 레이블을 받는 발화 (a)의 경우, 제안된 EDL* 방법은 감정 간의 관계를 효과적으로 캡처하여 분포 기반 방법 중에서 두드러집니다. 반면, 분류 기반 방법의 예측은 주로 "좌절"로 편향되는 경향이 있습니다. "혐오"와 "중립"이 각각 네 표를 받는 발화 (b)의 경우, "화남"에 대한 두 표와 "두려움"에 대한 하나를 포함하여 EDL* 방법에 의해 예측된 감정 분포도 유사한 패턴을 보여줍니다. 추가적인 예제는 부록 C 및 부록 D에서 찾을 수 있습니다.

8 Conclusion

  • 이 연구는 모호한 감정을 다루는 방법을 탐색하여 감정 분류 문제를 다시 조사합니다. 
  • 우리는 먼저 모호한 감정을 가진 발화를 만났을 때 감정 분류기가 "I don't know"를 출력하도록 하기 위해 증거 이론을 도입합니다. 
  • 모델은 감정 클래스에 대한 확률 할당의 두 번째 순서 확률을 나타내는 디리클레 분포의 초모수를 예측하도록 훈련됩니다. 
  • 보다 세밀한 감정 차이를 포착하기 위해 각 주석이 다수 의견만 고려되는 것이 아니라 고려되는 감정 분류 문제가 감정 분포 추정으로 변형됩니다. 
  • EDL 기반의 불확실성 측정은 감정 분포 추정의 불확실성을 양적으로 측정하기 위해 확장됩니다. 
  • IEMOCAP 및 CREMA-D 데이터셋에서의 결과는 모델이 훈련 중에 보지 못한 모호한 감정을 가진 발화가 주어졌을 때, 제안된 방법이 단순히 "I don't know"를 반환하는 것이 아니라 감정 분포를 추정할 수 있는 능력을 보여줍니다.

Reference

댓글