◼ Comment

그 응답선택의 HCL과 상당히 비슷한 컨셉이다.
두 가지 커리큘럼 러닝을 제안하고, 이는 서로 보완적이다.
conversation 관점과 utterance 관점이다.
즉 쉬운 대화세션부터, 거기서 쉬운 발화부터 학습하겠다는 의미이다.
쉬운 대화세션이란 감정이동 변화가 많은 세션을 의미하고 직관적이다.
발화 관점에서는, 감정 레이블이 혼란스러울수록 어려운 발화라고 한다.

발화는 발화간의 어려움 순서를 sorting하는 식으로 하는게 아니다. 이런 방식은 어렵다고 한다.
대신, 그림 2처럼 감정 레이블을 시간에 따라 바꾸는 것이다.
기존 레이블이 "기쁨"이면 "기쁨"이란 레이블을 one-hot encoding을 이용하지 않고, 다른 감정과의 유사성을 이용한다.
이 유사성은 그림 2처럼 reference에서 언급한 감정이 위치한 원에서 서로간의 각도를 이용하는 것이다.
그리고 시간이 지날수록 one-hot encoding을 점점 변화시켜가는 식이다.

그 결과 다른 모델에서 성능이 향상했는데, 생각보다 꽤 높다... ㄷㄷ

0 Abstract

대화 중 감정 인식(ERC)은 각 발화에 대한 감정 레이블을 감지하는 것을 목표로 합니다.
훈련 예제를 무작위로 고려하는 것보다 의미 있는 순서로 제공하는 것이 모델의 성능을 향상시킬 수 있음이 입증된 최근 연구에 동기를 부여하여 ERC 지향 하이브리드 커리큘럼 학습 프레임워크를 제안합니다.
우리의 프레임워크는 두 가지 커리큘럼으로 구성되어 있습니다:

(1) conversation-level curriculum (CC); and (2) utterance-level curriculum (UC).

CC에서는 대화 내 "감정 변화" 빈도를 기반으로 난이도 측정기를 구성한 다음 난이도 측정기에서 반환된 난이도 점수에 따라 "쉬움에서 어려움으로" 스키마로 대화를 예약합니다.
UC의 경우 감정 유사성 관점에서 구현되어 혼란스러운 감정을 식별하는 모델의 능력을 점진적으로 강화합니다.
제안된 모델 불가지론 하이브리드 커리큘럼 학습 전략을 통해 우리는 광범위한 기존 ERC 모델에 비해 상당한 성능 향상을 관찰하고 4개의 공개 ERC 데이터 세트에서 새로운 최첨단 결과를 달성할 수 있습니다.

1 Introduction

대화 중 감정 인식(ERC)은 소셜 미디어의 오피니언 마이닝, 대화 생성 및 가짜 뉴스 탐지와 같은 많은 영역에서 잠재적인 응용 프로그램으로 인해 최근 몇 년 동안 NLP 커뮤니티에서 많은 관심을 받았습니다.
ERC의 목적은 대화의 각 발화에서 화자가 표현한 감정을 감지하는 것입니다.
ERC에 대한 이전 작업은 일반적으로 두 단계로 이 문제를 해결합니다.
첫 번째 단계에서 각 발언은 두 번째 단계에서 시퀀스 기반 모델 또는 그래프 기반 모델의 입력으로 사용되는 발언 수준 표현으로 별도로 인코딩됩니다.
그들의 성공에도 불구하고, 전작들은 여전히 개선의 여지가 많다.
커리큘럼 학습(CL)은 인간 커리큘럼에서 의미 있는 학습 순서를 모방하는 훈련 전략입니다.
CL의 핵심 아이디어는 처음에는 더 쉬운 데이터 하위 집합으로 기계 학습 모델을 훈련한 다음 전체 훈련 데이터 집합이 될 때까지 데이터의 난이도를 점진적으로 높이는 것입니다.
사용하기 쉬운 플러그인인 CL 전략은 다양한 시나리오에서 다양한 모델의 전반적인 성능을 향상시키는 힘을 입증했습니다.
다른 NLP 작업에서 CL의 성공에 영감을 받아 이 백서에서는 CL의 정신을 활용하여 기존 ERC 방법을 개선하기 위해 노력합니다.
ERC 데이터세트의 계층적 구조로 인해 우리는 두 개의 세분성에서 커리큘럼을 구성해야 합니다.
하나의 커리큘럼은 데이터 세트의 대화를 쉬운 것에서 어려운 것으로 정렬하고 다른 커리큘럼은 각 대화의 발화를 쉬운 것에서 어려운 것으로 정렬합니다.
대화와 발화의 어려움을 측정하는 방법에 대한 질문이 발생합니다.
이전 연구에 따르면 대부분의 ERC 방법은 주로 두 가지 문제를 겪고 있습니다.

1) "감정 변화" 문제: 이러한 방법은 연속된 두 발화의 감정이 다른 시나리오를 효율적으로 처리할 수 없음을 나타냅니다.
2) "복잡한 레이블" 문제. 이전의 방법은 일반적으로 유사한 감정을 잘 구별하지 못합니다.
이는 행복, 신나는 감정과 같은 특정 감정 레이블 간의 미묘한 의미 차이 때문입니다.
이 두 가지 현상은 ERC에서 대화와 발화의 어려움을 수량화하는 열쇠를 제공합니다.

이 백서에서는 ERC 작업을 위한 하이브리드 커리큘럼 학습(HCL) 프레임워크를 맞춤 설계합니다.
HCL 프레임워크는 두 가지 보완적인 커리큘럼 전략, 즉 회화 수준 커리큘럼(CC)과 발화 수준 커리큘럼(UC)으로 구성됩니다.
CC에서는 대화 내 "감정 변화" 빈도를 기반으로 난이도 측정기를 구성한 다음 더 낮은 난이도의 대화가 더 어려운 대화보다 먼저 모델에 제시됩니다.

이런 식으로 모델은 "감정 변화" 문제를 해결하는 능력을 점진적으로 증가시킵니다.

UC에서는 ERC가 대화에서 여러 발화에 대한 추론을 요구하기 때문에 "easy to hard" 체계에서 비동기적으로 발화를 직접 예약할 수 없습니다.

결과적으로 우리는 발화 수준의 커리큘럼 학습을 구현하기 위해 감정 유사성 기반 커리큘럼(ESC)을 설계합니다.

특히, 위에서 언급한 "confusing 레이블" 문제에서 영감을 받아 대화에서 혼란스러운 레이블이 있는 발화가 다른 것보다 더 어렵다고 믿습니다.
따라서 초기 단계에서 쉽게 인식할 수 있는 감정 레이블이 있는 발화에 모델을 초점을 맞추고 혼란스러운 감정을 식별하는 모델의 능력을 점진적으로 강화합니다.
보다 구체적으로, 심리학에 대한 이전 연구를 기반으로 감정 레이블 간의 유사성을 측정하기 위해 Valence-Arousal 2D 감정 공간에서 서로 다른 감정 레이블 간의 교차 각도를 사용합니다.
ESC 동안 원-핫 인코딩 대신 대상은 가능한 모든 감정 레이블에 대한 확률 분포를 나타냅니다.
각 레이블의 확률은 현재 레이블과 골드 레이블의 유사도에 따라 결정됩니다.
다시 말해, 각각의 발화는 고유한 감정 레이블에만 속하지 않고 유사한 감정에 덜 속할 수도 있습니다.
훈련 과정의 초기에는 행복하고 흥분되는 감정을 가진 발화의 대상이 거의 같아야 하지만 항상 슬픔과 매우 달라야 합니다.

훈련 과정에서 레이블 표현은 점차적으로 원-핫 인코딩으로 전환되었습니다.

이런 식으로 작은 실수는 큰 실수보다 초기에 덜 수정되며 미묘한 차이점을 강조하기 전에 광범위한 개념을 설명하는 커리큘럼과 유사합니다.
우리의 하이브리드 커리큘럼 학습 프레임워크는 모델에 구애받지 않습니다.
다섯 가지 대표적인 ERC 모델에 대한 접근 방식을 평가합니다.
4개의 벤치마크 데이터 세트에 대한 결과는 제안된 하이브리드 커리큘럼 학습 프레임워크가 상당한 성능 향상으로 이어진다는 것을 보여줍니다.
Contribution

ERC의 과제를 해결하기 위해 하이브리드 커리큘럼 학습 프레임워크를 제안합니다. 회화 수준의 커리큘럼에서는 감정 전환 빈도를 활용하여 각 대화의 난이도를 측정합니다.
발화 수준의 교육과정 학습을 달성하기 위해 감성유사 기반 교육과정 학습을 제안한다. 그것은 훈련의 초기 단계에서 매우 다른 감정을 분리하는 것보다 유사한 감정을 구별하는 것이 덜 중요하다는 기본 아이디어를 구현합니다.
4개의 ERC 벤치마크 데이터 세트에 대한 실험을 수행합니다. 경험적 결과는 우리가 제안한 하이브리드 커리큘럼 학습 프레임워크가 최첨단을 포함하여 다양한 ERC 모델의 전반적인 성능을 효과적으로 향상시킬 수 있음을 보여줍니다.

2 Proposed Framework

2.1 Overview

커리큘럼 학습에서 일반적인 커리큘럼 설계는 난이도 측정기와 훈련 스케줄러의 두 가지 핵심 구성 요소로 구성됩니다.
Difficulty Measurer는 각 데이터 예의 상대적인 "쉬움"을 수량화하는 데 사용됩니다.
훈련 스케줄러는 난이도 측정기의 판단에 따라 훈련 프로세스 전반에 걸쳐 데이터 하위 집합의 시퀀스를 정렬합니다.

ERC 중심의 커리큘럼 학습의 경우, 과제는 감정 인식에 적합한 난이도 측정기와 훈련 스케줄러를 설계하는 방법입니다.

대화는 일련의 발화로 구성됩니다.
이 계층 구조는 대화와 발화를 각각 스케줄링하기 위한 두 개의 커리큘럼을 구성하도록 영감을 주었습니다.
따라서 우리의 프레임워크는 외부의 대화 수준 커리큘럼(CC)과 내부의 UC(발화 수준 커리큘럼)라는 두 개의 중첩된 커리큘럼으로 구성됩니다.
CC의 경우 감정 변화 기반 난이도 측정기를 설계합니다.

baby step이라는 널리 사용되는 CL 전략은 훈련 스케줄러로 활용됩니다.

UC의 경우 ERC 작업의 특성으로 인해 훈련 과정에서 동일한 대화의 발화를 일괄적으로 동시에 입력해야 합니다.

그 결과, 발화의 훈련 순서를 조정하기 위해 베이비 스텝과 같은 전통적인 훈련 스케줄러를 사용하는 것은 불가능하다.
우리는 이 문제를 해결하기 위해 감정 유사성 기반 커리큘럼 학습을 제안했습니다.

제안된 HCL 프레임워크는 그림 1과 같으며 CC와 UC에 대한 세부 사항은 각각 다음 두 하위 섹션에서 자세히 설명합니다.

2.2 Conversation-level Curriculum

ERC에 대한 대화 수준의 커리큘럼을 설계하려면 다른 대화보다 어떤 종류의 대화가 더 쉬워야 하는지에 대한 질문에 답해야 합니다.
이전 ERC 모델은 감정 전환 문제가 있는 경향이 있다고 언급했기 때문에 각 대화의 난이도를 측정하기 위해 감정 전환 빈도를 채택했습니다.
주요 아이디어는 대화 ci에서 감정 전환이 자주 발생할수록 더 어렵다는 것입니다.
따라서 ci의 대화 수준 난이도 점수는 다음과 같이 정의됩니다.

여기서 Nes(ci) 와 Nu(ci) 는 각각 ci 의 emotion shift occurrences 횟수와 ci 의 총 발화 횟수를 나타냅니다.
Nsp(ci)는 ci에 참여하는 화자의 수이며 평활화 요인으로 작용합니다.
즉, 두화자가 번갈아 5번 발화하고, eA, eC, eC, eB, eB 감정이라면, Nu=5, Nes=2, Nsp=2이다
따라서 dcc = (2+2)/(5+2)=4/7이 되는 것. 기본적으로 감정이 많이 변화하면 어렵다는 의미로 보면 될듯

우리는 baby 단계 훈련 스케줄러를 활용하여 대화를 준비하고 훈련 과정을 구성합니다.
특히, 전체 훈련 세트 D는 비슷한 난이도 점수를 가진 대화가 동일한 버킷으로 분류되는 다른 버킷, 즉 {D1, · · · , DT }로 나뉩니다.
훈련은 가장 쉬운 버킷부터 시작됩니다.
고정된 수의 훈련 에포크 또는 수렴 후에 다음 버킷은 현재 훈련 하위 집합에 병합됩니다.
마지막으로 모든 버킷이 병합되고 사용된 후 전체 교육 프로세스가 몇 번의 추가 에포크를 계속 진행합니다.
HCL 프레임워크는 알고리즘 1에 설명되어 있으며 CC 프로세스는 1행 ~ 5행으로 설명되어 있습니다.

2.3 Utterance-level Curriculum

기존의 CL 학습 스케줄러를 사용하여 발화 순서를 비동기식으로 배열하는 것은 불가능하기 때문에 발화의 난이도를 어떻게 측정하고 발화 수준에서 실현 가능한 커리큘럼을 수립해야 하는지에 대한 문제가 발생합니다.
혼란스러운 감정 레이블이 있는 발화를 예측하기가 더 어렵고 발화 수준 커리큘럼이 감정 레이블 간의 쌍별 유사성을 기반으로 한다고 가정하여 이 문제를 해결합니다.
심리학에 대한 이전 연구에서는 감정이 각성과 원자가라는 두 가지 차원을 포함하고 있으며 감정을 설명하기 위해 바퀴 모양의 2D 좌표계를 활용하는 데 사용된다고 믿습니다.
이러한 작업에서 영감을 받아 표준 ERC 데이터 세트의 모든 감정을 포함하는 새로운 감정 휠을 그림 2와 같이 제안합니다.
그림 2와 같이 각 감정 레이블은 단위 원의 한 점에 매핑될 수 있습니다.
그런 다음 식 2와 같이 감정 레이블 간의 유사도를 계산합니다.

여기서 sij는 레이블 i와 레이블 j의 유사도를 나타냅니다.
vi는 i의 valence 값을 나타냅니다.
i와 j 사이의 끼인각 θij의 코사인을 유사도로 취합니다. θij > 90◦(즉, cosθij < 0)인 경우 유사도는 0으로 설정됩니다.
i와 j의 원자가 극성이 반대이면 유사도도 0으로 설정됩니다.
레이블 neutral 과 다른 레이블 간의 유사성은 1/N으로 정의되며, 여기서 N은 해당 데이터 세트의 총 감정 수입니다.
θ는 어떻게 구하는거지? reference을 이용한듯

감정 유사성 기반 커리큘럼 학습(ESC) 과정은 알고리즘 1의 6행 - 13행으로 설명됩니다.
먼저 각 감정 레이블 쌍 간의 유사도를 수학식 2와 같이 계산하고 감정 유사도 행렬 Msim을 생성한 다음 Msim을 Mtarget으로 정규화합니다.
ESC 훈련이 시작될 때 Mtarget의 행을 훈련 가능한 모든 클래스에 대한 초기 목표 확률 분포로 사용하고 각 행은 감정 레이블에 해당합니다.
즉, groundtruth 레이블에만 속하는 것이 아니라 각 입력 발화도 비슷한 레이블에 더 적은 정도로 속할 수 있습니다.
훈련 과정에서 이 레이블 표현은 점차 표준 원-핫 인코딩으로 이동합니다.
9행 - 11행에서와 같이 업데이트 전략을 정의합니다. 여기서 mi,j는 훈련 단계 t에서 Mtarget의 i번째 행의 j번째 요소의 확률을 나타냅니다.
상수 매개변수 ∈(0, 1)는 레이블 벡터가 원-핫 인코딩된 레이블로 수렴하는 속도를 제어합니다.
각 업데이트 후에 행별 정규화가 수행됩니다. 이 업데이트 전략은 적절한 레이블 가중치 커리큘럼으로 이어집니다.

각 훈련 단계에서 발화 ui 의 예측 확률 분포는 Pui 로 정의됩니다.
마지막으로, 모델은 수학식 3과 같은 표준 교차 엔트로피 손실 함수로 훈련됩니다.
여기서 Pcui[k]는 대화 c에서 ui의 레이블이 k일 예측된 확률을 나타냅니다.
Mtarget[y cui]k는 학습 단계 t에서 현재 레이블 유사성 행렬에서 레이블 k의 목표 확률을 나타냅니다.
z는 훈련 세트의 총 대화 수이고, n은 대화 c의 발화 수입니다.
이런 식으로 ESC를 통해 UC를 구현합니다.

3. Experimental Settings

4. Results and Analysis

4.1 Ablation Study

CC 및 UC의 개별 효과를 밝히기 위해 CC 또는 UC를 제거하여 TODKAT에서 HCL의 다양한 변형을 시도합니다.
IEMOCAP 및 EmoryNLP에 대한 실험 결과는 표 3에 나와 있으며, 여기서 CC와 UC 모두 단독으로 사용할 때 전체 성능에 긍정적인 기여를 한다는 것을 알 수 있습니다.
UC만 사용하면 CC만 사용하는 것보다 더 큰 개선이 이루어지지만 CC와 UC를 결합할 때 최적의 성능을 얻을 수 있으므로 CC와 UC가 서로 보완적임을 나타냅니다.
또한 CC와 UC를 결합하는 또 다른 두 가지 전략인 CC-First(CCF)와 UC-First(UCF)도 시도했습니다.
CCF는 CC와 UC를 파이프라인 방식으로 수행합니다.
UCF에서는 CC와 UC의 실행 순서가 반대입니다.
CCF 및 UCF의 결과도 표 3에 요약되어 있습니다.
UCF가 CCF보다 우수하고 HCL이 CCF와 UCF보다 우수한 성능을 보여줍니다.
UCF는 CL의 "쉬움에서 하드" 구성표와 더 일치하는 미세 단위에서 거친 단위의 순서를 따르기 때문에 직관적입니다.
HCL은 UCF와 비교할 때 UC와 CC가 교육 과정에서 상호 작용하도록 하며 이는 대화의 계층 구조로 구성되어 UCF보다 성능이 훨씬 좋습니다.

4.2 Performance for Emotion-shift

감정 전환 시나리오에서 HCL의 효과를 확인하기 위해 다양한 유형의 발화에 대한 TODKAT+HCL 결과를 요약합니다.
결과는 표 4에 나와 있으며, 여기서 ES와 N-ES는 각각 감정 이동이 있는 발화와 감정 이동이 없는 발화를 나타냅니다.
HCL은 두 데이터 세트의 ES 및 N-ES 모두에서 TODKAT의 성능을 개선합니다.
EmoryNLP의 ES 개선은 IEMOCAP의 ES보다 더 중요합니다.
그럴듯한 설명은 IEMOCAP의 훈련 세트가 훨씬 적은 대화를 포함하고 평균 대화 길이가 훨씬 더 길기 때문에 IEMOCAP에서 대화의 난이도 점수가 일반적으로 더 낮다는 것입니다.
따라서 IEMOCAP의 경우 교육 스케줄러에서 서로 다른 버킷 간의 난이도 구별이 EmoryNLP만큼 명확하지 않습니다.

4.3 Performance on Different Emotions

이 하위 섹션에서는 HCL이 "복잡한 레이블"에 대한 기준 모델의 성능을 향상시킬 수 있는지 여부를 확인하는 것을 목표로 합니다.
ERC 데이터 세트의 각 감정 레이블 쌍에 대해 유사성(수식 2에 정의됨)이 0보다 크면 둘 다 설정에서 혼동 레이블로 간주됩니다.
IEMOCAP의 모든 감정 레이블에 대한 DAG-ERC 및 DAG-ERC+HCL 결과를 보고합니다.
이 데이터셋에는 총 4개의 혼동 레이블이 있습니다: happy(H), 흥분된(E), sad(S) 및 좌절된(F).
표 5에 나와 있는 것처럼 DAGERC+HCL은 중립을 제외한 모든 감정 레이블에서 DAG-ERC보다 성능이 우수하며 혼란스러운 레이블의 전체 성능이 더 좋습니다(가중치 F1에서 69.37 대 67.88).
이것은 HCL이 DAG-ERC의 혼란스러운 감정 레이블을 구별하는 능력을 강화한다는 것을 보여줍니다.
그러나 성능은 중립에 의해 제한되는데, 그 이유는 중립이 다른 모든 레이블과 어느 정도 유사하기 때문에 수학식 2와 같이 인식의 어려움이 증가하기 때문입니다.

4.4 Case Study

4.5 Why Curriculum Learning Works?

교육과정 학습 이론(Bengio et al. 2009)에 따르면 교육 과정에서 데이터 분포의 엔트로피가 증가해야 교육 과정이 작동합니다.
HCL에서 대화 수준 커리큘럼은 감정 전환 빈도를 활용하여 난이도를 측정합니다.
대화에서 감정 전환이 자주 발생할수록 감정 레이블의 다양성이 높아집니다.
즉, 엔트로피가 높아집니다.
발화 수준의 커리큘럼의 경우 감성유사성 기반 CL은 초기 단계에서 유사한 감정을 구별하지 못하기 때문에 일부 감정 레이블을 병합하는 것과 같으며 감정의 다양성을 감소시키는 것으로 볼 수 있다.
결과적으로 엔트로피를 점진적으로 증가시켜야 한다는 조건도 만족시킨다.

5. Conclusions

본 논문에서는 대화에서 감정 인식을 위한 간단하지만 효과적인 하이브리드 커리큘럼 학습(HCL)을 제안한다.
HCL은 원래 교육 모델과 독립적인 유연한 프레임워크입니다.
교육 중에 HCL은 대화 수준 및 발화 수준 커리큘럼을 동시에 사용하여 교육 프로세스를 쉽고 어려운 스키마로 실행합니다.
회화 수준의 커리큘럼은 감정선 기반 난이도 측정기와 베이비 스텝 스케쥴러로 구성되어 있습니다. 발화 수준의 커리큘럼은 감정 유사성 기반 CL로 구현됩니다.
4개의 벤치마크 데이터 세트에 대한 실험은 HCL의 일반성과 효율성을 입증했습니다.
앞으로 3가지 방향으로 방법을 개선할 계획입니다.
먼저 ERC용 난이도 측정기를 구축하기 위해 다른 적절한 기능을 모색하려고 합니다.
둘째, CL에 대한 다른 훈련 스케줄러를 도입하여 성능을 더욱 향상시키는 것을 목표로 합니다.
마지막으로, 우리는 감정 레이블 간의 유사성을 모델링하기 위해 학습 기반 접근 방식을 적용하는 것을 목표로 합니다.

Reference

https://www.aaai.org/AAAI22Papers/AAAI-12341.YangL.pdf

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-134, Hybrid Curriculum Learning for Emotion Recognition in Conversation, AAAI 2022

◼ Comment

0 Abstract

1 Introduction

2 Proposed Framework

2.1 Overview

2.2 Conversation-level Curriculum

2.3 Utterance-level Curriculum

3. Experimental Settings

4. Results and Analysis

4.1 Ablation Study

4.2 Performance for Emotion-shift

4.3 Performance on Different Emotions

4.4 Case Study

4.5 Why Curriculum Learning Works?

5. Conclusions

댓글

댓글 쓰기