즉 setiment, CBET-Ekman, GoEmo-Ekman, Joy, Sadness, Fear, Anger 의 기존 데이터를 활용하여 모델을 학습시킨다.
모델은 PLM을 그냥 fine-tuning하는 것이라 보면된다.
각 모델의 클래스는 테이블 1과 같다.
즉 각 모델은 각 문장에 대해 기존 데이터에서 정의된 감정들을 예측할 수 있다.
이렇게 예측된 감정을 더해서 새로운 레이블의 감정을 예측한다.
즉 도메인이 달라도 감정을 예측할 수 있다.
또한 다양한 감정데이터들을 융합해서 사용할 수 있다.
예측 감정을 어떻게 융합할지는 아래와 같다.
위와 같이 매핑테이블을 수동으로 만드는게 좀 약점인거 같다?
중간중간 weight을 넣는게 좋을 수도 있는데..여기선 1을 사용함
이러한 weight을 넣어서 few-shot fine-tuning을 좀 해보면 성능 올라간다고 하는데 자세한 설명이 없는듯
Abstract
text에서 감정검출 테스크는, 특히 이메일, 포스트, 트위트와 같은 비공식적이고 자발적인 메시징에서, 사용 도메인뿐아니라 어플리케이션의 요구사항에 따라 범위와 깊이가 다르다.
대부분 유명한 감정 카테고리들은 Ekman 혹은 Plutchik의 감정 모델들을 포함하나, 종종 어플리케이션 도메인은 좀 더 구체화된 감정 카테고리들을 요구하고, 이는 training에 사용가능한 annotated 데이터세트가 불충분하다.
테스크는 추가적으로 특정 words와 표현들을 어떤 컨텍스트에서는 감정적으로 만들지만, 다른 컨텍스트에선 neutral로 만드는 social과 cultural factos에 의해 복잡하다.
이 논문에서, 우리는 emotion detection을 위한 일반적인 transfer learning 접근법을 제시하고, 이는 다른 어떤 도메인과 어떤 classification labels에도 적용가능하다.
우리는 타겟 도메인에서 annotated 데이터가 한계일 때 우리의 접근법을 fine-tuning해서 성능향상을 보여준다.
이 접근 방식은 모델이 원래 훈련된 영역과 다른 영역을 포함하여 이전에 모델에 표시되지 않은 감정 범주를 예측하는 데 좋은 성능을 보여줍니다.
또한 최종 사용자는 시스템 출력을 쉽게 조정하여 추가적인 emotion categories를 감지할 수 있습니다.
마지막으로 공개적으로 사용 가능한 SemEval 2018 Task 1e-c 데이터 세트와 2017년 프랑스 선거와 관련된 트윗으로 구성된 새로운 주석 데이터 세트에 대한 이 방법의 평가를 제시합니다.
1 Introduction
이제 인터넷 소셜 미디어가 선거, 전염병, 무력 충돌 및 상업적 이익과 같은 중요한 사건과 관련된 광범위한 영향 캠페인을 시작하기 위한 강력한 플랫폼이라는 것이 널리 인정되고 있습니다.
이러한 캠패인들의 주요목적은 특정한 방법으로 여론(public 의견)을 잘 다루는 것이다.
즉, 정치 후보자를 선호 또는 반대하고, 예방 접종을 수락하거나 거부하고, 침략을 정당화하는 등입니다.
목표를 달성하기 위해 캠페인은 대상 청중에게 설득력이 있는 language, imagery, and topics를 사용하여 특정 아젠다를 추진하는 메시지를 보냅니다.
한가지 강력한 장치는 emotion을 표현하고 청중의 감정적 반응을 자극하는 언어를 사용하는 것이다.
그러나 어떤 감정이 중요합니까?
분명히 마켓에 출시된 새로운 전자 기기에 대한 토론에 수반될 수 있는 감정은 선거에 앞서 정치 후보를 비교할 때 발생할 수 있는 감정과 완전히 같지는 않습니다. (토픽에 따라 다르다)
도메인과 컨텍스트에 따라 다양한 감정 세트를 감지해야 할 수 있습니다.
최근 연구에서는 감정 분류 모델을 위한 훈련 데이터로 사용하기 위해 많은 감정 레이블이 지정된 데이터 세트가 구성되었습니다.
이러한 데이터세트 사이에서 많은 데이터세트는 Ekman 또는 Plutchik의 감정 모델의 상위 집합 또는 하위 집합인 감정 레이블 집합이 있습니다.
예를 들어, Cleaned Balanced Emotional Tweets (CBET) 데이터세트는 love, thankfulness, and guilt 뿐만 아니라 6개의 Ekman 감정을 위한 레이블을 가지고,
반면에 Emolnt 데이터세트는 6개의 Ekman 감정들중 disgust, surprise을 빼고 오직 4개 감정들만 가진다.
결과적으로 감정 레이블이 지정된 텍스트 데이터는 많지만 많은 데이터 세트가 호환되지 않아 단일 모델 교육에 사용하기 어렵습니다. (이 부분이 연구 시작의 핵심일 듯)
추가적으로, 도메인에서 새로운 감정 검출 문제가 새로운 레이블세트에 좀 더 적합하거나 요구될 때, 새로운 레이블 세트는 기존 감정 레이블의 superset or subset이 아닌 경우, 우리는 몇 개의 레이블에 대해 훈련데이터가 없는 상황을 직면한다.
이와 같은 새로운 문제들을 위해, 가능한 해결법은 semi-supervised or unsupervised 접근법을 사용해서 관련있는 레이블세트로 새로운 데이터세트를 큐레이팅(만들거나)하거나
또는 훈련 데이터가 필요하지 않는 방식으로 감정 classification task을 프레이밍한다.
In this paper, we propose a generalized approach of transfer learning with multiple steps.
첫째, 뉴럴 모델은 기존의 감정 레이블링된 다양한 social media 데이터를 사용하여 sentiment analysis and emotion detection 작업에 대해 훈련됩니다.
둘째, 이러한 모델의 출력은 감정의 관련성을 고려하여 도출된 weighted linear combination에 의해 원하는 감정 레이블에 결합 및 매핑됩니다.
세 번째(선택 사항), target 도메인 데이터가 주어지면 linear combination weights or classification thresholds이 미세 조정되어 대상 도메인 성능이 향상됩니다.
Overall, the contributions of this paper are:
도메인들간의 감정 검출을 위한 일반적인 접근법
in-domain 학습 데이터가 없는 새롭고 특별한 감정레이블 세트에 대한 zero-shot transfer learning 방법
제한된 in-domain 학습데이터가 가능할 때, few-shot fine-tuning
어떻게 했다는 건가?
2 Background
2.1 Emotion Taxonomies
인간의 감정에 대한 연구는 감정을 이분법화하는 다양한 방법의 발전으로 이어졌다.
불연속 모델은 감정을 별개의 클래스 집합으로 설명합니다.
특히 Ekman의 기본 감정인 기쁨, 슬픔, 두려움, 분노, 혐오, 놀람은 많은 감정 관련 연구의 기준선입니다(Ekman, 1999).
또 다른 눈에 띄는 모델은 기쁨과 슬픔, 분노와 두려움, 신뢰와 혐오, 놀라움과 기대의 쌍으로 8가지 기본 감정을 설명하는 Plutchik의 감정의 바퀴입니다(Plutchik, 1984).
이 휠은 emotion intensities를 변경하여 보다 복잡한 감정을 구성하는 데 사용할 수 있습니다.
차원 모델은 감정을 emotional response dimensions의 연속 공간 내의 영역으로 특성화합니다.
예를 들어 affect의 Circumplex 모델(Russell, 1980)은 valence와 arousal 차원을 지정하고 이러한 차원으로 28가지 감정 상태를 해석합니다.
일부 관련 모델에서는 우세의 세 번째 차원이 추가됩니다(Russell and Mehrabian, 1977).
Plutchik의 감정의 바퀴는 또한 바퀴의 두 축에서 valence와 arousal을 묘사합니다.
일반적으로 감정 분류 작업에 적합한 분류법을 선택하는 문제는 도메인과 최종 용도에 따라 다릅니다.
2.2 Pre-trained Language Models
GPT, BERT, RoBERTa와 같은 대규모 사전 훈련된 언어 모델(PLM)은 텍스트 분류(Sun et al., 2019), (Munikar 139 et al., 2019), 요약 및 기계 번역과 같은 다양한 NLP 작업에서 최첨단 성능을 달성했습니다. .
그들은 대부분 GLUE, SQUAD 및 MultiNLI 벤치마크에서 가장 높은 점수를 받았습니다.
이러한 모델은 먼저 레이블이 지정되지 않은 대규모 텍스트 말뭉치에서 사전 학습된 다음 다양한 다운스트림 작업에 대한 작업별 주석 데이터로 미세 조정됩니다.
일부 모델 아키텍처는 Twitter 말뭉치에 대한 사전 교육을 통해 트윗 및 소셜 미디어 댓글과 같은 짧고 자발적인 텍스트에 맞게 조정되었습니다.
BERTweet 및 XLM-T와 같은 모델은 널리 사용되는 Twitter 관련 언어 모델입니다.
TweetEval은 소셜 미디어 분석과 관련된 7가지 핵심 NLP 작업의 강력한 기준선 역할을 합니다.
2.3 Zero-Shot Learning
Zero-shot 학습은 학습 시간에 모델에 보이지 않는 클래스의 테스트 시간에 예측을 수반하며 (?)에서 처음 도입되었습니다.
레퍼런스 잘못 달린 듯
이러한 클래스에 대한 교육 예제는 없지만 이러한 클래스에 대한 정보는 분류를 돕기 위해 활용됩니다.
감정 감지 작업에서 응용 프로그램 도메인은 훈련 데이터가 없는 감정 클래스의 예측을 요구할 수 있습니다.
이러한 감정은 훈련 데이터에서 사용할 수 있는 것보다 더 세분화될 수 있거나(예: 다양한 유형의 분노) 훈련 데이터의 레이블과 일치하지 않는 감정일 수 있습니다.
또한 응용 프로그램 및 해당 요구 사항이 발전함에 따라 도메인별 감정 클래스가 발생할 수 있습니다.
이 백서에서 설명하는 감정 감지 접근 방식에서는 훈련 중에 보이지 않는 감정 클래스를 예측해야 한다는 점에서 제로 샷 학습의 아이디어를 기반으로 합니다.
그러나 이 분류를 돕기 위해 추가 정보를 사용하는 대신, 이러한 감정에 대한 설명을 기반으로 보이는 감정 클래스에서 unseen emotion classes로 predefined hierarchical mapping을 사용합니다.
미리 정의된 계층 매핑을 어떻게 사용하는지가 관건일 듯
3 Related Work
텍스트에서 감정 감지는 다양한 응용 프로그램 및 플랫폼에서 텍스트 콘텐츠의 진화하는 특성과 인간 감정 모델링의 복잡성으로 인해 오랜 연구 문제였습니다.
작업에 대한 일부 초기 접근 방식은 어휘 기반입니다.
인기 있는 감정 어휘로는 WordNet-Affect, NRC Emotion Lexicon, EmoSenticSpace, DepecheMood가 있습니다.
이러한 어휘집은 감정 레이블 또는 점수로 주석이 달린 단어로 구성되며 어휘집을 활용하여 문장 및 문서에서 감정을 분류하기 위해 다양한 규칙 기반 또는 기계 학습 알고리즘이 개발되었습니다(Bandhakavi 2017), (Tzacheva 2019), (Bravo-Marquez 2019) , (Kušen 2017), (Seal 2020).
Mac Kim(2010)과 Zad 및 Finlayson(2020)은 텍스트에서 감독되지 않은 감정 감지를 위해 어휘집 및 차원 감소 기술을 사용합니다.
이러한 방법의 주요 단점은 개별 단어에 초점을 두어 문맥 통합이 부족하다는 것입니다.
또한 특정 어휘를 사용하면 사용 가능한 주석이 달린 키워드 및 감정 레이블의 수가 제한됩니다.
Twitter, Reddit, 블로그 및 뉴스 기사에서 수집한 데이터 세트와 유니그램, 바이그램, 어휘집 레이블, 해시태그 및 이모티콘과 같은 선별된 기능을 조합하여 여러 지도 머신 러닝 접근 방식이 개발되었습니다.
가장 널리 사용되는 알고리즘은 Support Vector Machine 또는 Naive Bayes 분류기로 일부 감정 분류 작업에서 80% 이상의 정확도 점수를 달성했습니다(Alm et al., 2005), (Hasan et al., 2014), (Wikarsa 및 Thahir) , 2015), (Mashal and Asnani, 2017), (Alotaibi, 2019), (Hasan et al., 2019).
일관된 감정 분류 체계가 없기 때문에 이러한 방법을 여러 영역에서 사용할 때 부적절합니다.
최근 대규모 감정 주석 말뭉치의 가용성으로 인해 문맥 정보를 통합하기 위해 단어 임베딩 및 딥 러닝 접근 방식이 감정 감지에 적용되었습니다.
CNN, LSTM 및 BERT 모델은 가장 강력한 도구가 되었습니다(Cai and Hao, 2018), (Huang 2019), (Polignano 2019), (Ma 2019), (Chiorrini 2021).
Fei 등의 최근 작품. (2020), He와 Xia(2018), Alhuzali와 Ananiadou(2021)는 손실 함수에서 모델링하여 다중 레이블 감정 감지에서 레이블 종속성을 통합하는 것을 목표로 합니다.
4 Methodology
4.1 Problem statement
우리의 테스크는 tweet x을 사전 정의된 감정 세트 E = {e1, e2, . . . en}에서 각 감정 레이블에 대해 점수 0부터 1사이로 레이블하는 것이다.
각 레이블 e ∈ E에 대한 점수는 감정 e가 트윗 x의 작성자에 의해 표현된다는 신뢰도를 반영해야 합니다.
세트 E는 애플리케이션에 따라 다르며 애플리케이션 도메인의 전문가가 미리 결정합니다.
4.2 Approach
우리의 접근 방식은 three sentiment categories, 여섯 가지 Ekman 감정 및 (Demszky et al., 2020)에 정의된 fine-grained subcategories에 대해 트윗 x에 대한 hierarchical 점수를 생성하는 것을 포함합니다.
E에서 감정에 대한 신뢰도 점수를 얻기 위해 도메인 지식과 정서의 범주 및 차원 모델에 대한 이해를 기반으로 모델 출력에서 세트 E로의 다대일 매핑을 설계합니다(Russell, 1980), (Plutchik , 1984).
이 매핑은 E의 감정에 대한 훈련 데이터 없이 적용할 수 있지만 대상 애플리케이션 도메인에 E에 대한 기존 데이터가 있는 경우 성능을 향상시키기 위해 미세 조정될 수 있습니다.
애플리케이션의 요구 사항에 따라 E가 변경되면 첫 번째 단계는 동일하게 유지되지만 모델 출력에서 E로의 매핑이 업데이트됩니다.
그림 1에서 감정 모델 앙상블을 보여줍니다.
데이터를 프리프로세싱하여, sentiment, emotion에 대해 모델을 학습시킨다.
그 뒤 sentiment, ekman, fine-grained 세가지 감정 결과값을 출력한다.
여기서 Ekman와 fine-grained는 계층적 구조인가? 하나의 모델로부터 나오는데 어떻게? (실제론 모델을 여러개 학습한건데, 데이터가 한개라서 이렇게 표시한듯. 헷갈림)
이렇게 나온 결과를 융합하여 최종 감정 e을 예측한다.
위에서 말하듯이, E에 대한 데이터가 있다면 모델을 fine-tuned하여 성능을 향상시킬 수 있다고 하는데.. 이것도 어떻게 융합되는지?
4.3 Datasets and Preprocessing
다음 데이터 세트는 모델 앙상블의 교육 및 평가에 사용되었습니다.
CBET(Cleaned Balanced Emotional Tweets)(Shahraki 및 Zaiane, 2017)는 9개의 감정 레이블에 해당하는 해시태그 세트를 사용하여 수집된 81,000개의 영어 트윗 모음입니다.
(분노, 두려움, 기쁨, 사랑, 슬픔, 놀라움, 감사, 혐오, 죄책감).
데이터 세트는 각 감정 레이블에 대해 하나 이상의 해시태그를 사용하고 마지막으로 각 레이블에 대해 동일한 수의 트윗을 사용하여 균형을 맞췄습니다.
우리는 이 데이터 세트를 사용하여 모델을 미세 조정하여 6가지 Ekman 감정에 대한 점수를 예측하고 감사, 혐오 및 죄책감에 대한 주석을 제거합니다.
0이 아닌 레이블이 하나 이상 있는 나머지 56,281개의 트윗은 미세 조정에 사용되었습니다.
데이터 세트는 훈련(81%), 검증(9%) 및 테스트(10%) 세트로 무작위로 나뉩니다.
GoEmotions는 27개의 감정 레이블 또는 중립으로 수동 주석이 달린 58,000개의 영어 Reddit 댓글 모음입니다.
Ekman 또는 Plutchik 레이블이 얼굴 표정, 말 및 기타 몸짓으로 표현되는 복잡한 감정을 레이블링하는 데 어떻게 불충분한지 최근 작업을 확인한 후 풍부한 감정 분류법이 확인되었습니다(Cowen et al., 2019).
주석 프로세스 중에 추가 레이블을 식별하기 위해 사람의 피드백이 통합되었습니다.
감정은 긍정적, 부정적, 모호하고 중립적인 감정 레이블 또는 6가지 Ekman 감정으로 그룹화할 수 있습니다(Ekman, 1999).
이 데이터 세트의 세분화된 감정 레이블이 많기 때문에 도메인을 기반으로 보다 일반화되거나 전문화된 레이블을 만드는 작업에 사용하기에 이상적인 선택입니다.
Reddit 데이터에 일반적으로 존재하는 주요 문제를 제거하기 위해 일련의 데이터 큐레이션 단계가 수행되었습니다(Ferrer et al., 2021).
Reddit 데이터가 Goemotions의 기본이
Goemotions을 정제하는 과정을 설명하는 것이고, 본 저자가 했다는게 아닌 듯
공격적/성인용 토큰이 제거되었고, 신원 및 종교 용어는 미리 정의된 목록을 사용하여 가려졌습니다.
성별 및 민족적 편견을 나타내는 댓글은 수동으로 필터링되었습니다.
데이터 세트는 각 감정에 대한 샘플 수를 제한하도록 균형을 맞췄습니다.
어떻게 균형을 맞춤? 자세한 데이터 통계들 필요 --> Goemotions 논문 보라함
일관된 평가자 간 agreement scores는 대부분의 emotion labels에서 달성되었으며 emotion frequency는 agreement score와 직접적으로 관련이 있습니다.
GoEmotions에 규정된 대로 기쁨, 슬픔, 두려움 및 분노의 하위 범주를 사용하여 계층 구조의 각 하위 수준 감정 모델에 대한 교육, 테스트 및 검증 데이터 세트를 생성합니다(표 2).
즉, joy라하면, joy안의 세부 클래스 classification 문제로 학습/검증/테스트 데이터를 만든 것 같다. (테이블 1참고)
즉 이 데이터로 4개의 모델이 탄생
입력으로 영어 트윗이 주어지면 우리 시스템은 먼저 몇 가지 기본 텍스트 전처리를 수행합니다.
사용자 이름, 리트윗 ID 및 하이퍼링크는 제거되고 이모티콘은 일반 텍스트로 변환됩니다.
사전 처리 파이프라인은 소셜 토크나이저로 사용되어 하이퍼링크, 이메일, 전화번호, 시간, 날짜 및 백분율을 제거하고, 금액과 숫자를 정규화하고, 검열되거나 길어진 단어에 주석을 달고, 복잡한 이모티콘을 일반 텍스트로 변환합니다.
4.4 Training and Fine-tuning
sentiment analysis 작업을 위해 우리는 twitter-XLM-RoBERTa-base-sentiment 모델을 사용하여 negative, neutral, and positive 세 가지 감정 범주에 대해 정규화된 값을 생성합니다.
이 모델은 약 1억 9800만 트윗에 대해 사전 훈련되고 다국어 감정 분석 작업을 위해 미세 조정된 RoBERTa 기본 모델이며 FastText, SVM 및 bi-LSTM 기준에 비해 더 높은 성능을 달성했습니다(Barbieri et al., 2020).
sentiment는 따로 미세조정없이 학습된 모델 바로 사용
emotion detection 작업을 위해 사전 훈련된 twitter-RoBERTa-base-emotion 모델을 기본으로 사용합니다(Barbieri et al., 2020).
해당 데이터 세트의 레이블 수와 동일한 node수를 사용하여 pretrained 모델의 transformer 레이어 위에 softmax activation function가 있는 dense output layer를 추가합니다.
즉 pretrained 감정모델+MLP 한것
총 6개의 transformer-based 모델을 hierarchical 매핑 시스템의 구성 요소로 교육합니다.
먼저, CBET Twitter 데이터와 GoEmotions Reddit 데이터를 사용하여 6개의 Ekman 감정에 대한 정규화된 점수를 출력하도록 두 모델을 미세 조정합니다.
CBET-Ekman, Goemtion-Ekman
Twitter 및 Reddit 데이터 모두에서 별도의 모델을 학습하도록 선택하여 후속 매핑 단계에서 애플리케이션의 대상 도메인을 기반으로 가중치를 부여할 수 있습니다.
나머지 4개의 모델은 기쁨, 슬픔, 두려움, 분노의 하위 범주에 대한 점수를 출력하도록 미세 조정됩니다.
각 모델에 대한 미세 조정 세부 사항 및 결과는 부록 B에 설명되어 있습니다.
각 감정들의 점수를 출력하는 모델을 따로 학습하는거 같은데
예로, 기쁨모델은 입력이 기쁨의 세부 감정을 파악하는 모델
요약하자면, 우리의 감정 분류 모델 앙상블은 표 1에 요약된 대로 세분화된 각 레이블에 대한 점수를 생성합니다.
다음 섹션에서는 이러한 점수가 다운스트림에서 활용되어 모델을 새 도메인에 적용하는 방법을 설명합니다.
4.5 Domain-Specific Hierarchical Label Transfer
원하는 라벨 세트 E의 경우, 감정의 관련성을 고려하여 도출된 weighted linear combination을 사용하여 모델 앙상블의 점수를 새로운 세트의 점수로 매핑합니다.
예를 들어 Plutchik의 감정 휠에서 8개의 기본 강한 감정은 경멸과 낙관주의와 같은 약한 감정과 관련이 있습니다.
단순화를 위해 EK를 표 1의 6개 Ekman 출력 레이블이 있는 모델로 하고 각 감정에 대한 점수는 CBET-Ekman 및 GoEmo-Ekman 점수의 가중 선형 조합과 같습니다.
왜 이렇게 매핑을 할 수 있는거지?
J[approval]가 의미하는건 J로 학습된 모델에서 approval이 가진 확률을 의미하는 것인가?
EK는 어떤 모델을 쓰는건가? 종류가 2개인데
S와 A 모델은 여기선 안쓰고 테이블 6에서 씀
감정 모델 출력에서 감정 e ∈ E로의 매핑을 결정하기 위한 일반적인 규칙 세트는 다음과 같습니다.
1. 어떤 sentiment categories S ⊆ Sent가 emtion e에 해당하는지 결정합니다.
일반적으로 이것은 positive 이거나 negative입니다. 예를 들어 감정 anger는 부정적입니다.
그러나 경우에 따라 emotion은 서로 다른 맥락에서 긍정적인 감정과 부정적인 감정을 가질 수 있습니다.
2. 각 sentiment s ∈ S에 대해 "s"에 해당하는 높은 수준의 Ekman 감정, EKs ⊆ EK가 감정 "e"와 관련된 하위 범주를 갖는지 결정합니다.
예를 들어, 출력 emotion optimism는 positive이고 Ekman emotion joy은 출력 감정과 관련된 subcategory optimism를 가집니다.
3. 각 상위 Ekman 감정 ek ∈ EKs에 대해 ek에 하위 범주가 있는 경우 subek ⊆ Subek이 emotion e와 관련된 subcategories를 결정합니다.
예를 들어, output emotion optimism의 경우 모든 joy 하위 범주 중에서 유일한 관련 하위 범주는 optimism입니다.
4. Then, the score of e is
여기서 ws,ek,subek은 1로 설정하거나 대상 도메인 검증 세트(존재하는 경우)에서 성능 메트릭을 최대화하기 위해 미세 조정할 수 있는 가중치입니다.
즉, e에 대한 최종 점수는 용어의 가중 합계이며, 여기서 각 용어는 감정, Ekman 감정 및 e와 관련된 낮은 수준의 감정 하위 범주 트리플에 대한 점수의 곱입니다.
예를 들어 출력 emotion optimism의 경우 (Sent[positive] ∗ EK[joy] ∗ Joy[optimism])라는 용어가 있을 수 있습니다.
실험에서 특정 감정 매핑의 예를 제공합니다.
섹션 5에서는 transfer learning에 사용할 수 있는 다양한 감정 라벨 세트에 계층적 출력을 매핑하기 위해 채택한 label transfer의 몇 가지 예를 간략하게 설명합니다.
각 실험에서 각 레이블 점수를 결정하기 위해 hierarchical emotion scores외에 sentiment scores를 적용하는 것의 중요성을 보여주기 위해 절제 연구를 추가로 사용합니다.
5 Experiments
이 섹션에서는 벤치마크 감정 데이터 세트에 대한 감정 분류 모델의 결과에 대해 설명합니다.
도메인과 라벨 전반에 걸친 방법의 적응성을 추가로 설명하기 위해 프랑스 선거 데이터 세트에 대한 두 번째 실험 세트를 수행합니다(Daignan, 2017).
훈련 단계에서 이러한 데이터 세트의 샘플이 사용되지 않았기 때문에 둘 다 모델에 대해 보이지 않는 도메인입니다.
섹션 3에서 언급한 감정 분류에 사용할 수 있는 몇 가지 방법이 있지만 모두 SOTA 점수를 달성하기 위해 도메인 내 교육이 필요합니다.
우리의 접근 방식은 사용 가능한 도메인 내 훈련 데이터 없이 경쟁력 있는 점수를 생성하므로 눈에 띄며, 따라서 도메인 간 감정의 전이 학습을 위한 중요한 기준선입니다.
5.1 SemEval 2018 Task 1e
SemEval 2018 Task 1E-c 데이터 세트와 같이 multiple emotion labeling tasks에 사용된 인기 있는 오픈 소스 데이터 세트를 선택합니다.
입력된 트윗이 주어지면 작성자의 감정을 가장 잘 나타내는 11가지 감정 범주 중 하나로 분류하는 것이 목표입니다.
테스트 데이터 세트에는 약 7,000개의 영어 트윗이 포함되어 있으며 이 데이터 중 어느 것도 감정 모델 앙상블을 훈련하거나 미세 조정하는 데 사용되지 않았습니다.
즉, zero-shot 추론이라는거다.
근데 이 방법은 결국 테스트데이터의 레이블 구성을 알아야하겠네
표 1의 출력 점수에서 대상 레이블 세트 E = { anger, anticipation, disgust, fear, joy, love, optimism, pessimism, sadness, surprise, trust}에 대한 매핑을 도출합니다.
표 3에 설명된 매핑은 하나의 sentiment와 명확하게 연관될 수 있는 모든 대상 감정에 대해 이전 섹션에서 설명된 규칙을 따릅니다.
그러나 surprise과 같은 대상 레이블에 모호한 정서가 있는 경우 직관은 이를 텍스트에서 가장 널리 퍼진 정서와 연결하고 매핑 EK[surprise] ∗ max(Sent)를 사용하는 것입니다.
예를 들어 EK[surprise]이 크고 Sent[positive]이 세 감정 점수 중 가장 높은 경우 놀라움을 긍정적 놀라움으로 해석합니다.
일반적으로 모델은 Ekman emotions과 더 밀접하게 관련된 target emotions과 더 많은 테스트 예제가 있는 대상 감정에 대해 더 높은 점수를 얻습니다.
또한 사용 가능한 모든 도메인 내 데이터 세트를 다음 두 가지 목적을 위한 validation 세트로 사용할 수 있습니다.
1) 대상 메트릭과 관련하여 각 감정 레이블에 대한 최적의 분류 임계값 세트 찾기
2) 대상 메트릭과 관련하여 E에 대한 linear mapping에서 각 구성 요소에 대한 최적의 가중치 집합을 찾습니다.
첫 번째 zero-shot evaluation 후 도메인 내 데이터의 작은 하위 집합을 활용하여 model weights and classification thresholds을 미세 조정합니다.
즉, 일부 데이터를 활용하여 가중치와 threshold을 조절한다?
여기서 threshold는 뭘 의미하는거지?
원래 훈련 데이터 세트 크기의 약 12%인 validation 데이터 세트만을 사용하여 미세 조정을 수행했지만 강력한 결과를 생성하고 시스템을 SemEval 대상 도메인에 성공적으로 적응시킵니다(표 4).
절제 연구(표 5)의 미시 평균 F1 점수와 AUC 점수는 zero-shot method의 일관된 성능과 emotion detection의 중요한 단계로서 sentiment layer의 관련성을 보여줍니다.
5.2 French Election Dataset
이를 언급하는 문장이 없음
다음 실험에서는 2017년 프랑스 대통령 선거 트윗에 주석이 달린 데이터 세트를 사용합니다.
이 도메인의 경우 기존에 사용 가능한 emotion annotated 데이터 세트가 없었습니다.
실험은 Kaggle 데이터 세트(Daignan, 2017)에서 수행되었으며, 그 하위 집합에는 감정 레이블 집합 E로 주석이 달렸습니다.
모든 레이블에는 description과 동의어 감정 레이블 세트도 함께 제공되었습니다(부록 A).
하나의 레이블에 여러 감정을 그룹화하여 발생하는 모호성으로 인해 모든 레이블에 대한 주석 간 일치가 매우 낮고 검증 및 테스트 데이터 세트 간의 주석 지침에 불일치가 있습니다.
이 데이터 세트의 이러한 문제 중 몇 가지에도 불구하고 우리 모델은 미세 조정 데이터를 거의 또는 전혀 사용하지 않고 알려지지 않은 도메인에 적응합니다.
emotion 모델 앙상블의 output scores를 destination set E로 매핑하는 것은 target domain의 레이블 정의와 이전 섹션에서 공식화된 일반 규칙을 이해함으로써 수행됩니다.
예를 들어, anger/hate/contempt/disgust 레이블은 부정적인 정서와 연결됩니다.
또한 Ekman 감정 anger와 disgust의 경우 유일한 관련 하위 범주는 anger이며 최종 매핑은 ((EK[anger] * Anger[anger]) + EK[disgust]) * Sentiment[negative]입니다.
그림 2는 이 데이터 세트의 트윗에서 우리 시스템이 생성한 예제 출력을 보여줍니다.
표 7에서는 1000개의 트윗 검증 세트를 미세 조정한 후 프랑스 선거 주석 데이터 세트에 대한 시스템의 클래스별 F1 점수를 보여줍니다.
일반적으로 우리는 positive-other and negative-other와 같이 더 많은 사례가 있는 target emotion에 대해 모델 점수가 더 높고 examples가 적은 joy/happiness과 같은 target emotion에 대해 더 낮은 점수를 받는 것을 볼 수 있습니다.
이 도메인의 점수는 annotation의 신뢰성 부족을 반영하여 SemEval 2018 Task 1e 데이터 세트보다 달성된 점수보다 낮지만 훈련 데이터가 거의 또는 전혀 없는 기준 모델보다 개선되었습니다.
6 Limitations
실험을 통해 우리의 접근 방식이 영어 트윗의 다양한 대상 도메인에 성공적으로 적용될 수 있음을 확인했습니다.
사전 훈련된 모든 모델은 영어로 훈련되었으므로 다국어 설정으로 잘 일반화되지 않습니다.
향후 작업에는 XLM-RoBERTa와 같은 다국어 사전 훈련 모델을 사용하고 감정 모델 앙상블을 구축하기 위해 비영어권 언어로 감정 주석이 달린 훈련 데이터를 생성하는 것이 포함될 것입니다.
또한 우리의 접근 방식은 사용자가 target 레이블에 대한 강력하고 구체적인 정의를 가지고 있다고 가정합니다.
이 부분이 한계는 맞는듯
접근 방식은 레이블 매핑의 품질과 사용 가능한 미세 조정 데이터의 품질에 따라 달라집니다.
프랑스 선거 데이터 세트에 대한 주석은 다른 그룹에서 수행했으며 결과는 제공된 ground truth에 의존합니다.
우리는 또한 더 강력한 결과와 분석을 생성할 수 있도록 정치적 영역에서 감정으로 주석이 달린 공개적으로 사용 가능한 데이터 세트를 공개하기 위해 전문가의 사내 주석을 수행하는 것을 목표로 합니다.
7 Conclusion
우리는 소셜 미디어 텍스트에서 감정을 감지하는 작업에 대한 접근 방식과 대상 라벨 세트에 관계없이 모든 도메인에서 적용할 수 있는 off-the-shelf 감정 분류 앙상블을 제시합니다.
fine-tuning을 위해 target domain validation data를 활용하면 해당 도메인 내에서 성능을 향상시킬 수 있지만 (제안한) 모델에는 도메인 내 훈련 데이터 또는 미세 조정 단계가 필요하지 않습니다.
사용자는 모델에서 사용할 수 있는 hierarchical fine-grained emotion and sentiment를 필요한 레이블 집합에 신중하게 매핑해야 합니다.
우리는 모델이 이전에 본 적이 없는 다양한 대상 레이블 세트와 다양한 도메인의 데이터 세트에 대한 두 가지 매핑의 도움으로 아이디어를 시연했습니다.
댓글
댓글 쓰기