NL-176, ARR Review 2212

◼ Comment

  • 타겟 감정 레이블에 대한 데이터가 없을 때를 생각해보자
    • 그럼 기존의 감정모델을 이용하여 감정을 예측할 수 있다는 논문이다.
    • 즉 setiment, CBET-Ekman, GoEmo-Ekman, Joy, Sadness, Fear, Anger 의 기존 데이터를 활용하여 모델을 학습시킨다.
    • 모델은 PLM을 그냥 fine-tuning하는 것이라 보면된다.
    • 각 모델의 클래스는 테이블 1과 같다.
    • 즉 각 모델은 각 문장에 대해 기존 데이터에서 정의된 감정들을 예측할 수 있다.
  • 이렇게 예측된 감정을 더해서 새로운 레이블의 감정을 예측한다.
    • 즉 도메인이 달라도 감정을 예측할 수 있다.
    • 또한 다양한 감정데이터들을 융합해서 사용할 수 있다.
    • 예측 감정을 어떻게 융합할지는 아래와 같다.
    • 위와 같이 매핑테이블을 수동으로 만드는게 좀 약점인거 같다?
    • 중간중간 weight을 넣는게 좋을 수도 있는데..여기선 1을 사용함
    • 이러한 weight을 넣어서 few-shot fine-tuning을 좀 해보면 성능 올라간다고 하는데 자세한 설명이 없는듯

Abstract

  • text에서 감정검출 테스크는, 특히 이메일, 포스트, 트위트와 같은 비공식적이고 자발적인 메시징에서, 사용 도메인뿐아니라 어플리케이션의 요구사항에 따라 범위와 깊이가 다르다.
  • 대부분 유명한 감정 카테고리들은 Ekman 혹은 Plutchik의 감정 모델들을 포함하나, 종종 어플리케이션 도메인은 좀 더 구체화된 감정 카테고리들을 요구하고, 이는 training에 사용가능한 annotated 데이터세트가 불충분하다.
  • 테스크는 추가적으로 특정 words와 표현들을 어떤 컨텍스트에서는 감정적으로 만들지만, 다른 컨텍스트에선 neutral로 만드는 social과 cultural factos에 의해 복잡하다.
  • 이 논문에서, 우리는 emotion detection을 위한 일반적인 transfer learning 접근법을 제시하고, 이는 다른 어떤 도메인과 어떤 classification labels에도 적용가능하다.
  • 우리는 타겟 도메인에서 annotated 데이터가 한계일 때 우리의 접근법을 fine-tuning해서 성능향상을 보여준다.
  • 이 접근 방식은 모델이 원래 훈련된 영역과 다른 영역을 포함하여 이전에 모델에 표시되지 않은 감정 범주를 예측하는 데 좋은 성능을 보여줍니다.
  • 또한 최종 사용자는 시스템 출력을 쉽게 조정하여 추가적인 emotion categories를 감지할 수 있습니다.
  • 마지막으로 공개적으로 사용 가능한 SemEval 2018 Task 1e-c 데이터 세트와 2017년 프랑스 선거와 관련된 트윗으로 구성된 새로운 주석 데이터 세트에 대한 이 방법의 평가를 제시합니다.

1 Introduction

  • 이제 인터넷 소셜 미디어가 선거, 전염병, 무력 충돌 및 상업적 이익과 같은 중요한 사건과 관련된 광범위한 영향 캠페인을 시작하기 위한 강력한 플랫폼이라는 것이 널리 인정되고 있습니다.
  • 이러한 캠패인들의 주요목적은 특정한 방법으로 여론(public 의견)을 잘 다루는 것이다.
    • 즉, 정치 후보자를 선호 또는 반대하고, 예방 접종을 수락하거나 거부하고, 침략을 정당화하는 등입니다.
    • 목표를 달성하기 위해 캠페인은 대상 청중에게 설득력이 있는 language, imagery, and topics를 사용하여 특정 아젠다를 추진하는 메시지를 보냅니다.
    • 한가지 강력한 장치는 emotion을 표현하고 청중의 감정적 반응을 자극하는 언어를 사용하는 것이다.
  • 그러나 어떤 감정이 중요합니까? 
    • 분명히 마켓에 출시된 새로운 전자 기기에 대한 토론에 수반될 수 있는 감정은 선거에 앞서 정치 후보를 비교할 때 발생할 수 있는 감정과 완전히 같지는 않습니다. (토픽에 따라 다르다)
    • 도메인과 컨텍스트에 따라 다양한 감정 세트를 감지해야 할 수 있습니다.
  • 최근 연구에서는 감정 분류 모델을 위한 훈련 데이터로 사용하기 위해 많은 감정 레이블이 지정된 데이터 세트가 구성되었습니다.
    • 이러한 데이터세트 사이에서 많은 데이터세트는 Ekman 또는 Plutchik의 감정 모델의 상위 집합 또는 하위 집합인 감정 레이블 집합이 있습니다.
    • 예를 들어, Cleaned Balanced Emotional Tweets (CBET) 데이터세트는 love, thankfulness, and guilt 뿐만 아니라 6개의 Ekman 감정을 위한 레이블을 가지고, 
    • 반면에 Emolnt 데이터세트는 6개의 Ekman 감정들중 disgust, surprise을 빼고 오직 4개 감정들만 가진다.
    • 결과적으로 감정 레이블이 지정된 텍스트 데이터는 많지만 많은 데이터 세트가 호환되지 않아 단일 모델 교육에 사용하기 어렵습니다. (이 부분이 연구 시작의 핵심일 듯)
  • 추가적으로, 도메인에서 새로운 감정 검출 문제가 새로운 레이블세트에 좀 더 적합하거나 요구될 때, 새로운 레이블 세트는 기존 감정 레이블의 superset or subset이 아닌 경우, 우리는 몇 개의 레이블에 대해 훈련데이터가 없는 상황을 직면한다.
  • 이와 같은 새로운 문제들을 위해, 가능한 해결법은 semi-supervised or unsupervised 접근법을 사용해서 관련있는 레이블세트로 새로운 데이터세트를 큐레이팅(만들거나)하거나 
    • 또는 훈련 데이터가 필요하지 않는 방식으로 감정 classification task을 프레이밍한다.
  • In this paper, we propose a generalized approach of transfer learning with multiple steps. 
    • 첫째, 뉴럴 모델은 기존의 감정 레이블링된 다양한 social media 데이터를 사용하여 sentiment analysis and emotion detection 작업에 대해 훈련됩니다.
    • 둘째, 이러한 모델의 출력은 감정의 관련성을 고려하여 도출된 weighted linear combination에 의해 원하는 감정 레이블에 결합 및 매핑됩니다.
    • 세 번째(선택 사항), target 도메인 데이터가 주어지면 linear combination weights or classification thresholds이 미세 조정되어 대상 도메인 성능이 향상됩니다.
  • Overall, the contributions of this paper are:
    • 도메인들간의 감정 검출을 위한 일반적인 접근법
    • in-domain 학습 데이터가 없는 새롭고 특별한 감정레이블 세트에 대한 zero-shot transfer learning 방법
    • 제한된 in-domain 학습데이터가 가능할 때, few-shot fine-tuning
      • 어떻게 했다는 건가?

2 Background

2.1 Emotion Taxonomies

  • 인간의 감정에 대한 연구는 감정을 이분법화하는 다양한 방법의 발전으로 이어졌다.
  • 불연속 모델은 감정을 별개의 클래스 집합으로 설명합니다.
  • 특히 Ekman의 기본 감정인 기쁨, 슬픔, 두려움, 분노, 혐오, 놀람은 많은 감정 관련 연구의 기준선입니다(Ekman, 1999).
  • 또 다른 눈에 띄는 모델은 기쁨과 슬픔, 분노와 두려움, 신뢰와 혐오, 놀라움과 기대의 쌍으로 8가지 기본 감정을 설명하는 Plutchik의 감정의 바퀴입니다(Plutchik, 1984).
  • 이 휠은 emotion intensities를 변경하여 보다 복잡한 감정을 구성하는 데 사용할 수 있습니다.
  • 차원 모델은 감정을 emotional response dimensions의 연속 공간 내의 영역으로 특성화합니다.
    • 예를 들어 affect의 Circumplex 모델(Russell, 1980)은 valence와 arousal 차원을 지정하고 이러한 차원으로 28가지 감정 상태를 해석합니다.
    • 일부 관련 모델에서는 우세의 세 번째 차원이 추가됩니다(Russell and Mehrabian, 1977).
  • Plutchik의 감정의 바퀴는 또한 바퀴의 두 축에서 valence와 arousal을 묘사합니다.
  • 일반적으로 감정 분류 작업에 적합한 분류법을 선택하는 문제는 도메인과 최종 용도에 따라 다릅니다.

2.2 Pre-trained Language Models 

  • GPT, BERT, RoBERTa와 같은 대규모 사전 훈련된 언어 모델(PLM)은 텍스트 분류(Sun et al., 2019), (Munikar 139 et al., 2019), 요약 및 기계 번역과 같은 다양한 NLP 작업에서 최첨단 성능을 달성했습니다. .
  • 그들은 대부분 GLUE, SQUAD 및 MultiNLI 벤치마크에서 가장 높은 점수를 받았습니다.
  • 이러한 모델은 먼저 레이블이 지정되지 않은 대규모 텍스트 말뭉치에서 사전 학습된 다음 다양한 다운스트림 작업에 대한 작업별 주석 데이터로 미세 조정됩니다.
  • 일부 모델 아키텍처는 Twitter 말뭉치에 대한 사전 교육을 통해 트윗 및 소셜 미디어 댓글과 같은 짧고 자발적인 텍스트에 맞게 조정되었습니다.
  • BERTweet 및 XLM-T와 같은 모델은 널리 사용되는 Twitter 관련 언어 모델입니다.
  • TweetEval은 소셜 미디어 분석과 관련된 7가지 핵심 NLP 작업의 강력한 기준선 역할을 합니다.

2.3 Zero-Shot Learning 

  • Zero-shot 학습은 학습 시간에 모델에 보이지 않는 클래스의 테스트 시간에 예측을 수반하며 (?)에서 처음 도입되었습니다.
    • 레퍼런스 잘못 달린 듯
  • 이러한 클래스에 대한 교육 예제는 없지만 이러한 클래스에 대한 정보는 분류를 돕기 위해 활용됩니다.
  • 감정 감지 작업에서 응용 프로그램 도메인은 훈련 데이터가 없는 감정 클래스의 예측을 요구할 수 있습니다.
  • 이러한 감정은 훈련 데이터에서 사용할 수 있는 것보다 더 세분화될 수 있거나(예: 다양한 유형의 분노) 훈련 데이터의 레이블과 일치하지 않는 감정일 수 있습니다.
  • 또한 응용 프로그램 및 해당 요구 사항이 발전함에 따라 도메인별 감정 클래스가 발생할 수 있습니다.
  • 이 백서에서 설명하는 감정 감지 접근 방식에서는 훈련 중에 보이지 않는 감정 클래스를 예측해야 한다는 점에서 제로 샷 학습의 아이디어를 기반으로 합니다.
  • 그러나 이 분류를 돕기 위해 추가 정보를 사용하는 대신, 이러한 감정에 대한 설명을 기반으로 보이는 감정 클래스에서 unseen emotion classes로 predefined hierarchical mapping을 사용합니다.
    • 미리 정의된 계층 매핑을 어떻게 사용하는지가 관건일 듯

3 Related Work

  • 텍스트에서 감정 감지는 다양한 응용 프로그램 및 플랫폼에서 텍스트 콘텐츠의 진화하는 특성과 인간 감정 모델링의 복잡성으로 인해 오랜 연구 문제였습니다.
  • 작업에 대한 일부 초기 접근 방식은 어휘 기반입니다. 
    • 인기 있는 감정 어휘로는 WordNet-Affect, NRC Emotion Lexicon, EmoSenticSpace, DepecheMood가 있습니다.
    • 이러한 어휘집은 감정 레이블 또는 점수로 주석이 달린 단어로 구성되며 어휘집을 활용하여 문장 및 문서에서 감정을 분류하기 위해 다양한 규칙 기반 또는 기계 학습 알고리즘이 개발되었습니다(Bandhakavi 2017), (Tzacheva 2019), (Bravo-Marquez 2019) , (Kušen 2017), (Seal 2020).
  • Mac Kim(2010)과 Zad 및 Finlayson(2020)은 텍스트에서 감독되지 않은 감정 감지를 위해 어휘집 및 차원 감소 기술을 사용합니다.
    • 이러한 방법의 주요 단점은 개별 단어에 초점을 두어 문맥 통합이 부족하다는 것입니다.
    • 또한 특정 어휘를 사용하면 사용 가능한 주석이 달린 키워드 및 감정 레이블의 수가 제한됩니다.
  • Twitter, Reddit, 블로그 및 뉴스 기사에서 수집한 데이터 세트와 유니그램, 바이그램, 어휘집 레이블, 해시태그 및 이모티콘과 같은 선별된 기능을 조합하여 여러 지도 머신 러닝 접근 방식이 개발되었습니다.
    • 가장 널리 사용되는 알고리즘은 Support Vector Machine 또는 Naive Bayes 분류기로 일부 감정 분류 작업에서 80% 이상의 정확도 점수를 달성했습니다(Alm et al., 2005), (Hasan et al., 2014), (Wikarsa 및 Thahir) , 2015), (Mashal and Asnani, 2017), (Alotaibi, 2019), (Hasan et al., 2019).
    • 일관된 감정 분류 체계가 없기 때문에 이러한 방법을 여러 영역에서 사용할 때 부적절합니다.
  • 최근 대규모 감정 주석 말뭉치의 가용성으로 인해 문맥 정보를 통합하기 위해 단어 임베딩 및 딥 러닝 접근 방식이 감정 감지에 적용되었습니다.
  • CNN, LSTM 및 BERT 모델은 가장 강력한 도구가 되었습니다(Cai and Hao, 2018), (Huang 2019), (Polignano 2019), (Ma 2019), (Chiorrini 2021).
  • Fei 등의 최근 작품. (2020), He와 Xia(2018), Alhuzali와 Ananiadou(2021)는 손실 함수에서 모델링하여 다중 레이블 감정 감지에서 레이블 종속성을 통합하는 것을 목표로 합니다.

4 Methodology

4.1 Problem statement 

  • 우리의 테스크는 tweet x을 사전 정의된 감정 세트 E = {e1, e2, . . . en}에서 각 감정 레이블에 대해 점수 0부터 1사이로 레이블하는 것이다.
  • 각 레이블 e ∈ E에 대한 점수는 감정 e가 트윗 x의 작성자에 의해 표현된다는 신뢰도를 반영해야 합니다.
  • 세트 E는 애플리케이션에 따라 다르며 애플리케이션 도메인의 전문가가 미리 결정합니다.

4.2 Approach 

  • 우리의 접근 방식은 three sentiment categories, 여섯 가지 Ekman 감정 및 (Demszky et al., 2020)에 정의된 fine-grained subcategories에 대해 트윗 x에 대한 hierarchical 점수를 생성하는 것을 포함합니다.
  • E에서 감정에 대한 신뢰도 점수를 얻기 위해 도메인 지식과 정서의 범주 및 차원 모델에 대한 이해를 기반으로 모델 출력에서 세트 E로의 다대일 매핑을 설계합니다(Russell, 1980), (Plutchik , 1984).
  • 이 매핑은 E의 감정에 대한 훈련 데이터 없이 적용할 수 있지만 대상 애플리케이션 도메인에 E에 대한 기존 데이터가 있는 경우 성능을 향상시키기 위해 미세 조정될 수 있습니다.
  • 애플리케이션의 요구 사항에 따라 E가 변경되면 첫 번째 단계는 동일하게 유지되지만 모델 출력에서 E로의 매핑이 업데이트됩니다.
  • 그림 1에서 감정 모델 앙상블을 보여줍니다.
    • 데이터를 프리프로세싱하여, sentiment, emotion에 대해 모델을 학습시킨다.
    • 그 뒤 sentiment, ekman, fine-grained 세가지 감정 결과값을 출력한다.
    • 여기서 Ekman와 fine-grained는 계층적 구조인가? 하나의 모델로부터 나오는데 어떻게? (실제론 모델을 여러개 학습한건데, 데이터가 한개라서 이렇게 표시한듯. 헷갈림)
    • 이렇게 나온 결과를 융합하여 최종 감정 e을 예측한다.
    • 위에서 말하듯이, E에 대한 데이터가 있다면 모델을 fine-tuned하여 성능을 향상시킬 수 있다고 하는데.. 이것도 어떻게 융합되는지?

4.3 Datasets and Preprocessing 

  • 다음 데이터 세트는 모델 앙상블의 교육 및 평가에 사용되었습니다.
  • CBET(Cleaned Balanced Emotional Tweets)(Shahraki 및 Zaiane, 2017)는 9개의 감정 레이블에 해당하는 해시태그 세트를 사용하여 수집된 81,000개의 영어 트윗 모음입니다.
    • (분노, 두려움, 기쁨, 사랑, 슬픔, 놀라움, 감사, 혐오, 죄책감).
    • 데이터 세트는 각 감정 레이블에 대해 하나 이상의 해시태그를 사용하고 마지막으로 각 레이블에 대해 동일한 수의 트윗을 사용하여 균형을 맞췄습니다.
    • 우리는 이 데이터 세트를 사용하여 모델을 미세 조정하여 6가지 Ekman 감정에 대한 점수를 예측하고 감사, 혐오 및 죄책감에 대한 주석을 제거합니다.
    • 0이 아닌 레이블이 하나 이상 있는 나머지 56,281개의 트윗은 미세 조정에 사용되었습니다.
    • 데이터 세트는 훈련(81%), 검증(9%) 및 테스트(10%) 세트로 무작위로 나뉩니다.
  • GoEmotions는 27개의 감정 레이블 또는 중립으로 수동 주석이 달린 58,000개의 영어 Reddit 댓글 모음입니다.
    • Ekman 또는 Plutchik 레이블이 얼굴 표정, 말 및 기타 몸짓으로 표현되는 복잡한 감정을 레이블링하는 데 어떻게 불충분한지 최근 작업을 확인한 후 풍부한 감정 분류법이 확인되었습니다(Cowen et al., 2019).
    • 주석 프로세스 중에 추가 레이블을 식별하기 위해 사람의 피드백이 통합되었습니다.
    • 감정은 긍정적, 부정적, 모호하고 중립적인 감정 레이블 또는 6가지 Ekman 감정으로 그룹화할 수 있습니다(Ekman, 1999).
    • 이 데이터 세트의 세분화된 감정 레이블이 많기 때문에 도메인을 기반으로 보다 일반화되거나 전문화된 레이블을 만드는 작업에 사용하기에 이상적인 선택입니다.
    • Reddit 데이터에 일반적으로 존재하는 주요 문제를 제거하기 위해 일련의 데이터 큐레이션 단계가 수행되었습니다(Ferrer et al., 2021).
      • Reddit 데이터가 Goemotions의 기본이
      • Goemotions을 정제하는 과정을 설명하는 것이고, 본 저자가 했다는게 아닌 듯
    • 공격적/성인용 토큰이 제거되었고, 신원 및 종교 용어는 미리 정의된 목록을 사용하여 가려졌습니다.
    • 성별 및 민족적 편견을 나타내는 댓글은 수동으로 필터링되었습니다.
    • 데이터 세트는 각 감정에 대한 샘플 수를 제한하도록 균형을 맞췄습니다. 
      • 어떻게 균형을 맞춤? 자세한 데이터 통계들 필요 --> Goemotions 논문 보라함
    • 일관된 평가자 간 agreement scores는 대부분의 emotion labels에서 달성되었으며 emotion frequency는 agreement score와 직접적으로 관련이 있습니다.
    • GoEmotions에 규정된 대로 기쁨, 슬픔, 두려움 및 분노의 하위 범주를 사용하여 계층 구조의 각 하위 수준 감정 모델에 대한 교육, 테스트 및 검증 데이터 세트를 생성합니다(표 2).
    • 즉, joy라하면, joy안의 세부 클래스 classification 문제로 학습/검증/테스트 데이터를 만든 것 같다. (테이블 1참고)
    • 즉 이 데이터로 4개의 모델이 탄생
  • 입력으로 영어 트윗이 주어지면 우리 시스템은 먼저 몇 가지 기본 텍스트 전처리를 수행합니다. 
    • 사용자 이름, 리트윗 ID 및 하이퍼링크는 제거되고 이모티콘은 일반 텍스트로 변환됩니다.
    • 사전 처리 파이프라인은 소셜 토크나이저로 사용되어 하이퍼링크, 이메일, 전화번호, 시간, 날짜 및 백분율을 제거하고, 금액과 숫자를 정규화하고, 검열되거나 길어진 단어에 주석을 달고, 복잡한 이모티콘을 일반 텍스트로 변환합니다.

4.4 Training and Fine-tuning

  • sentiment analysis 작업을 위해 우리는 twitter-XLM-RoBERTa-base-sentiment 모델을 사용하여 negative, neutral, and positive 세 가지 감정 범주에 대해 정규화된 값을 생성합니다.
    • 이 모델은 약 1억 9800만 트윗에 대해 사전 훈련되고 다국어 감정 분석 작업을 위해 미세 조정된 RoBERTa 기본 모델이며 FastText, SVM 및 bi-LSTM 기준에 비해 더 높은 성능을 달성했습니다(Barbieri et al., 2020).
    • sentiment는 따로 미세조정없이 학습된 모델 바로 사용
  • emotion detection 작업을 위해 사전 훈련된 twitter-RoBERTa-base-emotion 모델을 기본으로 사용합니다(Barbieri et al., 2020).
    • 해당 데이터 세트의 레이블 수와 동일한 node수를 사용하여 pretrained 모델의 transformer 레이어 위에 softmax activation function가 있는 dense output layer를 추가합니다.
    • 즉 pretrained 감정모델+MLP 한것
  • 총 6개의 transformer-based 모델을 hierarchical 매핑 시스템의 구성 요소로 교육합니다.
    • 먼저, CBET Twitter 데이터와 GoEmotions Reddit 데이터를 사용하여 6개의 Ekman 감정에 대한 정규화된 점수를 출력하도록 두 모델을 미세 조정합니다.
      • CBET-Ekman, Goemtion-Ekman
      • Twitter 및 Reddit 데이터 모두에서 별도의 모델을 학습하도록 선택하여 후속 매핑 단계에서 애플리케이션의 대상 도메인을 기반으로 가중치를 부여할 수 있습니다.
    • 나머지 4개의 모델은 기쁨, 슬픔, 두려움, 분노의 하위 범주에 대한 점수를 출력하도록 미세 조정됩니다.
      • 각 모델에 대한 미세 조정 세부 사항 및 결과는 부록 B에 설명되어 있습니다.
      • 각 감정들의 점수를 출력하는 모델을 따로 학습하는거 같은데
      • 예로, 기쁨모델은 입력이 기쁨의 세부 감정을 파악하는 모델
  • 요약하자면, 우리의 감정 분류 모델 앙상블은 표 1에 요약된 대로 세분화된 각 레이블에 대한 점수를 생성합니다.
  • 다음 섹션에서는 이러한 점수가 다운스트림에서 활용되어 모델을 새 도메인에 적용하는 방법을 설명합니다.

4.5 Domain-Specific Hierarchical Label Transfer

  • 원하는 라벨 세트 E의 경우, 감정의 관련성을 고려하여 도출된 weighted linear combination을 사용하여 모델 앙상블의 점수를 새로운 세트의 점수로 매핑합니다. 
    • 예를 들어 Plutchik의 감정 휠에서 8개의 기본 강한 감정은 경멸과 낙관주의와 같은 약한 감정과 관련이 있습니다.
  • 단순화를 위해 EK를 표 1의 6개 Ekman 출력 레이블이 있는 모델로 하고 각 감정에 대한 점수는 CBET-Ekman 및 GoEmo-Ekman 점수의 가중 선형 조합과 같습니다.
    • 왜 이렇게 매핑을 할 수 있는거지?
    • J[approval]가 의미하는건 J로 학습된 모델에서 approval이 가진 확률을 의미하는 것인가?
    • EK는 어떤 모델을 쓰는건가? 종류가 2개인데
    • S와 A 모델은 여기선 안쓰고 테이블 6에서 씀
  • 감정 모델 출력에서 감정 e ∈ E로의 매핑을 결정하기 위한 일반적인 규칙 세트는 다음과 같습니다.
    • 1. 어떤 sentiment categories S ⊆ Sent가 emtion e에 해당하는지 결정합니다. 
      • 일반적으로 이것은 positive 이거나 negative입니다. 예를 들어 감정 anger는 부정적입니다.
      • 그러나 경우에 따라 emotion은 서로 다른 맥락에서 긍정적인 감정과 부정적인 감정을 가질 수 있습니다.
    • 2. 각 sentiment s ∈ S에 대해 "s"에 해당하는 높은 수준의 Ekman 감정, EKs ⊆ EK가 감정 "e"와 관련된 하위 범주를 갖는지 결정합니다.
      • 예를 들어, 출력 emotion optimism는 positive이고 Ekman emotion joy은 출력 감정과 관련된 subcategory optimism를 가집니다.
    • 3. 각 상위 Ekman 감정 ek ∈ EKs에 대해 ek에 하위 범주가 있는 경우 subek ⊆ Subek이 emotion e와 관련된 subcategories를 결정합니다.
      • 예를 들어, output emotion optimism의 경우 모든 joy 하위 범주 중에서 유일한 관련 하위 범주는 optimism입니다.
    • 4. Then, the score of e is
      • 여기서 ws,ek,subek은 1로 설정하거나 대상 도메인 검증 세트(존재하는 경우)에서 성능 메트릭을 최대화하기 위해 미세 조정할 수 있는 가중치입니다.
      • 즉, e에 대한 최종 점수는 용어의 가중 합계이며, 여기서 각 용어는 감정, Ekman 감정 및 e와 관련된 낮은 수준의 감정 하위 범주 트리플에 대한 점수의 곱입니다.
      • 예를 들어 출력 emotion optimism의 경우 (Sent[positive] ∗ EK[joy] ∗ Joy[optimism])라는 용어가 있을 수 있습니다.
      • 실험에서 특정 감정 매핑의 예를 제공합니다.
  • 섹션 5에서는 transfer learning에 사용할 수 있는 다양한 감정 라벨 세트에 계층적 출력을 매핑하기 위해 채택한 label transfer의 몇 가지 예를 간략하게 설명합니다.
  • 각 실험에서 각 레이블 점수를 결정하기 위해 hierarchical emotion scores외에 sentiment scores를 적용하는 것의 중요성을 보여주기 위해 절제 연구를 추가로 사용합니다.

5 Experiments

  • 이 섹션에서는 벤치마크 감정 데이터 세트에 대한 감정 분류 모델의 결과에 대해 설명합니다.
  • 도메인과 라벨 전반에 걸친 방법의 적응성을 추가로 설명하기 위해 프랑스 선거 데이터 세트에 대한 두 번째 실험 세트를 수행합니다(Daignan, 2017). 
  • 훈련 단계에서 이러한 데이터 세트의 샘플이 사용되지 않았기 때문에 둘 다 모델에 대해 보이지 않는 도메인입니다.
  • 섹션 3에서 언급한 감정 분류에 사용할 수 있는 몇 가지 방법이 있지만 모두 SOTA 점수를 달성하기 위해 도메인 내 교육이 필요합니다.
  • 우리의 접근 방식은 사용 가능한 도메인 내 훈련 데이터 없이 경쟁력 있는 점수를 생성하므로 눈에 띄며, 따라서 도메인 간 감정의 전이 학습을 위한 중요한 기준선입니다.

5.1 SemEval 2018 Task 1e

  • SemEval 2018 Task 1E-c 데이터 세트와 같이 multiple emotion labeling tasks에 사용된 인기 있는 오픈 소스 데이터 세트를 선택합니다.
    • 입력된 트윗이 주어지면 작성자의 감정을 가장 잘 나타내는 11가지 감정 범주 중 하나로 분류하는 것이 목표입니다.
  • 테스트 데이터 세트에는 약 7,000개의 영어 트윗이 포함되어 있으며 이 데이터 중 어느 것도 감정 모델 앙상블을 훈련하거나 미세 조정하는 데 사용되지 않았습니다.
    • 즉, zero-shot 추론이라는거다.
    • 근데 이 방법은 결국 테스트데이터의 레이블 구성을 알아야하겠네
  • 표 1의 출력 점수에서 대상 레이블 세트 E = { anger, anticipation, disgust, fear, joy, love, optimism, pessimism, sadness, surprise, trust}에 대한 매핑을 도출합니다.
  • 표 3에 설명된 매핑은 하나의 sentiment와 명확하게 연관될 수 있는 모든 대상 감정에 대해 이전 섹션에서 설명된 규칙을 따릅니다.
  • 그러나 surprise과 같은 대상 레이블에 모호한 정서가 있는 경우 직관은 이를 텍스트에서 가장 널리 퍼진 정서와 연결하고 매핑 EK[surprise] ∗ max(Sent)를 사용하는 것입니다.
    • 예를 들어 EK[surprise]이 크고 Sent[positive]이 세 감정 점수 중 가장 높은 경우 놀라움을 긍정적 놀라움으로 해석합니다.
  • 일반적으로 모델은 Ekman emotions과 더 밀접하게 관련된 target emotions과 더 많은 테스트 예제가 있는 대상 감정에 대해 더 높은 점수를 얻습니다.
  • 또한 사용 가능한 모든 도메인 내 데이터 세트를 다음 두 가지 목적을 위한 validation 세트로 사용할 수 있습니다.
    • 1) 대상 메트릭과 관련하여 각 감정 레이블에 대한 최적의 분류 임계값 세트 찾기
    • 2) 대상 메트릭과 관련하여 E에 대한 linear mapping에서 각 구성 요소에 대한 최적의 가중치 집합을 찾습니다.
  • 첫 번째 zero-shot evaluation 후 도메인 내 데이터의 작은 하위 집합을 활용하여 model weights and classification thresholds을 미세 조정합니다.
    • 즉, 일부 데이터를 활용하여 가중치와 threshold을 조절한다?
    • 여기서 threshold는 뭘 의미하는거지?
  • 원래 훈련 데이터 세트 크기의 약 12%인 validation 데이터 세트만을 사용하여 미세 조정을 수행했지만 강력한 결과를 생성하고 시스템을 SemEval 대상 도메인에 성공적으로 적응시킵니다(표 4).
  • 절제 연구(표 5)의 미시 평균 F1 점수와 AUC 점수는 zero-shot method의 일관된 성능과 emotion detection의 중요한 단계로서 sentiment layer의 관련성을 보여줍니다.

5.2 French Election Dataset

    • 이를 언급하는 문장이 없음
  • 다음 실험에서는 2017년 프랑스 대통령 선거 트윗에 주석이 달린 데이터 세트를 사용합니다.
    • 이 도메인의 경우 기존에 사용 가능한 emotion annotated 데이터 세트가 없었습니다.
    • 실험은 Kaggle 데이터 세트(Daignan, 2017)에서 수행되었으며, 그 하위 집합에는 감정 레이블 집합 E로 주석이 달렸습니다.
    • E = {anger, embarrassment, admiration, optimism, joy, pride, fear, amusement,  positive-other, negative-other}
    • 모든 레이블에는 description과 동의어 감정 레이블 세트도 함께 제공되었습니다(부록 A).
    • 하나의 레이블에 여러 감정을 그룹화하여 발생하는 모호성으로 인해 모든 레이블에 대한 주석 간 일치가 매우 낮고 검증 및 테스트 데이터 세트 간의 주석 지침에 불일치가 있습니다.
    • 이 데이터 세트의 이러한 문제 중 몇 가지에도 불구하고 우리 모델은 미세 조정 데이터를 거의 또는 전혀 사용하지 않고 알려지지 않은 도메인에 적응합니다.
  • emotion 모델 앙상블의 output scores를 destination set E로 매핑하는 것은 target domain의 레이블 정의와 이전 섹션에서 공식화된 일반 규칙을 이해함으로써 수행됩니다.
    • 예를 들어, anger/hate/contempt/disgust 레이블은 부정적인 정서와 연결됩니다.
    • 또한 Ekman 감정 anger와 disgust의 경우 유일한 관련 하위 범주는 anger이며 최종 매핑은 ((EK[anger] * Anger[anger]) + EK[disgust]) * Sentiment[negative]입니다.
  • 그림 2는 이 데이터 세트의 트윗에서 우리 시스템이 생성한 예제 출력을 보여줍니다.
  • 표 7에서는 1000개의 트윗 검증 세트를 미세 조정한 후 프랑스 선거 주석 데이터 세트에 대한 시스템의 클래스별 F1 점수를 보여줍니다.
  • 일반적으로 우리는 positive-other and negative-other와 같이 더 많은 사례가 있는 target emotion에 대해 모델 점수가 더 높고 examples가 적은 joy/happiness과 같은 target emotion에 대해 더 낮은 점수를 받는 것을 볼 수 있습니다.
  • 이 도메인의 점수는 annotation의 신뢰성 부족을 반영하여 SemEval 2018 Task 1e 데이터 세트보다 달성된 점수보다 낮지만 훈련 데이터가 거의 또는 전혀 없는 기준 모델보다 개선되었습니다.

6 Limitations

  • 실험을 통해 우리의 접근 방식이 영어 트윗의 다양한 대상 도메인에 성공적으로 적용될 수 있음을 확인했습니다.
  • 사전 훈련된 모든 모델은 영어로 훈련되었으므로 다국어 설정으로 잘 일반화되지 않습니다.
  • 향후 작업에는 XLM-RoBERTa와 같은 다국어 사전 훈련 모델을 사용하고 감정 모델 앙상블을 구축하기 위해 비영어권 언어로 감정 주석이 달린 훈련 데이터를 생성하는 것이 포함될 것입니다.
  • 또한 우리의 접근 방식은 사용자가 target 레이블에 대한 강력하고 구체적인 정의를 가지고 있다고 가정합니다.
    • 이 부분이 한계는 맞는듯
    • 접근 방식은 레이블 매핑의 품질과 사용 가능한 미세 조정 데이터의 품질에 따라 달라집니다.
  • 프랑스 선거 데이터 세트에 대한 주석은 다른 그룹에서 수행했으며 결과는 제공된 ground truth에 의존합니다.
  • 우리는 또한 더 강력한 결과와 분석을 생성할 수 있도록 정치적 영역에서 감정으로 주석이 달린 공개적으로 사용 가능한 데이터 세트를 공개하기 위해 전문가의 사내 주석을 수행하는 것을 목표로 합니다.

7 Conclusion

  • 우리는 소셜 미디어 텍스트에서 감정을 감지하는 작업에 대한 접근 방식과 대상 라벨 세트에 관계없이 모든 도메인에서 적용할 수 있는 off-the-shelf 감정 분류 앙상블을 제시합니다.
  • fine-tuning을 위해 target domain validation data를 활용하면 해당 도메인 내에서 성능을 향상시킬 수 있지만 (제안한) 모델에는 도메인 내 훈련 데이터 또는 미세 조정 단계가 필요하지 않습니다.
  • 사용자는 모델에서 사용할 수 있는 hierarchical fine-grained emotion and sentiment를 필요한 레이블 집합에 신중하게 매핑해야 합니다.
  • 우리는 모델이 이전에 본 적이 없는 다양한 대상 레이블 세트와 다양한 도메인의 데이터 세트에 대한 두 가지 매핑의 도움으로 아이디어를 시연했습니다.

댓글