NL-295, ARR Review
Advancing Emotion Recognition and Intensity Modeling for Ethiopian Languages
◼ Comment
- 감정인식에서 단순 single label 형식으로는 제대로 감정을 표현 못하기 때문에, multi class, multi label 데이터를 만든다고 한다.
- 여기서는 EthioEmo 데이터 기반으로 감정강도에 대한 어노테이션을 통해 데이터 확장했다
- 에티오피아는 4 종류의 언어가 있다고 하는데
- 언어에 따라 annotation이 5명인 경우가 있고 3명인 경우가 있는데
- 5명인 경우, annotation 하는 식이 뭔가 불완전한거 같아보임
- anno<2 인 경우는 어떻게 되는거지?
- 학습에 대해서 너무 생략되어 있다
- 각 multi label의 intenstiy가 0,1,2,3 형태로 있는데
- bert 기반 모델에서 이거를 어떻게 학습하는거지?
- 각 레이블에 대한 head가 있고 regression? classification 형태로 학습이 되는것인가?
- 표 1은, 각 에티오피아 언어에 대해 학습/테스트가 이뤄지고
- 표 2는, 3개의 에티오피아 언어에 대해 학습되고 나머지 1개에 대하 테스트되는 cross-lingual 세팅이라고 한다
- 평가에 대해서도 정보가 부족하다
- 멀티레이블에서 Macro-F1으로의 성능측정은 얼마나 믿을만한가?
- Macro-F1은 어떻게 측정되는것인가? 각 감정에 대해 accuracy을 측정하고 이를 평균내는것인가?
- intensity가 1이상이면 일단 그 감정을 가지고 있다고 보는 것인가?
Abstract
감정 이해는 고객 피드백 분석, 마케팅 인사이트, 소셜 미디어 모니터링 등 다양한 인간-컴퓨터 상호작용 작업의 핵심입니다. 실제 환경에서는 사람들이 동시에 여러 감정을 표현하는 경우가 많아, 감정의 복합성을 포착하기 위해 다중 레이블 주석이 필수적입니다. EthioEmo 데이터셋(Belay et al., 2025)은 에티오피아 언어에 대한 다중 레이블 감정 주석을 제공하지만, 각 감정 표현의 강도(세기)에 대한 정보가 없어 감정의 강약을 모델링하는 데 한계가 있습니다. 본 연구에서는 각 레이블된 감정에 대해 감정 강도 주석을 추가하여, 저자원 아프리카 언어의 감정 이해를 위한 보다 풍부하고 정교한 자원을 제공합니다. 이를 바탕으로, 인코더 기반 사전학습 언어모델(PLM)과 공개 대형언어모델(LLM)을 평가했습니다. 초기 실험 결과, 아프리카 언어에 특화된 PLM이 공개 LLM보다 일관되게 우수한 성능을 보였으며, 이는 저대표 언어의 감정 분석에서 문화적·언어적 특성이 반영된 모델의 중요성을 강조합니다.
1 Introduction
감정 인식은 자연어 처리(NLP)에서 가장 도전적이고 주관적인 작업 중 하나입니다(Ziems et al., 2024). 다른 많은 NLP 과제와 달리, 감정 인식은 텍스트를 작성자 또는 독자의 심리 상태를 가장 잘 반영하는 감정 레이블에 할당해야 합니다. 텍스트에서 감정을 감지하는 능력은 고객 피드백에서 만족/불만족을 식별하거나 개인 및 사회의 정서적 안녕을 평가하는 등 다양한 응용 가능성을 갖고 있습니다(Liu, 2012).
감정 데이터셋 주석 방식은 크게 다중 클래스(multi-class)와 다중 레이블(multi-label) 접근 방식이 있습니다. 다중 클래스 방식에서는 하나의 감정 클래스 또는 무감정에만 할당되지만, 다중 레이블 방식에서는 주어진 텍스트를 하나도 없거나, 하나, 여러 개, 또는 모든 대상 감정 레이블과 연결할 수 있습니다. 또한 감정 강도(intensity)는 감정 인식 작업의 확장 개념으로, 표현된 감정의 세기를 수치화합니다(Mashal and Asnani, 2017).
다중 레이블 감정에서는 선택된 각 감정의 강도를 추가하는 것이 중요합니다. 왜냐하면 모든 감정이 동일하게 표현되는 것은 아니기 때문입니다(Labat et al., 2022; Firdaus et al., 2020). 예를 들어, 어떤 감정은 미묘하게 존재하는 반면, 다른 감정은 더 두드러지게 나타날 수 있습니다. 이러한 복합성은 감정의 강도를 평가하는 것이 얼마나 중요한지를 보여줍니다.
예를 들어,
“새 직장을 시작하게 되어 엄청나게 신나지만, 거기서 사귄 친구들을 떠나게 되어 조금 슬프다.”
이 문장에서 기쁨(joy)은 강하고 주된 감정이지만, 슬픔(sadness)은 부차적이며 강도가 낮습니다. 그림 1과 같이, 어떤 텍스트는 단일 감정 레이블과 해당 강도 값을 가지지만, 다른 경우에는 여러 감정이 각기 다른 강도로 나타날 수 있습니다.
Belay et al. (2025)은 암하라어(amh), 오로모어(orm), 소말리어(som), 티그리냐어(tir) 등 네 가지 저자원 에티오피아 언어에 대해 다중 레이블 감정 데이터셋인 EthioEmo를 구축했습니다. 하지만 이 데이터셋에는 각 감정 레이블의 강도 정보가 없습니다.
본 연구의 기여는 다음과 같습니다.
-
EthioEmo 데이터셋에 감정 강도를 추가하여, 보다 정교한 감정 분석이 가능하도록 함.
-
BERT 기반 사전학습 언어모델(PLM)과 공개 대형언어모델(LLM)을 활용하여 다중 레이블 감정 분류, 감정 강도 예측, 그리고 네 가지 에티오피아 언어 간의 교차언어 전이 학습 가능성을 평가함.
2 Related Work
다중 레이블 감정(Multi-label Emotion)
감정은 인간 본성의 핵심이며, 온라인 상호작용이 증가함에 따라 사람들은 다양한 방식으로 콘텐츠에 반응하고 이를 표현합니다. 하나의 텍스트 표현이 여러 감정을 동시에 나타내어, 복잡한 정서적 뉘앙스를 전달할 수 있습니다(Mashal and Asnani, 2017). 이러한 복잡한 다중 감정 표현을 처리하기 위해, 최근의 다중 레이블 감정 데이터셋에는 SemEval-2018 Task 1 (Mohammad et al., 2018), GoEmotions (Demszky et al., 2020), EmoInHindi (Singh et al., 2022), WASSA-2024 공유 과제 데이터셋 (Giorgi et al., 2024), BRIGHTER (Muhammad et al., 2025a), EthioEmo (Belay et al., 2025), SemEval-2025 Task 11 데이터 (Muhammad et al., 2025b) 등이 있습니다.
다중 레이블 감정에서의 강도(Intensity in Multi-label Emotion)
감정 분류뿐 아니라 각 감정의 강도를 분석하는 것은 더 깊은 통찰을 제공하여, 보다 정보에 기반한 효과적인 결정을 가능하게 합니다(Maruf et al., 2024). 각 감정 레이블의 강도를 정확하게 주석하는 것은 언어 모델의 성능을 향상시키는 데 필수적이며, 이는 미묘한 감정 인식을 위한 추가적인 도전 과제를 제공합니다.
대부분의 대표적인 다중 레이블 감정 데이터셋(Mohammad et al., 2018; Singh et al., 2022; Giorgi et al., 2024; Muhammad et al., 2025a)에는 해당 감정에 대한 강도 점수가 포함되어 있습니다. 그러나 EthioEmo (Belay et al., 2025)는 각 감정의 강도를 지정하지 않은 채 다중 레이블 방식으로만 주석되어 있습니다. 이에 본 연구에서는 EthioEmo 데이터셋에 강도 기능을 추가했습니다.
기존의 데이터세트 EthioEmo에 감정강도를 추가하는게 제일 큰 contriubtion이긴 한듯
교차언어 실험(Cross-Lingual Experimentation)
교차언어 전이 학습은 저자원 언어의 데이터 부족 문제를 해결하는 유망한 접근법으로 주목받고 있습니다(Maladry et al., 2024). 이를 통해 고자원 언어의 지식을 저자원 언어로 이전할 수 있습니다(Zhang et al., 2024). 이러한 접근을 활용하면, 한 언어가 다른 언어의 자원과 인사이트를 공유받아 감정 관련 작업에서 모델의 일반화를 향상시킬 수 있습니다(Zhu et al., 2024; Kadiyala, 2024; Cheng et al., 2024). Navas Alejo et al. (2020)은 감정 탐지 및 강도 예측에서 다양한 교차언어 전략을 탐구하며, 모델이 서로 다른 언어에 어떻게 적응할 수 있는지를 보여주었습니다. 그러나 동일한 국가 내에서 사용되는 여러 언어 간의 교차언어 전이에 대한 평가는 거의 이루어지지 않았습니다. 본 연구에서는 에티오피아 언어 간의 교차언어 평가를 수행합니다.
같은 언어간의 cross-lingual이 뭔 의미일까?
3 EthioEmo Dataset
EthioEmo 감정 데이터셋은 네 가지 에티오피아 언어(amh, orm, som, tir)를 포함합니다(Belay et al., 2025). 각 데이터 인스턴스는 암하라어(amh)의 경우 5명의 주석자, 나머지 언어의 경우 3명의 주석자가 주석했습니다. 최종 레이블은 다수결 방식으로 결정됩니다.
감정 강도를 매핑하는것 아닌가? 레이블 자체를 강도를 받아서 다수결 하는것인가?
문자 체계는 amh와 tir은 에티오픽(Ge’ez) 문자를 사용하고, som과 orm은 라틴 문자를 사용합니다. 데이터셋의 감정 및 강도 분포는 부록 A.5와 A.6에 제시되어 있습니다.
감정 강도(Emotion Intensity)
감정 데이터셋에서 감정의 강도 수준은 복잡한 감정을 정확하게 이해하는 데 매우 중요합니다(Firdaus et al., 2020). 본 연구에서는 EthioEmo 데이터셋을 확장하여, 식별된 각 감정에 대한 강도 주석을 포함했습니다. 주석자들은 각 감정 카테고리에 대해 강도 레이블을 부여하도록 훈련되었습니다. 강도 스케일은 선행 연구(Mohammad et al., 2018; Singh et al., 2022; Muhammad et al., 2025b)의 방식을 따르며, 네 가지 수준으로 구성됩니다.
-
0: 해당 감정 없음
-
1: 약함(Slight)
-
2: 중간(Moderate)
-
3: 강함(High)
최종 강도 점수는 아래 조건에 따라 주석자들의 평가를 평균하고, 최소 2명 이상의 주석자가 1, 2, 3 중 하나를 선택해야 합니다.
5명의 주석자(amh)의 경우
만약 anno>=2가 아니면 어디에 매핑되는것이지? 위 식은 불완전해보임. 그냥 평균내서 continuous하게 가져가면 안되나?
3명의 주석자(orm, som, tir)의 경우
4 Experiment Setup
우리는 일반 다국어 모델, 아프리카 특화 모델, 그리고 공개 LLM 등 다양한 관점에서 평가를 위해 언어 모델을 선정했습니다.
일반 다국어 PLM(General Multilingual PLMs)
가장 널리 사용되는 BERT 계열 다국어 PLM을 평가했습니다. 여기에는 LaBSE (Feng et al., 2022), RemBERT (Chung et al., 2020), XLM-RoBERTa (Conneau et al., 2020), mBERT (Libovický et al., 2019), mDeBERTa (He et al., 2021)가 포함됩니다.
아프리카 특화 PLM(Africa-centric PLMs)
가장 널리 사용되는 아프리카 특화 언어 모델을 파인튜닝하여 실험했습니다. 여기에는 AfriBERTa (Ogueji et al., 2021), AfroLM (Dossou et al., 2022), AfroXLMR (61개 및 76개 언어 버전) (Alabi et al., 2022), EthioLLM (Tonja et al., 2024)가 포함됩니다.
대형 언어 모델(LLMs)
오픈소스 커뮤니티에서 널리 사용되는 모델 중 다음을 평가했습니다: Qwen2.5-72B (Qwen et al., 2025), Dolly-v2-12B (Conover et al., 2023), Llama-3.3-70B (Grattafiori et al., 2024), Mistral-8x7B (Jiang et al., 2024), DeepSeek-R1-70B (Guo et al., 2025).
모델의 세부 정보와 버전은 부록 A.7에 제시되어 있습니다.
평가 설정(Evaluation Setup)
인코더 전용 모델은 감정 분류, 강도 예측, 교차언어 전이 실험을 위해 데이터셋의 학습/테스트 분할(train-test split)을 사용하여 파인튜닝했습니다. LLM의 경우, 사전 정의된 감정 집합에서 각 감정의 존재 여부를 예측하도록 Chain-of-Thought(CoT) 방식으로 프롬프트를 작성해 제로샷(zero-shot) 설정에서 평가했습니다.
파인튜닝 하이퍼파라미터는 부록 A.2에, LLM 프롬프트는 부록 A.7에 제시되어 있습니다.
5 Experiment Results
5.1 다중 레이블 감정 분류(Multi-Label Emotion Classification)
표 1은 다중 레이블 감정 분류 결과를 보여줍니다.
BERT 계열 인코더 전용 모델들은 LLM보다 더 나은 성능을 보였습니다. 에티오피아 언어에 특화된 EthioLLM은 파인튜닝 시 우수한 성능이 기대되었으나, 결과적으로 항상 더 좋은 성능을 내지는 않았습니다. 이는 주로 파라미터 크기와 학습 데이터의 종류에 따라 달라집니다.
AfroXLMR은 약 12GB 규모의 말뭉치에서 더 많은 언어로 학습되었기 때문에 교차언어 전이 효과와 일반화 성능이 뛰어납니다. 반면, EthioLLM은 약 3GB의 비교적 덜 다양한 말뭉치와 제한된 언어 범위로 학습되었습니다.
평가된 LLM들은 저자원 언어에서 전반적으로 성능이 낮았으며, Dolly-v2-12B가 가장 낮은 성능을, Llama-3.3-70B가 상대적으로 나은 성능을 보였습니다.
AfroXLM-R(61L)은 최신 성능을 기록했으며, 예를 들어 amh(암하라어)의 경우 F1 점수가 68.5%로 기존 벤치마크인 67%를 초과했습니다. 또한, 다른 에티오피아 언어에 비해 amh는 평가한 언어 모델들에서 더 잘 표현되어 있습니다.
무슨 언어로 어떤 Loss로 학습된 것인가? 각 언어로 학습되고 각 언어로 평가된것인가? 그렇다면 cross-lingual은 어떤 의미인가
멀티레이블에서 Macro-F1으로의 성능측정은 얼마나 믿을만한가? top-1 감정으로 일단 평가한것인가?
5.2 감정 강도 예측(Emotion Intensity Prediction)
표 2의 강도 예측 열에는 Pearson 상관계수 결과가 보고되어 있습니다.
모든 에티오피아 언어가 사전학습에 포함되지 않았기 때문에 mBERT는 성능이 낮았습니다. orm과 som에서 소폭 나은 성능을 보인 것은 이 언어들이 라틴 문자를 사용하며 일부 어휘를 공유하기 때문일 수 있습니다.
감정 분류 작업과 마찬가지로, AfroXLM-R(76L)이 강도 예측에서도 더 나은 결과를 보였습니다. LLM들은 강도 예측에서 감정 분류보다 성능이 더 낮았으며, 표에는 제시되지 않았습니다. 예를 들어 amh 강도 예측에서 Qwen2.5-72B는 21.15%, Dolly-v2-12B는 4.32%, Llama-3.3-70B는 33.93%, Mistral-8x7B는 13.22%, DeepSeek-R1-70B는 29.08%의 Pearson 상관계수를 기록했습니다.
감정 강도 예측은 고자원 언어에서도 주관성과 복잡성 때문에 더 어려운 과제이며(Muhammad et al., 2025a), 텍스트에서 감정의 세기를 판단해야 하기 때문에 감정 분류보다 더 복잡하고 주관적인 작업입니다.
softmax로 감정강도를 예측한 것인가?
5.3 교차언어 감정 분류(Cross-lingual Emotion Classification)
교차언어 전이 실험에서는 평가 대상 언어를 제외한 나머지 언어 데이터셋으로 BERT 계열 모델을 파인튜닝하고, 보류된(target) 언어로 테스트를 진행했습니다.
표 2의 교차언어 전이 열에 그 결과가 제시되어 있습니다.
AfroXLM-R(76L)은 사전학습에 모든 목표 에티오피아 언어가 포함되어 있기 때문에 교차언어 평가에서 더 나은 성능을 보였습니다.
교차언어 결과를 비교해 보면, amh와 tir이 전이 성능이 더 좋은데, 이는 두 언어가 모두 에티오픽 문자를 사용하며 사전학습 시 더 많은 말뭉치가 사용되었기 때문일 수 있습니다.
BERT 계열 모델 중 mBERT는 사전학습에 해당 언어들이 포함되지 않아 가장 낮은 성능을 보였습니다. AfroLM은 amh만 사전학습에 포함되어 있어 두 번째로 낮은 성능을 기록했습니다. 또한, 교차언어 전이 실험에서 라틴 문자를 사용하는 언어(orm, som)를 제외하고 에티오픽 문자 언어로만 학습해도 성능에 영향을 주지 않았습니다. 즉, 문자 체계가 다른 언어 간 전이는 잘 이루어지지 않는다는 것을 보여줍니다.
6 결론(Conclusion)
본 연구에서는 EthioEmo 감정 데이터셋을 확장하여, 각 레이블된 감정에 대한 강도(intensity) 정보를 추가했습니다. 이 데이터셋을 활용하여 다중 레이블 감정 분류, 감정 강도 예측, 에티오피아 언어 간 교차언어 전이 학습을 수행했습니다.
전반적으로 아프리카 특화 언어 모델(AfroXLMR)이 감정 분류, 강도 예측, 에티오피아 언어 간 전이 가능성에서 더 우수한 성능을 보였습니다. 본 데이터셋은 저자원 언어에 대한 보다 견고한 감정 평가 과제를 개발하는 데 기여할 것입니다.
향후 연구에서는 최종 골드 라벨을 결정할 때 다수결 방식 대신 주석자 수준(annotator-level)의 데이터를 직접 모델링하는 것을 제안합니다. 왜냐하면 주석이 주관적인 NLP 작업일 경우, 다수결 방식은 소수 의견을 반영하지 못하기 때문입니다.
연구의 한계(Limitations)
인스턴스당 제한된 주석자 수
GoEmotions 데이터셋(Demszky et al., 2020), WRIME 감정 강도 데이터셋(Kajiwara et al., 2021) 등에서처럼, 다중 레이블 감정 주석은 인스턴스당 3명의 평가자가 참여하는 것이 일반적입니다. 하지만 BRIGHTER 감정 데이터셋(Muhammad et al., 2025a)에서는 해당 감정 강도를 최소 5명의 주석자가 평가했습니다. 주석자 수가 많을수록 데이터셋의 품질이 향상되는 것이 일반적입니다(Troiano et al., 2021; Suzuki et al., 2022). 본 연구에서는 범위 제한으로 인해, amh 언어를 제외한 나머지 언어에서는 인스턴스당 최소 3명만이 강도 주석에 참여했고, amh는 5명이 참여했습니다. 향후 연구에서는 현재의 3명 주석에 추가로 더 많은 평가를 보완하여, 감정 강도 데이터 품질을 높일 수 있을 것입니다.
다수결 방식의 한계
최종 강도를 결정할 때, 본 연구에서는 강도 값의 평균과 임계값(threshold)에 기반한 다수결 방식으로 라벨을 결정했습니다. 그러나 이 방식은 모든 주석자의 관점을 반영하지 못하는 일반적인 단점이 있습니다. 향후에는 주석자별 데이터를 공개하여, 최종 감정 강도를 결정하는 다양한 방식을 탐구하거나, 다수결을 적용하지 않고 모델링에 활용할 수 있도록 할 계획입니다.
제한된 모델 평가 범위
자원 제한으로 인해 본 연구에서는 제로샷(zero-shot) 설정에서 제한된 수의 LLM만 평가했습니다. 향후 연구에서는 더 많은 공개 LLM, 상용 LLM, 그리고 퓨샷(few-shot) 설정을 포함해 평가를 확장할 수 있습니다.
Reference
댓글
댓글 쓰기