Emotion is Not Just a Label: Latent Emotional Factors in LLM Processing

◼ Comment

요약

이 논문은 감정을 언어 모델이 예측해야 할 출력이 아니라, 텍스트를 처리하고 추론하는 내부 메커니즘을 변화시키는 잠재적 요인으로 보고, 감정적 컨텍스트가 질의응답 성능과 어텐션 구조에 체계적인 영향을 미친다는 점을 분석한다.
이를 위해 감정적으로 일관된 문맥과 감정 중립적 질문으로 구성된 AURA-QA 데이터셋을 구축하고, 감정만 다른 컨텍스트를 학습 중에 활용해 감정에 의해 흔들리는 의미 표현을 억제하는 감정 정규화 학습 방법을 제안한다.

강점

본 논문은 감정을 단순한 분류 대상이 아니라 언어 모델의 추론 과정을 교란하는 잠재 요인으로 바라보는 흥미로운 관점을 제시한다.
컨텍스트의 감정 톤에 따라 QA 성능이 어떻게 달라지는지를 분석하며, 특히 어텐션으로부터 추출한 다양한 기하적 특징과 정확도 간의 관계를 정밀하게 살펴본다.
또한 질문은 감정 중립적으로 유지한 채 컨텍스트만 감정적으로 다양화한 AURA-QA를 제안하고, 감정 정규화를 통해 감정적으로 다양한 데이터셋뿐 아니라 감정적으로 중립적인 데이터셋에서도 QA 성능을 일관되게 개선함으로써, 감정이 제어 가능한 추론 교란 요인임을 보여준다.

단점

전반적으로 프레젠테이션 흐름이 다소 따라가기 어렵고, 핵심 개념인 attention geometry가 무엇을 의미하는지 본문에서 명시적으로 설명될 필요가 있다.

특히 어텐션으로부터 추출한 다양한 특징과 지표에 대한 설명이 부족하며, 섹션 3의 일부 분석은 부록으로 옮기고 지표 정의와 직관은 본문에 배치하는 편이 더 적절해 보인다.

또한 ‘톤(tone)’이라는 개념은 음성과의 연관성이 더 강한데, 텍스트에서 이를 분석 대상으로 삼는 것이 얼마나 자연스러운지에 대한 논의가 부족하다.
섹션 5에서 사용된 감정 번역 모델이 무엇인지 구체적으로 제시되지 않았다.
같은 컨텍스트에서 감정만 다른 경우에 대한 직접적인 성능 비교가 없다.

테이블 2에서 Multi-Emotion Data Augmentation을 테스트에서도 적용해보면 좋지 않을까 싶음.

마지막으로 테이블 2의 성능 향상은 다중 감정 데이터 증강으로 인한 학습 데이터량 증가 효과가 크게 작용했을 가능성이 있으며, 테스트 단계에서도 증강을 적용하거나 데이터 규모를 통제한 추가 분석이 있으면 주장의 설득력이 더 높아질 것으로 보인다.

Abstract

대규모 언어 모델(LLM)은 감정적 톤이 매우 다양한 텍스트를 처리하는 환경에 일상적으로 배치되고 있지만, 그 추론 행동은 감정을 표현적 변이의 원천으로 고려하지 않은 채 평가되는 경우가 대부분이다. 기존 연구는 감정을 주로 감성 분석이나 감정 분류와 같은 예측 대상으로 다루어 왔다. 반면 본 연구에서는 감정을, 모델이 텍스트에 주의를 기울이고 이를 바탕으로 추론하는 방식에 영향을 미치는 **잠재적 요인(latent factor)**으로서 분석한다.

우리는 감정적 톤이 트랜스포머 모델의 어텐션 기하(attention geometry)를 어떻게 체계적으로 변화시키는지를 분석하고, 국소성(locality), 질량 중심 거리(center-of-mass distance), 엔트로피(entropy)와 같은 지표들이 감정에 따라 달라지며, 이러한 변화가 다운스트림 질의응답(question answering) 성능과 상관관계를 가짐을 보인다. 이러한 효과를 통제된 환경에서 연구하기 위해, 감정적으로 균형 잡힌 인간 작성 문맥을 포함하는 질의응답 데이터셋 **Affect-Uniform ReAding QA (AURA-QA)**를 새롭게 제안한다.

또한 우리는 학습 과정에서 감정에 의해 유도되는 표현의 변동(representational drift)을 제약하는 감정 정규화(emotional regularization) 프레임워크를 제안한다. 다수의 QA 벤치마크에서 수행한 실험 결과, 이 접근법은 감정적으로 다양한 데이터셋과 감정 변화가 없는 데이터셋 모두에서 독해 성능을 향상시키며, 분포 이동(distribution shift) 상황에서도 일관된 성능 개선과 여러 벤치마크에서의 인도메인(in-domain) 성능 향상을 달성함을 확인하였다.

1. 서론

자연어 처리(NLP) 연구는 오랫동안 감정과 정서를 다양한 영역에서 다뤄 왔다. 한 가지 대표적인 흐름은 **감성 분류(sentiment classification)**로, 알고리즘이 텍스트를 감정(정서) 범주로 분류하는 과제이다(Wankhade et al., 2022). 또 다른 흐름은 언어 모델 내부에서 감정이 어떻게 인코딩되는지를 분석하는 연구로, 수학적 관점과 심리학적 관점을 결합한다(Reichman et al., 2025a; Zhang and Zhong, 2025). 세 번째 흐름은 감정적 시나리오를 대규모 언어 모델(LLM)에 제시하고 그 응답을 분석함으로써, LLM의 **감정 지능(emotional intelligence)**을 탐구하는 연구이다(Wang et al., 2023; Huang et al., 2024b; Zhao et al., 2023).

감정과 언어 처리의 교차점에서 광범위한 연구가 이루어졌음에도, 대부분의 선행 연구는 감정을 **처리(processing)를 형성하는 잠재 요인(latent factor)**이라기보다 **예측의 대상(object of prediction)**으로 취급한다. 텍스트의 톤은 독자가 그것을 해석하는 방식에 영향을 준다. 감정과 정서는 인간 경험의 핵심 요소이므로 글쓰기의 자연스러운 일부이기도 하다. 예컨대 다음 구절:

“They call me Professor and Doctor, forsooth, // For misleading many an innocent youth”¹

은, 의기양양하게(boastfully) 읽을 때와 의도된 비통한(doleful) 톤으로 읽을 때 전달되는 의미가 매우 달라진다.

대부분의 선행 연구는 언어 모델에게 톤을 직접적으로 해석하게 한다. 예를 들어 한 연(stanza)의 분위기를 분류하게 하거나, “무엇이 파우스트(Faust)를 화나게 했는가?” 같은 질문에 답하게 하는 식이다. 이러한 연구들은 감정을 **명시적 신호(explicit signal)**로 취급하지만, 감정이 겉보기에는 중립적인(reasoning-neutral) 추론 과제에 어떤 영향을 미치는지에 대해서는 훨씬 덜 알려져 있다.

따라서 본 연구는 다른 질문을 던진다.

문맥의 톤 변화가, 그 자체로는 비감정적인 사실 질의에 대한 성능에 영향을 주는가?
예를 들어 같은 문단의 앞부분을 문맥으로 사용하여 “파우스트는 어떤 학문(직업적 소명, vocations)을 공부했는가?”라고 물을 수 있다.
이때 문단이 지닌 비참한 톤이 모델의 정확도에 영향을 미칠까?
만약 그 문단이 쾌활한 톤으로 표현된다면 성능이 향상될까?

QA라고 해도, 컨텍스트가 어떤 감정을 가지냐에 따라 성능이 바뀌냐 이런게 궁금한 듯

검색 증강 생성(retrieval-augmented generation)의 시대에, LLM은 감정적 톤이나 주관적 프레이밍이 다양한 온라인 소스에서 가져온 텍스트를 점점 더 많이 처리한다. 그림 1에서 보이듯, 웹 텍스트의 대부분은 중립적이거나 행복한 톤이지만, 여전히 감정적으로 강하게 채색된 콘텐츠의 **긴 꼬리(long tail)**가 상당히 남아 있어 모델이 이를 견고하게 처리해야 한다. 3장에서 우리는 감정적으로 균형 잡힌 데이터셋에서 중립 텍스트와 행복 텍스트 사이의 질의응답 성능이 최대 12–13%까지 차이 날 수 있음을 보인다.

본 논문은 이러한 정서적(affective) 콘텐츠가 모델 성능에 어떤 영향을 미치는지 조사하고, 이러한 환경에서의 강건성을 개선하는 방법을 제안한다.

이를 위해 본 논문은 다음과 같은 기여를 한다.

첫째, 서로 다른 감정적 문맥에서 모델의 **어텐션 기하(attention geometry)**를 분석함으로써 감정이 LLM 성능에 미치는 영향을 연구해야 할 필요성을 논증한다.
둘째, 샘플링 편향으로부터의 영향을 분리하여 모델 자체의 효과를 고립시키기 위해, 질의응답을 위한 감정 레이블 균형 데이터셋인 AURA-QA를 소개한다.
마지막으로, 감정적으로 다양한 텍스트를 더 잘 해석하도록 모델을 학습시키는 방법을 제안한다.

2. 관련 연구 (Related Works)

다중 감정 데이터셋 (Multi-Emotional Datasets)

감정적 문맥이 질의응답(QA) 성능에 미치는 영향을 연구하려면, 문맥 문단에 감정 주석이 부여된 데이터셋이 필요하다. 그러나 우리가 아는 한, 자연스럽게 구축된(native) 다중 감정 QA 데이터셋은 현재 전적으로 합성(synthetic) 데이터로만 존재한다(Reichman et al., 2025b). 이로 인해 기존 자원인 TweetQA(트윗 기반)(Xiong et al., 2019)와 FriendsQA(대화 기반)(Yang and Choi, 2019)가 재활용되었으며, 이들 데이터셋은 본래 감정적 변이를 자연스럽게 포함하고 있다는 점을 활용해 자동 감정 라벨링 파이프라인(부록 B 참조)을 통해 감정 주석이 부여되었다.

그림 2에서 보이듯이, 이러한 말뭉치들은 감정 분포가 심하게 치우쳐(skewed) 있어, 의도적으로 감정 다양성을 균형 있게 큐레이션한 목적형 데이터셋의 필요성을 부각시킨다. SocialIQA(Sap et al., 2019), LongEmotions(Liu et al., 2025), EmotionBench(Huang et al., 2024a), EmoBench(Sabour et al., 2024)와 같은 관련 데이터셋들은 사회적 추론이나 감정 이해 능력을 평가하지만, 질문 자체는 감정적으로 중립적인 상황에서 감정적으로 다양한 문맥을 이해하는 능력을 직접적으로 테스트하지는 않는다.

감정 독해(Affective Reading Comprehension)

기존 연구는 주로 언어 모델의 감정 추론 능력이나 감정 지능(emotional IQ)—즉, 감정 상태를 추론하거나 이에 대해 reasoning하는 능력—을 평가해 왔다. 예를 들어 Liu et al.(2025)은 이 영역에서 모델들이 중간 수준의 능력만을 보인다고 보고하며, 구조화된 프롬프트나 추론 체인(reasoning chains)을 사용하면 사회적 상황 모델링에서 부분적인 성능 향상이 나타난다고 보고한다(Park et al., 2025). 또 다른 연구 흐름에서는 목표 지향적 환경에서 모델이 1원리(first principles)로부터 사회적 상호작용의 동학을 재발견할 수 있음을 보여주기도 했다(Tejwani et al., 2023). 그러나 Theory of Mind(ToM) 능력을 기준으로 평가할 경우, 모델들은 여전히 인간 수준에 크게 못 미친다(Bortoletto et al., 2025).

이에 비해, 질문 자체는 감정적으로 중립적일 때, 모델이 감정적으로 상이한 문맥을 어떻게 해석하는지에 대해서는 상대적으로 알려진 바가 거의 없다. Reichman et al.(2025b)은 이 현상을 탐구하기 위해 합성 데이터셋을 제안했으나, 그 평가는 주로 **풍자(sarcasm)**에 초점을 맞추고 있다. 현재까지, 검색된 문단(retrieved passages)의 감정적 톤이 QA 성능을 보다 일반적으로 어떻게 조절(modulate)하는지에 대해서는 제한적인 이해만 존재한다.

3. 왜 감정에 따라 성능이 달라지는가?

기성(off-the-shelf) 대규모 언어 모델(LLM)이 서로 다른 감정적 정서를 지닌 문맥을 바탕으로 질문에 답할 때, 성능은 감정 범주에 따라 체계적으로 달라진다(표 1). 이러한 성능 격차는 제로샷(zero-shot) 설정뿐만 아니라, 대상 데이터셋에 대해 파인튜닝한 후 평가한 경우에도 지속적으로 관찰된다. 다음 절에서 설명할 새로 구축된 데이터셋 AURA-QA에 대한 결과 역시 표 1에 포함되어 있다. 이 결과는 감정적으로 균형 잡힌 통제 조건하에서도—즉, 표본 수 차이로는 설명할 수 없는 상황에서도—성능 격차가 여전히 존재함을 보여준다.

이러한 관찰은 성능 차이를 기계적(mechanistic) 관점, 즉 **어텐션 기하(attention geometry)**의 관점에서 분석할 필요성을 제기한다. 구체적으로는, 감정적 톤이 모델이 토큰들 사이에 주의를 어떻게 배분하는지를 변화시키는지에 초점을 맞춘다.

어텐션은 모델이 토큰 간에 표현적 초점을 어떻게 할당하는지를 결정하는 핵심 메커니즘으로, 국소적 문맥과 장거리 문맥 전반에서 어떤 토큰이 서로의 표현에 영향을 미치는지를 규정한다. 이에 따라 본 연구는 다음 두 가지 질문을 중심으로 어텐션 기하를 분석한다.

(i) 어텐션 구조가 질의응답 정확도와 어떤 관계를 가지는가,
(ii) 감정적 톤이 어텐션 기하를 어떻게 체계적으로 변화시키는가.

근데 톤이라는게 음성이랑 더 연관성 있는거 같은데, 텍스트에서 분석하는게 자연스러운가? 물론 텍스트에도 톤이라는게 있긴 하겠다만...

이를 위해 어텐션을 여러 **수학적으로 정의된 지표(metrics)**로 특성화한다. 본문에서는 그중 가장 두드러진 지표들만을 논의하며, 전체 지표 목록은 부록 C에 제시되어 있다.

첫 번째로 사용된 지표는

**질량 중심 거리(center-of-mass distance)**로, 각 토큰의 어텐션 중심이 자기 자신으로부터 얼마나 떨어져 있는지를 측정한다. 이는 모델이 국소적으로 집중하는지, 혹은 시퀀스 전반에 걸쳐 넓게 어텐션을 분산하는지를 포착한다.
**행 엔트로피(row entropy)**는 토큰의 어텐션 분포가 얼마나 불확실한지를 정량화하는 지표로, 엔트로피가 높을수록 어텐션이 확산되고 초점이 불분명함을 의미하며, 낮을수록 확신에 찬 집중된 주의를 의미한다.
이와 유사하게, **지속성(persistence)**은 연속된 레이어들 사이에서 어텐션 패턴이 얼마나 안정적으로 유지되는지를 측정하며, 값이 높을수록 표현이 깊어질수록 모델이 일관된 초점을 유지함을 나타낸다.

이러한 지표들은 어텐션 기하의 공간적(spatial), 통계적(statistical), 그리고 시간적/계층적(temporal) 측면을 각각 포착한다는 점에서 중요하다.

지표에 대한 설명이 너무 부족해보이는데? 어떻게 계산되는지 수식이 없음

3.1 어텐션 기하와 정확도 (Attention Geometry and Accuracy)

어텐션 기하가 과제 성능과 어떤 관계를 가지는지를 평가하기 위해, 우리는 어텐션으로부터 추출한 특징들만을 사용하여 질의응답 정확도를 예측하는 로지스틱 모델을 학습하였다. 모든 특징을 사용한 경우, 이 예측 모델은 평균 AUC 0.75 ± 0.03을 달성하였으며, 이는 어텐션 구조가 성능 변동의 상당 부분을 설명하고 있음을 시사한다.

여기서 말하는 어텐션으로 추출한 특징? 이게 뭐지? 설명이 너무 부족한 듯

개별 지표들 가운데서는 top-k mass로부터의 집중도(focus-from top-k mass) 특징이 가장 강력한 예측력을 보였다(AUC = 0.74 ± 0.01). 이는 **정답 구간(answer span)**에서 바깥으로 퍼져 나가는 어텐션이 소수의 토큰에 날카롭게 집중될수록, 모델이 정답을 맞힐 가능성이 높다는 것을 의미한다. 이러한 패턴은 의미적으로 핵심적인 영역에서 출발한 어텐션이 집중된 형태로 전파될 때, 성공적인 추론이 동반되는 경향이 있음을 시사한다.

중간 수준의 예측력은 focus-to 계열 특징들(AUC ≈ 0.68)에서도 관찰되었는데, 이는 정답 구간을 향해 얼마나 강하게 어텐션이 집중되는지를 측정한다. 또한 동일한 분포에서 계산된 엔트로피 기반 지표들(AUC ≈ 0.64–0.65) 역시 일정한 설명력을 보였으며, 이 경우 엔트로피가 낮을수록 정확도가 높은 경향이 나타났다.

**질량 중심 거리(center-of-mass distance)**나 **국소성(locality) 분위수(quantiles)**와 같은 공간적 기하 지표들은 상대적으로 작은 효과를 보였으나, 그 효과는 일관되게 관찰되었다. 이 결과는 과도하게 국소적이지도, 지나치게 확산되지도 않은 중간 정도의 공간적 분산이 성능을 뒷받침함을 시사한다.

종합하면, 이러한 결과들은 **정답 구간과 문맥 사이의 양방향 어텐션 흐름(bidirectional attentional flow)**이 정확도와 강하게 연관되어 있으며, 감정적 톤이 이 흐름을 조절함으로써 결과적으로 추론 품질에 영향을 미칠 수 있음을 시사한다.

각 특징이 뭔지 설명이 안되어있음. 부록C에 있다는데, 이게 본문으로 와야지 부록에 있으면 말이되나?ㅋㅋ

1️⃣ 실험에서 말하는 “입력(input)”의 정체

3.1에서 학습한 건 QA 모델이 아님

이미 QA는 끝난 상태
각 QA 샘플에 대해:
- ✅ 맞았는지 / ❌ 틀렸는지 결과가 있음
- 그리고 그때의 attention map들이 있음

이제 저자들이 새로 만든 데이터셋은 이거야 👇

2️⃣ 실제 데이터 한 샘플은 이렇게 생김

(1) 먼저 QA 한 번 수행

입력: passage + question
LLM이 답 생성
결과: 정답 / 오답

(2) 그 QA 과정에서 모든 attention 저장

레이어별
헤드별
토큰×토큰 attention matrix

(3) attention에서 숫자(feature)를 뽑음 ← 핵심

예를 들어 한 QA 샘플에서 이런 값들이 계산됨:

center-of-mass distance = 7.3
row entropy = 1.42
persistence = 0.81
focus-from-topk = 0.67
focus-to = 0.59
locality quantile(25%) = 3.1
locality quantile(75%) = 8.9
… (수십 개)

👉 이 **숫자 벡터 하나가 “입력”**임

3.2 감정에 따라 달라지는 어텐션 (Attention Varies with Emotions)

여기서 쓰이는 어텐션 기하, 어텐션 구조 이런게 원래 쓰이는 용어인가?

어텐션 기하와 정확도 사이의 관계가—비록 예측력은 중간 수준이지만—확립되었으므로, 다음 단계는 어텐션 구조가 감정 표현에 따라 어떻게 달라지는지를 살펴보는 것이다. 이를 위해 우리는 어텐션에서 추출한 특징들만을 입력으로 사용해 각 문단의 감정을 예측하는 랜덤 포레스트 분류기를 학습시켰다. 그 결과, 이 분류기는 매크로 F1 점수 0.75, **전체 정확도 86%**를 달성하였으며, 이는 감정이 모델 내부의 어텐션 기하에 **측정 가능한 흔적(measurable imprint)**을 남긴다는 것을 보여준다.

다수의 어텐션 특징들이 감정에 따라 유의미하게 달라졌다. 여기에는 국소성(locality)의 표준편차 및 하위 분위수, top-1 margin, key 엔트로피, 평균 국소성, 질량 중심 거리(center-of-mass distance), 전체 엔트로피, 곡률(curvature), 꼬리 질량(tail mass), 레이어 간 지속성(persistence), 그리고 어텐션 질량의 지니 계수(Gini coefficient) 등이 포함된다. 이는 감정적 톤이 어텐션에 공간적(spatial), 통계적(statistical), 깊이 방향(depth-wise) 전반에 걸쳐 영향을 미친다는 것을 의미한다.

감정별 어텐션 기하의 차이는 그림 3에서 one-vs-rest 효과 크기(effect-size) 행렬로 시각화되어 있다. 이 행렬에서 각 셀은 특정 감정의 샘플들을 나머지 모든 감정과 비교한 Cohen’s d 값을 나타낸다. 이 히트맵은 각 감정이 평균 대비 어떤 어텐션 특성을 증폭시키거나 억제하는지를 한눈에 보여주며, 감정별 **다변량적(multifeature) “서명(signature)”**을 요약한다. 특징들은 감정 간 분산이 큰 순서대로 정렬되어, 가장 변별력이 높은 차원들이 강조된다. **풍자(sarcasm)**는 다른 감정들과 비교해 기하가 극단적으로 달라 색상 스케일을 포화시키기 때문에, 주 패널에서는 제외되었으며(부록 D 참조), 별도로 분석된다.

풍자를 제외한 감정들 가운데에서는 **질량 중심 거리(center-of-mass distance)**가 가장 뚜렷한 구분을 보인다. **흥분(excitement)**은 가장 넓게 퍼진 어텐션을 보이는 반면, **놀람(surprise)**과 **슬픔(sadness)**은 두드러진 토큰 주변으로 국소적으로 어텐션이 집중되는 경향을 보인다. 이러한 패턴은 국소성(locality) 및 엔트로피(entropy) 지표에서도 반복된다. 즉, 흥분이나 **분노(anger)**와 같은 고각성(high-arousal) 감정은 공간적으로 넓게 퍼지고 엔트로피가 높은, 탐색적(exploratory) 어텐션을 보이는 반면, 슬픔이나 **혐오(disgust)**와 같은 저각성 혹은 부정적 감정은 엔트로피가 낮고 수렴적인(convergent) 어텐션을 보인다. 시각적으로 유사해 보이는 감정들—예를 들어 슬픔과 놀람, 혹은 흥분과 분노—조차도 서로 다른 기하적 구성을 유지하는데, 이는 각 감정이 모델의 어텐션 지형(attentional landscape)에 고유한 흔적을 남긴다는 것을 의미한다.

그림 4는 최종 트랜스포머 레이어들에서의 평균 어텐션 패턴을 기반으로, 서로 다른 감정 간 어텐션 맵의 쌍별(pairwise) 거리를 시각화한다. 이 그림은 감정적 톤이 달라질 때 모델이 어텐션을 배치하는 방식에 어떤 해석 가능한 차이가 나타나는지를 보여준다.

**풍자(sarcasm)**는 다른 감정들에 비해 가장 큰 변화를 보이는 경우 중 하나이다. 그림 6에서 보이듯, 풍자의 어텐션 패턴은 현저히 덜 국소적이며, 토큰 전반에 걸쳐 더 넓고 확산된 초점을 가진다. 공포(fear) 역시 상당한 변화를 유발하지만, 그 공간적 분포는 보다 불규칙적이다. 이러한 불규칙성은 그림 3에서 나타난 것처럼, 공포가 엔트로피와 국소성 측면에서 중간적인 수준을 보인다는 점과 일치한다. 반면 **흥분(excitement)**으로 전환되면, 먼 거리의 토큰들에 부여되는 상대적 가중치가 증가하며, 이는 더 큰 질량 중심 거리로 나타난다. 그림 4에 나타난 각 감정 쌍은 이처럼 서로 다른 기하적 서명을 보이며, 이는 모델이 감정적 톤을 체계적으로 상이한 어텐션 구성을 통해 인코딩하고 처리함을 시사한다.

3.3 결과 (Consequences)

종합하면, 감정적 톤은 모델의 어텐션 기하를 체계적으로 형성한다.

고각성(high-arousal) 감정—예를 들어 **흥분(excitement)**이나 분노(anger)—은 공간적으로 넓게 퍼지고 탐색적인 어텐션을 유도하며, 그 결과 어텐션의 공간적 분산이 크고 엔트로피가 높은 경향을 보인다. 반대로 저각성 또는 부정적 감정—예를 들어 **슬픔(sadness)**이나 혐오(disgust)—은 엔트로피가 낮고 국소적으로 수렴하는, 보다 집중된 어텐션을 만들어낸다.

**풍자(sarcasm)**는 이 둘과 모두 다른 양상을 보이며, 넓은 범위를 커버하면서도 일부 고립된 토큰에 날카로운 피크를 형성하는 특이한 어텐션 구조를 보인다.

이러한 어텐션 구조의 변화는 감정별 성능 차이를 설명하는 데 도움을 준다. 어텐션이 지나치게 확산되거나, 혹은 초점이 잘못 배치될 경우 독해 성능은 저하된다. 이는 감정이 모델이 무엇을 읽는지뿐 아니라, 어떻게 읽는지에도 영향을 미친다는 점을 보여준다.

요컨대, 본 결과들은 감정적 톤이 어텐션 기하를 체계적으로 재구성하며, 그 변화가 추론 성능과 상관관계를 가진다는 점을 시사한다. 이는 감정에 따른 성능 격차를 설명할 수 있는 개연적인 메커니즘을 제공한다. 이러한 관찰에 기반하여, 다음 절에서는 감정 조건화된 효과를 연구하기 위한 데이터셋을 설계하고, 과제와 직접적으로 관련된 표현을 보존하면서 감정 표현이 과도하게 전파되는 것을 제약하는 학습 프레임워크를 소개한다.

4. 데이터셋 구축 (Dataset Creation)

감정적 톤이 질의응답(QA)에 미치는 영향을 연구하기 위해, 우리는 새로운 데이터셋 **Affect-Uniform ReAding QA (AURA-QA)**를 제안한다. 기존의 QA 데이터셋들은 대부분 **합성(synthetic)**이거나, 감정 분포가 불균형하거나, 혹은 추론 기반 QA 과제를 수행하기에 충분한 문맥적 깊이를 제공하지 못한다. 이러한 한계는 자연스럽게 작성된 텍스트를 기반으로 하면서도 감정을 명시적으로 통제할 수 있는 정서 인지형(affect-aware) 말뭉치의 필요성을 제기한다.

AURA-QA의 설계 목표는 다음의 세 가지이다.

인간 저작성(Human authorship)
문단은 기계 생성 텍스트나 크라우드소싱 문장이 아니라, 자연스럽게 작성된 인간 텍스트에서 추출된다.
감정적 일관성(Emotional coherence)
각 문단은 하나의 **지배적인 주요 감정(primary emotion)**에 의해 특징지어지도록 구성된다.
문맥적 충분성(Contextual adequacy)
각 문단은 추론 기반 QA 과제를 수행하기에 충분한 길이와 서사 구조를 갖도록 한다.

텍스트는 Project Gutenberg에서 수집되었으며, 이는 다양한 장르와 저작 스타일을 포함하는 퍼블릭 도메인 도서의 대규모 저장소이다. 대화(dialogue)나 시(poetry)가 지배적인 텍스트는 제외하고, 영어 서사형(narrative) 텍스트만을 선별하였다. 전처리 과정에서는 문장 분리(sentence segmentation), 정규화(normalization), 메타데이터나 장 제목과 같은 비텍스트 요소 제거가 수행되었다.

4.1 세그먼트 구성 (Segment Construction)

감정적으로 일관된 문단을 구성하기 위해, 우리는 트랜스포머 기반 감정 분류기를 적용한다(부록 B 참조). 이 분류기는 각 문장에 대해 K = 9개의 감정 범주에 대한 확률 분포를 출력한다. 이 감정 범주는 Ekman의 여섯 가지 기본 감정(Ekman, 1992)—기쁨(joy), 슬픔(sadness), 분노(anger), 공포(fear), 혐오(disgust), 놀람(surprise)—에 더해, 중립(neutral), 풍자(sarcasm), **흥분(excitement)**을 포함한다. 이 분류 체계는 심리학적 기본 감정의 우선성을 주장하기 위한 것이 아니라, **실용적 목적을 위한 조작적 분류(taxonomy)**로 사용된다. 특히 풍자는 QA 시스템에서 추론 실패를 자주 유발하는 **화용적 정서 양식(pragmatic affective mode)**으로 간주되어 별도의 범주로 포함된다.

각 문장 $s_i$ 에 대해, 예측된 감정 레이블과 신뢰도 마진(confidence margin)은 다음과 같이 정의된다.

$e_i = \arg\max_k p_i^{(k)}, \quad m_i = p_i^{(e_i)} - \max_{k \ne e_i} p_i^{(k)}$

여기서 $p_i^{(k)}$ 는 문장 $s_i$ 가 감정 $k$ 에 속할 확률을 의미한다. 즉, 마진 $m_i$ 는 가장 높은 확률의 감정과 두 번째로 높은 감정 간의 차이를 나타낸다.

문장은 $m_i \ge 0.25$ 일 때만 유지되는데, 이는 예측된 감정이 다른 후보 감정들에 비해 충분히 지배적임을 보장하기 위함이다. 이 임계값은 데이터 규모와 라벨 신뢰도 간의 균형을 고려한 파일럿 실험을 통해 선택되었다(부록 E.1 참조).

이후, 동일한 지배 감정을 공유하며 위의 마진 조건을 만족하는 연속된 문장들은 하나의 세그먼트로 병합된다. 이를 수식으로 표현하면 다음과 같다.

$S_j = \{ s_t, \ldots, s_{t+n} \} \quad \text{s.t.} \quad e_{t:t+n} = e_t,\; m_{t:t+n} \ge 0.25$

각 세그먼트는 최소 세 문장 이상 또는 40단어 이상을 포함해야 하며, 가독성을 유지하기 위해 최대 150단어로 제한된다. 이러한 기준을 만족하지 못하는 세그먼트는 모두 폐기된다. 이 절차를 통해, 국소적으로 감정 톤이 일관되면서도 추론에 충분한 서사적 문맥을 제공하는 문단이 생성된다.

세그먼트 필터링 (Segment Filtering)

라벨의 신뢰도를 높이기 위해, 추가적인 2단계 검증 절차가 적용된다. 각 후보 문단에 대해, 세 개의 대규모 언어 모델—LLaMA 3.3 70B(Grattafiori et al., 2024), Gemma 3–27B(Team et al., 2025), Qwen 3 32B(Yang et al., 2025)—이 독립적으로 해당 문단에서 목표 감정이 지배적인 정서 톤인지 여부를 판단한다. 세 모델이 모두 동의한 경우에만 해당 문단이 유지된다.

이 검증 절차의 신뢰도는, 동일한 문단에 대해 세 명의 인간 주석자의 다수결 판단과 LLM의 합의 결과를 비교함으로써 평가되었다. 그 결과, LLM–인간 간 일치도는 58%, **인간–인간 간 일치도는 63%**로 나타났으며, 이는 이 과제가 본질적으로 주관성이 높다는 점을 고려할 때, LLM 합의가 인간 주석자 간 변동성과 유사한 수준의 신뢰도를 가진다는 것을 시사한다(부록 E 참조). 전면적인 인간 검증은 비용 측면에서 비현실적이므로, 본 연구에서는 **LLM 합의(consensus)를 확장 가능한 대리 신호(proxy)**로 사용하고, 감정 라벨은 **약지도(weakly supervised)**로 취급한다.

4.2 질의응답(QA) 구성 (QA Construction)

각 감정적으로 일관된 문단에 대해, 동일한 세 개의 대규모 언어 모델—LLaMA 3.3 70B, Gemma 3–27B, Qwen 3 32B—에 프롬프트를 주어 질문–답변 후보 쌍을 생성하였다. 선행 연구에 따르면 다중 모델을 사용한 생성은 모드 붕괴(mode collapse)를 줄이고, 보다 다양한 합성 데이터를 산출하는 데 도움이 된다(Reichman et al., 2025b). 모델들은 Bloom의 교육 목표 분류(Bloom’s Taxonomy) 중 수준 2와 수준 3에 해당하는 질문을 생성하도록 지시되었다. 수준 1 질문은 지나치게 단순하여 제외되었고, 수준 4–6 질문은 주관적 판단에 의존하는 경향이 있어 배제되었다. 각 모델은 **온도 $T = 1.0$ **의 확률적 디코딩을 사용해 문단당 다섯 개의 질문–답변 후보를 생성하였다.

모든 질문은 문단만을 사용해 답할 수 있어야 하며, 답변은 1–3단어로 제한되었다.

QA 필터링 (QA Filtering)

질문의 난이도를 통제하면서 타당성을 유지하기 위해, (Samuel et al., 2024)에 영감을 받은 이중 모델 필터링 절차를 적용하였다. 각 질문 후보에 대해, 먼저 해당 질문을 생성한 원 모델이 문단을 문맥으로 사용해 정답을 정확히 맞혀야 한다. 이를 통해 질문이 문단에 근거하고 있으며 모호하지 않음을 확인한다. 이후 동일한 모델 계열에서 파라미터 수가 더 작은 소형 모델을 사용해 동일한 질문을 평가한다. 대형 모델은 맞히고 소형 모델은 틀린 경우에만 해당 질문을 유지하였다.

이 기준은 질문의 품질보다는 난이도를 조절하기 위한 것이다. 실제로 인간 주석자들은 필터 통과 여부와 관계없이 대부분의 생성된 질문들이 답변 가능하고, 문단에 근거하며, 비자명하다고 판단했다. 다만 필터를 통과한 질문들은 정확한 답을 요구할 때 인간에게도 더 어렵다는 점이 관찰되었다(부록 E.2 참조).

이 논문은 감정이 QA 성능에 미치는 영향을 정밀하게 분석하기 위해, 기존 데이터셋의 한계를 보완한 새로운 질의응답 데이터셋 AURA-QA를 구축한다. 기존 QA 데이터들은 감정 분포가 심하게 불균형하거나, 문단 내부에 여러 감정이 섞여 있어 “감정만”을 독립 변수로 통제하기 어렵다. 이를 해결하기 위해 저자들은 먼저 Project Gutenberg에서 수집한 인간 저작성 서사 텍스트를 문장 단위로 분할한 뒤, 트랜스포머 기반 감정 분류기를 사용해 각 문장에 감정 레이블과 신뢰도 마진을 부여한다. 감정 분류기는 T5와 ModernBERT 계열 모델을 여러 감정 데이터셋으로 fine-tuning하고 앙상블한 것으로, 문장별 지배 감정을 안정적으로 예측하는 데 사용된다.

이후 동일한 지배 감정을 가지며 신뢰도 마진이 충분히 높은 연속 문장들만을 묶어 **감정적으로 일관된 문단(segment)**을 구성한다. 각 문단은 추론 기반 QA에 충분한 문맥을 제공하도록 최소 길이 조건을 만족해야 하며, 감정이 섞이거나 불분명한 문장은 제거된다. 추가적으로, 이렇게 생성된 문단들은 LLaMA, Gemma, Qwen과 같은 대형 언어 모델 세 개의 합의(consensus)를 통해 해당 감정이 실제로 지배적인지 다시 한 번 검증되며, 이 과정을 통과한 문단만 최종 데이터셋에 포함된다. 이 단계에서 감정 라벨은 약지도(silver label)로 취급되지만, 인간 주석자와 유사한 수준의 일치도를 확보함으로써 실험에 충분한 신뢰도를 갖는다.

감정적으로 정제된 문단이 확보된 이후, 각 문단에 대해 감정과 무관한 사실적·추론적 질문을 생성하여 QA 쌍을 만든다. 질문은 Bloom 분류 체계의 이해(Level 2)와 적용(Level 3) 수준으로 제한되며, 감정을 직접 묻거나 주관적 해석이 필요한 질문은 배제된다. 또한 질문 난이도를 통제하기 위해, 큰 언어 모델은 맞히지만 더 작은 모델은 틀리는 질문만을 선별하는 이중 필터링을 적용한다. 그 결과 AURA-QA는 질문은 감정 중립적이지만, 문맥의 감정 톤만 체계적으로 다른 QA 데이터셋으로 완성되며, 감정이 추론 성능에 미치는 영향을 정밀하게 분석할 수 있는 실험 기반을 제공한다.

왜케 프레젠테이션이 구린거 같냐 ㅋㅋ...
현재 데이터는, 문장을 감정을 분류해서, 같은 연속된 문장이면서 같은 감정을 가진걸로 컨텍스트로 만듬
즉 컨텍스트가 특정 감정을 가지고, 이에 대한 QA을 합성해서 데이터 만든 상태

5 Multi-Emotional Reading

이 논문의 **5장(Multi-Emotional Reading)**은, 앞선 분석에서 드러난 감정에 따른 성능·어텐션 변동이 단순한 상관이 아니라 실제로 “고칠 수 있는 문제”인지를 검증하는 학습 방법을 제안하는 부분이다. 저자들은 감정이 달라질 때 의미는 동일함에도 모델 내부 표현이 불필요하게 달라지는 현상을 emotion-conditioned representational drift로 규정하고, 이를 억제하면 추론 성능을 개선할 수 있다는 가설을 세운다. 핵심 관점은 감정을 예측 대상이 아니라, 모델의 표현 공간을 교란시키는 요인으로 보고 이를 구조적으로 분리하려는 것이다.

이를 위해 저자들은 기존 QA 데이터(AURA-QA뿐 아니라 TweetQA, FriendsQA, Natural Questions 등)의 컨텍스트를 감정 번역 모델로 다시 작성하여, 의미는 같고 감정 톤만 다른 복수의 컨텍스트 변형을 학습 중에 생성한다.

감정 번역모델이 여기서 뭐지?

여기서 만들어진 다른 감정을 가진 컨텍스트는 학습에만 사용

왜 평가에는 사용안해보지?

이렇게 만들어진 감정 변형 컨텍스트들은 데이터셋에 저장되는 것이 아니라, 학습 배치 내에서 쌍(pair) 또는 다중 변형 형태로 함께 사용된다. 즉, 같은 질문과 정답을 공유하면서 감정만 다른 입력을 동시에 모델에 노출시켜, 감정 변화가 내부 표현에 미치는 영향을 직접적으로 제어할 수 있는 조건을 만든다.

학습은 전체 모델을 재학습하지 않고, 각 레이어에 부착한 LoRA 모듈만을 업데이트하는 방식으로 진행된다. 기본적인 QA 성능을 유지하기 위한 교차 엔트로피 손실과 함께, 감정 정규화 손실(emotional regularization loss)이 추가된다. 이 정규화 손실은 감정이 다른 컨텍스트 변형들 사이에서 의미에 해당하는 표현은 최대한 유사하게 유지되도록 강제하는 역할을 한다. 이를 위해 각 레이어의 hidden state에서 감정에 해당하는 잠재 하위공간(emotional latent subspace)을 제거한 뒤, 남은 표현들 간의 거리와 방향 차이를 줄이는 방식으로 손실을 계산한다.

중요한 설계 포인트는 이러한 정규화가 레이어별로 독립적으로 적용된다는 점이다. 감정 성분은 모델 깊이에 따라 다르게 나타날 수 있으며, 한 레이어에서 제거된 감정 정보가 다음 레이어에서 다시 의미 표현과 섞일 수 있기 때문이다. 따라서 저자들은 각 레이어에서 감정 성분이 비감정적 의미 표현으로 전파되는 것을 억제하도록 학습을 구성한다. 이로써 감정 변화에도 불구하고, 핵심 정보에 대한 주의 집중과 표현 구조가 보다 안정적으로 유지되도록 유도한다.

결과적으로 5장은 감정에 따른 성능 저하를 단순히 관찰하는 데서 그치지 않고, **같은 의미에 서로 다른 감정을 부여하는 개입(intervention)**을 통해 모델의 내부 표현을 정규화함으로써 추론 성능을 실제로 개선할 수 있음을 보여준다. 이는 감정이 언어 모델의 추론에 외생적인 잡음이 아니라, 제어 가능한 요인임을 시사하며, 감정적으로 다양한 실제 환경에서 보다 견고한 언어 모델을 설계할 수 있는 방법론적 근거를 제공한다.

6. 실험 설정 (Experimental Setup)

제안한 방법은 세 가지 대규모 언어 모델—LLaMA-3.1-8B, Ministral, Olmov2—을 사용해 평가하였다. 이 모델들은 (Dubey et al., 2024; AI, 2024; OLMo et al., 2024; Reichman et al., 2025a)에 기술된 감정 잠재 공간(emotional latent space) 추정 절차와의 호환성을 기준으로 선택되었다.

LoRA 모듈은 여러 QA 데이터셋—Natural Questions (NQ), TweetQA, FriendsQA, AURA-QA—에서 학습되었다(Kwiatkowski et al., 2019; Xiong et al., 2019; Yang and Choi, 2019). 각 데이터셋에 대해, 문맥 문단은 감정 번역 모델을 사용해 의미는 동일하지만 감정 톤만 다른 합성 변형들로 다시 작성되었다(Reichman et al., 2025b). 기준선(baseline)으로는, 원본 인간 작성 데이터셋과 감정 정규화를 적용하지 않은 다중 감정 변형 데이터로 학습한 모델들을 함께 사용하였다. 이후 각 LoRA 모듈은 TweetQA, FriendsQA, 그리고 새로 구축한 AURA-QA에서 평가되었다.

LoRA 모듈은 네트워크의 모든 레이어에 부착되었다. 학습에는 AdamW 옵티마이저(Loshchilov and Hutter, 2019)를 사용하였으며, 학습률은 3e-4, ℓ2 가중치 감쇠(weight decay)는 1e-2로 설정하였다. 학습률 스케줄러로는 50 스텝 워밍업을 포함한 코사인 스케줄러를 사용하였다.

데이터 샘플링은 기본적으로 무작위로 수행되었으나, 각 질문은 배치 내에서 두 번 등장하도록 구성되었다. 이때 각 질문은 무작위로 선택된 감정 쌍에 대해 한 번씩 포함된다. 배치 크기는 총 토큰 수가 1,200개를 채우도록 동적으로 결정되었다. 학습은 수렴할 때까지 진행되었다.

7. 결과 (Results)

앞서 표 1의 실험에서는, 감정적 문맥에서 LoRA 파인튜닝만 수행해도 감정 범주 전반에 걸쳐 약 10% 수준의 QA 성능 향상이 나타남을 보였다. 표 2는 여기에 더해, 그림 5에 제시된 감정 정규화(emotional regularization) 프레임워크를 적용했을 때의 결과를 보여준다. 이 실험의 목적은, 제안한 정규화 프레임워크가 감정적으로 다양한 문맥에서의 독해 성능을 향상시키는 동시에, 감정 변화가 없는 문맥에서는 성능을 저해하지 않는지를 검증하는 데 있다. 모델은 단일 데이터셋으로 학습한 뒤, **인도메인(in-domain)**과 아웃오브도메인(out-of-domain) 조건에서 모두 평가되었다. 실험은 세 가지 설정을 비교한다:
(i) 감정 증강이나 정규화를 적용하지 않은 LoRA 파인튜닝,
(ii) 다중 감정 합성 변형만을 사용한 학습,
(iii) 다중 감정 증강 + 감정 정규화를 함께 사용한 학습.

**Natural Questions(NQ)**처럼 감정적으로 완전히 중립적인 데이터셋에서 LoRA 학습을 수행한 경우(표 2의 “Natural Questions” 열), 다중 감정 증강에 감정 정규화를 추가하면 모델 및 평가 데이터셋 전반에서 평균 3.03%의 성능 향상이 나타난다. 이는 기본 학습 데이터가 감정적으로 균질하더라도, 감정 정규화가 감정 변화에 대한 강건성을 향상시킴을 의미한다. 반면, 다중 감정 증강만 적용한 경우에는 평균적으로 0.48%의 소폭 성능 감소가 관찰되었으나, 전체 모델–데이터셋 조합의 약 절반에서는 성능이 유지되거나 오히려 향상되었다. 이는 감정 증강의 효과가 일관되게 부정적이기보다는, **이질적(heterogeneous)**임을 시사한다.

NQ에서 평가한 결과(표 2의 “Natural Questions” 행)를 보면, 감정 정규화를 적용한 모델들이 아키텍처와 학습 조건을 막론하고 일관되게 더 높은 성능을 보인다. 이는 학습 중 감정 변이를 특정 잠재 하위공간에 제약하는 것이, 감정적으로 중립적인 데이터셋에도 전이 가능한 표현 구조를 형성함을 시사한다.

TweetQA와 FriendsQA처럼 이미 감정적 변이가 포함된 데이터셋에서 학습한 경우, 다중 감정 증강만으로는 거의 성능 향상이 나타나지 않으며, 일부 고립된 경우에서만 개선이 관찰된다. 반면, 감정 정규화는 인도메인과 아웃오브도메인 조건 모두에서 일관된 성능 향상을 보이며, 평균적으로 각각 0.9%, 2.9%의 절대 성능 개선을 달성한다. 이는 단순히 감정적 변이에 노출되는 것만으로는 감정–의미 분리가 충분히 학습되지 않으며, 명시적인 정규화 제약이 효과적임을 의미한다.

새롭게 구축된 AURA-QA 데이터셋에 대한 결과에서도, 감정 정규화는 아웃오브도메인 성능을 일관되게 개선한다. 다만 성능 향상의 원천은 모델별로 다르게 나타난다. Ministral의 경우 다중 감정 증강만으로도 가장 큰 성능 향상이 나타났으며, 여기에 정규화를 추가하면 추가적인 이득이 관찰된다. Olmov2에서는 다중 감정 증강과 감정 정규화가 모두 성능을 향상시키며, 특히 정규화의 기여가 더 크다. 반면 LLaMA-3.1-8B에서는 다중 감정 증강만으로는 효과가 없고, 감정 정규화를 적용했을 때에만 아웃오브도메인 성능이 개선된다. AURA-QA에서는 여전히 감정 범주별 정확도 차이가 존재하지만, 이러한 결과는 감정 조건화된 표현 드리프트가 여전히 의미 있는 오류 요인이며 교정 가능함을 보여준다. 다만 인도메인 성능 향상이 제한적인 점은, 감정 효과가 다른 추론 난이도 요인들과 상호작용함을 시사한다.

부록 G에서는 **감정 쌍(pair) 정규화 효과에 대한 소거 실험(ablation study)**을 추가로 제시한다. 이 실험은 어떤 감정 쌍을 사용해 정규화하는지가 성능 향상에 미치는 영향을 분석한다.

감정이 컨텍스트 처리에 영향을 준다 (3장 분석)
감정만 다른 컨텍스트를 만들어 의미 표현이 흔들리지 않도록 강제한다 (5장)
그러자 다양한 실제 데이터셋에서 성능이 개선된다 (7장)
이 성능 개선은

감정적으로 다양한 데이터뿐 아니라
감정적으로 ‘중립적인’ 데이터에서도 나타난다

8. 결론 (Conclusion)

기존 연구들은 감정을 주로 예측의 대상(예: 감성 분류, 감정 분류)으로 다루거나, 대규모 언어 모델(LLM)의 능력 차원—즉 감정 지능(emotional intelligence)을 측정하는 축—으로 취급해 왔다. 이에 반해 본 논문은 감정을, LLM의 **내부 처리 과정과 다운스트림 추론 행동을 체계적으로 형성하는 잠재적 요인(latent factor)**으로 규정한다. 감정 정보가 하나의 공유된 잠재 공간에 조직되어 있다는 선행 증거를 바탕으로, 우리는 감정적 톤이 **어텐션 기하(attention geometry)**에 구조적인 변화를 유도하며, 이러한 변화가 질의응답 성능과 상관관계를 가진다는 점을 보였다.

이러한 효과를 통제된 환경에서 연구하기 위해, 우리는 인간 저작성 텍스트에서 추출한 감정적으로 균형 잡힌 질의응답 데이터셋 AURA-QA를 제안하였다. 이 데이터셋은 기존의 합성 데이터나 감정적으로 불균형한 벤치마크의 한계를 보완하며, 감정적으로 다양한 문맥에서 모델의 독해 능력을 평가할 수 있는 기반을 제공한다. 더 나아가, 우리는 감정 잠재 구조를 활용하여 **감정 조건화된 표현 드리프트(emotion-conditioned representational drift)**를 학습 과정에서 제약하는 감정 정규화 프레임워크를 제안하였다.

다양한 데이터셋과 모델에 걸친 실험 결과, 제안한 접근법은 감정적으로 다양한 데이터셋에서의 독해 성능을 향상시키는 동시에, 감정 변화가 없는 데이터셋에서도 성능을 저해하지 않으며, 분포 이동(distribution shift) 상황에서도 일관된 성능 개선과 여러 벤치마크에서의 인도메인 성능 향상을 달성함을 확인하였다.

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-327, ARR 202601