Horses for Courses: Implicit Emotion Analysis with Contextual and Personalized Awareness

◼ Comment

요약

본 논문은 암묵적 감정 분석을 위해 독자(사용자)의 프로필과 과거 행동을 활용하여, LLM 기반 Reader Agent로 사용자별 감정 피드백과 감정 평점을 생성하는 프레임워크를 제안한다.
생성된 감정 표현은 팔로잉 관계와 댓글 관계에 기반한 다중-뷰 전파를 통해 사회적·맥락적 정보를 반영하도록 확장된다.
최종적으로 이러한 통합 감정 표현을 사용해 감정을 분류한다.

강점

사용자의 관점을 모델링하기 위해, 사회적 맥락 정보를 활용해 감정 분류의 성능을 향상시킨다.
LLM을 supervision이 아닌 중간 신호 생성기로 사용하여, 암묵적 감정이라는 직접 라벨링이 어려운 문제를 연속적인 감정 평점과 자연어 피드백으로 우회적으로 모델링한다.

단점

독자 인식에 대한 동기와 학습 목표 간의 불일치

본 논문은 동일한 콘텐츠가 독자에 따라 다르게 인식될 수 있음을 핵심 동기로 제시하지만, 실제 학습에서는 독자와 무관한 고정된 감정 레이블을 예측하도록 설계되어 있다. 이로 인해 독자별 감정 차이를 모델링하려는 문제 설정과, 단일 감정 레이블 분류라는 학습 목표 사이에 개념적 불일치가 존재한다.

LLM 의존도가 높은 전체 파이프라인 설계

제안한 방법은 LLM을 활용해 감정 평점과 감정 피드백을 생성함으로써 정보량을 확장하지만, 이로 인해 LLM에 의존하게 된다. 특히 추론 단계에서도 이러한 LLM 기반 과정이 요구된다면, 모델의 실용성과 안정성 측면에서 한계가 발생할 수 있다.

LLM 생성 감정 신호의 신뢰성 검증 부족

섹션 3.2에서 사용되는 LLM 기반 감정 평점과 감정 레이블은 핵심 중간 신호임에도 불구하고, 이들의 정확성이나 일관성에 대한 정량적 검증이 충분히 제공되지 않는다.

과도하게 많은 비교 모델과 제한적인 설명

표 1에는 다양한 비교 모델들이 포함되어 있으나, 각 모델의 설명이 없다. 제안한 방법의 효과를 보다 명확히 보여주기 위해, 핵심적인 비교 대상만 선별하고 이에 대한 설명을 강화하는 것이 바람직하다.

정적 하이퍼파라미터 설정의 일반화 한계

섹션 4.7에서 제시된 콘텐츠 수와 과거 행동 수는 사전 실험 없이는 결정하기 어려운 값이며, 데이터셋 특성에 따라 크게 달라질 수 있다. 또한 이 값들은 고정된 형태로 사용되어, 사용자나 컨텍스트에 따라 동적으로 조정되지 않는다는 한계가 있다.

제안

Related work 2.1만 있는게 이상함

Abstract

감정 표현은 미묘하고 사용자마다 상이한 특성을 지니기 때문에, 암묵적 감정 분석(Implicit Emotion Analysis, IEA) 은 매우 도전적인 과제이다. 최근 연구들은 독자를 모델링하거나 사용자 역할(user role) 개념을 도입하는 등 개인화(personalization)를 향한 초기 시도를 보였으나, 이러한 접근은 여전히 제한적이다. 대부분의 기존 방법은 감정 역할을 정적이고 임의적으로 사용자에게 할당하며, 실제로는 맥락에 따라 크게 달라지는 개인의 동적인 감정 역할을 간과하고 있다.

본 연구에서는 맥락적·개인화 인식(Contextual and Personalized Awareness) 을 갖춘 새로운 암묵적 감정 분석 모델 CP-IEA를 제안한다. CP-IEA는 사용자별 감정 역할을 맥락에 따라 동적으로 추론하고, 개인화된 감정 피드백을 통합한다. 구체적으로, CP-IEA는 대규모 언어 모델(LLM) 을 활용하여 맥락을 인식하는 독자 에이전트를 시뮬레이션하고, 이를 통해 사용자 맞춤형 피드백을 생성한다. 이 접근은 실제 인간 반응 수집에서 발생하는 침묵의 나선(silent-spiral) 효과와 데이터 희소성 문제를 효과적으로 완화한다.

또한, 우리는 독자들의 동적 피드백 간 상호작용을 포착하기 위해 다중 뷰 전파(multi-view propagation) 패러다임을 설계하였다. 광범위한 실험 결과, 제안한 방법은 일관되게 기존 최고 성능(state-of-the-art)을 능가하는 결과를 보였으며, 이는 IEA에서 맥락적·개인화된 감정 피드백을 모델링하는 것이 얼마나 중요한지를 입증한다.

IEA란?

“He entered my life uninvited, and just when I got used to it, left without a word.”

감정 단어 없음
객관적 서술처럼 보임
하지만 대부분의 독자는 → Sad / Disappointment / Anger 를 느낌

1. 서론 (Introduction)

최근 자연어 처리 분야에서는 암묵적 감정 분석(Implicit Emotion Analysis, IEA) 에 대한 관심이 점점 증가하고 있다. IEA는 명시적인 감정 표현이 포함되어 있지 않음에도 불구하고 감정적 의미를 전달하는 객관적 서술문으로부터 감정을 식별하는 것을 목표로 한다(Liao et al., 2022). 전통적인 감정 분석은 노골적인 감정 어휘에 의존하며, 주어진 텍스트 $s$ 에 대해 모델 $f(\cdot)$ 가 감정을 예측하는 $f(s)$ 형태로 정식화할 수 있다. 반면, IEA는 본질적으로 주관적이며 사용자별 특성에 매우 민감하다. 이러한 주관성 때문에 동일한 텍스트라도 사용자에 따라 서로 다른 감정 해석이 나타날 수 있으며, 이는 작성자 $a$ 를 고려하는 개인화된 IEA, 즉 $f(s, a)$ 로의 전환을 요구한다.

개인화된 감정 또는 감성 분석에 관한 기존 연구들은 작성자 속성을 통합하거나(Mireshghallah et al., 2022), 작성자–제품 상호작용을 모델링하는 방식(Kertkeidkachorn and Shirai, 2023; Lyu et al., 2023)으로 사용자 정보를 반영하고자 하였다. 그러나 이러한 접근들은 암묵적 감정 표현에 대한 독자의 영향을 대부분 간과하고 있다. 소셜 미디어 환경에서 작성자들은 종종 독자의 특정 감정 반응을 유도하기 위해 모호하거나 도발적인 표현을 사용하며, 이는 독자 피드백과 그 전파 과정을 모델링할 필요성을 강조한다.

최근 연구(Liao et al., 2025)는 개인화된 IEA를 확장하여 독자 요인을 포함시키고, 문제를

$f(s, a, r, \Psi(r))$

로 재정식화하였다.

즉 글을 쓴사람말고도 읽는 사람을 고려해야한다는 것 같음

여기서 $r$ 은 독자를, $\Psi(r)$ 는 해당 독자의 감정 역할(emotion role)을 의미한다. 이 접근의 핵심 직관은 서로 다른 감정 역할을 가진 독자들은 동일한 콘텐츠를 다르게 인식한다는 점이며, 이는 그림 1(a)에 제시되어 있다.

그럼에도 불구하고 기존 방법들은 사용자에게 정적이고 고정된 감정 역할을 할당한다는 한계를 가진다. 실제로 개인의 감정 역할은 서로 다른 맥락에 따라 크게 달라질 수 있다. 예를 들어, 그림 1(b)에서 보이듯이 동일한 사용자라도 콘텐츠의 유형에 따라 전혀 다른 감정 역할을 취할 수 있다. 이러한 한계는 감정 역할이 독자와 콘텐츠 모두에 의존하는 보다 동적인 정식화,

$f(s, a, r, \Psi(r, s))$

의 필요성을 시사한다.

더 나아가, 감정 반응은 독자들 간의 피드백과 상호작용에 의해서도 형성되는 경우가 많다. 이러한 관점은 일부 선행 연구(Liao et al., 2025)에서 부분적으로 탐구되었으나, 대체로 명시적인 감정 신호에 의존해 왔다. 이에 반해, 본 연구에서는 감정이 명시적으로 전달되는 것이 아니라, 모든 사용자에게 노출되는 콘텐츠로부터, 개인화된 감정 역할과 사용자 프로필(작성자 및 독자로서의 과거 행동 이력 포함)을 활용해 감정을 도출해야 한다고 주장한다. 이 과정에서는 명시적인 감정 전달을 전파 과정에 포함하지 않는다.

이를 위해 우리는 CP-IEA를 제안한다. CP-IEA는 맥락과 개인화를 모두 고려한 암묵적 감정 분석 모델로, 맥락에 기반하여 사용자별 감정 역할을 동적으로 추론하고 개인화된 감정 피드백을 통합한다. 구체적으로, CP-IEA는 대규모 언어 모델(LLM)을 독자 에이전트(reader agent) 로 활용하여 맥락 인식적이고 사용자 특화된 피드백을 생성함으로써, 실제 독자 반응 수집 과정에서 발생하는 침묵의 나선(silent-spiral) 효과와 데이터 희소성 문제를 효과적으로 완화한다. 또한, 우리는 독자의 동적 피드백 간 상호작용을 포착하기 위한 다중 뷰 전파(multi-view propagation) 패러다임을 설계하였다.

광범위한 실험을 통해, 제안한 CP-IEA는 일관되게 최신 최고 성능을 달성하였으며, 이는 IEA에서 맥락적·개인화된 감정 피드백을 포착하는 것의 중요성을 입증한다.

이 논문은 사용자 및 사회적 맥락 정보를 활용해, 문장에 명시적으로 드러나지 않은 감정을 기존 감정 레이블 기준으로 더 정확히 분류하는 테스크를 다룬다.

2. 관련 연구 (Related Work)

2.1 암묵적 감정 분석 (Implicit Emotion Analysis)

하나의 섹션만 있다는게 좀 ..

의미 간 상호의존성(interdependent nature of semantics)은 최근 문헌에서 널리 인식되어 왔다. 이에 따라 최근 연구들은 점점 더 암묵적 감정 분석(IEA) 에 초점을 맞추고 있으며, 이는 크게 심층 의미 모델링 기반 방법과 지식 강화(knowledge-enhanced) 접근법으로 구분할 수 있다.

심층 의미 모델링 기반 방법들은 주로 텍스트의 구조적 특성을 활용하여 암묵적인 의미 표현을 포착한다. 대표적인 예로는,

암묵적인 측면(aspect)과 의견을 포함하는 aspect–category–opinion–sentiment 사중항(quadrupole) 추출(Cai et al., 2021),
암묵적 감정과 감정 라벨 간의 정렬을 학습하는 방법(Li et al., 2021),
문장과 감정 사이의 인과 개입(causal intervention)을 모델링하는 접근(Wang et al., 2022),
거리(distance)와 유형(type) 관점에서의 의존성 측정을 활용하는 방법(Zhao et al., 2024)
등이 있다.
그러나 이러한 방법들은 텍스트 자체에 포함된 감정 신호가 본질적으로 부족하다는 문제를 여전히 해결하지 못한다.

한편, 지식 강화 접근법은 외부 지식을 통합하여 암묵적 감정을 해석한다. 예를 들어,

명시적인 상식 지식(explicit commonsense knowledge)을 활용하는 방법(Fei et al., 2023),
사용자 속성(user attributes)을 통합하는 접근(Lyu et al., 2023),
추상 의미 표현 그래프(abstract semantic representation graphs)를 사용하는 방법(Ma et al., 2023; Tran et al., 2023),
LLM 기반 chain-of-thought 추론을 활용하는 기법(Fei et al., 2023) 등이 이에 해당한다.
하지만 이러한 방법들 역시 대부분 작성자(author)에 종속된 지식원에 의존하기 때문에, 독자의 감정적 피드백을 활용하여 암묵적 감정 인식을 향상시키는 데에는 한계가 있다.

가장 최근의 연구로는 RAPPIE(Liao et al., 2025)가 있다. RAPPIE는 대규모 언어 모델(LLM)을 활용하여 독자 피드백을 시뮬레이션함으로써, 서로 다른 감정 역할을 가진 독자들이 동일한 콘텐츠를 다르게 인식할 수 있음을 반영한다. 그러나 이 방법은 각 독자에게 정적인 감정 역할을 사전에 부여하며, 피드백 교환 과정에서 명시적인 감정 상태를 전파한다는 한계를 가진다. 실제 환경에서는 감정 역할이 맥락에 따라 동적으로 변화하며, 독자 간 감정 전파 역시 감정을 그대로 전달하기보다는 수신자의 역할과 프로필에 조건화되어야 한다.

근데 이러면 데이터가 독자에 따라 텍스트의 감정 레이블링이 다르게 되어 있어야하는 형태여야 할 것 같은데

3. 방법론 (Methodology)

3.1 사전 정의 (Preliminary)

사전에 정의된 삼중항 ⟨s, a, r⟩이 주어졌다고 하자. 여기서

$s$ 는 암묵적 감정을 포함한 텍스트,
$a$ 는 해당 텍스트의 작성자(author),
$r$ 은 해당 텍스트를 읽는 독자(reader) 를 의미한다.

본 연구의 목표는 독자 $r$ 의 프로필과 개인화된 감정 역할을 기반으로, 텍스트 $s$ 에 내재된 잠재적 암묵 감정과 그 범주를 식별하는 것이다.

사용자 $u$ 의 기본 프로필은 성별 $u_g$ , 지역 $u_r$ , 그리고 개인화 태그 $u_t$ 로 구성된다. 또한, 사용자 $u$ 의 과거 행동 이력을 두 가지 관점에서 정의한다.

$His_a(u)$ : 사용자 $u$ 가 작성자로서 수행한 과거 행동 이력
$His_r(u)$ : 사용자 $u$ 가 독자로서 수행한 과거 행동 이력

작성자 $a$ 와 독자 $r$ 모두 사용자 $u$ 로 간주할 수 있으므로, 특정 독자 $r$ 의 프로필에는 작성자로서의 이력 $His_a(r)$ 과 독자로서의 이력 $His_r(r)$ 이 모두 포함된다.

독자 $r$ 의 개인화된 감정 역할은 $\Psi(r, s)$ 로 모델링되며, 이는 독자와 콘텐츠에 동시에 의존하는 동적 감정 역할을 의미한다. 보다 세밀한 구분을 위해, 본 연구에서는 감정 역할을 직접적인 범주가 아닌 감정 평점(emotion rating) 으로 표현한다. 이에 대한 구체적인 정의는 3.2절의 $r_{s,u}$ 에서 다룬다.

독자 $r$ 이 느끼는 잠재적 암묵 감정은 다른 독자들로부터의 피드백에도 영향을 받는다. 그러나 실제 환경에서는 침묵의 나선(silent-spiral) 효과와 데이터 희소성 문제로 인해 충분한 독자 반응을 수집하기 어렵다. 이를 해결하기 위해, 본 연구에서는 맥락 인식적이고 사용자 특화된 피드백을 생성할 수 있는 LLM 기반 독자 에이전트를 도입한다.

이러한 데이터가 없어서, LLM 독자 에이전트로 사용자 피드백을 생성하는것 같긴한데?

3.2 LLM 기반 독자 에이전트 (LLM-based Reader Agent)

실제 인간의 반응을 수집하는 과정에는 침묵의 나선(silent-spiral) 효과와 데이터 희소성이라는 본질적인 어려움이 존재한다. 이러한 문제를 완화하기 위해, 최근 연구(Liao et al., 2025)는 대규모 언어 모델(LLM) 을 활용하는 방향으로 나아가고 있다. LLM은 다양한 관점에서의 인간 행동을 시뮬레이션할 수 있는 능력을 지니고 있으며, 특히 언어 이해와 생성 측면에서 강점을 보인다(Yang et al., 2025a; Team et al., 2025). 이를 통해 독자 프로필에 맞춘 콘텐츠별 피드백을 생성함으로써 데이터 희소성 문제를 효과적으로 해결할 수 있다.

그러나 기존 연구는 사용자가 독자이면서 동시에 작성자(author) 라는 이중적 역할을 수행할 수 있다는 점을 간과하고 있으며, 사용자가 작성자로서 남긴 풍부한 정보 역시 충분히 활용하지 못하고 있다. 또한, 서로 다른 맥락에서도 사용자에게 정적인 감정 역할을 할당함으로써, 실제 환경에서 자연스럽게 발생하는 감정 역할의 동적 변화를 반영하지 못한다는 한계를 가진다.

독자가 사용자의 역할도 이전에 해오기 때문에, 감정의 동적변화를 반영하기 위해서는 이를 고려해야한다는 듯
즉 독자가 다른 세션에서는 글쓴이가 될 수 있다 이런거

각 사용자–콘텐츠 쌍에 대해 피드백을 생성하는 것은, 설령 오프라인에서 수행하더라도 계산 비용 측면에서 비현실적이다. 이를 해결하기 위해, 본 연구에서는 두 단계 필터링(two-stage filtering) 메커니즘을 적용한 LLM 기반 독자 에이전트를 제안한다. 이 메커니즘은 (1) 사용자가 관심을 가질 가능성이 높은 콘텐츠를 선택하고, (2) 해당 콘텐츠와 관련된 사용자의 과거 행동 이력을 선별하여 피드백 생성을 수행한다.

사용자 r에게 감정 반응을 생성할 필요가 있는 글만 고르자는 것

1단계 필터링

첫 번째 단계에서는 TF-IDF와 코사인 유사도를 결합하여, 사용자 $u$ 와 가장 관련성이 높은 상위 $k_1$ 개의 콘텐츠를 검색한다. 이 콘텐츠 집합을 $S_u$ 로 정의한다.

2단계 필터링

두 번째 단계에서는 1단계를 통과한 각 콘텐츠 $s_u \in S_u$ 에 대해, 다시 한 번 TF-IDF와 코사인 유사도를 적용하여, 사용자의 과거 행동 이력 중 해당 콘텐츠와 가장 관련성이 높은 상위 $k_2$ 개를 선택한다. 이때 과거 행동 이력은 작성자 역할과 독자 역할을 모두 포함하며,

$His_a(u) \cup His_r(u)$

로 정의된다. 각 콘텐츠 $s_u$ 에 대해 선택된 이력 집합을 $His(s_u)$ 로 표기한다. 여기서 $k_1$ 과 $k_2$ 는 하이퍼파라미터이며, 이에 대한 분석은 4.7절에서 상세히 다룬다.

이 두 단계 필터링 프레임워크는 효율적으로 작동한다.

1단계는 사용자가 실제로 상호작용할 가능성이 높은 콘텐츠로 탐색 공간을 크게 줄이며,
2단계는 현재 맥락과 가장 관련 있는 과거 행동에 초점을 맞춤으로써 개인화와 맥락 인식을 동시에 유지한다.
이를 통해 계산 비용을 줄이면서도 생성되는 피드백의 품질을 보장할 수 있다.

근데 1단계 필터링을 하면, 사용자가 관심 가질만한 글에 대해서만 한다는건데, 관심없는 글을 읽을때의 감정 예측에 대해서는 피드백을 사용안하겠다는 것 같은데..

독자 에이전트 프롬프트 설계

LLM 기반 독자 에이전트는 다음과 같은 프롬프트 템플릿을 사용하여 피드백을 생성한다.

당신은 {ug} 성별을 가진 {ur} 지역의 사용자이며, 성격 태그는 {ut}이다.
당신은 다음과 같은 콘텐츠를 게시하거나 댓글로 작성한 이력이 있다: {His(su)}.
독자로서, 이 콘텐츠 {su}는 당신에게 어떤 감정적 반응을 유발하는가?
1은 극도로 부정적이고 100은 극도로 긍정적인 값을 의미하는 1~100 사이의 평점을 제시하라.
또한 해당 감정을 설명하는 코멘트를 작성하고,
[Sad, Anger, Disgust, Fear, Neutral, Surprise, Happy] 중 가장 적절한 감정 하나를 선택하라.

이를 통해, 각 사용자 $u$ 에 대해 $k_1$ 개의 삼중항

$\langle s_u,\; r_{s,u},\; c_{s,u} \rangle$

을 생성한다. 여기서

$s_u \in S_u$ 는 선택된 콘텐츠,
$r_{s,u}$ 는 사용자 $u$ 가 콘텐츠 $s$ 에 대해 부여한 감정 평점,
$c_{s,u}$ 는 생성된 감정 코멘트를 의미한다.

즉 위와 같은 과정을 통해

감정 rating (1~100)
감정 label
자연어 코멘트

3개의 레이블을 생성하고, 이로 데이터를 구성한다.

본 연구에서는 TF-IDF와 코사인 유사도를 선택했는데, 이는 계산 비용이 낮고 정보 이론적으로 잘 정립된 방법이기 때문이다. 또한 실제 환경에서 사용자의 과거 행동 이력은 대부분 짧은 텍스트(short text) 로 구성된다는 점도 고려하였다. 실험적으로, LLM의 성능은 프롬프트의 세부 표현보다는 프롬프트 내부의 구조적 설계(plan) 에 더 크게 의존함을 관찰하였으며, 이에 대한 분석은 4.5절에서 제시한다. 생성된 감정 평점의 분포에 대한 분석은 부록 A.2에서 다룬다.

각 생성된 코멘트 $c_{s,u}$ 에 대해, 우리는 LLM 기반 인코더를 사용하여 초기 의미 표현을 추출한다. 구체적으로, 생성된 시퀀스의 확률 분포를 예측하는 최종 출력 계층의 입력 행렬을 의미 인코딩 행렬로 사용한다. 이는 다음과 같이 정의된다.

$e_{s,u} = Enc(c_{s,u}),$

여기서 $e_{s,u} \in \mathbb{R}^{N \times d}$ 이며, $N$ 은 생성된 콘텐츠의 최대 길이이다. 입력 시퀀스의 맨 앞에는 ⟨CLS⟩ 토큰을 추가한다. 이후 단일 계층의 셀프 어텐션(self-attention) 을 적용하여 의미 정보를 압축한다.

$h_{s,u} = \text{Self-Attention}(e_{s,u}),$

이때 ⟨CLS⟩ 토큰에 해당하는 출력을 최종 압축된 감정 의미 표현으로 사용하며,
$h_{s,u} \in \mathbb{R}^d$ 이다.

즉 원래 데이터는 (s, r, y)형태이다.

s : 문장
r : 독자
y : 정답 감정 레이블 (Sad, Anger, …)

위 과정을 통해서, 필터링된 문장(관심있는 문장) 기준으로 아래의 데이터가 추가되는 것

⟨ s, r, r_{s,r}, c_{s,r}, ê_{s,r} ⟩

rₛᵣ : 감정 평점 (1~100)
cₛᵣ : 감정 코멘트 (자연어)
êₛᵣ : LLM이 고른 감정 (auxiliary)
여기서의 감정은 label은 아니고 입력으로 활용되는 식인듯

필터링되지 않은 문장 (관심없는 문장)은 그냥 기존 데이터로만 학습되는 듯

3.3 다중-뷰 전파 (Multi-view Propagation)

실제 상호작용 관계와 시뮬레이션된 사회적 상호작용 관계는 IEA(Implicit Emotion Analysis)를 향상시키는 효과적인 해법으로 널리 인정받고 있다(Liao et al., 2025; Liang et al., 2022). 구체적으로, 우리는 여러 전파(propagation) 뷰를 구성한다. 첫 번째 뷰는 **정확한 팔로잉 관계(Following Relationships)**에 기반하며, 이는 데이터셋에 명시적인 사회적 연결로서 명확히 존재한다. 두 번째 뷰는 동일 게시물 내의 **댓글 관계(Comment Relationships)**에 기반해 구축된다.

전자는 명시적인 사회적 관계를 활용하여 전역(global) 관점에서 사용자 개인화를 강화하며, 사회적 직관에서의 “유사성은 끌어당긴다(similarity attracts)” 원리와도 부합한다. 후자는 특정 컨텍스트(context)에 초점을 맞추며, 생성된 감정 평점(emotion rating)에 기반하여 전파 가중치를 동적으로 부여함으로써 컨텍스트 관련성을 강화한다.

3.3.1 팔로잉 관계 전파 (Following Relationships Propagation)

우리는 사용자 u가 댓글(또는 콘텐츠) s에 대해 갖는 감정 표현(representation)을 강화하기 위해, 팔로잉 관계로 연결된 다른 사용자들의 표현을 집계(aggregate)한다. 여기에는 u가 팔로우하는 사용자들과 u를 팔로우하는 사용자들이 모두 포함된다. 이러한 관련 사용자들의 전체 가중치는 인기도(popularity) 기반 가중치와 **감정 평점 유사도(emotion rating similarity)**를 모두 포함한다. 구체적으로:

$[
h^{f}{s,u}=\sum{\hat{u}\in F(u)}\sum_{\hat{s}\in S_{\hat{u}}}\frac{\Big(1-\frac{|r_{s,u}-r_{\hat{s},\hat{u}}|}{100}\Big),h_{\hat{s},\hat{u}}}{F(\hat{u})}, \tag{3}
]$

여기서 (F(u))는 팔로잉 관계를 통해 사용자 (u)와 연결된 사용자들의 집합을 의미한다. (\Big(1-\frac{|r_{s,u}-r_{\hat{s},\hat{u}}|}{100}\Big)) 항은 감정 평점이 더 유사한 댓글들이 더 높은 가중치를 받도록 보장한다.

3.3.2 댓글 관계 전파 (Comment Relationships Propagation)

추가로, 동일한 콘텐츠에 대한 피드백은 유용한 신호를 제공한다. 우리는 생성된 감정 평점 유사도에 기반하여 동일 콘텐츠에 대해 댓글을 단 다른 사용자들의 피드백을 동적으로 가중하여, 사용자 (u)가 댓글(또는 콘텐츠) (s)에 대해 갖는 감정 표현을 강화한다. 구체적으로:

$[
h^{c}{s,u}=\sum{\hat{u}\in U_{s}}\Big(1-\frac{|r_{s,u}-r_{\hat{s},\hat{u}}|}{100}\Big)h_{\hat{s},\hat{u}}, \tag{4}
]$

여기서 (U_{s})는 콘텐츠 (s)에 댓글을 남긴 사용자들의 집합을 의미한다.

3.4 암묵적 감정 식별 (Implicit Emotion Identification)

앞서 설명한 다중-뷰 전파 과정을 거친 후, 우리는 사용자 $u$ 가 문장(또는 댓글) $s$ 에 대해 갖는 최종 감정 표현을 얻게 된다. 구체적으로, 팔로잉 관계 전파에서 얻은 표현 $h^{f}_{s,u}$ 와 댓글 관계 전파에서 얻은 표현 $h^{c}_{s,u}$ 를 원래의 감정 표현 $h_{s,u}$ 와 결합하여, 사용자 개인화 및 컨텍스트 정보를 모두 반영한 통합 표현을 구성한다.

최종 감정 표현은 다음과 같이 정의된다:

$h^{*}_{s,u} = h_{s,u} \; \| \; h^{f}_{s,u} \; \| \; h^{c}_{s,u},$

여기서 $\|$ 는 벡터 연결(concatenation) 연산을 의미한다. 이 통합 표현은 사용자 개인의 감정 성향, 사회적 상호작용 정보, 그리고 동일 컨텍스트 내에서의 감정적 일관성을 모두 포함한다.

이후, 우리는 $h^{*}_{s,u}$ 를 다층 퍼셉트론(Multi-Layer Perceptron, MLP)에 입력하여, 해당 문장에 내재된 암묵적 감정을 예측한다. MLP는 비선형 변환을 통해 고차원 표현을 감정 공간으로 매핑하며, 출력층에서는 사전 정의된 감정 범주(예: Sad, Anger, Joy 등)에 대한 확률 분포를 산출한다.

모델 학습 과정에서는 교차 엔트로피 손실 함수(cross-entropy loss)를 사용하여 예측된 감정 분포와 정답 감정 레이블 간의 차이를 최소화한다. 이를 통해 모델은 명시적으로 드러나지 않은 감정 단서들을 효과적으로 포착하고, 사용자 및 사회적 맥락을 고려한 암묵적 감정 식별 능력을 학습하게 된다.

근데 결국 학습하는게 기존 감정 y이라는데, 이러면 독자(사용자)에 따라 감정 레이블이 달라지는건 아니지 않나?

4. 평가 (Evaluation)

4.1 데이터셋 및 평가 지표 (Dataset and Evaluation Metrics)

본 논문에서는 암묵적 감정 식별(Implicit Emotion Identification) 성능을 평가하기 위해 실제 소셜 미디어 데이터를 기반으로 구축된 데이터셋을 사용한다. 각 데이터 샘플은 문장(또는 댓글), 해당 문장을 작성하거나 읽은 사용자, 그리고 이에 대응되는 감정 레이블로 구성된다. 이 감정 레이블은 기존 감정 분석 데이터셋에서 사용되는 표준 감정 범주(예: Sad, Anger, Joy 등)를 따른다.

데이터셋은 학습(training), 검증(validation), 테스트(test) 세 부분으로 분할되며, 모든 실험은 동일한 데이터 분할 설정을 사용하여 공정한 비교가 가능하도록 한다. 또한 사용자 간 데이터 누수를 방지하기 위해, 분할 과정에서 사용자 정보가 적절히 고려된다.

평가 지표로는 다중 클래스 감정 분류 문제에서 일반적으로 사용되는 Accuracy, Macro-F1, Micro-F1 점수를 사용한다.

Accuracy는 전체 샘플 중 정확히 예측된 비율을 측정한다.
Macro-F1은 각 감정 클래스에 대해 F1-score를 계산한 뒤 이를 평균한 값으로, 클래스 불균형에 덜 민감하다.
Micro-F1은 전체 샘플 기준으로 정밀도와 재현율을 계산하여, 빈도가 높은 클래스의 영향을 더 많이 반영한다.

이러한 지표들은 모델이 전체적인 감정 분류 성능뿐 아니라, 소수 클래스에 대해서도 얼마나 안정적인 예측을 수행하는지를 종합적으로 평가하는 데 사용된다.

4.2 비교 방법 (Baselines)

제안한 모델의 효과를 검증하기 위해, 우리는 다양한 기존 감정 분석 및 사용자 인지 기반 모델들을 비교 방법(baseline)으로 설정하였다. 이들 모델은 크게 문장 기반 감정 분석 모델과 사용자 또는 맥락 정보를 고려하는 모델로 나눌 수 있다.

먼저, 문장 자체의 정보만을 사용하는 전통적인 감정 분석 모델들을 비교 대상으로 사용한다. 이들 모델은 사용자 정보나 사회적 관계를 고려하지 않고, 문장의 표면적 의미에 기반해 감정을 예측한다.

다음으로, 사용자 정보 또는 추가적인 맥락 정보를 활용하는 감정 분석 모델들을 포함한다. 이러한 모델들은 사용자 임베딩, 메타데이터, 또는 상호작용 정보를 활용하여 감정 예측 성능을 향상시키는 것을 목표로 한다.

모든 비교 방법들은 동일한 데이터셋과 평가 지표 하에서 실험되며, 이를 통해 제안한 다중-뷰 전파 기반 암묵적 감정 식별 모델이 기존 방법들 대비 어떤 성능 향상을 보이는지를 정량적으로 분석한다.

4.3 구현 세부사항 (Implementation Details)

본 연구에서 제안한 프레임워크는 PyTorch로 구현되었으며, P-Tuning v2(Liu et al., 2022)를 사용하여 Reader Agent를 미세조정(fine-tuning)한다. 모든 모델은 NVIDIA L20 PCIe 48GB GPU 상에서 Adam 옵티마이저를 사용해 학습되었고, 학습률은 10⁻⁶으로 모든 데이터셋에 대해 동일하게 적용되었다.

모든 실험에서 최대 시퀀스 길이 $N = 128$ , 배치 크기 8로 설정하였다. 공정한 비교를 위해 기존 연구(Liao et al., 2025)를 따라, Reader Agent의 기반 LLM으로 GLM4와 Qwen2.5-turbo를 채택하였다.
LLM 기반 인코더로는 ChatGLM-6B(Du et al., 2022)와 Qwen2.5-14B(Yang et al., 2025b)를 사용하였으며, 이들의 임베딩 차원 $d$ 는 각각 4096, 5120이다.

또한 모든 baseline 모델에 대해 포괄적인 하이퍼파라미터 그리드 서치를 수행하여 실험의 공정성을 보장하였다.

4.4 전체 성능 (Overall Performance)

전체 실험 결과는 **표 1(Table 1)**에 제시되어 있으며, 굵게 표시된 값은 최고 성능, 밑줄은 차상위(sub-optimal) 성능을 의미한다. 일부 baseline 모델들이 특정 감정 범주에서는 비교적 좋은 성능을 보이기도 하지만, 제안한 CP-IEA는 Macro-F1과 Accuracy 지표 전반에서 기존 방법들 대비 유의미한 성능 향상을 달성하였다.

표1의 비교방법에 대한 설명이 너무 없는데

특히 일부 LLM 기반 baseline들은 요구된 감정 범주를 엄밀히 따르지 않거나, 아예 응답을 생성하지 못하는 경우가 있었으며, 이러한 경우는 오류(error) 범주로 처리되었다. 반면 CP-IEA는 **세밀한 감정 평점(fine-grained emotion rating)**과 가중 집계(weighted aggregation) 덕분에, 기존 방법들이 구분하기 어려워했던 **네 가지 부정 감정(Sad, Anger, Disgust, Fear)**에 대해 현저한 성능 개선을 보였다.

개인화 감정을 고려하는 RAPPIE는 차상위 성능을 기록하였으나, CP-IEA가 RAPPIE보다 우수한 성능을 보인 주요 이유는 감정 평점 유사도에 기반한 전파 메커니즘과 **컨텍스트에 정렬된 동적 감정 역할(dynamic emotion role)**을 효과적으로 활용했기 때문이다.

4.5 어블레이션 스터디 (Ablation Study)

CP-IEA의 각 구성 요소의 효과를 검증하기 위해, 우리는 핵심 모듈을 제거한 여러 변형 모델을 설계하여 실험을 수행하였다. 구체적인 변형은 다음과 같다.

w/o F: 팔로잉 관계 전파(following relationships propagation)를 제거한 모델
w/o C: 댓글 관계 전파(comment relationships propagation)를 제거한 모델
w/o S: 전파 과정에서 **감정 평점 기반 가중치(weighting)**를 제거한 모델

**그림 3(Figure 3)**은 모든 데이터셋에서의 Macro-F1 기준 어블레이션 결과를 보여준다. 팔로잉 관계 전파 또는 댓글 관계 전파 중 하나라도 제거할 경우, 성능이 크게 저하됨을 확인할 수 있다. 마찬가지로, 감정 평점에 기반한 가중치를 제거하면 성능이 눈에 띄게 감소한다.

이는 감정 평점을 활용한 전파가 감정을 보다 미세하게 구분할 수 있도록 도와주며, 결과적으로 CP-IEA의 전체 성능을 향상시키는 데 핵심적인 역할을 한다는 것을 시사한다.

4.6 템플릿 의존성 분석 (Template Dependency Analysis)

우리는 CP-IEA가 특정 프롬프트 템플릿에 과도하게 의존하는지, 혹은 템플릿에 내재된 계획(plan) 자체에 의존하는지를 추가로 검증한다. 이를 위해, 기존 템플릿을 **세 가지 서로 다른 LLM(GPT-5, Claude-Sonnet-4.5, Gemini-2.5-Pro)**을 사용하여 총 다섯 번 재구성하고, 이 재구성된 템플릿을 원래 템플릿 대신 사용하여 실험을 수행하였다.

**표 3(Table 3)**에는 재구성된 템플릿을 사용했을 때의 실험 결과의 **평균(mean)**과 **분산(variance)**이 원래 템플릿을 사용한 결과와 함께 보고되어 있다. 실험 결과, 재구성된 템플릿을 사용했을 때의 평균 성능은 원래 템플릿과 매우 유사했으며, 분산 또한 매우 작게 나타났다.

이는 CP-IEA가 특정 템플릿 문구에 민감하게 의존하는 것이 아니라, 템플릿에 포함된 **구조화된 추론 계획(plan design)**이 유지되는 한 안정적인 성능을 유지함을 의미한다.

4.7 하이퍼파라미터 분석 (Hyper-parameter Analysis)

CP-IEA의 하이퍼파라미터 민감도를 평가하기 위해, 우리는 모든 데이터셋에서 다양한 하이퍼파라미터 설정 하에 포괄적인 실험을 수행하였다. 특히 LLM 기반 Reader Agent에서 사용되는 두 개의 핵심 하이퍼파라미터 ** $k_1$ **과 ** $k_2$ **에 초점을 맞추었다.

$k_1$ : 각 사용자에 대해 선택되는 콘텐츠 수
$k_2$ : 각 콘텐츠에 대해 선택되는 사용자 과거 행동 수

**그림 4(Figure 4)**는 ChatGLM을 Reader Agent로 사용했을 때, 서로 다른 $k_1$ 과 $k_2$ 값에 따른 Macro-F1 성능 변화를 보여준다. 실험 결과, $k_1$ 과 $k_2$ 값을 증가시키면 초기에는 성능이 향상되지만, 일정 수준을 넘어서면 오히려 성능이 감소하는 경향이 나타났다.

이는 $k_1$ 과 $k_2$ 가 클수록 사용자 개인화 정보와 컨텍스트 정보를 더 풍부하게 표현할 수 있지만, 지나치게 큰 값은 관련성이 낮은 정보까지 포함하여 노이즈를 유발하기 때문으로 해석할 수 있다. 두 데이터셋 모두에서 ** $k_1 = 20$ , $k_2 = 20$ **이 최적의 설정으로 관찰되었으며, 이는 실제 응용 시 하이퍼파라미터 튜닝 비용을 줄이는 데 기여한다.

이것에 대한 지적을 할 수 있을거 같은데... 이 적절한 값을 어떻게 찾아야하는지
데이터의존도 등

4.8 복잡도 분석 (Complexity Analysis)

우리는 CP-IEA의 시간 복잡도를 두 가지 주요 구성 요소를 중심으로 분석한다:
(1) LLM 기반 Reader Agent, (2) Multi-view Propagation 모듈.

Reader Agent 피드백 생성

두 단계 필터링 메커니즘에서,

1단계에서는 TF-IDF와 코사인 유사도를 사용하여 각 사용자에 대해 상위 $k_1$ 개의 콘텐츠를 검색하며, 이 단계의 복잡도는

$O(|U| \cdot |S| \cdot d)$

이다. 여기서 $|U|$ 는 사용자 수, $|S|$ 는 전체 콘텐츠 수, $d$ 는 TF-IDF 차원이다.

2단계에서는 선택된 각 콘텐츠에 대해 상위 $k_2$ 개의 사용자 과거 행동을 선택하며, 이 단계의 복잡도는

$O\Big(k_1 \cdot \sum_{u \in U} |His_a(u) \cup His_r(u)| \cdot d\Big)$

이다.

이후 각 필터링된 사용자–콘텐츠 쌍에 대해 LLM 기반 피드백을 생성하는 과정이 가장 큰 연산 비용을 차지하지만, 본 논문에서는 이 과정을 학습 이전에 오프라인으로 수행하며, 기존 연구(Liao et al., 2025) 대비 두 단계 필터링 덕분에 비용을 크게 절감한다.

Multi-view Propagation

팔로잉 관계 전파의 복잡도는

$O\Big(\sum_{u \in U} |F(u)| \cdot k_1 \cdot d\Big)$

댓글 관계 전파의 복잡도는

$O\Big(\sum_{s \in S} |U_s| \cdot d\Big)$

두 전파 과정 모두 그래프 크기와 임베딩 차원에 선형적으로 비례하며, 전체적으로 CP-IEA는 대규모 실제 환경에서도 적용 가능한 계산 복잡도를 유지한다.

5. 결론 (Conclusion)

본 논문에서는 CP-IEA를 제안하였다. CP-IEA는 **암묵적 감정 분석(Implicit Emotion Analysis)**을 위한 새로운 모델로, **컨텍스트에 따라 변화하는 감정 역할(contextual emotion roles)**을 동적으로 모델링하고, 개인화된 독자(reader) 피드백을 통합하는 것이 특징이다. 기존 연구들이 주로 콘텐츠 작성자(author) 관점의 정보나 정적인 사용자 감정 역할에 의존했던 것과 달리, CP-IEA는 독자를 중심으로 한 감정 인식 과정에 주목한다.

구체적으로, 우리는 LLM 기반 Reader Agent를 도입하여 사용자 프로필과 과거 행동을 고려한 개인화된 감정 피드백과 감정 평점을 생성하고, 이를 통해 현실 데이터에서 흔히 발생하는 응답 희소성(data sparsity) 문제를 완화하였다. 또한 다중-뷰 전파(Multi-view Propagation) 메커니즘을 설계하여, 팔로잉 관계와 댓글 관계라는 두 가지 상호작용 뷰를 통해 감정 표현을 강화함으로써, 사용자 간의 사회적 상호작용이 암묵적 감정 인식에 미치는 영향을 효과적으로 포착하였다.

광범위한 실험 결과, CP-IEA는 두 개의 실제 소셜 미디어 데이터셋에서 기존 최첨단 방법들 대비 일관되고 유의미한 성능 향상을 달성하였다. 특히 감정 평점에 기반한 가중 전파와 동적 감정 역할 모델링은, 서로 구분하기 어려운 부정 감정 범주들을 식별하는 데 있어 중요한 기여를 함을 확인하였다.

종합적으로, 본 연구는 독자 중심(reader-centric) 암묵적 감정 분석이라는 새로운 관점을 제시하며, 향후 개인화된 감정 이해 및 사회적 맥락을 고려한 감정 분석 연구를 위한 유망한 방향을 제공한다.

한계점 (Limitations)

대규모 언어 모델(LLM)이 갖는 **내재적 편향(inherent biases)**은 여전히 중요한 도전 과제로 남아 있다. 이를 완화하기 위해, 본 연구에서는 서로 다른 두 가지 LLM 백본을 선택하고 **템플릿 의존성 분석(template dependency analysis)**을 수행하였다. 그럼에도 불구하고, LLM이 본질적으로 지니는 편향과 불확실성은 여전히 추가적인 탐구가 필요하다.

또한 본 연구에서 사용한 플랫폼인 **Weibo(중국어)**와 **Twitter(영어)**는 교차 언어(cross-linguistic) 및 교차 인종(cross-racial) 환경에 대한 충분한 탐색을 제공하지 못한다는 한계가 있다. 향후 연구에서는 LLM의 내재적 편향을 보다 심층적으로 분석하고, 고품질의 다언어·다문화 데이터셋을 수집하는 데 초점을 맞출 계획이다.

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-328, ARR 202601