Danger Depends on the Mind: A Theory-of-Mind Grounded Dataset and Model for Context-Dependent Dangerous Speech

◼ Comment

요약

이 논문은 위험 발화의 위험성이 문장 자체가 아니라 화자의 개인 정보와 감정·의도·행동 등 마음이론(ToM) 기반 맥락에 따라 달라진다는 관점에서 문제를 재정의한다. 이를 위해 동일한 문장이 맥락에 따라 안전/위험으로 달라질 수 있도록 구성된 중국어 데이터셋 ToM-DS(79K 인스턴스) 를 구축하고, 구조화된 ToM 맥락을 동적으로 활용하는 경량 모델 ToMGuard를 제안한다.

장점

본 논문은 위험 발화의 위험성이 문장 자체가 아니라 화자의 개인 정보와 감정·의도·행동 등 맥락에 의존한다는 점을 명확히 제시하고, 이를 체계적으로 반영한 ToM 기반 데이터셋(ToM-DS) 을 구축하였다.
제안된 데이터셋은 단순한 위험/비위험 이진 판별을 넘어, 위험의 심각도를 순서적으로 표현하는 위험 수준 레이블을 포함하여 실제 콘텐츠 조정 시나리오에 더 부합한다.
ToMGuard는 구조화된 ToM 맥락을 명시적으로 활용함으로써, 훨씬 큰 규모의 LLM들보다 적은 파라미터로도 맥락 의존적 위험 발화 탐지와 위험 수준 분류에서 최고 성능을 달성함을 보인다.

단점

ToM 상태(ToM state)의 정의와 도입 시점이 다소 갑작스럽다.

3.1절에서 ToM state(감정, 의도, 행동)가 핵심 구성 요소로 제시되지만, 앞선 섹션에서 이에 대한 직관적 설명이나 기존 위험 발화 연구와의 연결이 충분히 제공되지 않아 독자가 데이터 설계의 동기를 이해하는 데 혼란을 줄 수 있다.

기존 데이터셋에 포함된 실제 컨텍스트가 데이터 구성 과정에서 활용되지 않는 이유가 명확하지 않다.

3.2.1에서는 기존 데이터의 컨텍스트를 사용해 문장이 맥락 의존적인지만 판단한 뒤, 3.2.3에서 이를 모두 버리고 LLM 기반의 reverse context construction으로 새로운 컨텍스트를 생성한다.

데이터 구축 전반에서 LLM 의존도가 매우 높지만, 이에 대한 신뢰성 검증은 제한적이다.

본 논문은 다수의 단계(문장 생성, 컨텍스트 생성, 위험 수준 주석, 교차 검증)에 걸쳐 LLM을 사용하지만, 최종 합성 데이터의 신뢰도를 정량적으로 검증하는 직접적인 사람 평가가 충분히 제시되지 않는다. 3.6절의 인간 평가는 데이터셋 간 비교에 초점이 맞춰져 있어, LLM 기반 주석 자체의 정확성을 평가하는 실험으로 보기는 어렵다.

본 논문은 다양한 일반 목적 LLM을 기준 모델로 비교하지만, LlamaGuard, WildGuard, ShieldGemma와 같은 기존의 세이프티 전용 모델들과의 비교는 포함하지 않는다. 이러한 모델들은 실제 콘텐츠 조정 시스템에서 널리 사용되고 있어, 제안 방법의 실용적 우위를 평가하기 위한 중요한 비교 대상이 될 수 있다.

Abstract

위험 발화(dangerous speech) 탐지는 오래전부터 연구되어 온 과제이지만, 기존 접근법들은 대체로 발화를 고립적으로 처리하며, 누가 말했는지와 화자의 정신적 상태를 고려하지 않는 이진 레이블에 의존해 왔다. 본 논문에서는 이 문제를 마음이론(Theory of Mind, ToM) 에 기반하여 맥락 의존적인 위험 발화 탐지 과제로 재정의한다. 인지과학에서 ToM은 감정, 의도, 행동과 같은 잠재적 정신 상태를 타인에게 귀속시키는 인간의 능력을 연구한다. 우리는 이러한 정신 상태가 발화의 위험성을 평가하는 데 핵심적인 신호라고 주장한다.

이 관점에 기반하여, 우리는 ToM-DS라는 데이터셋을 구축하였다. ToM-DS는 79,000개의 인스턴스로 구성되며, 각 발화는 구조화된 화자 프로필, ToM 상태(감정, 의도, 행동), 그리고 토픽 계층 구조와 함께 제공된다. 데이터 구축 과정에서 먼저 맥락 의존적인 문장을 식별한 뒤, 이를 둘러싼 다양한 안전(safe) 및 위험(dangerous) 시나리오를 생성한다. 이후 최신 대규모 언어 모델(LLM)과 다단계 교차 에이전트 검증 파이프라인을 활용하여 고품질 주석을 확보함으로써, 맥락 의존적 위험 발화 탐지와 세분화된 위험 수준 분류를 위한 포괄적이고 신뢰할 수 있는 자원을 구축하였다.

또한 우리는 ToMGuard를 제안한다. ToMGuard는 서로 다른 정신 상태 단서들의 중요도를 동적으로 조절하는 동적 ToM 어텐션 메커니즘을 갖춘 경량 모델이다. ToMGuard는 훨씬 적은 파라미터 수에도 불구하고, 강력한 상용 및 오픈소스 LLM들을 능가하는 성능을 보인다. 실험 결과는 ToMGuard가 ToM-DS 데이터셋에서 맥락 의존적 위험 발화 탐지와 위험 수준 분류 모두에서 새로운 기준 성능을 달성함을 보여준다.

1. 서론 (Introduction)

위험하거나 유해한 발화(dangerous or toxic speech) 탐지는 자연어 처리(NLP)와 온라인 콘텐츠 조정(content moderation) 분야에서 오랫동안 다루어져 온 핵심 과제이다(Borkan et al., 2019a; Hartvigsen et al., 2022). 최근에는 중국어를 대상으로 한 벤치마크들이 등장하여, 보다 세분화된 독성 분류나 발화 내 타깃(span-level target) 추출까지 연구 범위를 확장하고 있다(Lu et al., 2023; Bai et al., 2025). 그러나 기존 방법들의 대부분은 여전히 단일 발화를 독립적으로 처리하며, 위험 여부를 거친 이진 레이블로 판단한다. 이는 위험성이 발화의 표면적 표현만으로 결정된다는 암묵적 가정을 전제로 한다.

이러한 텍스트 중심적 접근은 동일한 문장이 어떤 상황에서는 무해하지만, 다른 상황에서는 위험해질 수 있는 경우를 구분하지 못한다. 또한 화자에 민감한 판단이나, 위험의 심각도를 세밀하게 구분하는 데에도 한계가 있다. 즉, 기존 설정에서는 누가 말했는지, 왜 말했는지, 어떤 심리적 상태에서 말했는지와 같은 중요한 정보가 배제되어 있다.

즉 문장이 위험한가를 판단할 때는 컨텍스트 및 화자 정보가 필요하다는 것

인지과학에서의 마음이론(Theory of Mind, ToM) 은 인간이 타인의 잠재적 정신 상태—예를 들어 행동, 의도, 감정—를 추론하는 능력을 연구한다(Le et al., 2019; Chen et al., 2025). 이러한 정신 상태 변수들은 발화의 위험성을 판단하는 데 매우 중요한 요소이다. 어떤 발화를 규제해야 하는지는 단순히 무엇이 말해졌는지가 아니라, 누가, 왜, 그리고 어떤 심리적 상태에서 말했는지에 달려 있기 때문이다.

그림 1에 제시된 예시에서 볼 수 있듯이,

“담배 한 갑을 사서 피우겠다”라는 발화는 불안을 느끼며 자기 진정을 목적으로 말한 35세 노동자에게서는 안전한 발화로 해석될 수 있다.
반면, 흥분 상태에서 처음 흡연을 시도하려는 15세 중학생에게서 동일한 발화는 중간 수준의 위험 발화가 된다.
그러나 기존의 대부분의 데이터셋은 텍스트 자체만을 주석화할 뿐, 구조화된 개인 정보, ToM 상태, 혹은 토픽 정보를 포함하지 않기 때문에, 이러한 ToM 기반의 맥락 의존적 안전성 변화를 근본적으로 포착하지 못한다.

이 간극을 메우기 위해, 우리는 ToM-DS를 소개한다. ToM-DS는 포괄적인 ToM 기반 맥락 주석을 포함한, 최초의 대규모 위험 발화(dangerous-speech) 벤치마크이다.

우리는 다음과 같은 다단계 파이프라인을 통해 ToM-DS를 구축한다:

(i) 기존 데이터셋에서 맥락 의존적 발화를 탐지하고,
(ii) 제어된 생성(controlled generation)을 통해 모호한(ambiguous) 경우와 명시적(explicit) 경우를 모두 포괄하도록 확장하며,
(iii) 고정된 문장에 대해 LLM이 다양한 개인 정보(personal info), ToM 상태(감정·의도·행동), 토픽, 그리고 사람과 유사한 전방 추론(forward human-like reasoning) 을 생성하는 역(逆)맥락 구성(reverse context construction) 을 수행하고,
(iv) 세분화된 위험 수준(risk levels)을 부여한 뒤 교차 에이전트 일관성 검사(cross-agent consistency checking)와 의미적 중복 제거(semantic deduplication)를 수행한다.

필터링 이후 ToM-DS는 79K의 텍스트–맥락 쌍을 포함하며, 그중 절반 이상(55.7%)은 맥락 의존적이다. 즉, 동일한 발화가 어떤 맥락에서는 안전(safe)으로, 다른 맥락에서는 위험(dangerous)으로 주석되어 있다. 이진 위험 레이블 외에도, 모든 위험 인스턴스는 추가로 4단계의 순서형 위험 수준(ordinal risk levels) 으로 분류되며, 이를 통해 서로 다른 적용 시나리오에 대해 거친 탐지(coarse-grained detection)와 세밀한 위험 평가(fine-grained risk assessment)를 모두 가능하게 한다.

실제로 컨텍스트에 따라 위험판단이 달라지는 케이스를 통계적으로 보여주는 가? 보여주는군

더 나아가, 우리는 ToM-DS에 맞춘 경량 아키텍처 ToMGuard를 제안한다. ToMGuard는 발화를 인코딩하기 위해 중국어 RoBERTa 인코더(Xu, 2021)를 사용하고, 구조화된 맥락을 위해 소형 다층 퍼셉트론(MLP) 인코더(Taud and Mas, 2017)를 사용한다.

이 구조화 맥락은 다섯 차원—개인 정보(Personal Info), 감정(Emotion), 의도(Intent), 행동(Action), 토픽(Topic)—으로 구성된다. 이후 Dynamic ToM Attention 모듈은 텍스트 표현이 이 다섯 차원을 질의(query)하도록 하여 각 정신 상태 단서의 가중치를 적응적으로 부여한다. 그 다음 게이트드 융합(gated fusion) 메커니즘이 최종 표현에 ToM 정보를 얼마나 주입할지를 제어한다. 이 공유 백본 위에서 ToMGuard는 위험 발화 탐지와 4단계 위험 예측을 다중 과제(multi-task) 로 공동 최적화하며, 불균형한 이진 분류를 위해 focal loss(Lin et al., 2017)와 순서형 위험 모델링을 위한 CORAL loss(Sun et al., 2016)를 결합한 목적함수를 사용한다. ToMGuard는 300M 파라미터만으로도, 강력한 파인튜닝 백본과 소수 예시 기반의 상용 LLM들(예: Qwen3, GPT-5.1)을 포함한 다양한 기준 모델을 두 과제 모두에서 능가하며 ToM-DS에서 SOTA 성능을 달성한다. 또한 ToM 맥락, ToM 어텐션, 혹은 공동 학습을 제거하는 포괄적 소거(ablation) 실험은 일관된 성능 하락을 보이며, 명시적인 ToM 기반 맥락 모델링이 신뢰할 수 있는 맥락 의존적 위험 발화 탐지에 필수적임을 확인해준다. 요약하면, 우리의 기여는 다음과 같다.

우리는 ToM에 근거한(ToM-grounded) 맥락 의존적 위험 발화 탐지를 정식화하고, 개인 정보, ToM 상태, 토픽 계층, 이진 위험 레이블, 4단계 위험 주석을 포함하는 79K 규모의 구조화 ToM 맥락을 갖춘 최초의 대규모 중국어 벤치마크 ToM-DS를 공개한다.
우리는 Dynamic ToM Attention과 게이트드 융합을 통해 ToM 맥락을 적응적으로 통합하고, 위험 탐지와 순서형 위험 예측을 공동 최적화하는 경량 모델 ToMGuard를 제안한다.
ToM-DS에 대한 광범위한 실험을 통해 ToMGuard가 이진 탐지 및 위험 수준 과제 모두에서 SOTA 성능을 달성하며, 강력한 파인튜닝 기준 및 few-shot LLM을 능가함을 보인다. 우리의 데이터셋과 모델은 공개될 예정이다.

2 Related Work (관련 연구)

2.1 Dangerous Speech Detection

위험하거나 유해한 발화(dangerous, toxic, or hateful speech)를 탐지하는 연구는 오랫동안 큰 관심을 받아왔다. 영어권에서는 CivilComments(Borkan et al., 2019b), ToxiGen(Hartvigsen et al., 2022), HateXplain(Mathew et al., 2021)과 같은 벤치마크들이 제안되었으며, 이들은 정체성(identity)에 민감한 레이블, 구간(span) 단위의 근거(rationale), 그리고 암묵적 혐오 발화에 대한 분류 체계를 도입함으로써 연구 진전을 이끌었다. 중국어의 경우, ToxiCN(Lu et al., 2023)은 세분화된 독성 탐지를 위한 계층적 분류 체계를 제시하였고, COLDataset(Deng et al., 2022)과 SWSR(Jiang et al., 2021)는 각각 모욕적 언어와 성차별적 언어를 대상으로 한다. 또한 STATE-ToxiCN(Bai et al., 2025)은 해석 가능성을 높이기 위해 구간 단위 타깃 추출(span-level target extraction)을 추가로 제공한다.

이러한 진전에도 불구하고, 기존 데이터셋들은 몇 가지 공통적인 한계를 공유한다. 첫째, 대부분이 이진 혹은 거친 수준의 레이블을 사용하여 명시적인 심각도(severity) 정보를 제공하지 않는다. 둘째, 텍스트를 고립적으로 주석화하여, 화자 정체성이나 상황적 맥락이 해석에 미치는 영향을 무시한다. 셋째, 주석 과정에서 명시적인 추론(reasoning) 을 제공하는 경우가 거의 없다. 일부 연구는 맥락을 고려한 독성 탐지를 시도하기도 했으나(Pavlopoulos et al., 2020; Xenos et al., 2021), 이들 역시 주로 대화 이력(conversational history)에 의존할 뿐, 화자 수준의 구조화된 속성(structured speaker-level attributes)을 활용하지는 않는다. 본 연구는 이러한 한계를 극복하기 위해, 풍부한 화자 프로필과 정신 상태 정보를 주석 프레임워크에 통합한다.

2.2 Theory-of-Mind in NLP

마음이론(ToM)은 인간의 사회적 추론에서 핵심적인 역할을 하며, 최근 자연어 처리 분야에서도 점점 더 많은 관심을 받고 있다(Chen et al., 2025). ToM 관련 연구는 의도 탐지(intent detection), 대화 내 감정 인식(emotion recognition)(Poria et al., 2019), 페르소나 기반 대화 생성(persona-based dialogue generation)(Zhang et al., 2018) 등을 포함한다. 또한 ToMi(Le et al., 2019), FANToM(Kim et al., 2023), Hi-ToM(Wu et al., 2023), ToMBench(Chen et al., 2024)와 같은 전용 벤치마크들은 거짓 신념(false-belief) 과제나 다중 에이전트 시나리오를 통해 사회적 추론 능력을 평가하며, GPT-4조차도 여전히 인간 수준에 미치지 못함을 보여준다. 최근 연구들은 행동적 관점과 기계적 관점에서 대규모 언어 모델의 ToM 능력을 분석하기도 했다(Wagner et al., 2025; Wu et al., 2025).

그러나 ToM은 아직까지 콘텐츠 조정(content moderation) 이나 위험 발화 탐지(dangerous speech detection) 에 직접적으로 적용된 바가 없다. 우리는 누가 말하는지, 그리고 왜 말하는지를 이해하는 것이 정확한 위험 평가에 필수적이라고 주장하며, 이를 위해 화자의 인구통계적 정보, 감정 상태, 그리고 의사소통 의도를 위험 레이블의 결정 요인으로 명시적으로 인코딩하는 ToM 기반 주석 체계(ToM-grounded annotation schema) 를 제안한다.

3 ToM-DS Dataset

3.1 Annotation Schema and Label Taxonomy

ToM-DS의 각 인스턴스는 네 가지 주석 차원을 포함한다:

개인 정보(Personal Information),
ToM 상태(ToM State),
토픽 계층(Topic Hierarchy),
그리고 위험 레이블(Danger Labels) 이다.

갑자기 ToM State라해서 약간 이해하기 어려움

이 구성 요소들은 위험 발화를 맥락적이고 ToM에 근거하여(ToM-grounded) 해석할 수 있도록 공동으로 지원한다.

3.1.1 Personal Information

우리는 국제적으로 공인된 인구통계 기준을 따른다.

성별(Gender)은 트랜스젠더 건강 기준(World Professional Association for Transgender Health, 2011)을 따라

남성(Male), 여성(Female), 기타(Other) 로 정의한다.

연령과 연령대(Age and Age-Group)는 세계보건기구(WHO)의 생애 주기 분류(Organization, 2015)를 채택하여

아동(Child), 청소년(Teenager), 청년(Young Adult), 중년(Middle-aged), 노년(Elderly) 으로 구분한다.

직업(Occupation)은 국제노동기구(ILO)와 ISCO-08 체계(Ganzeboom, 2010; US Dept. of Labor, 2000)를 기반으로 가장 일반적인 범주를 선정하였으며,

그 결과 표 14에 제시된 25개의 대표 직업군을 사용한다.

3.1.2 ToM State

ToM 상태는 화자의 내적 정신 상태와 행동적 조건을 세 가지 측면으로 기술한다.
감정(Emotion) 은 기본 및 복합 정서에 대한 기존 분류 체계(Ekman, 1992; Russell, 2003; Mayer and Salovey, 1990)를 바탕으로 유사한 범주를 통합한 뒤,

빈도가 높은 20개 레이블을 유지하였다(표 15).

의도(Intent) 는 화용(pragmatics) 및 대화 행위(dialogue-act) 연구(Allen, 1995; Bickmore and Cassell, 2005; McTear, 2002)를 기반으로 하며,

사회적·정보적·정서적·과업 지향·요청 행동을 포괄하는 23개의 의사소통 의도로 구성된다(표 16).

행동(Action) 은 체화 인지(embodied cognition)와 상호작용 연구(Prinz, 1997; Tomasello, 2009; Clark, 1996)의 분류를 따라,

신체적·사회적·인지적·상황적 행동을 아우르는 22개의 일반적 행동 유형으로 정의된다(표 17).

이 세 차원은 화자의 ToM 상태를 구조적으로 표현한다.

3.1.3 Topic Hierarchy

토픽 분류 체계는 LIWC 22의 개인적 관심사(personal concerns)(Pennebaker et al., 2015), ICD-11의 행동 영역(Organization, 2004), 그리고 혐오·위험 발화에서 빈번히 나타나는 위험 관련 주제(Davidson et al., 2017)를 통합하여 구성된다. 10개의 1단계(Level-1) 토픽은 표 10에 정의되어 있으며, 2단계(Level-2) 토픽은 개방형(open-domain)으로 두어 유연성과 다양성을 확보한다.

3.1.4 Danger and Risk Labels

ToM-DS는 두 가지 과제를 지원한다.
(1) 위험 발화 탐지(Dangerous Speech Detection) 로, 각 인스턴스에 대해 이진 레이블(0 = safe, 1 = dangerous)을 부여한다.
(2) 위험 수준 분류(Risk Level Classification) 로, 위험(dangerous) 인스턴스에 한해 심각도가 증가하는 4단계 위험 수준(1–4) 을 추가로 할당한다.

편의상 안전(safe) 인스턴스는 위험 수준 0으로 저장되지만, 위험 수준 분류 과제의 학습과 평가는 위험 샘플의 4개 클래스(레벨 1–4) 만을 대상으로 수행된다. 이러한 레이블 체계는 맥락 의존적 위험 평가를 위해 거친(coarse-grained) 감독과 세밀한(fine-grained) 감독을 동시에 제공한다.

이 레이블은 누가 매기는거지?

3.2 Multi-Stage Data Construction

그림 2는 다중 에이전트 LLM 주석, 제어된 생성(controlled generation), 맥락 구성(context construction), 그리고 다중 라운드 검증(multi-round validation) 을 결합한 우리의 다단계 파이프라인을 보여준다.

3.2.1 Context-Dependency Determination

우리는 먼저 CHSD(Rao et al., 2023), COLDataset, STATE-ToxiCN으로부터 문장들을 수집한다.

각 문장에 대해 맥락 의존성(context-dependency)—즉, 개인 정보(personal info), ToM 상태, 혹은 토픽이 달라질 때 위험 레이블이 변하는지 여부—를 평가한다.

Gemini-2.5-Flash와 GPT-5-mini가 표준화된 프롬프트(그림 8)를 사용해 각 문장을 독립적으로 판단한다.

두 모델의 판단이 일치하는 인스턴스는 유지하고, 불일치하는 경우에는 Grok-4.1과 DeepSeek-V3.2가 두 번째 라운드 주석을 수행하여 분쟁을 조정한다.
이 과정은 데이터가 컨텍스트를 봐야 safe/unsafe을 구분할 수 있는지 판단하기 위함
왜 여기서 safe의 유무는 안 결정하지?

여기서 사용된 컨텍스트는 데이터구성에 사용되는건 아니라고함. why?
즉 여기서는 레이블은 그냥 컨텍스트에 의존적인지만 판단하고 넘어감

이 단계에서 판단이 일관되게 수렴하는 문장은 채택되며, 남은 충돌 사례는 수동으로 해결한다.

그 결과, 검증된 문장 46.9K개를 얻었고, 이와 함께 맥락 비의존(context-independent) 인 문장들에 대해서는 원 데이터셋이 제공하는 기존 위험 레이블을 함께 확보했다.

이것이 사람이 평가하는것과 얼마나 얼라인되는지는 보여줘야지...?

3.2.2 Controlled Sentence Generation

커버리지와 다양성을 높이기 위해, 우리는 맥락 의존성이 있는 문장과 없는 문장을 추가로 생성한다.

3.1.1에서는 시드가 있는 것이고, 여기서는 LLM generated 문장들을 생성한다는 것
그림5는 safe 판단할때 context 의존적인 문장, 그림6은 비의존적인 문장을 생성하는 프롬프트
이 단계에서는 컨텍스트 및 TOM은 생성 X. 아마 이 부분은 다음 섹션

그림 5와 6의 프롬프트를 사용하여 Gemini-2.5-Pro와 Grok-4.1이 무작위로 샘플링한 토픽(Topic) 과 스타일(Style) 조건 하에서 문장을 생성한다(그림 9). 우리는 다양성을 높이기 위해 표 11에 10개의 대표 발화 스타일을 정의한다. 또한 이 단계에서는, 위험한 텍스트 생성이 보수적인 안전 필터에 의해 저해되는 문제 때문에 GPT 계열 모델을 사용하지 않는다.

각 문장에는 그것이 맥락 의존적이어야 하는지에 대한 근거(rationale) 가 함께 제공되며, GPT-5.1-mini가 문장과 근거 간의 일관성을 검증하여 불일치 사례를 폐기한다. 이 과정을 통해 추가로 25.7K개의 고품질 문장을 얻었고, 총 문장 풀은 72.6K가 된다.

3.2.3 Reverse Context Construction & Forward Reasoning

전통적인 “정방향(forward)” 주석은 먼저 위험 레이블을 정하고 그 레이블에 맞는 텍스트를 생성하는 방식이다. 반면 우리는 역(逆)맥락 구성(reverse context construction) 방식을 채택한다. 즉, 문장을 기준점으로 고정(anchoring) 한 뒤, 서로 다른 안전 결과를 유도하는 다양한 맥락을 구성한다. 이 설계는 동일한 발화가 화자 속성과 ToM 상태에 따라 서로 다른 위험 레이블을 받는 과정을 모델링한다는 우리의 핵심 연구 목표를 직접적으로 지원한다. 정방향 주석은 명시적으로 안전하거나 명시적으로 위험한 문장을 생성하는 데에는 적합하지만, 본 과제의 핵심인 맥락 의존적 모호성(context-dependent ambiguity) 을 포착하지 못한다.

72.6K 문장들은 스타일 다양성을 극대화하기 위해 GPT-5.1, Gemini-2.5-Pro, Grok-4.1에 균등 분배되어 처리된다.

맥락 의존 문장에 대해서는 각 에이전트가 안전 맥락 1–2개와 위험 맥락 1–2개를 생성하여, 동일한 문장이 서로 반대 레이블을 갖는 여러 시나리오에 등장할 수 있도록 한다.
맥락 비의존 문장에 대해서는, 에이전트가 해당 문장의 고유한(내재적) 위험 레이블과 정합적인 일관된 맥락 1–2개를 생성한다.

이 확장으로 총 145.9K개의 텍스트–맥락 쌍이 생성되며(세부는 표 1), 각 맥락은 3.1절에서 정의한 분류 체계를 사용해 구조화된 개인 정보, ToM 상태, 토픽 필드를 포함한다. 또한 주석자들은 고정된 문장이 특정 맥락에서 왜 안전/위험인지 설명하는 전방 추론 문장(forward reasoning statement) 을 함께 제공한다(자세한 지침은 그림 7 참고).

우리는 자동 포맷 교정을 수행하고, 형식이 잘못된 18.3K 인스턴스를 제거한다. 의미적 중복을 줄이기 위해, 모든 샘플을 BGE-large-zh-v1.5(Xiao et al., 2023)로 임베딩하고, 병합 군집화(agglomerative clustering)(Ackermann et al., 2014)를 적용한 뒤, 구조적 유사성이 높은(개인 정보, 감정, 의도, 행동 중 4개 이상 속성이 동일) 거의 중복(near-duplicate) 항목을 제거한다. 이 단계에서 47.5K 인스턴스가 필터링되어 제거되며, 이후 단계의 주석을 위해 80.1K 샘플이 남는다.

3.2.4 Risk Level Annotation

모든 위험(dangerous) 인스턴스에 대해, 우리는 그림 10의 기준에 따라 세분화된 위험 수준(risk level) 1–4를 부여한다. GPT-5.1이 텍스트, 맥락, 그리고 추론 문장을 함께 고려하여 이 주석을 수행한다. 안전(safe) 인스턴스는 정의상 위험 수준 0을 부여받는다.

3.2.5 Cross-Agent Quality Check

신뢰성을 보장하기 위해, 우리는 교차 에이전트 리뷰(cross-agent review) 를 수행한다. GPT-5.1이 생성한 데이터는 Gemini-2.5-Pro와 Grok-4.1이 검토하고, 반대로 다른 모델이 생성한 데이터는 GPT-5.1이 검토하는 방식으로 상호 검증한다. 두 명의 독립적인 에이전트가 맥락, 위험 수준, 추론이 서로 일관적인지 평가한다(그림 11). 두 리뷰어가 모두 승인한 인스턴스는 유지된다. 의견 불일치가 발생하면 수동 판정(manual adjudication)을 수행하며, 두 리뷰어가 모두 거부한 샘플은 제거한다. 이 최종 필터링 이후, 79.2K개의 고품질 인스턴스가 ToM-DS 데이터셋을 구성한다.

우리는 모든 LLM을 각 제공사의 공식 API를 통해 호출하였다. 자세한 비용과 에이전트 간 합의도(inter-annotator agreement) 통계는 부록 A에 보고한다.

3.3 LLM Behavioral Characteristics

우리는 표 1에 요약된 바와 같이, 주석자로 사용한 세 가지 LLM의 서로 다른 행동적 특성을 분석한다. 생성 효율성(generation efficiency) 측면에서, GPT는 가장 낮은 중복 제거 탈락률(deduplication drop rate, 15.4%)을 보이며 높은 어휘적 다양성(lexical diversity)을 나타낸다. 반면 Grok은 지시사항을 엄격히 준수하여 포맷 오류율이 매우 낮은 편(5.1%)이지만, 심각한 모드 붕괴(mode collapse) 를 겪어 중복 제거 과정에서 55.6% 에 달하는 높은 제거율을 보인다.

위험 수준 편향(risk level bias) 측면에서는, 모델들이 서로 상보적인 안전 정렬 특성을 보인다. GPT는 상대적으로 보수적인 경향을 보여, 출력의 85.7% 가 경미한 위험 범주(L1–L2)에 집중된다. 반대로 Grok은 보다 공격적인 성향을 보이며, 고위험 샘플(L3–L4) 의 대다수를 생성한다. Gemini는 위험 스펙트럼 전반에 걸쳐 비교적 균형 잡힌 분포를 보이며, 안정화 역할(stabilizer)을 수행한다.

Grok이 공격적인 성향을 보이는구만?

이러한 상보성은 ToM-DS가 미묘한 맥락 의존적 암시부터 명시적인 위협에 이르기까지 위험의 전 범위를 포괄하도록 보장하며, 단일 출처의 합성 데이터셋에서 흔히 나타나는 심각도 편향(severity bias) 을 효과적으로 완화한다.

3.4 Data Statistics

표 2는 ToM-DS의 전체 통계를 보고한다. 본 데이터셋은 총 79,218개 인스턴스로 구성되며, 이 중 71,324개는 학습용, 7,894개는 테스트용이다. 안전(Safe) 샘플은 43,314개, 위험(Dangerous) 샘플은 35,904개이다. 위험 샘플 하위 집합 내에서는 중간 위험(Level 2) 과 저위험(Level 1) 이 대부분을 차지하며, 고위험(Level 3) 과 극단적 위험(Level 4) 샘플은 상대적으로 적다. 이는 실제 온라인 플랫폼에서 경미한 적대적 표현이 명시적이고 심각한 위협보다 훨씬 더 빈번하게 나타난다는 현실을 반영한다.

ToM-DS의 핵심적인 특성은 맥락 의존성(context dependency) 을 명시적으로 모델링한다는 점이다. 우리는 53,267개의 고유 텍스트(unique texts) 를 수집했으며, 이 중 21,419개(40.2%) 는 여러 서로 다른 맥락에서 등장한다. 또한 19,861개의 텍스트(37.3%) 는 레이블 모호(label-ambiguous) 한데, 이는 동일한 문장이 어떤 맥락에서는 안전으로, 다른 맥락에서는 위험으로 주석되었음을 의미한다. 이로 인해 44,147개 인스턴스(전체의 55.7%) 가 이러한 레이블 모호성을 갖는다.

추가로, 162개의 텍스트(344개 인스턴스, 0.4%) 는 위험 수준 모호(risk-ambiguous) 한 경우에 해당한다. 즉, 이들은 항상 위험으로 분류되지만, 주변 ToM 맥락에 따라 서로 다른 위험 수준을 부여받는다. 동시에 ToM-DS에는 맥락 비의존적 발화도 상당수 포함되어 있으며, 이들은 일관되게 단일 위험 레이블을 갖는다. 이를 통해 ToM-DS는 전통적인 위험 발화 설정도 포괄하면서, 모든 인스턴스에 대해 구조화된 ToM 속성(개인 정보, ToM 상태, 토픽)을 함께 제공한다.

ToM 속성들의 상세 분포는 부록 B에 제시되어 있다.

3.5 Dataset Comparison

표 3은 ToM-DS를 영어와 중국어의 대표적인 벤치마크들과 비교한다. 기존 데이터셋들의 대부분은 이진 분류에 의존하거나 정적인 메타데이터에 초점을 맞춘다. STATE-ToxiCN이 구간(span) 단위 추출을 도입하긴 했지만, 계층적인 심각도(severity) 평가는 제공하지 않는다. ToM-DS는 다음과 같은 점에서 이러한 한계를 보완한다.
(1) 잠재적 위험에 대해 4단계 심각도 계층을 도입한다.
(2) 정적 속성(static attributes)이 아닌 상황적 맥락(situational context) 을 통합하여, 모델이 맥락 의존적인 안전 경계를 학습할 수 있도록 한다.
(3) ToM 특성을 통합함으로써 해석 가능한 추론(interpretable reasoning) 을 지원한다. 이는 기존 유해 발화 데이터셋에서는 거의 제공되지 않던 차원이다.

3.6 Human Evaluation

합성 텍스트의 자연스러움과 주석의 타당성을 평가하기 위해, 우리는 중국어의 대표적인 두 벤치마크인 ToxiCN과 COLDataset을 대상으로 블라인드 인간 평가를 수행하였다.

두 벤치마크와 비교해서 여기서 만든 합성데이터에 대해 평가했다는 것

각 데이터셋에서 무작위로 50개 인스턴스를 샘플링하고, 언어학 전공 학부생 30명에게 각 샘플을 표 18에 제시된 네 가지 차원에 대해 1–5점 리커트 척도로 평가하도록 하였으며, 각 평가자에게 50위안(CNY)을 지급하였다.

표 4에서 보이듯이, ToM-DS는 유창성(fluency) 측면에서 실제 데이터셋과 유사한 수준을 보였으며(4.74 대 4.72–4.76), 포괄성(comprehensiveness) 과 정확성(correctness) 에서는 기존 데이터셋들을 크게 상회하여 가장 높은 종합 점수를 기록하였다. 평가자들은 ToM-DS에 포함된 명시적 맥락 정보가 기존 자원에서 자주 발생하던 레이블 모호성을 줄여준다고 보고하였다.

4 ToMGuard Model

우리는 ToMGuard를 제안한다. ToMGuard는 그림 3에 나타난 바와 같이, 텍스트 내용과 정신 상태(ToM) 간의 상호작용을 명시적으로 모델링함으로써 맥락 의존적 위험 발화를 탐지하도록 설계된 프레임워크이다.

4.1 Input and Encoding (Stage 1 & 2)

모델은 두 개의 병렬 입력 스트림을 입력으로 받는다. 하나는 발화 텍스트 (x)이고, 다른 하나는 ToM에 근거한 구조화된 맥락 (c)이다.

Text Encoding

텍스트 인코딩을 위해 우리는 Chinese-RoBERTa-Large를 백본 인코더로 사용한다. 입력 텍스트 (x)가 주어지면, 우리는 ([CLS]) 토큰의 문맥화된 표현을 텍스트 임베딩 (h'_t \in \mathbb{R}^d)로 사용하며, 여기서 차원 (d = 768)이다.

ToM Context Encoding

맥락 (c)는 다섯 개의 차원으로 구성된다: 개인 정보(Personal Info), 감정(Emotion), 의도(Intent), 행동(Action), 토픽(Topic). 우리는 이들 특징을 밀집 벡터 (h_c \in \mathbb{R}^5)로 인코딩한 뒤, 병목 구조를 갖는 다층 퍼셉트론(MLP)을 통해 이를 정제한다:

$[
h'c = \text{MLP}{\text{ToM}}(h_c) \in \mathbb{R}^5
\tag{1}
]$

이때 사용되는 병목 구조는 (5 \rightarrow 32 \rightarrow 5)로, 컴팩트한 표현을 유지하면서도 비선형 변환을 학습할 수 있도록 설계되었다.

4.2 Dynamic ToM Attention (Stage 3)

맥락 의존성을 효과적으로 포착하기 위해, 우리는 Dynamic ToM Attention 메커니즘을 설계하여 서로 다른 맥락 차원들에 대해 중요도를 적응적으로(assign adaptively) 부여한다.

Attention Mechanism

우리는 텍스트 표현 (h'_t)을 쿼리(Query, Q) 의 원천으로 사용하고, ToM 맥락 표현 (h'_c)을 키(Key, K) 와 값(Value, V) 의 원천으로 사용한다. 이들은 다음과 같이 선형 투영된다:

$[
Q = h'_t W_Q,\quad
K = h'_c W_K,\quad
V = h'_c W_V
\tag{2}
]$

여기서 (Q \in \mathbb{R}^{d_k}), (K, V \in \mathbb{R}^{5 \times d_k})이며, 8-헤드 어텐션 설정에서 (d_k = 96)이다. 우리는 어텐션 점수 (\alpha \in \mathbb{R}^5)를 계산하여, 각 ToM 차원이 텍스트와 얼마나 관련되는지를 나타낸다:

$[
\alpha = \text{softmax}!\left(\frac{QK^\top}{\sqrt{d_k}}\right)
\tag{3}
]$

이후, 맥락 인지 표현(context-aware representation) (h_{\text{attended}})는 가중 합산을 통해 계산된다:

$[
h_{\text{attended}} = \alpha V
]$

Gated Fusion

원래의 텍스트 의미 정보와 동적으로 집계된 맥락 정보를 효과적으로 결합하기 위해, 우리는 적응적 게이팅 메커니즘(adaptive gating mechanism) 을 도입한다:

$[
g = \sigma!\left(W_g [h'_t; h'_c] + b_g\right)
\tag{4}
]$

$[
h_{\text{final}} = g \odot h_{\text{attended}} + (1 - g) \odot h'_t
\tag{5}
]$

여기서 ([,;,])는 벡터 연결(concatenation)을 의미하며, (\odot)는 원소별 곱(element-wise multiplication)을 의미한다. 게이트 (g)는 ToM 정보가 최종 표현에 얼마나 주입될지를 제어하여, 맥락 정보의 관련성이 낮은 경우에도 모델이 강건성(robustness) 을 유지하도록 한다.

결국 query = 텍스트 입력에 해당하는 벡터이고, context = 5개의 ToM 정보들을 벡터화한 것이다.

이 두 벡터를 attention하고 gated fusion하여 최종 representation을 추출한다.

4.3 Multi-Task Output (Stage 4)

ToMGuard는 결합된 표현 (h_{\text{final}})을 과제별 공간으로 사상함으로써 두 가지 과제를 공동으로 최적화(jointly optimize) 한다.

Binary Classification Head

이 분류기는 발화가 안전(safe, (y = 0)) 인지 위험(dangerous, (y = 1)) 인지를 예측한다. 클래스 불균형 문제를 완화하기 위해, 우리는 Focal Loss를 최적화한다:

$[
\mathcal{L}_{\text{focal}}
= - (1 - p_t)^\gamma \log(p_t)
\tag{6}
]$

여기서 (p_t)는 정답 클래스에 대한 예측 확률이며, (\gamma = 2.0)은 쉬운 예제의 기여도를 낮추는 역할을 한다.

Risk Level Head

위험 발화에 대해서는, 우리는 심각도 (y_{\text{risk}} \in {1, 2, 3, 4})를 예측한다. 이를 위해 우리는 순서형 회귀(ordinal regression) 를 사용하며, CORAL loss를 적용한다. 구체적으로, 우리는 (K-1)개의 누적 확률 (P(y > k) = \sigma(z_k))를 예측하며, 여기서 (z_k)는 (k)-번째 순위(rank)에 대한 출력 로짓이다. 손실 함수는 다음과 같다:

$[
\mathcal{L}{\text{coral}}
= - \sum{k=1}^{K-1}
\left[
\lambda_k^{(1)} \log(\sigma(z_k))

\lambda_k^{(0)} \log(1 - \sigma(z_k))
\right]
\tag{7}
]$

여기서 (\lambda_k^{(1)})과 (\lambda_k^{(0)})는 실제 순위가 (k)를 초과하는지 여부를 나타내는 지시 변수이며, 클래스 불균형을 완화하기 위해 가중치가 적용된다.

Joint Objective

전체 손실 함수는 다음과 같이 가중 합(weighted sum) 으로 정의된다:

$[
\mathcal{L}
= \alpha \cdot \mathcal{L}_{\text{focal}}

\beta \cdot \mathcal{L}_{\text{coral}}
\tag{8}
]$

여기서 (\alpha)와 (\beta)는 과제별 가중치이며, (\alpha + \beta = 1)을 만족한다. 우리는 포괄적인 하이퍼파라미터 분석(5.5절)을 통해 (\alpha = 0.4), (\beta = 0.6)을 사용한다. 이는 순서형 위험 분류 과제에 더 높은 가중치를 부여하여, 단순한 위험/비위험 판별보다 세밀한 심각도 구분을 더 강하게 유도하기 위함이다.

최종 representation으로 발화가 Safe/unsafe한지 맞추도록 focal loss 적용하고, Risk 레벨을 맞추도록 CORAL loss을 설계해서 모델을 학습시킨다.

5 Experiments

본 절에서는 ToM-DS 데이터셋 상에서 제안한 ToMGuard의 성능을 평가한다. 우리는 위험 발화 이진 탐지와 위험 수준(4단계) 분류 두 과제 모두에 대해, 제로샷 LLM, 소수 예시(few-shot) LLM, 그리고 감독 학습 기반 파인튜닝 모델을 포함한 다양한 기준 모델들과 비교한다. 또한 구성 요소의 효과를 검증하기 위한 소거 실험(ablation study) 과 효율성 비교를 수행한다.

5.1 Baseline Models and Evaluation Metrics

표 5에 나타난 바와 같이, 우리는 기준 모델들을 세 가지 범주로 나누어 비교한다.
(i) 제로샷 LLM: 그림 12–13의 프롬프트 템플릿을 사용하여 두 과제를 직접 수행하도록 지시한다.
(ii) 소수 예시(few-shot) LLM: 소수의 인컨텍스트 예시를 추가하여 프롬프트 기반으로 수행한다.
(iii) 파인튜닝 모델: ToM-DS 상에서 감독 학습(supervised learning)으로 학습한다.

위험 발화 탐지(이진 분류) 에 대해서는 다음 평가 지표를 보고한다.

Accuracy (Acc): 전체 정확도
F1: 정밀도와 재현율의 조화 평균
AUROC: 임계값 전반에 걸친 순위 품질을 평가하는 ROC 곡선 아래 면적
AUPRC: 클래스 불균형 상황에서 위험(dangerous) 클래스 성능을 강조하는 정밀–재현 곡선 아래 면적
(Borkan et al., 2019b)

위험 수준 분류(4-클래스) 에 대해서는 다음 지표를 사용한다.

Accuracy (Acc)
Macro-F1: 각 위험 수준에 대해 동일 가중치로 평균한 F1
Weighted F1 (W-F1): 클래스 분포를 고려해 가중 평균한 F1
Quadratic Weighted Kappa (QWK): 순서형 레이블 간 합치도를 측정하며, 더 큰 불일치에 더 큰 패널티를 부여하는 지표(Cohen, 1968)

QWK는 4단계 위험 수준의 순서성을 반영할 수 있기 때문에, 본 연구의 위험 수준 분류 과제에 특히 적합하다. 실험 설정의 세부 사항은 부록 C에 제시한다.

5.2 Experimental Results

표 5는 주요 실험 결과를 요약한다. 제로샷 프롬프팅으로 강력한 LLM들을 사용하더라도 성능은 전반적으로 낮다. GPT-5.1과 Gemini-2.5-Pro조차도 이진 위험 탐지에서 F1 점수 26 이하, 위험 수준 예측에서는 QWK 28 이하를 기록하며, 다른 모델들은 종종 더 낮은 성능으로 수렴한다. 이는 과제별 감독 신호가 없거나 ToM에 근거한 맥락에 명시적으로 접근하지 못하는 경우, 일반 목적 LLM이 ToM-DS 과제를 처리하는 데 어려움을 겪는다는 점을 보여준다.

소수 예시(few-shot) 설정에서는 인컨텍스트 예시를 제공함으로써 성능이 유의미하게 향상된다. 그러나 감독 학습 기반 기준 모델과의 격차는 여전히 크다. 이진 분류 F1 점수는 33–52 범위에 머물고, 위험 수준 예측의 QWK 역시 28 이하로 유지된다. 이는 few-shot 프롬프팅만으로는 ToM-DS에서 요구되는 세밀하고 ToM에 근거한 안전 구분을 학습하기에 충분하지 않음을 시사한다.

이에 비해, 파인튜닝 모델들은 두 과제 모두에서 강력한 성능을 보인다. CN-RoBERTa-Large와 XLR-Large와 같은 중국어 인코더는 이진 탐지에서 약 88 F1, 위험 수준 분류에서는 QWK 78–79 수준을 달성한다. 파인튜닝된 LLaMA3.1-8B와 Qwen3-8B는 이진 F1을 89 이상, QWK를 80 이상으로 추가로 끌어올린다. 이러한 성과는 ToM-DS에 대한 감독 학습이 맥락 신호를 활용하여 위험 발화와 위험 수준을 평가하는 능력을 크게 향상시킨다는 점을 보여준다.

ToMGuard는 이러한 기준을 한층 더 넘어선다. ToMGuard는 이진 탐지에서 Accuracy 91.97, F1 91.05, 위험 수준 분류에서 Accuracy 69.62, QWK 80.90을 기록하며, 두 과제 모두에서 최고의 성능을 달성한다. 특히 ToMGuard는 파인튜닝된 대규모 언어 모델 기준보다 훨씬 적은 파라미터 수를 사용함에도 불구하고, 모든 지표에서 일관되게 더 우수한 결과를 보인다. 이는 ToM 맥락을 명시적으로 모델링하는 접근법이 맥락 의존적 위험 발화 탐지에 효과적임을 입증한다.

그냥 Plm finetuning하는것, llm으로 제로샷, 퓨샷 세팅들과 비교했는데, 우리가 제안한 방법이 더 좋다는 것

왜 좋은지는 ToM 맥락을 명시적으로 모델링했기 때문이라고 주장

5.3 Ablation Study

표 5에 제시된 소거 실험 결과는 ToMGuard의 모든 구성 요소가 필요함을 보여준다.
ToM 맥락(ToM Context) 을 제거했을 때 성능 저하가 가장 크게 나타난다. 이 경우 이진 분류의 F1 점수는 91.05에서 51.49로, 위험 수준 분류의 QWK는 80.90에서 77.33으로 급격히 감소한다. 이는 텍스트만을 사용하는 모델링이 맥락 의존적 설정을 처리할 수 없음을 명확히 보여준다.

Dynamic ToM Attention 을 제거하면 두 과제 모두에서 성능이 하락한다(예: QWK 80.10 대 80.90). 이는 단순히 맥락을 연결(concatenation)하는 것보다, 서로 다른 ToM 차원에 가중치를 적응적으로 부여하는 메커니즘이 추가적인 이점을 제공함을 시사한다.

Joint Multi-task Learning 을 비활성화하면, 이진 분류의 F1 점수는 소폭 증가(91.49)하지만, 위험 수준 예측 관련 지표는 전반적으로 악화된다. 이는 순서형 위험 분류 과제로부터의 공유 감독 신호가 심각도에 민감한 표현(severity-aware representation) 을 학습하는 데 도움이 됨을 의미한다.

마지막으로, Focal Loss 를 제거하면 이진 분류의 Accuracy와 F1은 더 높아지지만, 위험 수준 분류 지표는 일관되게 저하된다. 이는 위험 발화 탐지에서 클래스 불균형을 완화하는 것이 이후의 심각도 모델링에 중요하다는 점을 보여준다.

5.4 Model Efficiency Comparison

표 6은 계산 효율성 측면에서 ToMGuard를 여러 강력한 파인튜닝 기준 모델들과 비교한다. 최고의 전반적 성능을 달성했음에도 불구하고, ToMGuard는 3억(300M) 파라미터만을 사용하며, 이는 XLR-Large(560M) 의 약 절반 수준이고, Qwen3-8B 및 GLM4-9B 와 같은 8–9B 규모 LLM들보다 25배 이상 작다.

단일 RTX 3090 GPU 상에서 ToMGuard는 에폭당 학습 시간이 가장 짧고(1.3시간), 추론 처리량이 가장 높으며(초당 48.4 샘플), GPU 메모리 사용량도 가장 적다(13.6GB). 또한 ToMGuard는 단일 다중 과제 설정(single multi-task setting) 에서 학습되지만, 공동 학습을 사용하지 않는 기준 모델들은 이진 탐지와 위험 수준 예측을 위해 별도로 학습해야 하므로, 전체 학습 시간과 하드웨어 자원 소모가 사실상 두 배가 된다.

이러한 결과는 본 과제가 본질적으로 초대형 모델을 요구하지 않음을 시사한다. 즉, 정교하게 설계된 중간 규모 아키텍처와 고품질의 ToM 기반 데이터셋을 결합하면, 훨씬 더 큰 LLM들을 능가하면서도 실제 환경에서 배포하기에 훨씬 효율적이고 실용적인 시스템을 구축할 수 있음을 보여준다.

5.5 Task Weight Analysis

우리는 공동 목적 함수
(\mathcal{L} = \alpha \mathcal{L}{\text{focal}} + \beta \mathcal{L}{\text{coral}})
에서의 손실 가중치 효과를 추가로 분석하며, 이때 (\alpha + \beta = 1) 의 제약을 둔다. (\alpha)를 0.1부터 0.9까지 변화시키며, 두 과제에 대한 모든 평가 지표를 그림 4에 보고한다.

이진 위험 탐지(binary detection) 에 대해서는(그림 4(a)), (\alpha)가 0.1에서 약 0.6까지 증가함에 따라 성능이 향상되지만, (\alpha \ge 0.6)일 때 AUROC와 AUPRC가 눈에 띄게 감소한다. 이는 이진 손실이 과도하게 지배적이 될 경우, 순위 품질과 확률 보정(calibration) 이 저하됨을 의미한다.

위험 수준 예측(risk level prediction) 에 대해서는(그림 4(b)), 네 가지 지표(Accuracy, Macro-F1, Weighted F1, QWK) 모두가 (\alpha = 0.4) ((\beta = 0.6)) 부근에서 최고점을 보인다. 반면 균형 설정((\alpha = \beta = 0.5)) 에서는, 특히 Macro-F1과 QWK에서 뚜렷한 성능 하락이 나타난다. 이는 순서형 위험 분류 과제가 상대적으로 더 높은 가중치를 필요로 함을 보여준다.

전반적으로 (\alpha = 0.4)는 최적의 절충점으로 작용한다. 이 설정은 이진 탐지의 F1과 AUROC를 거의 최적 수준으로 유지하면서, 위험 수준 분류의 모든 지표에서 최고 또는 두 번째로 높은 성능을 달성한다. 이에 따라 우리는 모든 주요 실험에서 (\alpha = 0.4), (\beta = 0.6)을 채택하였다. 이는 단순한 위험/비위험 판별보다 정확한 위험 심각도 평가가 실제 응용에서 더 중요하다는 실용적 우선순위도 반영한다.

6 Conclusion and Future Work

본 논문에서는 위험 발화 탐지를 ToM(마음이론)에 근거한 맥락 의존적 문제로 정식화하고, 신뢰할 수 있는 안전성 평가는 표면적 텍스트만이 아니라 누가 말하는지, 어떤 상태에서 말하는지를 모델링해야 함을 보였다. 이러한 설정을 지원하기 위해, 우리는 ToM-DS를 제안하였다. ToM-DS는 구조화된 ToM 맥락을 포함한 79K 규모의 중국어 벤치마크로, 이진 위험 레이블과 4단계 위험 수준 주석을 모두 제공한다. 또한 우리는 Dynamic ToM Attention과 다중 과제 학습을 활용하여 위험 탐지와 위험 수준 예측을 공동으로 수행하는 경량 모델 ToMGuard를 제안하였다.

실험 결과, ToMGuard는 두 과제 모두에서 최신 최고 성능(SOTA) 을 달성했을 뿐 아니라, 훨씬 더 큰 LLM 기준 모델들보다 현저히 높은 효율성을 보였다. 또한 소거 실험을 통해 ToM 맥락 또는 ToM 인식 모델링을 제거할 경우 성능이 일관되게 저하됨을 확인함으로써, 제안한 접근법의 핵심 가정을 실증적으로 뒷받침하였다.

향후 연구로는, ToM-DS와 ToMGuard를 더 넓은 도메인과 언어로 확장하는 것을 계획하고 있다. 또한 보다 세분화된 ToM 표현을 도입하여, 위험 발화 조정 시스템의 해석 가능성과 실용성을 한층 강화하는 방향을 탐구할 예정이다.

NL-322, ARR 202601