제목: Harmful Factuality Hallucination: LLMs Correcting What They Shouldn’

◼ Comment

요약

This paper introduces and systematically studies Harmful Factuality Hallucination (HFH), a phenomenon where LLMs incorrectly "correct" nonfactual information in the source text using their internal knowledge, resulting in outputs that are factually accurate but unfaithful to the input.
To measure HFH, the authors propose two entity perturbation methods (GEP, LIER).
Experiments on summarization, rephrasing, and QA tasks demonstrate that larger models exhibit higher HFH rates, and that entity position and importance affect these rates.

장점

새로운 HFH 문제를 제시하고, 이에 대한 자세한 분석을 한다

엔티티를 어떻게 변경하는지
엔티티 위치에 따른 HFH 효과
프롬프트 엔지니어링으로 해결시도

LLM의 환각 완화에 대한 후속 연구에서 참고할 수 있다

단점

LLM 을 사용할 때, 잠재적 위험인 HFH을 소개하나, 실질적인 위험 시나리오에 대한 것이 부족하다고 생각된다
법률, 의학 및 과학 연구 등 매우 중요한(high-stakes) 영역에서는 HFH의 영향이 클거라 말하지만, 이에 대한 실험은 제공되지 않았다.
결과적으로 HFH가 내재적지식으로 원본을 수정하지만, factual 하다면 문제될 것은 없다고 생각된다
따라서 LLM의 잘못된 내재적 지식으로 원본이 수정되는 케이스에 대한 분석이 필요하다고 보여짐

제안

BERT을 이용한 토큰간의 유사도를 통해 대체하는 전략은 문제점이 있어보인다

내가 이해하기로는 엔티티의 임베딩은 컨텍스트를 반영하여 추출되고, Vocab에 해당하는 토큰의 임베딩은 컨텍스트를 반여하지 않는다.
만약 유사한 토큰이 동일 품사가 아닌 경우에는 어떻게 컨틀로 되는가
차라리 교체할 엔티티의 입력을 [MASK] 토큰으로 두고 품사 분류기를 통해 같은 품사의 토큰중 가장 가까운 토큰을 고르게 하는 것은 어떤가?

gpt4o을 사용한 방법은 좋아 보인다
하지만 이에 대해 수정되는 엔티티의 정량적 성능을 알 수가 없어서 아쉽다
엔티티 위치에 대한 분석

앞 부분의 엔티티가 바뀔수록 HFH가 크다는 것을, 설명한건데 뭐 앞부분 토큰은 attention이 더 커서라는데 왜 그런건지? reference가 있나?

Abstract

대규모 언어 모델(LLM)은 사실적 정확성을 목표로 훈련되지만, 이는 원본 정보에 대한 충실성과 직접적으로 충돌할 수 있다. 이 논문은 이러한 충돌 현상을 "유해한 사실성 환각(Harmful Factuality Hallucination, HFH)" 으로 정의하고 공식화한다. HFH는 기존에 간과된 오류 방식으로서, LLM이 원본 자료의 오류라고 판단한 내용을 "수정"하려 할 때, 결과적으로 생성된 출력이 사실적으로는 옳지만 원본 입력과 충실하지 않은 상태가 되는 현상을 말한다.

전통적인 환각(hallucination) 연구는 모델이 허위 정보를 생성하는 데 집중한 반면, 본 논문은 잘못된 정정(misplaced correctness)의 해악을 탐구한다. 이를 위해 통제된 엔티티 수준의 변형(embedding 기반의 소프트 변형 및 instruction 기반의 하드 변형)과 전략적인 엔티티 선정을 이용하여 HFH를 유도하고 측정하는 재현 가능한 프레임워크를 제안한다.

요약(summarization), 재구성(rephrasing), 질문-답변(QA) 작업 전반에 걸쳐 다양한 LLM에 대한 평가를 진행한 결과, HFH는 널리 퍼져 있으며 모델의 규모가 클수록 더욱 심각해짐을 발견하였다. 또한 HFH의 발생을 유발하는 세 가지 근본 메커니즘을 밝혀냈으며, 간단한 instruction 프롬프트만으로 HFH의 발생률을 약 50% 감소시킬 수 있음을 입증하였다.

본 논문의 프레임워크는 "사실성-충실성(factuality-faithfulness)" 간의 추상적인 긴장을 측정 가능한 행동 지표로 변환하여, 보다 신뢰할 수 있는 LLM 시스템을 구축하기 위한 실질적인 목표를 제시한다.

LLM이 기존 답변을 수정하다보면 원본 입력과 매칭이 안되는? 뭐 그런문제가 있다는거 같음

1. 서론(Introduction)

대규모 언어 모델(Large Language Models, LLM)은 사실적 정확성(factual accuracy)과 제공된 원본 자료(source material)에 대한 충실성(faithfulness)을 동시에 만족하도록 설계된다. 그러나 LLM이 입력 데이터에서 사실과 다른(nonfactual) 정보를 만나게 되면 이 두 가지 목표는 본질적으로 충돌할 수 있다. 사실적인 원본에서 거짓 정보를 만들어내는 방식의 오류에 대한 연구는 이미 충분히 진행되었으나(Wang et al., 2020; Goyal and Durrett, 2021), 본 논문은 그 반대 상황에 해당하는, 더욱 교묘한(insidious) 실패 양상을 연구한다.

이는 LLM이 잘못된(nonfactual) 원본 정보를 “교정”하여 입력에는 충실하지 않으나 사실적으로는 정확한 결과물을 만들어내는 경우이다.
우리는 이러한 행동을 **유해한 사실성 환각(Harmful Factuality Hallucination, HFH)**이라 명명하고 공식화한다.

예를 들어, “공자는 미국 남북전쟁 시대의 철학자였다”라는 문장을 요약하는 작업을 수행할 때, HFH를 보이는 LLM은 공자의 실제 출신 정보를 반영하여 이 내용을 “교정”할 수 있다. 이는 결과적으로 원본 문서를 잘못된 방식으로 나타내는 것이다(본문 그림 1의 아래 부분 참조).

이는 겉보기에 유용해 보일 수 있지만, 이러한 수정은 원본 충실성(source fidelity)을 위반하는 것이며, 원본 텍스트의 오류를 포함하여 그대로 유지하는 것이 중요한 작업에서는 심각한 문제를 일으킨다.

기존 환각(hallucination)의 분류 체계에서 HFH는 매우 중요하지만 실증적(empirical) 연구가 부족했던 영역에 해당한다.

이는 원본과 모순되는 내재적 환각(intrinsic hallucination)(Ji et al., 2023a)에 해당하며, 세계 지식과의 일치성(alignment)을 통해 높은 사실성(factuality)을 얻는 대신, 원본에 대한 충실성을 희생한다.
허위 정보 생성에 중점을 둔 대부분의 연구와 달리 본 논문은 잘못된 정정(misplaced correctness)의 부정적 영향을 분리(isolate)하여 측정한다.
이러한 오류는 모델의 불확실성(model uncertainty)에서 기인하는 것이 아니라(Huang et al., 2024), 사전 학습된 모델이 지닌 지식에 대한 과도한 확신(overconfidence) 때문에 발생하며, 이는 모델 내부의 사실적 지식과 제공된 문맥 간 직접적인 긴장을 초래한다(Huang et al., 2025b).

법률, 의학 및 과학 연구 등 매우 중요한(high-stakes) 영역에서는 HFH의 결과가 더욱 심각해진다. 이러한 분야에서는 원본 자료의 정확한 복제가 필수적이며, 원본에 있는 오류조차 정확한 분석을 위해 보존되어야 하기 때문이다(Cao et al., 2021). 마찬가지로 검색 증강 생성(retrieval-augmented generation, RAG) 시스템에서 검색된 정보를 조용히 “수정”할 경우, 사실적 근거 체계(factual evidence chains)의 무결성을 훼손할 위험이 있다(Lewis et al., 2020). 이러한 민감한 애플리케이션과 작업에 LLM을 적용할 때는 제공된 문맥에 충실한 상태를 유지하도록 보장하는 것이 무엇보다 중요하다.

원본을 유지해서 생성해야한다는 상황이 있다는 것, 검색을 통해서 정보를 수정하면 무결성 훼손의 위험
모델이 내재적 지식을 overconfidence을 하기 때문에 발생하는 문제들임 (재생성된 응답은 factuality을 가지더라도,, 원본에 없는 내용들이 추가된다는 것)

일화적(anecdotal) 증거를 넘어서는 체계적이고 재현 가능한 프레임워크를 제시하기 위해 우리는 HFH를 인위적으로 유발하고 정량화할 수 있는 방법론을 도입한다.

우리는 두 가지 형태의 통제된 엔티티(entity) 변형 방법을 개발하였다.

첫 번째는 부드러운(soft), 임베딩 기반의 접근법(Gaussian Embedding Perturbation, GEP)이고,
두 번째는 하드(hard), 상징적인(symbolic) 접근법(LLM-Instructed Entity Replacement, LIER)이다.

이러한 방법을 사용하여 텍스트에 사실적으로 그럴듯한(plausible) 오류를 삽입하고, 이를 바탕으로 다양한 오픈 소스 모델(예: Llama 시리즈) 및 상업용 모델(예: GPT-4o)에 대한 평가를 수행했다.

구체적으로 추상적 요약(abstractive summarization), 재구성(rephrasing), 문맥 기반 질의응답(context-grounded question-answering) 작업에 걸쳐, 어떤 조건에서 모델이 부적절하게(inappropriately) 이러한 오류들을 수정하는지 철저히 분석했다.

본 논문의 주요 기여(contribution)는 다음과 같다:

**유해한 사실성 환각(HFH)**을 공식적으로 정의하고, 이를 LLM 환각 분류 체계(taxonomy) 내에서 명확히 위치 지었다.
임베딩(embedding) 및 상징적(symbolic) 공간 모두를 활용하여, 통제된 엔티티 수준의 변형 방법으로 HFH 현상을 정량화할 수 있는 체계적 프레임워크를 제안했다.
다양한 작업에서 HFH에 대한 최초의 경험적 벤치마크(empirical benchmark)를 제공하며, 그 보편성(prevalence)과 모델 규모(scale)와의 상관관계, 엔티티의 위치(position)에 따른 민감도를 밝혔다.
HFH 현상의 기반이 되는 세 가지 핵심 메커니즘(정정, 공지시, 혼합)을 발견하고 분류했다.

2. 관련 연구(Related Work)

환각(hallucination)이란 생성된 내용이 원본에서 벗어나거나 의미가 통하지 않는 경우를 의미한다(Ji et al., 2023b).

이는 입력된 문맥, 이전의 출력, 또는 외부 지식과의 불일치(inconsistencies)를 포함한다(Zhang et al., 2023).
Qi et al. (2024)는 환각을 두 가지 축으로 구분한다: 원본 충실성(Source Faithfulness, SF) 및 세계 지식과의 사실적 일치(World Factuality, WF).

이는 원본에서 벗어나는 오류와 세계적 지식에서 벗어난 오류를 구별한다. 환각은 작업에 따라 다른 방식으로 나타난다. 요약(summarization) 작업에서 모델은 흔히 이름이 있는 개체(named entities)를 만들어내거나 왜곡한다(Maynez et al., 2020; Nan et al., 2021). QAFactEval(Fabbri et al., 2022)과 같은 질의응답(QA) 기반 평가 방식은 사실적 일관성(factual consistency)에 대한 보완적인 시각을 제공한다. 그러나 대부분의 연구들은 SF와 WF를 혼합하여 외부적으로 정확한 정보로 입력을 수정하는 모델의 갈등을 포착하지 못하는데, HFH가 바로 이 틈을 메운다(Qi et al., 2024).

사실성(Factuality)과 원본 충실성(Source Faithfulness)은 자주 충돌한다. Huang et al. (2025a)는 충실성 환각(faithfulness hallucination) 개념을 제시했는데, 이는 입력 혹은 주변 문맥과 모순되는 것을 포함한다. FRANK(Pagnoni et al., 2021)는 문장 수준에서의 사실적 오류를 분류한다. 문맥 내 편집(in-context editing) 방법은 추론(inference) 과정에서 최신의 사실을 불러오지만(Madaan et al., 2022; Zhong et al., 2023; Zheng et al., 2023; Wang et al., 2024; Bi et al., 2024b), 이로 인해 원본 프롬프트와의 정렬(alignment)이 떨어질 수 있다.

모델 내부의 지식이 주어진 문맥을 압도할 경우, 모델은 원본에서는 틀리나 세계 지식적으로는 옳은 출력을 자신 있게 생성할 수 있다(Petroni et al., 2020; Si et al., 2023; Xie et al., 2024).
Li et al. (2024a)는 모델의 파라미터 내부 지식(parametric knowledge)에 대한 과도한 확신(overconfidence)이 프롬프트가 제공한 정보와의 모순을 초래할 수 있음을 보였다.
계속 말하는게, 원본에서는 틀리나 세계 지식적으로는 맞는 출력을 생성할 수 있다
모델의 파라미터에 잠재된 내부 지식이 프롬프트가 제공한 정보와 모순을 초래하는 연구도 있다고 한다
이러면서 생기는게, 세계적 사실 일치(world factuality)만 고려하고 원본 충실성(SF)을 고려를 못한다는것이고, 이를 HFH가 매꿔주겠다는 것

모델 규모(model scale)는 이러한 행동에 영향을 준다. 작은 모델은 입력된 내용을 그대로 따르는 경향이 있는 반면, 큰 모델은 과거에 학습한 지식을 이용하여 입력된 내용을 "수정"하는 경향이 있다(Wang et al., 2023a; Lin et al., 2022).

또한 더 큰 모델은 반사실적(counterfactual) 프롬프트 아래에서 원본에 대한 충실성(context faithfulness)이 더 급격하게 하락하는 경향이 있다(Bi et al., 2024a). 규모가 증가할수록 사실성과 환각 경향 모두 증가한다(Lu et al., 2024). 내부 및 외부 지식을 모두 통합하는 검색 증강 생성(RAG)이나 구조화된 프롬프팅(structured prompting) 기법에서, 정확성과 충실성 사이의 긴장이 더욱 두드러진다(Fan et al., 2024; Santhanam et al., 2021; Qin et al., 2024; Chen et al., 2022; Li et al., 2024b).

프롬프트 주입(prompt injection) 연구는 새로운 입력이 기존 문맥과 충돌할 때 모델이 이전 문맥을 무시하거나 망각하는 현상을 밝히고 있다(Perez and Ribeiro, 2022; Liu et al., 2024; Wei et al., 2023). 이러한 오류들은 모델이 내부 기억(internal memory)과 프롬프트 조건(prompt conditioning) 간 경쟁을 해결하는 방식에서 기인한다. 최근 연구는 이 상호작용(interplay)을 정량화하려고 시도하고 있다. Kongmanee(2025)는 토큰(token) 수준의 로짓(logit) 행동을 분석하여 내부 지식이 예측(prediction)을 지배하는 방식을 보였다. Xu et al. (2024)는 지식 충돌(knowledge conflicts)의 분류체계를 제시하고 행동적 영향을 분석했다. Marjanović et al. (2024)는 외부 문맥이 명확할 때조차 LLM이 문맥보다 기억된 사실(memored facts)에 의존하는 경우가 많다는 것을 보였다.

변형(perturbation) 기법은 모델의 행동을 제어된 변형 하에서 관찰할 수 있는 도구를 제공한다. CoCo(Xie et al., 2021)는 원본과 출력 간의 인과적 연결(causal links)을 측정한다. FactGraph(Ribeiro et al., 2022)는 의미론적 구조(semantic structure)를 통해 일관성(consistency)을 검사한다. 이전의 대부분의 변형 연구는 견고성(robustness)이나 함의 오류(entailment error) 탐지에 집중했다(Wang et al., 2023b; Goyal and Durrett, 2020). MQAG(Manakul et al., 2023)는 질문 재작성(question rewriting)을 통해 추상화(abstraction) 품질을 테스트한다. 그러나 이러한 기존 연구들은 사실적 과수정(factual overcorrection)에서 발생하는 환각을 다루지 않는다. 이에 반해 본 연구에서는 원본 충실성과 내부 모델의 행동 사이의 긴장을 명확하게 노출시키는 HFH를 직접 유발할 수 있는 변형 방법을 설계하였다.

3. 방법론(Methodology)

이 장에서는 유해한 사실성 환각(Harmful Factuality Hallucination, HFH)을 체계적으로 조사하기 위한 실험 방법을 설명한다. 먼저 원본 입력에 사실과 다른(nonfactual) 변형(perturbation)을 추가하는 방법을 소개하고, 그다음 평가 작업에 맞추어 설계된 엔티티(entity) 선택 전략을 설명한다.

3.1 사실과 다른 변형 (Nonfactual Perturbation)

세부적으로 조정된 데이터셋이 부재한 상황에서 유해한 사실성 환각(HFH)을 체계적으로 연구하기 위해, 우리는 변형 정도(perturbation degree), 통사적 유효성(syntactic validity), 의미적 일관성(semantic consistency)을 주의 깊게 조절한 사실과 다른(nonfactual) 소스 데이터를 생성한다. 이를 위해 서로 보완적인 두 가지 변형 방법을 제안한다.

첫 번째는 **임베딩 공간(embedding space)**에서 수행되는 부드러운(soft) 변형이며,
두 번째는 **프롬프트(prompt)**를 사용하여 상징적(symbolic) 수준에서 수행되는 하드(hard) 변형이다 (그림 2 참조).

이러한 방법들은 통제된 사실적 오류(factual inaccuracies)를 삽입하여, 모델이 원본 콘텐츠에 대한 충실성(source fidelity)과 모델 내부의 사실적 지식(internal factual knowledge)을 어떻게 균형 잡는지 평가할 수 있도록 해준다.

3.1.1 소프트 변형: 가우시안 임베딩 변형(Gaussian Embedding Perturbation, GEP)

소프트 변형(Soft perturbation)은 사전 학습된 언어 모델(예: BERT, Devlin et al., 2019)의 임베딩 공간(embedding space)에 잘 조정된(calibrated) 가우시안 잡음(Gaussian noise)을 도입하여, 미세한 의미 수준(semantic level)에서 엔티티를 변형하는 방법이다.

이 방법은 일반적으로 적용 가능하며, 임베딩 기반 모델이라면 어떤 것이든 호환 가능하여, 문법적 일관성(syntactic coherence)을 유지하면서도 의미적 이동(semantic drift)을 정밀하게 제어할 수 있다. 공식적으로, 엔티티 집합 ($E = {e_1, e_2, ..., e_n}$)에서 주어진 엔티티 ($e_i$)에 대해, 먼저 사전 학습된 BERT에서 얻은 문맥화된(contextualized) 임베딩 ($v_i \in \mathbb{R}^d$)를 획득한다.

여러 토큰으로 구성된(named) 엔티티의 경우, 구성 토큰의 임베딩 평균을 구하여 단일 벡터로 표현한다. 이 방법은 n-gram 형태를 처리할 수 있도록 하지만, 엔티티의 의미를 변형 목표로 하는 단일 토큰에 압축한다는 한계가 있다. 그 후, 제어된 파라미터 α로 스케일링한 가우시안 잡음으로 이 임베딩을 변형(perturb)한다:

$[
\hat{v_i} = v_i + \alpha \cdot \delta_i, \quad \delta_i \sim N(0, I)
]$

변형된 엔티티 ($\hat{e_i}$)를 얻기 위해, 변형된 임베딩 ($\hat{v_i}$)와 가장 높은 코사인 유사도(cosine similarity)를 갖는 토큰을 모델의 어휘(vocabulary)에서 검색한다:

$[
\hat{e_i} = \arg\max_{w \in V}\text{cos}(\hat{v_i}, \text{Embed}(w))
]$

v는 컨텍스트를 고려한 임베딩이고
w에 대한 임베딩은 컨텍스트없이 추출하는 것인가?
그러면 cosine similarity가 제대로 의미를 가질 수 있는가

이를 통해 원본 엔티티와 의미적으로 가깝지만 사실적인 변형을 지닌 새로운 엔티티를 생성한다. 원본에서의 이탈 정도는 α에 의해 제어되며, 전체 프로세스는 알고리즘 1에서 나타난다.

알고리즘 1: 가우시안 임베딩 변형 (GEP)
입력: 엔티티 집합 (E), BERT 모델, 변형 강도 (\alpha)
출력: 변형된 엔티티 쌍들의 집합 (P)

1: V ← BERT 어휘의 임베딩
2: P ← ∅
3: for 각 엔티티 \(e_i \in E\) do
4:     \(v_i\) ← BERTEmbedding(\(e_i\)) 계산
5:     \(\delta_i \sim N(0, I)\) (무작위 잡음 샘플링)
6:     \(\hat{v_i} ← v_i + \alpha \cdot \delta_i\) (스케일링된 잡음 추가)
7:     \(\hat{e_i} ← \arg\max_{w \in V}\text{cos}(\hat{v_i}, \text{Embed}(w))\)
8:     \(P ← P \cup \{(e_i, \hat{e_i})\}\)
9: end for
10: return \(P\)

변형된 엔티티의 효율성과 품질을 보장하기 위해 다음과 같은 최적화를 적용한다:

어휘 임베딩 캐싱(Caching Vocabulary Embeddings): 사전 계산 및 캐싱을 통해 가장 가까운 임베딩 이웃(nearest neighbor) 검색 과정(식 1)의 중복 계산을 최소화한다.
어휘 가지치기(Vocabulary Pruning): 특수 문자, 독립적으로 의미를 갖지 않는 부분 단어(sub-word fragment), 지나치게 짧은 단어 등 부적합한 토큰을 필터링하여 변형된 엔티티 (\hat{e_i})의 품질을 향상시킨다.
변형 강도의 제어(Controlled Perturbation Strength): α값을 [0.1, 0.3] 범위 내에서 조정(기본값 0.1)하여, 사실적인 차이를 유지하면서도 의미 유사성의 균형을 맞추고 문법적 정확성은 유지한다.

이 과정으로 생성된 변형된 엔티티는 로컬 문맥 내에서 문법적으로는 일관성을 유지하면서도 사실적으로 부정확한 특성을 갖도록 설계된다. 예를 들어, 작은 α 값(예: 0.1)을 사용하면 "아인슈타인(Einstein)"이 "보어(Bohr)"와 같은 유사한 이론물리학자로 매핑될 수 있고, 큰 α 값(예: 0.3)을 사용하면 "아인슈타인"이 "노이만(Neumann)"과 같은 인접 분야의 다른 학자로 매핑될 수 있어 의미적 이동이 더 커진다. 이러한 통제된 변형을 통해 LLM의 원본 충실성(source fidelity)을 정밀하게 테스트할 수 있게 된다.

결국 엔티티를 의미적으로는 들어갈만하지만, 다른 엔티티로 변경하게 되는데
차라리 그냥 바꿀 엔티티를 [MASK] 씌워서 가장 높게 나오는 토큰들 중 하나 고르면 되는것 아닌가?
굳이 이렇게 코사인 유사도를 구하는게 복잡한거 같은데

3.1.2 하드 변형: LLM 기반 엔티티 대체(LLM-Instructed Entity Replacement, LIER)

GEP 방법과 대조적으로, LIER 방법은 고급 LLM(예: GPT-4o)의 추론 및 생성 능력을 활용하여, 의미적으로는 일관되지만 사실적으로는 잘못된 엔티티(entity) 교체를 생성하는 방식이다. 이 방법은 상징적 수준(symbolic level)에서 동작하며, 사실적 오류를 의도적으로 도입하는 맥락상 그럴듯한 대체(entitiy substitutions)를 제공한다. 이러한 교체의 품질을 확보하기 위해 세심한 프롬프팅(guidance)이 필수적이다.

엔티티 집합 (E)에서 주어진 엔티티 ($e_i$)에 대해, LLM에게 다음과 같은 조건을 준수하는 대체 엔티티 ($\hat{e_i}$)를 생성하도록 프롬프팅한다:

유형 일관성(Type Consistency): 변형된 엔티티 ($\hat{e_i}$)는 원본 엔티티 ($e_i$)와 동일한 의미 유형(예: 사람, 장소, 조직)에 속해야 하며, 원래의 맥락에 자연스럽게 융합될 수 있어야 한다.
비동의어적 의미 이동(Semantic Shift, Non-Synonymous): ($\hat{e_i}$)는 ($e_i$)의 직접적인 동의어나 별칭(alias)이 아닌, 약간의 의미적 이동(semantic shift)을 도입해야 한다. 이를 통해 사소한 교체(trivial substitutions)나 공지시적 애매함(coreferential ambiguity)을 피하고 실제적인 사실 변화를 표현하도록 한다.
형식적 유사성(Formal Similarity): 문장 구조를 보존하고 변경 흔적을 최소화하기 위해, ($\hat{e_i}$)는 ($e_i$)와 유사한 길이 및 대소문자 형태(capitalization)를 유지해야 한다.

프롬프트 설계는 LIER의 핵심이다. 우리는 구조화된 시스템 프롬프트를 사용하여 모델을 안내한다:

하드 변형을 위한 시스템 프롬프트

당신은 전문적인 텍스트 변형 보조자입니다.
당신의 역할: 주어진 엔티티와 해당 유형(사람, 장소, 조직 등)을 바탕으로 다음 조건을 충족하는 하나의 대체 엔티티를 생성합니다.

1. 동일한 유형이어야 합니다.
2. 직접적인 동의어가 아니며, 약간의 의미적 변화를 지녀야 합니다.
3. 유사한 길이와 대소문자 형태를 유지해야 합니다.
4. 엔티티 유형 규칙을 준수해야 합니다 (예: 사람 → 유사한 이름, 장소 → 유사한 규모 등).

출력 형식은 반드시 정확히 하나의 JSON 객체여야 하며, 한 줄로 표시하며, 추가 키나 코드 표시를 포함하지 마십시오.

{"entity": "원본 엔티티", "perturbed": "변형된 엔티티"}

재현 가능성을 높이고 출력을 제어하기 위해 생성 온도(temperature)를 T=0.7로 설정하여, 의미적 다양성과 형식 준수 사이의 균형을 맞춘다. 또한 프롬프트에 몇 가지 사례(few-shot demonstrations)를 제공하여 (예: "알버트 아인슈타인" → "아이작 뉴턴"), LLM이 엔티티 유형을 충실히 유지하면서도 사실적 차이를 도입하도록 추가적으로 안내한다. 생성된 엔티티 쌍 (($e_i$, $\hat{e_i}$))는 저장되어 이후 작업에서 모델이 이러한 의도적으로 변형된 입력을 유지하거나 덮어쓰는지 평가하는 데 사용된다.

즉 이거는 gpt4o에게 유사한 엔티티 생성해달라고 위처럼 프롬프트해서 만들어냈다는 듯

3.2 엔티티 선택 전략(Entity Selection Strategies)

변형(perturbation)을 위한 적절한 엔티티(entity)를 선택하는 것은 유해한 사실성 환각(Harmful Factuality Hallucination, HFH)에 대한 세부 분석을 위해 매우 중요하다. 모든 엔티티가 동일한 정도로 의미에 기여하지 않으며, 모델의 반응 또한 엔티티마다 다를 수 있기 때문이다. 우리의 예비 연구(pilot studies)에 따르면, 문서의 주제(theme)와 밀접한 관련이 있는 엔티티들이 주변적인(peripheral) 엔티티보다 모델의 수정(correction)을 유발할 가능성이 더 크다. 또한 기존 연구(Bi et al., 2024a)와 일치하게, 입력 내에서의 엔티티 위치(entity position)는 LLM의 주의(attention)와 처리(processing)에 영향을 미칠 수 있다. 예를 들어, LLM이 생성한 요약(summaries)에서 엔티티를 추출하여 중요 엔티티(salient entities)를 식별할 경우, 사용된 특정 요약 모델에 대한 의존성을 도입할 수도 있다. 이러한 고려 사항들로 인해 다음과 같은 엔티티 선택 전략을 사용한다:

균일한 엔티티 선택(Uniform Entity Selection): 문서 내에서 식별된 모든 명명된 엔티티(named entities)는 변형의 대상이 될 수 있다. 이 전략은 문서 전체에 걸쳐 균일한 변형 조건을 제공하여, 전체적인 환각(hallucination) 발생률을 측정하는 기준선(baseline) 역할을 한다.
주제 관련 엔티티 선택(Theme-Related Entity Selection): 문서의 주요 내용(main ideas)과 밀접하게 관련된 엔티티들만 변형한다. 먼저 LLM을 통해 원본 문서를 요약하도록 하고, 이 요약에 등장한 명명된 엔티티들을 추출하여 문서 주제상 중심적인(topically central) 엔티티로 간주한다. 이러한 핵심 엔티티를 변형함으로써, 중요도가 높은 콘텐츠를 모델이 어떻게 처리하는지 평가할 수 있다.
위치 기반 엔티티 선택(Positional Entity Selection): 기존 연구가 LLM이 토큰의 위치(token position)에 민감하다는 점을 지적한 것(Bi et al., 2024a)을 고려하여, 엔티티 위치가 HFH에 미치는 영향을 연구한다. 문서를 토큰 개수 기준으로 첫 번째(head, 처음 25%), 중간(body, 가운데 50%), 마지막(tail, 마지막 25%)의 세 부분으로 나누고, 각 구간에서 등장하는 엔티티를 변형 대상으로 선택한다. 이를 통해 엔티티 위치가 모델이 사실적 오류를 수정하거나 유지하는 성향에 어떤 영향을 미치는지 연구할 수 있다. 동일 엔티티가 문서 내에서 여러 번 등장할 경우, 최초 등장만 변형하며, 부록 E에서 수행된 추가 실험(ablation study)을 통해 이 접근법이 연구의 핵심 결과(core findings)를 바꾸지 않음을 확인하였다.

어떤 엔티티를 수정할 것인가? 에 대한 다양한 전략으로 실험했다는 것

4. 실험 구성 (Experimental Setup)

이 절에서는 데이터셋 준비(dataset preparation), 평가 작업(evaluation tasks), 선택된 언어 모델(language models), 그리고 평가 지표(evaluation metrics)를 설명한다.

4.1 데이터셋 (Dataset)

우리는 WikiEntities 데이터셋(Chekalina et al., 2024)을 이용하여 실험을 수행한다. 이 데이터셋은 약 320만 개의 Wikipedia 텍스트로 구성되며, 각 텍스트는 Wikidata(Vrandecić and Krötzsch, 2014)와 연결된 엔티티(entity)가 주석(annotation)되어 있다. WikiEntities는 다양한 영역을 포괄하며, 엔터테인먼트(21.5%), 역사(19.3%), 지리(14.7%), 과학(13.2%), 스포츠(10.4%), 정치(5.1%) 등 다양한 분야의 지식을 포함한다. 이러한 폭넓은 범위는 실제 세계의 다양한 주제와 지식 유형을 반영하여, 평가의 대표성을 보장한다. 평가를 위해 우리는 이 데이터셋에서 1,000개의 텍스트를 무작위로 표본 추출(random sampling)하였다. 각 데이터 항목(entry)은 텍스트 부분(segment)과 주석 처리된 엔티티를 포함하고 있다. 앞서 설명한 변형 방법(GEP 및 LIER)을 이 텍스트들에 적용하여, 선택된 엔티티들을 중심으로 사실적 오류(factual inaccuracies)가 통제된 형태의 변형 텍스트를 생성하였다.

4.2 다중 작업 평가 (Multi-Task Evaluation)

유해한 사실성 환각(Harmful Factuality Hallucination, HFH)의 범위를 다양한 LLM 응용 프로그램 전반에 걸쳐 평가하기 위해, 추상적 요약(abstractive summarization), 재구성(rephrasing), 질문-답변(question answering, QA)의 세 가지 핵심 작업으로 구성된 실험 프레임워크를 설계하였다. 이러한 작업들은 생성적 작업(generative tasks: 요약, 재구성)과 보다 제약이 있는(constrained) 작업(QA)을 모두 포함하므로, 챗봇(chatbot), 정보 검색(information retrieval), 콘텐츠 재작성(content rewriting), 문서 분석(document analysis) 등 실제 LLM 응용 사례의 많은 부분을 대표한다. 광범위한 작업 설정을 통해 실질적 환경에서의 다양한 HFH 행동 패턴을 포괄적으로 평가할 수 있도록 했다. 요약 및 재구성 작업의 포괄적인 결과는 부록 F의 표 4에서 제시하며, 질문-답변 평가 결과는 부록 F의 표 5에서 확인할 수 있다.

4.2.1 추상적 요약 작업 (Abstractive Summarization Task)

요약 작업은 모델이 정보를 압축(condense)하고 콘텐츠를 우선순위화(prioritize)하는 방식을 평가한다. 이는 모델이 원본 소스에서 인식된(perceived) 사실적 오류를 “수정”하려는 경향을 나타내는지, 아니면 원본(변형된) 텍스트를 유지하는지를 나타낼 수 있다. 이 작업에서 모델은 변형된 엔티티를 포함한 문서에 대해 다음 지시사항을 이용하여 간략한 요약을 생성하도록 요청받는다:

주어진 텍스트를 요약하시오. (Summarize the given text.)

4.2.2 재구성 작업 (Rephrasing Task)

재구성 작업은 모델이 표면 형태(surface form)를 변경하되, 내부적 지식을 통해 내용을 수정하지 않고 원본 콘텐츠에 충실하게 유지하는지를 평가한다. 이 작업을 통해 모델이 의미적 내용을 유지하면서 엔티티를 보존하는지를 평가하며, 다음 프롬프트를 사용하여 수행한다:

의미를 유지하면서 주어진 텍스트를 재구성하시오. (Rephrase the given text while preserving its meaning.)

4.2.3 질문-답변 작업 (Question Answering Task)

LLM이 질문-답변(QA) 시나리오에서 변형된 엔티티 정보를 어떻게 다루는지를 평가하기 위해, 문맥을 바탕으로 한 두 가지 유형의 QA 작업을 설계하였다. 하나는 개방형 질문(open-ended QA), 다른 하나는 폐쇄형(객관식, multiple-choice QA) 질문이다. 이 작업들은 모델이 내부적 사실적 지식을 우선하는지, 혹은 제공된(변형된) 입력 텍스트에 충실함을 유지하는지를 직접적으로 평가한다. 질문 생성(question generation) 방법과 LLM의 QA 절차에 대한 추가 세부 사항은 부록 B에서 자세히 설명되어 있다.

4.3 평가 대상 모델 (Evaluated Models)

우리는 구조(architecture), 크기(size), 훈련 패러다임(training paradigms) 면에서 차이가 있는 여러 대표적인 LLM 모델들을 평가하였다:

OpenAI 모델들: GPT-4o, GPT-4.1, GPT-4o-mini, GPT-o1, GPT-o4-mini (OpenAI, 2025)
Meta Llama 모델들: Llama-3.1-8B-Instruct (Meta, 2024a), Llama-3.2-3B-Instruct, Llama-3.2-1B-Instruct (Meta, 2024b)

이러한 다양한 모델 선정은 상업용(블랙박스, black-box)과 오픈 소스(화이트박스, white-box) 모델, 종합(comprehensive) 아키텍처와 특화된(specialized) 아키텍처, 대규모(large-scale) 모델과 소형(compact) 모델 등 다양한 특성을 대표할 수 있도록 설계되었다.

4.4 LLM 응답 평가 범주 (Evaluation Categories for LLM Response)

변형된 사실과 다른 엔티티(perturbed nonfactual entity)와 원래의 사실적 엔티티(original factual entity)가 LLM의 응답에 나타나는지 여부를 바탕으로, 모델의 응답을 다음과 같은 범주로 나누어 분석한다:

이중 등장(Dual Presence): 변형된 엔티티와 원래의 사실적 엔티티가 모두 출력에 나타나는 경우.
충실한 준수(Faithfulness Adherence): 변형된, 사실과 다른 엔티티가 모델의 출력에서 그대로 유지되며 원래의 사실적 엔티티는 나타나지 않는 경우.
유해한 사실성(Harmful Factuality): 변형된 사실과 다른 엔티티는 사라지고, 모델이 원래의 사실적 엔티티를 다시 도입하여 출력에서 이를 복원하는 경우. 본 논문이 조사하는 유해한 사실성 환각(HFH)에 해당하는 현상이다. 이 범주에 대한 형식적 분류 기준은 부록 A에서 자세히 설명한다.
엔티티 생략(Entity Omission): 변형된 사실과 다른 엔티티와 원래의 사실적 엔티티 모두 관련 출력 부분에서 나타나지 않는 경우.

아래처럼, 원래 엔티티(사실)와 바뀐 엔티티(거짓)에 대해 어떻게 응답하는지 보는 것이다

아래 예시는 테스크는 위에서 언급한 3가지 식으로 진행된 것

1. 이중 등장 (Dual Presence)

설명: 변형된 엔티티(perturbed entity)와 원본 엔티티(original entity)가 모두 모델의 출력에 나타나는 경우입니다.

예시:

입력:

"알베르트 아인슈타인은 독일의 유명한 물리학자다." (원본)
"아이작 뉴턴은 독일의 유명한 물리학자다." (변형된 입력)
출력:

"독일의 유명한 물리학자는 알베르트 아인슈타인이지, 아이작 뉴턴이 아닙니다."

여기서 모델은 원본 엔티티(아인슈타인)와 변형된 엔티티(뉴턴)를 모두 언급합니다.

2. 충실한 준수 (Faithfulness Adherence)

설명: 모델의 출력에 변형된(사실과 다른) 엔티티만 유지되며 원래의 엔티티는 나타나지 않는 경우입니다.

예시:

입력:

"에펠탑은 로마에 위치해 있다." (변형된 입력, 원본: 파리)
출력:

"에펠탑은 로마의 유명한 랜드마크이다."

모델이 잘못된 입력 내용을 그대로 충실히 따른 경우입니다.

3. 유해한 사실성 (Harmful Factuality)

설명: 변형된(사실과 다른) 엔티티가 모델의 출력에서 사라지고, 모델이 이를 다시 원래의 사실적 엔티티로 복원하는 경우입니다. 이 논문에서 정의한 유해한 사실성 환각(HFH)에 해당합니다.

예시:

입력:

"버락 오바마는 19세기 미국의 대통령이었다." (변형된 입력, 원본은 에이브러햄 링컨)
출력:

"에이브러햄 링컨은 19세기 미국의 대통령이었습니다."

모델이 입력의 오류를 자발적으로 수정하여 원본 내용을 되돌려 놓았습니다.

4. 엔티티 생략 (Entity Omission)

설명: 변형된 엔티티와 원본 엔티티 둘 다 출력에서 전혀 나타나지 않는 경우입니다.

예시:

입력:

"크리스토퍼 콜럼버스는 태평양을 최초로 항해한 탐험가다." (변형된 입력, 원본: 마젤란, 최초 항해 지역: 태평양)
출력:

"이 탐험가는 새로운 항로를 개척하며 역사에 이름을 남겼습니다."

모델이 해당 엔티티(콜럼버스, 마젤란)를 모두 언급하지 않고 일반적인 정보만을 제공하여 둘 모두를 생략한 경우입니다.

5 실험 결과

본 연구에서는 주로 유해 사실성 환각(harmful factuality hallucination)에 초점을 맞추고, 특히 유해 사실성(Harmful Factuality)과 이중 존재(Dual Presence)를 분석하였다. 본 섹션에 제시된 그림들에서는 주된 현상을 명확히 보여주기 위해 일반적으로 '개체 누락(Entity Omission)' 범주는 제외하였다. 특정 환경에서는 유해 사실성의 발생률이 낮을 수 있으므로, 주요 결과의 통계적 유의성을 검증하기 위해 카이제곱(χ²) 검정을 실시하였다. 이에 대한 자세한 사항은 부록 D에서 확인할 수 있다.

5.1 유해 사실성 분석 (Harmful Factuality Analysis)

5.1.1 더 큰 LLM일수록 유해 사실성이 더 빈번함 (Larger LLM More Harmful Factuality)

그림 3에서 나타난 바와 같이, 일반적으로 규모가 더 큰 LLM일수록 요약 작업에서 유해 사실성(Harmful Factuality)이 더 자주 발생하는 경향을 보였다. 예를 들어 소프트 변형(GEP)을 사용한 경우, GPT-4o는 5% 이상의 사례에서 유해 사실성을 나타냈지만, GPT-4o-mini 모델은 그 절반 정도의 비율에 불과했다. 하드 변형(LIER)에서도 유사한 경향이 확인되었다. 또한 Llama 모델 시리즈에서도 GEP를 적용했을 때 Llama-3.1-8B-Instruct(Llama-8B)이 Llama-3.2-1B-Instruct(Llama-1B)보다 유해 사실성 비율이 높았으며, Llama-1B는 Llama-8B의 약 절반 정도였다.

이러한 결과는 더 강력한 LLM들이 내부적으로 더 방대한 세계 지식을 보유하고 있어, 주어진 입력에 대한 충실성보다 모델 내부의 지식을 우선시하면서 요청받지 않은 교정을 수행할 가능성이 더 높다는 가설을 뒷받침한다.

재구성(rephrasing) 및 질문응답(QA) 작업에서도 유사한 패턴이 관찰되었으며, 이에 대한 상세 결과는 부록에서 확인할 수 있다.

모델이 클수록 (똑똑할수록 이라 볼 수 있나?) 내재 지식을 반영하여 교정을 수행한다는 것. 그러면서 원본에 대한 거짓 정보를 마음대로 수정해버린다는 거라 볼 수 있음

5.1.2 GPT 계열 모델의 낮은 충실성 준수 (Lower Faithful Adherence in GPT-x)

그림 3은 평가된 상용 LLM(OpenAI GPT 시리즈)이 개방형 Llama 모델과 비교했을 때, 소프트 변형(GEP)과 하드 변형(LIER) 모두에서 전반적으로 더 낮은 충실성 준수(Faithful Adherence)를 나타낸다는 점을 보여준다. 이러한 경향은 재구성(rephrasing) 및 질문응답(QA) 작업에서도 일관되게 나타났다(부록 참조). 본 연구에서는 이러한 현상이 앞서 5.1.1절에서 논의한 바와 같이, 내부 지식이 보다 포괄적이며 더 강력한 교정 성향을 가진 모델(주로 더 크거나 상용 모델)일수록 비사실적 입력을 엄격히 준수하지 않을 가능성이 높기 때문이라고 가정한다.

5.1.3 변형 강도(α)의 영향 (Influence of Perturbation Degree (α))

소프트 변형의 강도(α)가 유해 사실성의 발생률에 미치는 영향은 그림 4에 나타나 있다. GPT-4.1 모델의 경우, α가 증가함에 따라 유해 사실성이 5.88%에서 6.25%로 일관되게 증가하는 양상을 보였다(+0.37% 변화). 반면 GPT-4o 및 GPT-4o-mini 모델은 각각 최대 0.14% 및 0.05% 정도로 유해 사실성 비율의 변동이 상대적으로 적어 안정적인 모습을 보였다.

GPT-4.1과 같은 일부 모델에서 강력한 변형(α가 더 큰 경우)을 적용할 때 유해 사실성이 증가하는 현상은, 변형된 개체(entity)가 원래 사실적 개체에서 더 크게 벗어날수록 모델이 더 적극적으로 이를 "교정"하려는 경향이 나타나기 때문으로 보인다.

반면 다른 모델들이 보인 상대적인 안정성은 변형 강도에 대한 민감도 임계치가 다를 수 있음을 시사한다.

5.1.4 개체(entity)의 위치와 중요도의 영향 (Impact of Entity Position and Salience)

개체 선택(entity selection) 전략에 따라 유해 사실성의 발생률에 큰 차이가 나타났다(그림 5의 GPT-4o 결과 참조). 위치 기반 선택(positional selection)에 있어서, 문서의 초반(head, 처음 25%)에 등장하는 개체에서 유해 사실성이 가장 많이 나타나(11.81%) 본문(body, 중간 50%, 2.35%) 및 끝부분(tail, 마지막 25%, 0.97%)으로 갈수록 현저히 낮아지는 양상을 보였다.

문서 전체에서 균일하게 개체를 선택한 경우의 발생률은 5.35%였다. 이러한 결과는 LLM이 입력 초반에 등장하는 개체를 교정하거나 변경할 가능성이 훨씬 더 높다는 점을 시사한다.

이 현상은 다음과 같은 두 가지 이유로 설명할 수 있다.

첫째, 모델이 초반에 등장하는 토큰(token)에 더 큰 주의(attention)를 기울이는 편향 때문일 수 있다.
둘째, WikiEntities 데이터셋의 특성상 중요한 정보가 주로 문서의 초반부에 제시되는 경향과 관련이 있을 수 있다.

앞 부분의 엔티티가 바뀔수록 HFH가 크다는 것을, 설명한건데

뭐 앞부분 토큰은 attention이 더 커서라는데 why? reference가 있나?

좋은 findings인거 같은데 뭔가 설명이 적절치 않은거 같음

한편, 주제와 밀접히 관련된(theme-related) 개체를 선택했을 때 가장 높은 유해 사실성 비율이 관찰되었다. 이러한 현상은 특히 요약 작업에서 두드러졌는데, 주제와 밀접하게 연관된 개체가 요약 생성 시 핵심 요소가 되기 때문에 모델이 이를 더욱 집중적으로 처리하고 교정할 가능성이 높기 때문이다.

5.2 이중 존재 분석 (Dual Presence Analysis)

이중 존재(Dual Presence) 사례를 분석하면 유해 사실성(Harmful Factuality)을 유발하는 인지적 처리 과정이나 생성 원리에 대한 이해를 얻을 수 있다. 이를 위해 본 연구는 이중 존재 출력의 일부 사례를 수작업으로 분석하여 다음의 세 가지 주요 메커니즘을 반복적으로 확인하였다:

오류 교정(Error-Correction),
공지시 및 동음이의어 혼동(Coreference/Homonym Mixing),
융합 및 날조(Conflation/Fabrication).

그 다음 GPT-4.1 모델을 평가 모델로 활용하여 이중 존재 사례들의 표본을 정량적으로 평가하고, 각 메커니즘의 존재 강도를 0-5 척도로 측정하였다(점수가 높을수록 해당 메커니즘의 존재가 강함을 의미).

이중 존재에서 나타나는 위의 3가지 케이스를 Gpt-4.1로 Llm judge로 정량적 평가를 한것 같은데?

그림 6은 요약 작업에서 소프트 변형(GEP)을 수행한 경우, 이중 존재 출력 결과에 나타난 각 메커니즘의 분포를 보여준다. 이 결과에 따르면 GPT-4.1 모델은 다른 메커니즘에 비해 '오류 교정(Error-Correction)' 경향이 특히 강하게 나타났으며, 다른 모델들은 '융합(Conflation)' 메커니즘의 비중이 상대적으로 높을 수 있다는 점을 시사한다.

그림 7은 GPT-4o 모델을 사용한 경우, 개체 선택(entity selection) 전략별로 이중 존재 메커니즘의 분포를 나타낸다. 각 메커니즘(오류 교정, 공지시 및 동음이의어 혼동, 융합 및 날조)에 대한 보다 자세한 설명은 부록 C에 수록되어 있다.

6 유해 사실성 완화 (Harmful Factuality Mitigation)

본 연구는 유해 사실성 환각 현상을 체계적으로 분석하는 데 주된 초점을 두었지만, 실질적인 관점에서 이를 완화하기 위한 접근법도 제안한다. 본 방법은 프롬프트 엔지니어링(prompt engineering)을 통해 언어 모델이 입력된 원본 내용(source content)을 충실히 유지하도록 하고, 모델 내부의 사실적 지식(internal factual knowledge)을 우선시하는 경향을 억제하는 것을 목표로 한다.

이를 위해 다음과 같은 완화 프롬프트(defense prompt)를 제안하였다:

유해 사실성 완화를 위한 프롬프트

"주어진 텍스트에 나타난 맥락과 지식만을 사용하라. 내부 지식(internal knowledge)은 절대로 사용하지 말라."

그림 8에 나타난 바와 같이, 이 방어 프롬프트(defense prompt)를 적용하면 다양한 모델 변형(model variants) 전반에 걸쳐 유해 사실성 비율이 상당히 감소한다.

위의 간단한 프롬프트만으로, HFH의 비율을 낮출 수 있다.
즉 내부 지식말고 context을 더 고려해서 답변하는 능력이 있기는 한다는 것

소프트 변형(GEP) 데이터셋에서 GPT-4.1과 GPT-4o 모두 약 50% 정도 유해 사실성이 감소하였으며, 특히 GPT-4.1은 5% 이상에서 2.5% 이하로 가장 현저한 감소폭을 나타냈다. 이는 더 크고, end-to-end 방식의 모델일수록 초기에 높은 유해 사실성을 보이지만, 명시적 지침(explicit instructions)을 활용하는 프롬프트 학습 능력이 뛰어나 효과적인 완화가 가능하다는 점을 시사한다.

이와 유사하게, GPT-o1 및 GPT-o4-mini와 같은 추론 지향(reasoning-oriented) 모델들도 상당한 감소를 보였으며, 이는 추론 중심 모델들이 본래 유해 사실성에 대한 더 강력한 견고성(robustness)을 내재적으로 가지고 있기 때문으로 해석할 수 있다. 이 모델들은 표적화된 방어 프롬프트(targeted defense prompt)를 통해 내부적으로 자기 교정(self-correction)을 더욱 효과적으로 수행할 수 있었으며, 하드 변형(LIER) 상황에서도 유사한 완화 효과를 나타냈다.

7 결론 (Conclusion)

본 논문에서는 기존 연구에서 충분히 다뤄지지 않았던 유해 사실성(Harmful Factuality)을 체계적으로 분석하였다. 유해 사실성이란 언어 모델(LLM)이 비사실적인 입력을 부적절하게 교정하여 입력 원본에 대한 충실성(source fidelity)을 훼손하는 환각(hallucination) 현상이다. 이를 유도하고 정량적으로 측정하기 위해 소프트 변형(GEP)과 하드 변형(LIER)을 활용한 새로운 실험 프레임워크를 제안하였다.

요약(summarization), 재구성(rephrasing), 질문응답(QA) 작업에 대한 평가를 수행한 결과, 규모가 크고 지식이 풍부한 LLM일수록 유해 사실성이 더 빈번하게 나타났으며, 입력 원본에 대한 충실성 준수도 상대적으로 낮았다. 또한 개체(entity)의 위치 및 변형의 정도가 이러한 현상에 상당한 영향을 미친다는 사실도 밝혀냈다.

본 연구는 모델 출력에 나타나는 이중 존재(Dual Presence) 현상 분석을 통해, 유해 사실성을 유발하는 세 가지 주요 메커니즘—오류 교정(Error-Correction), 공지시 및 동음이의어 혼동(Coreference/Homonym Mixing), 융합 및 날조(Conflation/Fabrication)—을 식별하였다.

이러한 발견은 입력된 원본을 정확히 따라야 하는 다양한 실제 응용 분야에서 LLM 활용의 잠재적 위험성을 강조하는 한편, 간단한 프롬프트 엔지니어링 방어 전략(defense prompt)을 통해 유해 사실성을 크게 완화할 수 있음을 입증하였다. 본 연구는 LLM의 사실성(factuality)과 입력에 대한 충실성(faithfulness) 사이의 상충 관계를 이해하기 위한 필수적 기반을 마련하며, 향후 더욱 정교한 완화 전략 개발의 길을 열어준다.

8 한계점 (Limitations)

본 연구는 유해 사실성 환각(harmful factuality hallucination)에 대한 최초의 체계적 분석을 수행했지만, 몇 가지 한계점이 존재한다.

먼저, 실험은 WikiEntities 데이터셋을 기반으로 진행되었는데, 해당 데이터셋의 주제 범위와 편집 방식(editorial norms)은 임상 기록, 법률 문서 또는 저자원 언어(low-resource languages)와 같은 다양한 영역에는 일반화되지 않을 수 있다. 따라서 향후 연구에서는 본 연구의 변형 프레임워크를 과학 논문 초록, 법원 판결문, 대화 데이터 등 다양한 데이터셋에 적용하여, 사실성(factuality)과 충실성(faithfulness) 간의 상충 관계가 지속적으로 나타나는지 확인할 필요가 있다.

본 연구에서는 GPT-4 및 Llama-3 모델 변형을 두 개의 추론 지향(reasoning-tuned) 모델과 함께 평가하였지만, 검색 증강 생성 모델(retrieval-augmented generators), 혼합 전문가 모델(mixture-of-experts), 다국어 인코더(multilingual encoders), 엣지 환경에서 사용되는 경량화된 경량 모델(lightweight distilled models) 등은 평가 대상에서 제외되었다. 향후 더 다양한 모델을 평가에 포함하면, 유해 사실성 현상이 모델의 규모(scale), 구조(architecture), 훈련 방식(training strategy) 중 어떤 요소와 더 밀접하게 연관되어 있는지 명확히 밝혀질 것이다.

마지막으로, 본 연구의 방어 전략(defense strategy)은 주로 프롬프트 기반(prompt-based) 중재에 초점을 맞추었다. 추후 연구에서는 검색 필터링(retrieval filtering), 파라미터 편집(parameter editing), 반사실적 강화학습(reinforcement learning from counterfactuals), 디코딩 시 정규화(decoding-time regularization)와 같은 보완적 방법들을 본 연구의 변형 평가 프레임워크와 결합하여 더욱 견고하고 입력 원본에 충실한 생성(source-aligned generation)을 달성할 필요가 있다.

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-298, ARR 202510