Abstract

지식 환각(knowledge hallucinations) 현상은 배포된 대형 언어 모델(LLM)의 보안성과 신뢰성에 대한 중대한 우려를 불러일으키고 있습니다. 현재 환각을 탐지하는 방법들은 주로 예측 불확실성 및 일관성과 같은 개별적인 수동 설계 지표에 의존하고 있으며, 이러한 방법들은 모델 예측을 효과적으로 보정하는 데 한계를 가지고 있어 탐지 정확도와 실용적인 적용 가능성을 제한하고 있습니다.

이에 대응하여, 우리는 LLM의 환각을 탐지하고 완화하기 위한 HADEMIF라는 고급 프레임워크를 제안합니다. 특히, LLM의 출력 및 의미 공간에서 발생하는 환각을 포착하기 위해 두 가지 간결한 네트워크를 도입합니다. 하나는 새로운 해석 가능 트리 모델인 **Deep Dynamic Decision Tree(D3T)**이고, 다른 하나는 **다층 퍼셉트론(MLP)**입니다. 각각 예측 특성과 토큰의 은닉 상태(hidden states)를 입력으로 받아 환각을 분석합니다.

LLM의 예측은 D3T 및 MLP 네트워크의 출력을 활용해 보정되며, 이를 통해 환각을 완화하고 모델의 예측 보정을 향상시키는 것을 목표로 합니다. HADEMIF는 LLM의 추론(inference) 및 미세 조정(fine-tuning) 단계에서 모두 적용 가능하며, 두 개의 소규모 네트워크를 학습시키는 방식으로 LLM 전체 파라미터 대비 2% 미만의 추가 파라미터만 필요로 합니다.

광범위한 실험 결과, 다양한 길이의 텍스트 생성 작업에서 HADEMIF가 환각 탐지 및 모델 보정에 탁월한 성능을 발휘함을 입증하였습니다.

1. 서론

최근 몇 년 동안 대형 언어 모델(LLM)은 다양한 응용 분야에서 놀라운 발전을 이루며 뛰어난 성능을 보여주고 있습니다 (Schaeffer et al., 2024; Thirunavukarasu et al., 2023; Achiam et al., 2023). 그러나 이러한 모델들은 지식 환각(knowledge hallucination) 현상에 취약하며 (Cohen et al., 2023; Chen et al., 2024a; Zhang et al., 2023), 이는 모델이 사실과 무관한 응답을 부적절한 확신을 가지고 생성하는 문제를 의미합니다. 이러한 문제는 사용자 신뢰를 저하시킬 뿐만 아니라, 법률, 금융, 교육과 같이 고도의 신뢰성이 요구되는 분야에서 LLM의 활용을 크게 제한합니다 (Zhou et al., 2024a). 이에 따라, LLM의 환각을 탐지하고 완화하는 연구가 학계에서 점점 더 많은 관심을 받고 있습니다 (Azaria & Mitchell, 2023; Zhang et al., 2024b; Kuhn et al., 2023).

이전 연구들은 환각 탐지를 위한 다양한 방법을 제안했으며 (Huang et al., 2023; Ji et al., 2023a), 주로 출력 공간 또는 모델의 내부 상태를 기반으로 탐지를 수행해 왔습니다. 예를 들어, 예측 신뢰도 및 엔트로피(entropy)는 자연어 처리(NLP) 작업에서 환각을 탐지하는 데 효과적인 지표로 활용되었습니다 (Malinin & Gales, 2020; Manakul et al., 2023; Kadavath et al., 2022; Yin et al., 2023; Zhou et al., 2023). 또한, 동일한 입력에 대해 여러 번 예측을 수행한 후 **자기 일관성(self-consistency)**을 평가하는 방식도 환각 탐지에 활용되었습니다 (Liang et al., 2024; Wang et al., 2023). 한편, 출력 공간이 아닌 모델의 내부 상태를 활용하는 방식도 존재하며, Chen et al. (2024a)는 공분산 행렬의 고유값을 활용하여 문장 표현 간의 차이와 상관성을 분석하는 방법을 제안하였습니다.

그러나 기존 방법들은 불확실성, 일관성, 고유값과 같은 단일 지표에 의존하는 경우가 많아, 출력 공간 또는 내부 공간 중 하나에만 초점을 맞추는 한계를 가지고 있습니다 (Chen et al., 2024a; Wang et al., 2023; Manakul et al., 2023). 이로 인해 더 복잡한 시나리오나 다양한 데이터 분포에서의 일반화 능력이 부족하며, 대부분의 방법이 환각 완화(hallucination mitigation)나 모델 보정(model calibration) 기능을 제공하지 못해 생성 작업에서의 활용도가 떨어지는 문제도 존재합니다 (Manakul et al., 2023; Su et al., 2024; Zhang et al., 2023).

HADEMIF: 환각 탐지 및 완화 프레임워크

이러한 문제를 해결하기 위해, 본 연구에서는 HADEMIF(Hallucination Detection and Mitigation Framework)라는 포괄적인 환각 탐지 및 완화 프레임워크를 제안합니다. HADEMIF는 LLM의 출력 공간과 내부 은닉 상태(hidden states)에 내재된 풍부한 정보를 활용하여 환각을 효과적으로 탐지하고 완화하는 것을 목표로 합니다. 이를 위해 두 개의 효율적인 심층 네트워크를 활용하여 환각을 탐지하고, 생성 확률 분포를 조정하는 보정 항(calibration terms)을 생성하여 환각 완화와 모델 보정을 동시에 수행합니다.

Deep Dynamic Decision Tree (D3T) 모델
- LLM의 출력 공간에서 환각을 탐지하는 새로운 해석 가능 트리 모델
- 예측 신뢰도, 불확실성, 일관성과 같은 예측 특성을 입력으로 활용
- 경사 하강법(gradient descent) 학습 가능하면서도 강력한 해석 가능성 제공
- 환각 탐지에 가장 큰 영향을 미치는 주요 특성을 명확하게 파악 가능
다층 퍼셉트론(MLP) 모델
- LLM의 **심층 의미 공간(semantic space)**에서 환각을 탐지
- 토큰의 은닉 상태(hidden states)를 입력으로 활용하여 환각을 포착

이후, 두 개의 환각 탐지 네트워크(D3T와 MLP)의 출력을 결합하여 LLM의 예측을 보정합니다. 이를 통해 정확한 생성 확률을 극대화하면서, 환각 발생 가능성을 최소화하는 방식으로 모델을 최적화합니다. HADEMIF는 추론(inference) 및 미세 조정(fine-tuning) 과정 모두에 적용 가능하며, 추가되는 모델 파라미터는 LLM 전체의 2% 미만으로 매우 적습니다.

또한, 미세 조정 과정에서는 LLM과 두 개의 환각 탐지 네트워크를 교대로 업데이트하는 최적화 절차를 제안합니다.

실험 및 성능 평가

제안된 HADEMIF 프레임워크는 Liu et al. (2024)가 개발한 CAT (Calibration Evaluation) 벤치마크를 활용하여 평가되었으며, 문맥 학습(in-context learning, ICL)과 미세 조정(fine-tuning) 환경에서 실험이 수행되었습니다. CAT 벤치마크는 다양한 텍스트 생성 작업을 포함하며, 단어 및 문장 수준의 짧은 응답부터 전체 단락에 이르는 다양한 길이의 텍스트를 평가할 수 있도록 설계되었습니다.

평가에 사용된 주요 공개 LLM들은 다음과 같습니다.

GPT-2 (Radford et al., 2019)
GPT-J (Wang & Komatsuzaki, 2021)
LLaMA (Touvron et al., 2023a)
LLaMA2 (Touvron et al., 2023b)
LLaMA3 (Dubey et al., 2024)
Vicuna (Chiang et al., 2023)

이 모델들의 크기는 1.5B(15억)부터 30B(300억) 파라미터까지 다양하게 포함되었으며, 실험 결과 HADEMIF는 기존 접근 방식보다 환각 탐지 및 모델 보정 성능이 크게 향상됨을 입증하였습니다. 특히, 기대 보정 오류(Expected Calibration Error, ECE)를 최대 51% 감소시키는 성과를 보였습니다.

주요 기여

본 연구의 주요 기여는 다음과 같습니다.

LLM 환각 탐지 및 완화를 위한 HADEMIF 프레임워크 제안
- 출력 공간과 내부 은닉 상태를 모두 활용하는 두 개의 네트워크를 기반으로 환각을 포착 및 보정
새로운 해석 가능 트리 모델인 D3T 도입
- 경사 하강법 학습 가능하면서도 환각 탐지의 주요 특성을 명확하게 해석할 수 있는 구조
추론 및 미세 조정 과정 모두에서 적용 가능
- LLM과 환각 탐지 네트워크를 교대로 업데이트하는 최적화 과정을 설계
다양한 공개 LLM에 대한 광범위한 실험 수행
- 다양한 길이의 텍스트 생성 작업에서 환각 탐지 및 모델 보정 성능을 대폭 향상
- 기존 방법 대비 기대 보정 오류(ECE) 최대 51% 감소

HADEMIF는 LLM의 환각 탐지 및 완화를 위한 효과적인 솔루션을 제공하며, 다양한 실전 응용 환경에서도 높은 신뢰성을 유지할 수 있도록 설계되었습니다.

아주 간단히 말해서, **D3T(Deep Dynamic Decision Tree)**는 “트리(Decision Tree) 모델”을 신경망 방식으로 구현한 모델이라고 볼 수 있습니다. 일반적으로 의사결정 트리(Decision Tree)는 어떤 특성(Feature)을 기준으로 데이터를 구분해 나가면서 결과를 예측합니다. 예를 들어, “키가 170cm 이상이면 오른쪽 가지, 아니면 왼쪽 가지” 식으로 데이터를 여러 갈래로 나누어 최종적으로 분류(또는 회귀)를 수행하지요.

그런데 기존 트리 모델은 “특정 기준치(Threshold)를 넘어가면 왼쪽/오른쪽”처럼 분기가 딱딱 고정되어 있고, 트리 구조 자체도 한 번 정해지면 바꾸기 어렵습니다. D3T는 이런 트리 구조를 신경망으로 표현하고, 학습 과정에서 “어디서부터 나눌 것인가(Threshold)를 동적으로 결정”하도록 만들었습니다.

D3T의 개념을 예시로 이해해보기

가령, “길이가 긴 문장을 잘못된(환각) 정보로 채우는지를 판별”해야 한다고 해봅시다. 모델은 다음과 같은 예측 특성(Features) 을 추출할 수 있습니다:

확률 분포: 이 단어(토큰)를 예측할 때 가장 높은 확률값이 몇인가? 평균 확률값은 얼마인가?
불확실성(엔트로피): 여러 단어 후보가 골고루 높은 확률을 가지면, 모델이 확신이 없음을 의미하겠죠.
마진(Margin): 가장 확률이 높은 단어와 두 번째로 높은 단어 간의 확률 차이가 큰가?
일관성(Consistency): 같은 질문을 여러 번 넣었을 때 생성한 답변들의 로그잇(logit) 벡터가 서로 비슷한가?
로그잇 노름(Logits Norm): 모델이 ‘이건 진짜 확실해’라고 강하게 예측할 때는 노름이 커질 수 있습니다.

이렇게 뽑아낸 특성들을 트리로 분류해볼 수 있습니다. 예를 들어,

“최고 확률값이 0.7 이상이면 오른쪽, 아니면 왼쪽”
“불확실성이 1.5보다 크면 오른쪽, 작으면 왼쪽”
…

이런 식으로 분기를 타고 최종적으로 **“이 예측이 환각이다 vs 환각이 아니다”**를 구분하는 거죠.

그런데, 왜 ‘딥(Deep) 다이나믹(동적)’ 트리인가?

딥(Deep): 보통 트리 알고리즘 자체는 깊이를 갖지만, 완전한 신경망 형태로 학습하는 건 아니에요. D3T는 ‘트리의 분할 기준’을 신경망(Softmax 등)을 통해 학습하므로, 일반적인 딥러닝처럼 역전파(Backpropagation) 로 학습이 가능합니다.
다이나믹(동적): 전통적인 의사결정 트리는 “이 특성을 몇 개 구간으로 나눈다”가 고정되어 있습니다(예: ‘나이’를 20세, 30세, 40세 … 이런 식으로 구간화). 반면 D3T는 학습 도중에 각 특성을 어떻게 나눌지, 몇 개로 나눌지를 동적으로 결정합니다. “나이”를 예로 들면, 학습해보니 25세 근방, 40세 근방에서 구분하는 게 좋다고 스스로 결정하는 식이죠.

D3T를 학습시키는 단계 간단 정리

특성 추출(Feature Extraction)
- LLM(대형 언어 모델)에서 나오는 여러 가지 정보(확률, 엔트로피, 로그잇 등)를 모읍니다.
- 예: 이 단어를 답이라고 했을 때 확률이 얼마나 되는지, Top-k 후보 간 확률 차이는 어떤지 등등.
소프트 분류(Soft Binning) 적용
- 전통적인 트리처럼 “A보다 크면 오른쪽, 작으면 왼쪽”이 아니라, Softmax 함수를 사용해 “A가 어느 구간에 들어갈 확률이 높은가?” 식으로 결정합니다.
- 이를 신경망의 한 층으로 구현하면, 역전파를 통해 구간(Threshold)을 계속 조정할 수 있어요.
크로네커 곱(Kronecker Product)으로 가지 합치기
- 각 특성별로 “어느 구간에 속한다”라는 정보를 모두 곱 연산으로 조합해 최종 리프 노드로 연결합니다.
- 전통 트리에선 특성이 3개면 가지를 “특성1 → 특성2 → 특성3” 순서로 탐색할 텐데, D3T는 소프트하게 이를 동시에 고려할 수도 있습니다.
분류기(최종 예측)
- 마지막으로 연결된 리프 노드를 바탕으로 **“이 토큰이 환각이다 vs 아니다”**를 분류합니다.
- 학습 과정에서, 실제 정답(여기서는 “환각 여부”를 간접적으로 판단)과 비교해 오차가 줄어들도록 D3T의 파라미터를 최적화합니다.

예시 시나리오로 살펴보기

예를 들어, **“박지성이 프랑스 리그에서 뛰었다”**라는 문장을 생성하는 상황을 가정해 봅시다(실제로는 네덜란드, 잉글랜드, 한국, 그리고 프랑스 리그에도 잠깐 있었던 선수들이 있지만, 예시라고 칩시다).
LLM이 생성한 문장에 대해, 모델이 “이게 맞을 가능성이 얼마나 되는지, Top-1~K 후보, 불확실성, 여러 번 생성했을 때 답변들의 차이 등”을 계산해 특성 벡터로 만듭니다.

불확실성: 모델이 확신이 별로 없어서 엔트로피 값이 큼.
로그잇 노름: 의외로 “프랑스 리그”라는 토큰에서 높지 않음.
일관성: 똑같은 질문 여러 번 했더니, 가끔 “박지성이 프랑스 리그”라고, 가끔 “잉글랜드 리그”라고 답변이 다름 → 일관성 낮음.

이 특성 벡터가 D3T에 들어가면, D3T는 “(불확실성, 일관성, 로그잇 노름 등)을 고려했을 때, 이 예측은 환각일 가능성이 높다”고 판단해서 “환각” 분류 쪽으로 결정값이 나올 수 있습니다.

요약

D3T는 트리 모델을 신경망 방식으로 학습하도록 변형한 모델.
학습할 때 LLM이 만든 각종 예측 정보(특성들)를 입력으로 받고, “이 예측이 (1) 정상인지 (2) 환각인지” 판별하도록 트리 구조를 동적으로 학습.
역전파(Backpropagation)를 통해 각 특성을 어느 구간으로 나눌지 결정하며, Softmax 기반으로 “구간 나누기”를 부드럽게 진행함.
전통 트리처럼 딱딱하게 “Threshold 고정”이 아니라, 학습 도중에 분할 기준이 달라질 수 있으므로 더 유연하고, 해석할 때도 ‘어떤 특성이 환각에 특히 영향을 많이 주는지’ 이해하기 쉬움.

이렇게 생각하면, D3T는 **“특정 기준을 동적으로 학습하며 분류하는 트리 모델을 딥러닝스럽게 만든 것”**이라고 볼 수 있습니다.

일반적인 **“환각 데이터셋(이 토큰이 환각이다/아니다 라벨이 달린 학습 세트)”**을 따로 마련해야 하느냐고 물으신다면, 이 방법에서는 꼭 그럴 필요는 없습니다.

왜 별도의 환각 레이블이 없어도 되는가?

HADEMIF에서는,

LLM이 내놓는 예측(토큰별 확률 분포)을 보정하기 위해 두 개의 작은 네트워크(D3T와 MLP)를 사용하는데,
이 과정을 **“정답(레퍼런스) 대비 로그확률 손실”**을 최소화하는 방식으로만 학습합니다.

즉, **원래 LLM 학습에 쓰는 데이터(정답 문장이 있는 지도학습 데이터)**만 있으면 충분합니다.

“이 문장이 환각이냐 아니냐” 같은 추가 레이블을 달아주지 않아도,
정답 문장과 일치하지 않는 토큰(즉, 잘못 생성된 토큰)은 학습 과정에서 계속해서 손실로 반영되므로,
결과적으로 D3T와 MLP가 “이런 특징을 가진 토큰은 잘못된(환각) 가능성이 높다”라고 자동으로 학습하게 됩니다.

어떻게 자동으로 학습하나?

LLM이 “잘못된 단어”를 예측하면(= 레퍼런스와 다름), 그 시점에서 로그확률 손실이 올라갑니다.
D3T와 MLP는 손실을 낮추기 위해, “잘못된 단어 예측 시점의 특성”을 보고 **“이건 환각일 확률이 높다”**라고 신호를 만들어 LLM의 로그잇(logit)을 조정하게 됩니다.
정답 단어를 잘 예측할 때는 굳이 크게 조정할 필요가 없으니, 이런 케이스는 **“이건 환각이 아닐 확률이 높다”**라고 분류하게 됩니다.
이렇게 반복 학습하면서 두 네트워크가 “어떤 특성일 때 잘못된 단어(환각)가 생기는지”를 점점 더 잘 구분하게 되는 셈이죠.

결국, 정답 라벨(문장) 자체가 환각과 비환각을 구분하는 신호가 되어 주는 셈이며,
이를 통해 두 네트워크가 추가적인 ‘환각 레이블’ 없이도 “이 예측은 환각일 가능성이 높다/낮다”를 학습하게 됩니다.

요약

별도의 “이건 환각”이라고 적힌 라벨이 없어도, 정답 문장만 있는 학습 데이터로 LLM과 (D3T/MLP) 네트워크를 함께 최적화하면 됩니다.
잘못 예측된 토큰(정답과 다른 토큰)은 곧 “환각 경향”이라고 간주되어, 손실 함수를 통해 D3T와 MLP가 이를 학습하게 됩니다.

즉, 일반적인 지도학습(LLM 미세 조정) 데이터를 그대로 쓰되, 학습 과정에서 환각을 잡아내는 모듈을 동시에 학습시키는 아이디어라고 이해하시면 됩니다.

아직 좀 복잡하게 느껴지실 수 있으니, **“D3T와 MLP가 각각 무엇을 입력받고, 어떤 역할을 하며, 최종적으로 어떻게 같이 학습되는지”**를 순서대로 간단히 정리해 보겠습니다.

1. 전체 구조 한눈에 보기

LLM(주 모델)
- 기존의 SFT(Supervised Fine-Tuning)로 학습되는, 문장(토큰) 단위로 예측을 수행하는 대형 언어 모델입니다.
- 토큰을 하나씩 생성할 때마다 로그잇(logit) 벡터 $u_l$ 을 출력합니다(단어 사전에 대한 점수).
MLP
- LLM의 “내부 은닉 상태(hidden states)” 를 입력으로 받아서, 각 토큰에 대해 추가 정보를 생성합니다.
- 구체적으로는 $H^s_l \in \mathbb{R}^V$ 형태의 벡터(또는 스칼라 여러 개)로, “해당 토큰이 환각일 가능성”을 정교하게 표현하기 위해 쓰입니다.
D3T(Deep Dynamic Decision Tree)
- **LLM의 “출력 공간(겉으로 드러나는 예측)”**에서 추출한 다양한 지표(확률분포, 불확실성, 일관성, 마진 등)를 입력으로 받습니다.
- 이를 바탕으로 **“이 토큰(또는 예측)이 환각일 확률”**을 산출합니다(예: $H^o_l$ 스칼라).
로그잇 보정(Logit Calibration)
- 최종적으로, LLM이 내놓은 로그잇 $u_l$ 을 그대로 쓰지 않고,
- **MLP가 출력한 $H^s_l$ **와 **D3T가 산출한 환각 확률 $H^o_l$ **를 이용해 확률 분포를 조금씩 조정(보정)합니다.

즉,

MLP: LLM 내부(은닉 상태)를 분석하여 “이 토큰이 얼마나 올바르다고 볼 수 있을지”를 학습된 함수로 표현.
D3T: LLM 외부(출력 확률, 불확실성 등) 지표를 기반으로 “환각일 가능성”을 트리 구조로 판별.
두 결과를 종합하여 최종 예측 확률을 조정 → 환각 가능성을 낮추고, 올바른 단어에 더 높은 점수를 주도록 하는 구조입니다.

2. MLP와 D3T는 각각 무엇을 입력받나?

MLP
- LLM이 단어를 예측할 때 내부적으로 사용하는 “은닉 상태(hidden states)”가 있습니다.
- 이 은닉 상태(토큰별 벡터)를 입력으로 넣으면, MLP가 “이 벡터가 들어왔을 때, 그 토큰이 얼마나 타당(정답과 가까운)할지”를 학습합니다.
- 출력은 보통 $H^s_l \in \mathbb{R}^V$ 형태인데, 여기서 $V$ 는 어휘(Vocabulary) 크기입니다.
  - 예: 각 단어 후보별로 “좀 더 확률을 올려줘도 되는가/내려야 되는가”를 반영하는 보정 벡터라고 볼 수 있습니다.
D3T
- LLM이 최종적으로 내놓는 출력 공간(토큰 확률, 엔트로피, 마진, 일관성 등 “겉으로 확인 가능한 지표들”)을 입력으로 합니다.
- 예:
  - Top-1 확률이 0.9인지 0.6인지
  - 여러 번 같은 입력을 줬을 때 예측들이 얼마나 달라지는지(일관성)
  - 불확실성이 큰지(엔트로피)
  - 로그잇 노름(Logits norm)이 큰지 작은지 등
- 트리 구조를 신경망으로 변환한 D3T가 이 정보를 보고, “현재 예측이 환각인지 아닌지” 확률 형태( $H^o_l$ )로 뽑아냅니다.

3. 최종 예측(로그잇 보정) 단계

합쳐진 결과는, 대략 아래와 같은 수식(논문에 나오는 형태)으로 표현됩니다:

$\hat{p}(y_l \mid x, y_{<l}, H^s_l, H^o_l) = \frac{\exp\bigl(u_l^{(y_l)} - H^o_l \cdot \log\bigl(H^s_{l,y_l}\bigr)\bigr)} {\sum_{v=1}^{V} \exp\bigl(u_l^{(v)} - H^o_l \cdot \log\bigl(H^s_{l,v}\bigr)\bigr)}$

$u_l$ : LLM의 원래 로그잇
$H^o_l$ : D3T가 판단한 “환각일 가능성” (스칼라)
$H^s_l$ : MLP가 뽑아낸 “토큰별 보정 벡터”

쉽게 말해,

D3T가 “환각 가능성이 높다”고 판단하면, $H^o_l$ 이 커질 것이고 → 그만큼 “MLP에서 산출한 보정 값( $H^s_l$ )”의 영향이 커집니다(잘못된 토큰의 확률을 낮추거나, 올바른 후보의 확률을 상대적으로 높이는 방향).
D3T가 “환각 가능성이 낮다”고 하면, $H^o_l$ 이 작아질 것이고 → LLM의 원래 예측 $u_l$ 에 크게 손대지 않고 그대로 신뢰하게 됩니다.

4. 학습은 어떻게 같이 하나?

“MLP는 역할이 뭐고, D3T는 그 MLP 출력을 활용하느냐?”라고 질문하셨는데, 둘 다 병렬적으로 학습합니다:

LLM 업데이트
- 먼저 LLM( $\Theta$ ) 파라미터를 업데이트합니다(일반적인 SFT처럼 입력 텍스트와 정답 토큰이 주어진 상태에서).
- 다만, 예측 확률을 계산할 때는 **위 수식( $\hat{p}$ )**을 통해 보정된 확률을 쓰므로, MLP와 D3T가 초기 상태라도 어느 정도 영향을 미치게 됩니다.
MLP와 D3T 업데이트
- 그 다음, “지금 업데이트된 LLM 파라미터”는 고정해 두고, MLP( $\Omega^s$ )와 D3T( $\Omega^o$ )를 업데이트합니다.
- 즉, 현재 LLM이 생성한 은닉 상태와 출력 특징을 바탕으로, **진짜 정답 토큰과의 로스(오차)**를 줄이는 방향으로 두 네트워크가 학습되는 겁니다.
- 여기에도 역시 “ $\hat{p}$ ” (보정된 확률)에 대한 로스가 들어가므로, MLP와 D3T가 “오답(환각)을 줄이고, 정답 확률을 높이는” 방향으로 학습됩니다.
반복
- 다시 LLM 업데이트 → 다시 MLP&D3T 업데이트 → … 이런 식으로 교차하며 반복.
- 최종적으로 LLM-MLP-D3T가 함께 수렴하게 됩니다.

정리하면, MLP와 D3T가 동시에 학습되며, 서로 다른 정보를(내부/외부) 바탕으로 “이 예측이 얼마나 환각인지”를 보정하는데 기여합니다.

결론적으로

MLP는 LLM 내부 은닉 상태를 분석해서, “이 단어가 잘못된(환각)일 가능성이 높으면 확률을 낮추고, 맞으면 확률을 높이는” 보정 벡터 역할을 합니다.
D3T는 LLM 외부에서 드러나는 확률, 엔트로피, 일관성 등을 분석하여 “현재 예측이 환각인지 아닌지” 확률적 스코어를 산출합니다.
이 두 정보(MLP 출력 + D3T 판단)를 종합해 LLM의 로그잇을 보정 → “환각을 줄이고, 정확도를 높이는 방향으로” 최종 확률 분포를 만들어 냅니다.
학습 단계에서는, 정답 토큰과의 로스를 기반으로 LLM 파라미터와 MLP/D3T 파라미터를 번갈아 업데이트하며 최적화합니다.

이렇게 이해하시면, MLP와 D3T의 역할이 어떻게 나뉘고, 학습은 어떻게 같이 굴러가는지 조금 더 명확해지실 거예요.

Reference

https://openreview.net/pdf?id=VwOYxPScxB

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-255, HaDeMiF: Hallucination Detection and Mitigation in Large Language Models, ICLR 2025