NL-261, Two-tiered Encoder-based Hallucination Detection for Retrieval-Augmented Generation in the Wild, EMNLP Industry 2024

이 논문은 산업 현장에서 실제로 사용 가능한 LLM 환각 탐지 모델을 제안하고, 도메인 특화된 실데이터 기반 학습과 실용적 아키텍처 설계를 통해 기존 모델보다 뛰어난 성능을 보인다는 점에서 industry 트랙에 적합하며, 아래와 같은 이유로 억셉되었을 가능성이 큽니다.


✅ 논문 요약 (요점 정리)

🎯 문제 정의

  • LLM + RAG 시스템에서의 환각(hallucination) 탐지 문제는 여전히 해결되지 않은 과제.

  • 기존 연구는 공개 데이터만 사용하고, 실제 운영 환경 고려 부족, 검증 불가능한 발화 미처리 등 한계 존재.

🧩 제안한 방법 (RAGHalu)

  • 2단계 인코더 기반 분류기 (RAGHalu-1, RAGHalu-2)로 환각 탐지.

    • Step 1: 문장이 검증 가능한 정보인지 판단.

    • Step 2: 그 문장이 지식 문서로부터 지지되는지 판단.

  • DeBERTa 기반 소형 인코더 모델 사용 → 빠르고 효율적.

  • 모델은 공개 + 브랜드 실데이터로 학습.

  • 검증 가능한 정보 vs NO-INFO 구분이라는 현실적인 기준 도입.

🧪 실험 및 결과

  • ChatGPT 프롬프트, Mistral-7B, 기존 오픈소스 환각 탐지 모델과 비교.

  • 실제 고객 서비스 대화에서 UNSUPPORTED F1 스코어 0.93 기록 → 최고 성능.

  • 특히 FactScore처럼 긴 문맥에서 성능 우수.

  • 도메인 적합성: 브랜드 데이터 기반 미세조정 시 성능 향상 확인.

  • 비용/지연/호스팅 고려까지 실용적으로 분석.


🏆 Industry 트랙 억셉 핵심 이유

1. 현실적인 문제 정의 및 적용

  • 단순 학술 문제 아닌, 실제 기업들이 겪고 있는 RAG 환각 문제를 정조준.

  • 오픈소스 데이터와 실 운영 데이터를 모두 활용.

2. 도메인 특화 학습 + 성능 향상

  • 브랜드 데이터 기반 미세조정으로 도메인 특화 모델 성능 향상 입증.

  • 일반화 성능 + 도메인 최적화 둘 다 확보.

3. 실용성 높은 시스템 구조

  • 2단계 분류기 → 성능, 처리 효율, 해석 가능성 확보.

  • ChatGPT보다 5배 이상 저렴한 비용, 고속 처리 가능 → 기업 적용 용이.

4. 비공개 데이터 포함한 새로운 평가 설정

  • 기존 공개 데이터 한계 극복.

  • 엔터프라이즈 실제 사용 사례로 평가 → industry track에서 가치 높음.

5. 향후 확장성 고려

  • unsupported vs contradict 구분, API 호출 판단 등 실무 연결성 높은 문제 제시.

  • KB 청킹 방식 최적화 등 production-ready 연구 방향 제시.

Abstract 

대형 언어 모델(LLM)이 지식 기반(KB)과 사실적으로 일치하지 않는 출력을 생성하는 ‘환각(hallucination)’을 탐지하는 것은 RAG(Retrieval-Augmented Generation) 시스템에서 여전히 어려운 문제입니다. 현재의 솔루션은 주로 공개 데이터셋에 의존하여 프롬프트를 개발하거나 자연어 추론(NLI) 모델을 미세 조정하는 방식입니다. 그러나 이러한 접근법은 엔터프라이즈용 RAG 시스템을 구축하는 데 초점을 맞추지 않으며, 지연 시간(latency)을 고려하지 않고, 실제 운영 데이터로 학습하거나 평가하지 않으며, 소셜 토크나 질문처럼 검증 불가능한 발화를 처리하지도 않습니다.

이 문제를 해결하기 위해, 우리는 네 개의 대형 브랜드에서 수집한 고객 서비스 대화 데이터를 활용하여 기존 솔루션들을 평가하고, 새로운 데이터셋을 기반으로 훈련된 소형 인코더 모델들을 제안합니다. 제안된 모델들은 기존 방법들보다 뛰어난 성능을 보였으며, 도메인 내 소량의 데이터와 공개 데이터셋을 결합하는 것의 가치를 강조합니다.

1 Introduction

지난 1년 동안, 대형 언어 모델(LLM)은 임의의 질문에 설득력 있게 대답할 수 있는 능력 덕분에 폭발적인 인기를 얻었습니다. 특정 브랜드나 사용 사례에 맞는 정보를 주입하기 위해 외부 지식 기반(KB)의 일부를 프롬프트에 삽입하는 RAG(Retrieval-Augmented Generation)는 이러한 정보를 제공하는 효과적인 방법입니다. 하지만, 시스템이 근거 없는 응답을 제공하는 '환각(hallucination)' 문제는 산업 현장에서의 활용 가능성을 위협하고 있습니다.

이 논문은 엔터프라이즈 고객을 위한 환각 탐지를 위한 새로운 인코더 기반 분류기를 제안하고 평가합니다. 우리가 제안한 모델인 RAGHalu는 두 계층으로 구성된 인코더 기반 솔루션으로, 각 계층에는 이진 분류기가 사용됩니다. RAGHalu는 먼저 사실 검증이 가능한 발화를 식별하고, 그런 다음 각 검증 가능한 발화가 지식 기반(KB)에 의해 지원되는지 또는 지원되지 않는지를 판별합니다.

기존 연구들은 검증 불가능한 발화(예: 스몰 토크나 정보 수집 발화)를 처리하지 않거나 (Honovich et al., 2022; Gekhman et al., 2023; Muhlgay et al., 2023), 이를 검증 가능한 주장과 함께 묶어서 처리하는 반면(Gupta et al., 2022), 본 연구는 이 둘을 구분하기 위해 3가지 레이블 분류 체계를 새롭게 개발했습니다.

우리의 모델은 공개 데이터셋(원본 및 재주석된 버전)과 내부 도메인 데이터로 학습되었습니다. 최근 Wang et al. (2023)이 ChatGPT를 이용한 유사한 이단계 솔루션을 제안한 바 있지만, 본 연구는 검증 가능한 주장을 명시적으로 식별하고 이를 원자적 주장으로 활용하는 최초의 환각 탐지 솔루션입니다(Min et al., 2023 참조).

우리는 RAGHalu를 다양한 기준선들과 비교 평가했습니다. 여기에는 프롬프트 엔지니어링된 OpenAI GPT-3.5-turbo-0613(OpenAI, 2023), 환각 탐지용으로 파인튜닝된 Mistral-7B-Instruct LLM, 그리고 Google(Honovich et al., 2022) 및 Vectara가 공개한 오픈 소스 환각 탐지 모델들이 포함됩니다.

그 결과, 자연어 추론(NLI) 기반 DeBERTa(He et al., 2021) 크로스 인코더 모델을 추가로 파인튜닝한 우리의 이단계 솔루션이 가장 뛰어난 성능을 보였으며, 고객 서비스 도메인과 오픈 소스 데이터 전반에 걸쳐 잘 일반화됨을 확인했습니다. 

Figure 1은 고객 서비스 RAG 시스템에 통합된 RAGHalu의 구조를 보여줍니다.

논문의 구성은 다음과 같습니다. 먼저 모델 아키텍처와 학습에 사용된 데이터를 소개하고, 이어서 비교 대상 모델(베이스라인)을 설명한 후, 실험 결과와 논의를 제시합니다.

3 RAGHalu

3.1 아키텍처

RAGHalu는 사용자의 질문, 검색된 지식 문서, 그리고 LLM의 응답을 입력으로 받아, LLM 응답의 각 문장이 지식 문서에 의해 지원되는지 여부를 예측하는 시스템입니다. 

예시는 Table 1에 제시되어 있습니다.

RAGHalu는 두 개의 순차적인 이진 분류기로 구성되며, 첫 번째 모델의 출력이 두 번째 모델의 입력을 필터링하는 구조입니다.

  • 첫 번째 모델인 RAGHalu-1은 문장이 사실 검증이 가능한 정보를 포함하고 있는지를 판별합니다. 출력 라벨은 두 가지:

    • VERIFIABLE (검증 가능)

    • NO-INFO (정보 없음)

예를 들어,

  • "우리가 확인해드릴게요",

  • "도움이 필요하시면 지점을 방문해주세요",

  • 혹은 단순한 스몰 토크 등은 사실 여부를 검증할 수 없기 때문에 NO-INFO로 분류됩니다.

  • 두 번째 모델인 RAGHalu-2는 첫 번째 모델에서 VERIFIABLE로 분류된 문장들에 대해, 지식 문서에 지원 정보가 있는지 여부를 판단합니다. 출력 라벨은 두 가지:

    • SUPPORTED (지원됨)

    • UNSUPPORTED (지원되지 않음)

처음에는 VERIFIABLE, NO-INFO, UNSUPPORTED를 한 번에 분류하는 3라벨 인코더 모델도 고려했지만, UNSUPPORTEDNO-INFO를 자주 혼동하는 문제가 발생하여 두 단계로 분리한 구조를 채택했습니다.

각 이진 분류기에는 DeBERTa 인코더 모델을 사용했으며, 그 이유는 다음과 같습니다:

  • 산업 환경에서 실용적일 만큼 작고 빠르며,

  • 인코더는 디코더 전용 모델보다 문맥 정보(앞과 뒤)를 더 효과적으로 인코딩할 수 있고 (Devlin et al., 2019),

  • LLM은 일반적으로 토큰 제한이 높다는 장점이 있으나, DeBERTa의 상대적 위치 임베딩을 사용하면 이론적으로 최대 24,528 토큰까지 처리할 수 있습니다.

3.2 데이터

RAGHalu는 공개 데이터비공개 브랜드 데이터를 모두 활용하여 학습되었습니다. 

데이터 통계는 Table 2에 제시되어 있으며, 모든 데이터는 레이블을 기준으로 무작위 계층적(stratified) 방식으로 학습/테스트 세트를 분할하였습니다.

별도로 명시되지 않는 한, 모든 파인튜닝 모델은 Table 2에 설명된 동일한 분할을 사용합니다.


📂 공개 데이터

2022년부터 2023년 사이에 여러 LLM 환각(hallucination) 관련 데이터셋이 공개되었습니다. 예를 들면:

  • TruthfulQA (Lin et al., 2022)

  • FactScore (Min et al., 2023)

  • HaluEval (Li et al., 2023a)

  • ExpertQA (Malaviya et al., 2023)

  • Wiki-Bio-GPT3 (Manakul et al., 2023)

또한, Honovich et al. (2022)의 TRUE 데이터셋은 다양한 도메인(의역, 요약, 대화, QA 등)을 포함합니다.

이 중 우리는 FactScore, HaluEval, TruthfulQA, Databricks Dolly (Conover et al., 2023) 총 4개의 공개 데이터셋을 모델 개발에 사용했습니다.
특히 TruthfulQADolly는 우리의 분류 체계(taxonomy)에 맞게 **부분적으로 필터링하고 재주석(재레이블링)**하여, "절대적 진실"이 아닌 "검색된 지식 기반과의 상대적 일치 여부"에 초점을 맞추도록 수정했습니다.
이 데이터셋은 포맷팅된 학습/테스트 세트로 함께 공개했습니다. 자세한 변경사항은 부록 A.1을 참고하십시오.


🏢 브랜드 데이터

4개의 대형 브랜드(은행, 통신사, 신용조합, 암호화폐 소프트웨어 기업)에서 수집한 실제 고객 대화 데이터를 수작업으로 주석 처리하였습니다. 이 브랜드들은 현재 실제 프로덕션 환경에서 RAG 시스템을 사용 중입니다.

  • 각 브랜드마다 약 50개의 과거 고객 대화 기록을 수집했고,

  • 각 대화에는 검색된 KB 문서LLM의 응답이 포함되어 있습니다.

데이터 수집 및 주석 작업은 다음과 같은 절차로 진행되었습니다:

  1. LLM 제안이 실제로 사용된 과거 대화를 검색

  2. 다양한 LLM 모델들 (GPT-3.5-turbo 외에 Xwin-LM-70b, LLaMA2-70b-chat, Falcon-7b-instruct, LLaMA2-13b 등)을 사용하여 다양한 응답 버전 생성

  3. 대화 이력, KB 문서, LLM 응답을 포함한 전체 세트를 기반으로 세 명의 도메인 전문가가 문장 단위로 주석(span-annotation)

  4. 주석 기준은 앞서 설명된 분류 체계(taxonomy)를 따르며, 토큰 한도 초과로 인해 잘린 문장은 주석에서 제외

브랜드 데이터에 대한 평균 Fleiss’ kappa (Fleiss, 1971)는 0.79로, 주석자 간 높은 일관성을 나타냅니다.
단, 이 브랜드 데이터는 사유 데이터이므로 외부에는 공개되지 않습니다.

4. 실험 설정

세 개의 오픈소스 NLI 기반 모델을 SUPPORTED/UNSUPPORTED 예제에 대해 평가하는 것 외에도, 우리는 RAGHalu의 성능을 ChatGPT 프롬프트 방식과 Mistral-7B 미세조정(fine-tuning) 방식과 비교하였다.
다른 연구들(Thorne et al., 2018; Honovich et al., 2022; Wang et al., 2023)과 유사하게, 우리는 NLTK 문장 토크나이저(Bird et al., 2009)를 사용하여 응답을 문장 단위로 분할한 후 분류를 수행하였다.


4.1 베이스라인

프롬프트 엔지니어링
ChatGPT의 제로샷(zero-shot) 성능은 허위 정보 탐지 시스템에 있어 강력한 베이스라인으로 입증된 바 있다(Huang et al., 2023).
비용과 지연(latency)은 여전히 문제지만, 우리는 프롬프트 엔지니어링을 베이스라인이자 임시 프로덕션 솔루션으로 선택하였다.

우리는 총 세 가지 레이블(SUPPORTED, UNSUPPORTED, NO-INFO)을 사용하는 프롬프트와, 두 가지 레이블(SUPPORTED, UNSUPPORTED)만 사용하는 이진 프롬프트를 설계하여, 회수된 지식베이스(KB) 문서들을 기반으로 LLM의 문장들을 분류하였다.
모든 프롬프트 엔지니어링 결과는 GPT-3.5-turbo 모델을 기반으로 하였으며, ChatGPT 같은 생성 모델은 한 번에 여러 문장을 분류할 수 있는 능력이 있음에도 불구하고, 우리는 한 번에 한 문장씩 분류할 때 성능이 더 좋다는 사실을 발견하였다.
따라서 4.2절에 나타나는 모든 ChatGPT 결과는 단일 문장 분류 기준이다.


디코더 LLM 미세조정
지시 따르기 기반 LLM을 프롬프트 엔지니어링하는 것 외에도, 최근에는 Li et al. (2023b)과 같이 LLM을 분류 목적으로 미세조정하는 연구가 활발하다.
LLM은 세계 지식과 긴 토큰 제한을 학습한 것으로 평가받고 있다.
허위 정보 탐지를 위한 근거 문맥은 길이에 따라 다양하게 나타날 수 있기 때문에, 우리는 미세조정된 디코더 LLM이 긴 입력에서도 인코더 기반 솔루션보다 성능이 나은지를 판단하고자 비교 실험을 수행했다.

제로샷 프롬프트에 사용된 동일한 프롬프트를 기반으로 하여, 여러 오픈소스 LLM을 미세조정하였다.
RAG 컨텍스트에서 모델은 입력으로 다음 정보를 받는다: 사용자 질문, 회수된 KB 문서, LLM 응답 중 하나의 문장(검증 대상 문장, Table 1 참조). 모델은 이를 바탕으로 레이블 중 하나를 출력하도록 학습되었다.

Mistral 모델은 다음과 같은 설정으로 미세조정되었다:

  • 최적화: Deepspeed Zero Stage 1 (Rajbhandari et al., 2020)

  • 배치 사이즈: 1

  • 그래디언트 누적 스텝: 4

  • 정밀도: float16

  • 학습률: 5e-6

  • 에폭 수: 4

  • 최대 토큰 제한: 8000

4.2 결과

Table 3에 나타난 바와 같이, 2단계 모델(RAGHalu-2)은 실제 브랜드 데이터에서 평균 UNSUPPORTED F1 점수 0.93으로 가장 뛰어난 성능을 보였으며, 그 다음으로는 이진 분류로 미세조정된 Mistral 모델(mistral-7b-ft-binary)이 뒤를 이었다.

예상외로, google/t5_xxl_true_nli_mixture는 Bank 테스트 세트에서 0.96이라는 가장 높은 점수를 기록했고, RoBERTa-large-mnli는 Credit Union 데이터에서 0.97 F1로 가장 우수한 성능을 보였다.
제로샷 프롬프트 방식(ChatGPT-binary)은 브랜드 데이터에서 좋은 성능을 보였지만, 미세조정된 LLM과 인코더 모델은 평균적으로 UNSUPPORTED 탐지에서 F1 점수 기준 10% 향상된 성능을 보였다.
RAGHalu-2는 또한 오픈소스 데이터 전반에서 평균 UNSUPPORTED F1 점수 0.82로 가장 우수한 성능을 보였다.

우리 모델이 오픈소스 데이터에서 다른 모델 대비 가장 큰 성능 향상을 보인 테스트 세트는 FactScore였다. 이는 Table 2에서 나타난 바와 같이, FactScore 데이터셋의 문맥/KB 길이가 상대적으로 길기 때문이라 추정된다. 입력 길이와 모델 정확도/토큰 제한 간의 관계는 4.3절에서 논의된다.

RAGHalu의 첫 번째 단계에서 NO-INFO 라벨을 필터링한 것을 포함한 엔드투엔드 모델 성능은 Table 4 기준으로 3-label ChatGPT 베이스라인 대비 0.25의 성능 향상을 보였다.


4.3 논의

학습 데이터와 모델 일반화
세 가지 추가 미세조정된 DeBERTa 기반 NLI 모델을 비교하여 학습 데이터의 영향을 분석했다. 하나는 브랜드 데이터만으로 학습, 하나는 Table 2의 오픈소스 데이터만으로 학습, 마지막은 오픈소스 데이터로 먼저 학습한 뒤 브랜드 데이터로 추가 미세조정한 모델이다.

브랜드 전용 모델은 오픈소스 데이터에는 일반화되지 않지만, 네 개의 브랜드 테스트 세트에서는 동등하거나 더 나은 성능을 보였다. 오픈소스 전용 모델도 브랜드 데이터에서 어느 정도 성능을 보였고, 브랜드 데이터를 추가로 학습시켰을 때 전체 브랜드 테스트 세트에서 성능이 향상되었다. 이는 도메인 특화 학습 데이터의 중요성을 보여준다.

입력 길이 분석
Figure 2에 나타난 것처럼, 입력 길이와 모델 정확도 사이에는 뚜렷한 관계가 있다. 입력이 길수록 오답 비율이 높아진다. RoBERTa-large-mnli, google/t5_xxl_true_nli_mixture, Vectara 같은 낮은 토큰 제한을 가진 모델들이 긴 입력에서 더 큰 성능 저하를 겪는다. RoBERTa-large-mnli는 학습 시 입력 길이, 도메인, 토큰 제한의 복합적 영향으로 특히 성능 저하가 크다.
입력 토큰 수와 오답 비율 사이의 스피어만 상관계수는 모든 모델에서 통계적으로 유의미하다.

모델 크기 및 아키텍처 영향
304M 파라미터의 인코더 기반 모델인 RAGHalu-2는 대부분의 테스트 데이터셋에서 7B 파라미터 디코더 모델 mistral-7b-ft보다 더 우수한 성능을 보였다. 이는 분류 작업에서 디코더 기반 LLM의 한계와 소형 인코더 모델의 우수성, 그리고 상대 위치 인코딩의 중요성을 강조한 기존 연구들과 일치한다.

오류 분석
RAGHalu의 예측에서 반복적으로 나타나는 오류는 다음 세 가지 유형이다: 대부분 지지되는 문장, 불일치한 분류 체계, 잘못된 라벨.
‘대부분 지지되는 문장’ 오류는 세부 정보 몇 가지를 제외하면 대부분 정보가 정확한 경우이며, 기술적으로는 모두 지지되지만 암묵적인 정보가 포함되어 UNSUPPORTED로 간주되는 문장도 해당된다. 예:
"After the Revolutionary War, Blair returned to South Carolina and served in the state legislature."
이 문장은 Blair가 독립 전쟁 당시 생존해 있었다는 암묵적 전제를 포함하며, 이는 사실이 아니다.
일부는 이런 문장을 피하기 위해 원자적 주장을 생성하는 접근을 사용하나, 이는 실제 프로덕션 환경에서는 실용성이 떨어진다.

프로덕션 환경에서의 실용성
사내 모델을 사용하는 것과 OpenAI 같은 외부 모델을 사용하는 것은 성능, 추론 속도, 비용, 모니터링 등을 포함한 다면적인 고려가 필요하다.
RAGHalu는 성능 향상 외에도 ChatGPT 대비 추론 당 최소 5배 저렴하며, 월 200만 건의 대화와 대화당 평균 5개의 LLM 응답이 발생하는 실제 텔레콤 브랜드 기준, 연간 10만 5천 달러 이상의 비용 절감이 예상된다.
이 프레임워크는 자체 호스팅 LLM과 소형 인코더 간의 비교에도 동일하게 적용 가능하다.

5. 향후 과제

향후 연구 방향으로는 Mishra et al. (2024)에서와 같이 더 세분화된 허위 정보 탐지 모델 개발이 포함될 수 있다. 예를 들어, **지지되지 않은 주장(unsupported)**과 **모순되는 주장(contradicting)**을 구분하거나, "계좌 번호를 찾았습니다"와 같은 **행위 표현(statement of action)**을 식별하는 모델 개발이 있다.
이러한 문장은 API 연동이 필요함을 나타낼 수 있다.
또한, KB(지식베이스) 청킹(chunking) 방식을 개선하여 허위 정보를 수정하거나 완화하는 것도 중요한 고려 사항이다.


6. 결론

우리는 엔터프라이즈 고객 서비스 RAG 봇에 최적화된 새로운 인코더 기반 허위 정보 분류기를 개발하였다.
우리 모델은 오픈소스 및 사설 데이터로 구성된 새로운 데이터셋으로 학습되었으며, 테스트된 다른 모델들보다 뛰어난 일반화 성능을 보였다.
허위 정보 탐지를 위해 도메인 특화 학습 데이터가 필요하다는 점과, RAG에서 사용되는 **지식베이스 길이(KB length)**의 중요성 또한 입증하였다.














Reference

댓글