NL-251, InterrogateLLM: Zero-Resource Hallucination Detection in LLM-Generated Answers, ACL 2024
◼ Comment
- 아이디어는 나쁘지 않다
- Q->A 테스크에서 A가 환각인지 아닌지를 판별하겠다는 것인데
- 생성된 A로부터 다시 기존 Q를 생성한다
- 이렇게 생성된 Q를 Q1, Q2, Q3, ... 라고하자.
- 이 복원된 Q와 기존 Q와의 연관성을 봐서 연관성이 깊으면 환각X, 연관성이 없으면 환각O 라고 보는 것이다
- 즉 환각 답변은 기존 질문을 제대로 복원하지 못할 것으로 간주한 것이다
- selfcheckgpt와 아이디어가 유사하나 selfcheck에 대한 단점을 여기서는 다음과 같이 말한다.
- SelfCheckGPT의 주요 한계는 동일 질의에 대해 확률적 샘플을 생성하여 비교하는 방식이지만, 동일한 환각이 반복될 가능성이 높다는 점이다.
- 즉, 초기 생성된 응답 가 환각을 포함했다면, SelfCheckGPT가 생성하는 추가 샘플들도 같은 오류를 포함할 확률이 높음.
- 결과적으로, SelfCheckGPT는 환각이 포함된 응답을 사실로 잘못 판단하는 경우가 많음.
- 즉 응답샘플링하면 유사한 환각답변이 많아서 덜 효과적이라는 건데...
- 이 방법도 그렇게 치면 마찬가지 단점을 가지고 있다
- 왜냐하면 복원된 Q들은 비슷한 환각 경향을 가지고 있기 때문에 기존 Q랑 비교를 여러번해도 별 효과가 없을 것이란 생각
- 그래서 앙상블이라고 부르는 방법으로 나름 극복하려고 한다
- Q를 복원할때 하나의 LLM이아닌 여러 LLM을 활용하겠다는 것이고, 실제로 이러면 성능이 올라간다
- 그런데 그렇게 치면 selfcheckgpt도 마찬가지 아닌가?;; 뭔가 논리가 부족하긴함
- 성능표를 봐도, 단일 InterrogateLLM vs selfcheckgpt 보면 selfcheckgpt가 나은거 같기도함
- 개인적으로는 이 방법은 항상 환각탐지에 활용할 수 없다는게 단점같음
- 발상은 나쁘지 않으나, 특정 형태의 (Q,A)에서만 가능한 접근법 같고 다른 방법론과 비교하기가 어렵긴함
- 마지막에 limitation보면 이 방법의 한계도 잘 정리해두긴함
- 개인적으로 main보단 findings에 어울리는 논문이지 않아 싶긴함
Abstract
대형 언어 모델(LLM)의 많은 발전과 그 전례 없는 급속한 진화에도 불구하고, 다양한 이유로 인해 우리의 일상생활에 미치는 영향과 통합은 제한적이다. 이러한 모델의 광범위한 채택을 저해하는 중요한 요인 중 하나는 "환각(hallucination)" 현상으로, 이는 LLM이 현실적으로 들리지만 사실에서 벗어난 답변을 생성하는 문제를 의미한다.
본 논문에서는 대형 언어 모델에서 발생하는 환각을 탐지하는 새로운 방법을 제시하며, 이는 다양한 현실 세계의 시나리오에서 이러한 모델을 채택하는 데 있어 중요한 문제를 해결하는 데 초점을 맞춘다. Llama-2를 포함한 여러 데이터셋과 LLM을 대상으로 한 광범위한 평가를 통해, 최근 LLM들의 환각 수준을 연구하고, 우리의 방법이 이를 자동으로 탐지하는 데 효과적임을 입증한다.
특히 특정 실험에서 Llama-2의 환각률이 최대 87%에 달하는 것을 관찰했으며, 우리의 방법은 외부 지식에 의존하지 않고도 81%의 균형 정확도(Balanced Accuracy)를 달성했다.
1 Introduction
LLM의 환각 탐지를 위한 InterrogateLLM 기법
1. 인간의 진실성과 일관성
연구에 따르면, 사람들이 진실을 말하지 않을 때는 일관성이 부족한 경향이 있다(Brewer et al., 1999). 이를 기반으로, 반복적인 인터뷰를 통해 응답자의 일관성을 시험하여 신뢰성을 평가하는 심문 기법이 흔히 사용된다(Granhag & Strömwall, 2001). 진실을 말하는 사람은 기억에 기반하여 응답하지만, 거짓말을 하는 경우 일관성이 떨어지는 경우가 많다(Brewer et al., 1999; Dianiska & Meissner, 2023).
이래서 샘플링 기법으로 LLM의 환각을 검출하는게 효과가 있을말하다는 거군?
2. InterrogateLLM: 반복 인터뷰 기법을 활용한 환각 탐지
이러한 인간 심문 기법에서 영감을 받아, 우리는 InterrogateLLM이라는 새로운 환각 탐지 방법을 제안한다. 이 방법은 모델이 생성한 답변을 기반으로 원래 질문을 재구성하고, 이를 반복 평가하여 환각 가능성을 탐지하는 기법이다.
3. 반복 인터뷰의 효과와 한계
반복 인터뷰는 인간 심문에서 효과적인 검증 기법이지만 완벽하지는 않다.
- 일부 응답자는 거짓 정보를 일관되게 유지할 수 있다.
- 반면, 진실을 말하는 사람도 기억 오류로 인해 불일치한 답변을 할 수 있다(Bartlett, 1995).
마찬가지로, InterrogateLLM도 완벽하지 않지만, 여전히 환각 탐지를 위한 중요한 진전으로 작용한다. 인간 대상 심문에서 일관성 검사가 효과적으로 활용되듯이, LLM의 환각 탐지에서도 높은 효율성을 보인다.
4. LLM의 발전과 환각 문제
최근 GPT-3(Brown et al., 2020), PaLM(Chowdhery et al., 2022), Llama(Touvron et al., 2023a,b) 등의 대형 언어 모델이 등장하면서, 자연어 처리(NLP) 기술이 혁신적으로 발전했다.
이들 모델은 방대한 텍스트 데이터를 학습하여 자연스럽고 유창한 문장을 생성할 수 있는 능력을 갖추었으며, 콘텐츠 생성부터 가상 비서까지 다양한 분야에서 활용되고 있다.
그러나 이러한 뛰어난 성능에도 불구하고, 환각(hallucination) 문제는 여전히 해결해야 할 중요한 과제다. 환각이란, 모델이 사실적 근거 없이 잘못된 정보를 생성하는 현상을 의미하며, 이는 오해를 초래하거나, 때로는 위험한 결과를 초래할 수 있다.
5. 환각 문제 해결의 필요성
LLM을 현실 세계에서 효과적으로 활용하려면, 특히 중요한 정보나 의사결정 과정과 관련된 응용에서 환각 문제를 해결하는 것이 필수적이다. InterrogateLLM은 이러한 문제를 해결하기 위한 한 걸음이며, LLM의 신뢰성을 높이는 데 기여할 수 있다.
LLM의 환각 탐지 및 최소화의 중요성
대형 언어 모델(LLM)의 환각(hallucination)을 탐지하고 최소화하는 것은 모델의 신뢰성과 신뢰도를 보장하는 데 매우 중요하다. 특히, LLM이 의사소통 및 의사결정 과정에서 핵심적인 역할을 하는 분야에서는 더욱 그렇다.
현재 모델이 생성한 텍스트를 평가하는 기존 방법들은 유창성(fluency)과 일관성(coherence) 같은 표면적인 지표에 의존하는 경향이 있다. 그러나 이러한 지표만으로는 환각 문제를 효과적으로 포착하기 어렵다. 따라서, LLM이 생성하는 텍스트에서 환각을 체계적이고 효과적으로 탐지하고 완화할 수 있는 방법이 절실히 필요하다. 하지만 이 문제는 여전히 완전히 해결되지 않은 난제로 남아 있다(Ji et al., 2023).
InterrogateLLM: 환각 탐지를 위한 새로운 접근법
우리의 방법인 InterrogateLLM은 환각을 보이는 언어 모델이 동일한 정보에 대해 반복적인 질문을 받았을 때 일관되지 않거나 잘못된 응답을 생성하는 경향이 있다는 점에 기반한다.
근데 사실 이러한 접근법은 selfcheckgpt가 먼저 하긴 했는데;;
환각을 탐지하기 위해, InterrogateLLM은 모델이 생성한 답변을 기반으로 원래의 입력 질문을 여러 차례 재구성하도록 유도하는 방식을 사용한다. 이후, 원래 질문과 재구성된 질문 간의 불일치 수준을 정량적으로 측정하여 환각 가능성을 평가한다.
환각이 발생하면, 모델은 원래의 질문을 일관되게 재구성하는 데 어려움을 겪으며, 이에 따라 생성된 응답에 차이가 발생한다. 이 반복적인 질문 기법은 LLM의 응답에서 환각을 탐지하는 핵심 전략으로 작용한다.
본 연구의 주요 기여점
-
InterrogateLLM 기법 제안
- LLM이 생성한 텍스트에서 환각을 탐지할 수 있는 새로운 기법을 소개한다.
-
혁신적인 평가 방법 개발
- 환각 탐지에 특화된 평가 방법을 제안하며, 이를 위해 세 가지 데이터셋을 활용한 텍스트 생성 평가 작업을 수행한다.
-
최신 LLM의 환각 수준 분석
- Llama-2를 포함한 최근 LLM들의 환각 수준을 조사하여 모델의 신뢰성에 대한 중요한 통찰을 제공한다.
-
InterrogateLLM의 성능 평가 및 비교
- InterrogateLLM 및 그 변형 모델의 성능을 상세히 보고하며, 이를 기존의 다른 방법들과 비교하여 광범위한 실험을 통한 성능 검증을 수행한다.
이러한 기여를 통해, 우리의 연구는 LLM의 신뢰성 문제를 해결하는 데 중요한 역할을 할 것으로 기대된다.
2 Related Work
자연어 생성에서의 환각(Hallucination) 탐지 연구 개요
자연어 생성(NLG) 분야에서 환각(Hallucination)은 다양한 작업에서 연구되어 왔다. 번역, 요약(Kryscinski et al., 2020; Maynez et al., 2020), 대화 생성(Shuster et al., 2021), 질의응답(Lin et al., 2022) 등 여러 과제에서 환각 현상이 보고되었다. Ji et al. (2023)의 종합적인 조사 연구에서도 다양한 NLG 컨텍스트에서 환각 문제를 다루고 있다.
환각 탐지를 위한 기존 연구
- Liu et al. (2022)
- 토큰 단위의 참조 없는 환각 탐지(task) 제안
- 특수한 데이터셋 구축:
- 변형된 텍스트 포함
- 전체 문장이 환각을 포함하는지 판단
- 본 연구와 차이점: few-shot 프롬프트 기반의 질의-응답 시퀀스 환각 탐지에 초점
SelfCheckGPT (Manakul et al., 2023b)
- 일관성 검사를 위한 LLM 기반 방법
- 동일한 쿼리를 여러 번 실행하여 여러 확률적 샘플(stochastic samples) 비교
- 주요 기법:
- BERTScore (Fu et al., 2023)
- 다지선다 질의응답 및 생성(MQAG) (Manakul et al., 2023a)
- n-gram 및 LLM-Prompting
- 본 연구에서는 마지막 방법(LLM-Prompting)을 기준으로 벤치마킹 진행
다른 접근 방식
- Azaria & Mitchell (2023)
- 다층 퍼셉트론(MLP) 분류기 활용
- 언어 모델의 숨겨진 표현(hidden representations)을 사용해 문장 진실성 예측
- 단점: 레이블된 데이터 필요, 언어 모델 내부 상태 접근 필요
- Kadavath et al. (2022)
- 모델이 자신의 응답 정확도를 평가하도록 훈련하는 자기 평가(self-evaluation) 기법 제안
- 특정 질문에 대한 답변을 생성한 후, 자기 신뢰도를 예측
- 단점: 슈퍼바이즈드 학습 필요 (레이블 데이터 필수)
본 연구의 차별점
- 기존 연구들이 주로 슈퍼바이즈드 학습 또는 모델 내부 상태 접근이 필요한 반면,
- 본 연구는 few-shot 프롬프트 기반 질의-응답 시퀀스에서 환각 탐지에 초점을 맞춤.
- SelfCheckGPT 등의 방법과 비교하여, LLM을 활용한 프롬프트 기반 접근법을 활용.
3 Problem setup
Few-Shot 프롬프트 기반 환각 탐지 방법
우리의 연구에서는 텍스트 기반 질의(Query) 도메인과 텍스트 기반 응답(Answer) 도메인을 가정한다. Few-shot 프롬프트(Brown et al., 2020), 특정 질의 Q, 그리고 대형 언어 모델(LLM) F_LLM이 주어진다.
이 질의 Q는 프롬프트를 기반으로 생성되며, LLM에 입력되어 응답을 생성하게 된다. 우리의 목표는 생성된 응답이 환각(Hallucination)을 포함하는지 탐지하는 것이다.
Few-Shot 프롬프트 구조
Few-shot 프롬프트는 질의-응답 쌍(Query-Answer Pair)의 연속적인 시퀀스로 구성된다.
이를 수식으로 나타내면 다음과 같다.
LLM을 활용한 응답 생성
LLM 은 프롬프트와 새로운 질의 Q를 입력받아 새로운 응답 을 생성한다.
연구 목표
생성된 응답 이 환각을 포함하는지 여부를 판별하는 것이 핵심 과제이다.
이 방법은 Few-shot 프롬프트를 활용하지만, 필요에 따라 Zero-shot 작업에도 유연하게 적용 가능하다.
기존 방법과 다르게 few-shot 방법론을 활용했다는것이네.. 직접비교는 쉽지 않을듯
4 The InterrogateLLM method
Backward Process: 생성된 응답을 기반으로 원본 질의 복원
우리의 접근 방식에서는 Backward Process를 도입하여, 생성된 응답 로부터 원본 질의 를 재구성한다. 이를 위해 기존의 프롬프트 를 역순으로 변환하여 새로운 프롬프트 를 생성한다.
1. 역방향 프롬프트 구성
기존 프롬프트 는 질의-응답(Query-Answer) 쌍으로 구성되었다.
이를 역순으로 변환하여 응답-질의(Answer-Query) 쌍으로 구성된 프롬프트 를 만든다.
2. 역방향 프로세스 수행
생성된 응답 를 역방향 프롬프트 의 끝에 추가하여 다시 LLM에 입력한다.
이때, 기존과 동일한 LLM을 사용할 수도 있고, 다른 LLM을 사용할 수도 있으며, 여러 개의 LLM(앙상블 방식) 을 활용할 수도 있다.
이 과정에서 사용되는 LLM을 라고 명명한다.
3. 환각 탐지 논리
- 만약 초기 LLM이 환각(Hallucination)을 포함한 응답 을 생성했다면,
는 원래의 질의 와 관련성이 떨어질 가능성이 크다. - 역방향 프로세스를 통해 재구성된 질의 는 원본 질의 와 차이가 발생할 가능성이 높음
- 즉, 와 의 차이를 분석함으로써 환각 여부를 판별 가능
4. 핵심 아이디어
✅ 환각이 없으면 → 가 정확하여, 재구성된 질의 가 원본 질의 와 유사
❌ 환각이 있으면 → 가 왜곡되어, 가 와 크게 다를 가능성이 높음
- 즉, 응답을 기반으로 원본 질의를 재구성하고 그 차이를 분석하는 방식으로 환각을 탐지할 수 있다.
- 근데 꼭 그런건 아니긴함.. 데이터세트에 따라 다를듯.
- 예를들어 "삼성이 만드는 핸드폰에 대해 말해줘" --> "삼성은 아이폰이란 핸드폰을 만듭니다" 이런식이면 환각이 발생했지만 Q는 어느정도 복원될 수 있기 때문
- 즉 MRC처럼, 정답형 QA? 인 경우에는 작동할 수 있으나 아닌 경우에는 안될듯
InterrogateLLM: 반복적 역방향 프로세스와 환각 탐지 방법
InterrogateLLM에서는 역방향 프로세스(Backward Process) 를 여러 번 반복(K회) 하며, 각 모델에 대해 다양한 온도(Temperature) 값을 적용한다.
이로 인해, 재구성된 질의의 개수는 다음과 같이 계산된다.
1. 환각 여부 판별: 임베딩 기반 유사도 분석
생성된 응답 에 환각이 포함되었는지를 판단하기 위해 언어 임베딩 모델을 활용하여,
재구성된 질의 와 원본 질의 사이의 유사도를 계산한다.
2. 코사인 유사도 계산
각 재구성된 질의 에 대해 원본 질의 와 코사인 유사도를 계산한 후,
이 값들의 평균을 최종 유사도 점수로 사용한다.
-
코사인 유사도 계산:
- 여기서 는 D차원 임베딩 벡터
- 두 벡터 간의 내적을 벡터 크기의 곱으로 나눈 값
-
최종 유사도 점수:
- 모든 재구성된 질의 와 원본 질의 간의 유사도를 평균화
- 재구성된 Q와 기존 Q의 임베딩간의 cosine 유사도의 평균을 그냥 유사도로 간주함
- 이 점수가 낮으면 환각이라는 것이 됨
3. 환각 탐지 기준
최종 유사도 점수가 미리 정해진 임계값 를 초과하면, 환각이 존재한다고 판단한다.
✅ 유사도 높음 () → 응답이 원본 질의와 일관됨 → 환각 없음
❌ 유사도 낮음 () → 응답이 원본 질의와 불일치 → 환각 가능성 높음
- 즉, 재구성된 질의들이 원본 질의와 크게 차이가 나면, LLM이 환각을 포함한 응답을 생성했다고 판단
- 임계값 의 선택은 Sec. 5.2에서 더 자세히 설명됨
4. InterrogateLLM의 핵심 개념
- 역방향 프로세스 반복: 재구성된 질의들의 다양성을 확보
- 임베딩 기반 유사도 측정: 원본 질의와 비교하여 환각 여부 판별
- 임계값 초과 여부로 최종 판단: 일정 기준 이하일 경우 환각 가능성 존재
이 방법을 통해 환각이 포함된 응답을 효과적으로 탐지할 수 있다.
(자세한 알고리즘 및 과정은 Fig. 1과 Alg. 1에 설명됨)
4.1 Variable temperatures
Exploratory Extension: 다양한 Temperature 값이 환각 탐지 정확도에 미치는 영향
InterrogateLLM에서는 온도(Temperature) 값을 조정하여 환각 탐지의 정확도에 미치는 영향을 실험적으로 탐색한다.
1. Temperature의 역할
일반적인 LLM에서는 온도 값(Temperature) 이 다음 토큰을 선택하는 확률에 영향을 미친다.
- 높은 온도 (예: ) → 출력 다양성 증가 (더 창의적, 무작위적)
- 낮은 온도 (예: ) → 출력 일관성 증가 (더 결정적, 집중된 결과)
온도는 소프트맥스(Softmax) 함수를 통해 적용되며, 모델의 로짓(logit) 벡터를 확률 분포로 변환한다.
- : i번째 토큰이 선택될 확률
- : 모델의 로짓 벡터
- : 온도(Temperature)
- : 어휘(Vocabulary)의 총 토큰 개수
온도가 높을수록 값이 더 평탄해져 확률이 고르게 분포하며,
온도가 낮을수록 특정 토큰의 확률이 더 뚜렷하게 집중됨.
2. 역방향 프로세스에서 Temperature 적용 방법
InterrogateLLM에서는 역방향 프로세스를 번 반복하며,
각 반복에서 온도를 동적으로 조정하여 다양한 창의성을 반영하도록 설정한다.
- 각 역방향 프로세스의 온도는 다음과 같이 설정됨:
- : 기본 온도 (모델 기본값)
- : -번째 역방향 패스에서의 온도 ( )
- 점진적으로 온도를 증가시켜 재구성된 질의의 다양성을 탐색하도록 함.
3. 실험 목적 및 기대 효과
✅ 온도 다양화를 통해 탐색 범위 확장
✅ 다양한 창의성 수준을 반영하여 환각 탐지 성능 향상 가능성 평가
✅ 온도 조절이 역방향 프로세스 및 InterrogateLLM의 정확도에 미치는 영향 분석
이 실험의 세부 결과는 Sec. 5.6 (실험 결과 분석)에서 보고됨.
5 Experiments
5. 실험 (Experiments)
InterrogateLLM의 환각 탐지 성능을 평가하기 위해, Few-shot 프롬프트 기반 환각 탐지 데이터셋이 부족한 문제를 해결하고자 세 개의 공개 데이터셋을 활용하여 실험을 설계하였다.
각 데이터셋에 대해 텍스트 생성(task) 및 검증 과정을 구성하여, 생성된 응답의 정확성을 평가하였다.
검증 과정은 데이터셋에 내재된 추가 정보를 활용한 휴리스틱 함수를 사용하여 수행되었으며,
이를 통해 환각 탐지 결과와 실제 검증 결과를 비교함으로써 InterrogateLLM의 성능을 분석하였다.
InterrogateLLM은 외부 지식에 의존하지 않으며, 다양한 작업에 적용 가능한 범용적인 방식이라는 점이 핵심 강점이다.
5.1 데이터셋 및 과제 (Datasets and Tasks)
InterrogateLLM의 환각 탐지 성능을 다양한 도메인에서 평가하기 위해 세 개의 데이터셋을 활용하였다.
이 데이터셋들은 다양한 정보 유형과 콘텐츠를 포함하고 있어, 환각 탐지 기법의 강건성(Robustness)과 범용성(Generality) 을 테스트하는 데 적합하다.
5.1 Datasets and Tasks
5.1.1 The Movies Dataset
- 영화 관련 정보를 포함한 공개 데이터셋
- 2017년 7월 이전 개봉한 영화 45,000개 정보 포함
- 26백만 개의 사용자 평가, 75만 개의 태그 데이터 포함
- 270,000명의 사용자가 제공한 데이터
과제 (Task)
✅ 입력: 영화 제목과 개봉 연도를 기반으로 해당 영화의 출연진(Cast) 예측
✅ Few-shot 프롬프트:
- 예제 데이터로 영화 제목 + 개봉 연도를 입력하고 출연진을 정답으로 제공
- 질의 형식:
- : 영화 개봉 연도
- : 영화 제목
✅ 출력: 영화 출연진(배우들의 전체 이름)
✅ 평가 방법:
- 생성된 답변과 실제 출연진 정보를 Intersection Over Union (IOU) 점수를 활용하여 비교
- IOU 점수가 80% 미만이면 환각(Hallucination)으로 간주
5.1.2 Books Dataset
- Amazon에서 제공하는 200,000권 이상의 문학 도서 데이터
- 각 도서의 제목, 저자, 출판사, 출판 연도 포함
과제 (Task)
✅ 입력: 책 제목을 기반으로 저자와 출판 연도 예측
✅ Few-shot 프롬프트:
- 예제 데이터로 책 제목을 입력하고 저자와 출판 연도를 정답으로 제공
- 질의 형식:
- : 책 제목
✅ 출력: 저자 이름과 출판 연도
✅ 평가 방법:
- : 책 제목
- 생성된 응답의 저자 및 출판 연도가 실제 데이터와 일치하는지 확인
- 정답과 다를 경우 환각(Hallucination)으로 판단
요약: 데이터셋을 활용한 실험 목적
🔹 다양한 도메인(영화, 도서)에서 환각 탐지 성능 테스트
🔹 Few-shot 프롬프트 기반의 환각 탐지 데이터셋 부재 문제 해결
🔹 IOU 점수 및 직접 비교를 통해 응답의 정확성 평가
🔹 InterrogateLLM이 외부 지식 없이 얼마나 강력한 환각 탐지 성능을 보이는지 분석
5.1.3 Global Country Information (GCI)
GCI(Global Country Information) 데이터셋은 181개국에 대한 공공 데이터셋으로,
각 나라의 이름, 면적, 수도, GDP 등의 정보를 포함한다.
과제 (Task)
✅ 입력: 특정 국가의 수도를 예측
✅ Few-shot 프롬프트:
- 질의 형식:
- : 국가 이름
✅ 출력: 해당 국가의 수도
✅ 평가 방법:
- : 국가 이름
- 정답과 생성된 수도 이름을 비교하여 정확성을 평가
- 수도가 일치하지 않으면 환각(Hallucination)으로 판단
데이터셋 활용 개요
이 세 가지 데이터셋(영화, 도서, 국가 정보)은 InterrogateLLM의 환각 탐지 성능을 다양한 도메인에서 평가하는 데 사용됨.
데이터셋 샘플은 부록(Sec. B) 에서 확인 가능하며, 각 데이터셋의 프롬프트와 InterrogateLLM이 생성한 역방향 프롬프트는 코드에서 제공됨.
5.2 Implementation details
실험을 진행하기 위해 설정한 하이퍼파라미터 및 구현 환경을 설명한다.
1. 주요 하이퍼파라미터 설정
✅ 반복 횟수 () → 5
- 작은 값 유지하여 다양한 모델을 빠르게 벤치마킹할 수 있도록 설계
- 실험 데이터셋에서는 수만 개의 생성된 응답을 평가해야 하므로 효율성 고려
✅ 환각 판별 임계값 () → 0.91
- ada002 임베딩 모델을 활용하여 최적의 threshold를 설정
- QQP(Quora Question Pairs) 데이터셋(Chen et al., 2018)에서 유사한 문장 쌍과 비유사한 문장 쌍을 구별하여 최적의 값을 선택
✅ 초기 온도 () 설정
- 평가된 LLM별 기본 온도 값 사용
- GPT-3:
- Llama-2 모델들:
✅ 임베딩 모델
- 최신 OpenAI 임베딩 모델 "ada002" 활용
2. 실험 환경 및 성능
✅ GPU 환경: NVIDIA A100 사용
✅ 처리 속도:
- InterrogateLLM을 (단일 반복) 및 3개의 LLM 앙상블로 실행하면 2초 소요
- 3개의 데이터셋을 대상으로 벤치마킹 시 약 3.44시간 소요
🔹 로 설정하여 빠르고 효율적인 실험 진행
🔹 임계값 을 설정하여 최적의 환각 탐지 기준 도출
🔹 LLM 기본 온도 값 활용 (GPT-3, Llama-2: )
🔹 최신 OpenAI 임베딩 모델 "ada002" 사용
🔹 A100 GPU에서 실행, 전체 실험 벤치마킹에 약 3.44시간 소요
이러한 설정을 기반으로 InterrogateLLM의 환각 탐지 성능을 검증하였다.
세부적인 하이퍼파라미터 및 실험 환경 분석은 다음 섹션에서 더 자세히 다룬다.
5.3 Baselines
5.3 비교 대상 기법 (Baselines)
InterrogateLLM의 성능을 평가하기 위해 모든 데이터셋과 FLLM 모델을 대상으로 다음 세 가지 기존 기법과 비교하였다.
1. SBERT-cosine
✅ 방법:
- 사전 훈련된 SBERT (Sentence-BERT, Reimers & Gurevych, 2019) 모델을 사용하여
- 원본 질의(Query) 와 생성된 응답(Answer) 을 임베딩 벡터로 변환
- 두 벡터의 코사인 유사도(Cosine Similarity) 계산
- 유사도가 특정 임계값 이하이면 "환각"으로 판별
✅ 임계값 () 설정:
- Sec. 5.2의 방식과 동일한 방법으로 최적의 threshold 도출
- 다만, SBERT 임베딩을 활용하여 적절한 를 결정
✅ 특징:
- SBERT 기반이므로 빠르고 가벼운 방식
- 하지만 SBERT의 일반화 성능이 환각 탐지에 충분하지 않을 가능성 있음
2. ADA-cosine
✅ 방법:
- SBERT-cosine 방식과 동일하지만,
- SBERT 대신 OpenAI의 최신 임베딩 모델 "ada002" 사용
✅ 임계값 () 설정:
- Sec. 5.2에서 설정한 값을 그대로 사용
✅ 특징:
- 최신 OpenAI 임베딩 모델을 사용하여 SBERT보다 더 높은 성능 기대
- LLM의 표현력을 더 잘 반영 가능하지만, 여전히 단순한 코사인 유사도 방식
3. SelfCheckGPT with Prompt
✅ 방법:
- SelfCheckGPT 방식 적용
- 동일한 FLLM을 사용하여 N개의 확률적 샘플(랜덤 응답) 생성
- 생성된 응답 의 각 문장을 샘플들과 비교하여 일관성을 평가
- LLM을 사용하여 해당 문장이 샘플과 일치하는지 판단
- 최종 불일치 점수(Inconsistency Score) = 모든 문장 점수의 평균
✅ 실험 설정:
- 일관성 평가를 위해 모든 실험에서 GPT-3 사용
✅ 특징:
- LLM 자체를 활용한 환각 탐지 방법
- 확률적 샘플을 비교하여 신뢰도를 평가하는 접근법
- 하지만, 샘플 수가 많아질수록 계산 비용이 증가하는 단점
5.4 The hallucination rates
각 데이터셋 및 태스크(영화, 도서, 국가 정보)에 대해 실험을 수행하였으며, 결과는 Tab. 1에 보고됨.
✅ 결과 요약:
- GPT-3는 모든 데이터셋과 태스크에서 환각 발생률이 더 낮음
- Llama-2 (7B 및 13B) 모델들은 상대적으로 더 높은 환각 발생률을 보임
이는 GPT-3가 정보의 정확성을 보다 잘 유지하는 경향이 있음을 시사하며,
InterrogateLLM을 활용한 환각 탐지의 필요성을 더욱 강조한다.
5.5 Hallucination detection results
InterrogateLLM의 이진 분류 결과(환각 여부)를 각 데이터셋의 정답(Ground Truth)과 비교하여 성능을 평가하였다.
이를 위해 후방 과정(Backward Process)에 사용되는 LLM을 4가지 방식으로 실험하였다.
- 앙상블인 경우 selfcheckgpt보다 성능이 더 좋긴한데.. 이건 더 많은 LLM을 레버리지 했기 떄문일수도 있고
- sefcheckgptl와 하나의 LLM으로 고정해서 보면, InterrogateLLM이 성능이 좋나? 꼭 그렇지도 않음
✅ 사용된 LLM 조합:
- GPT-3 단독
- Llama-2 (7B) 단독
- Llama-2 (13B) 단독
- 세 가지 모델(GPT-3 + Llama-2 7B + Llama-2 13B) 앙상블
✅ 평가지표:
- AUC (Area Under the Curve, ROC 곡선 하의 면적)
- Balanced Accuracy (B-ACC, 균형 정확도)
- 결과는 Tab. 2에 보고됨
✅ 모든 InterrogateLLM 변형이 기존 기법(SBERT, ADA, SelfCheckGPT)보다 성능이 우수함
✅ 특히 SelfCheckGPT보다 상당한 성능 향상을 보임
SelfCheckGPT의 주요 한계는 동일 질의에 대해 확률적 샘플을 생성하여 비교하는 방식이지만, 동일한 환각이 반복될 가능성이 높다는 점이다.
즉, 초기 생성된 응답 가 환각을 포함했다면, SelfCheckGPT가 생성하는 추가 샘플들도 같은 오류를 포함할 확률이 높음.
결과적으로, SelfCheckGPT는 환각이 포함된 응답을 사실로 잘못 판단하는 경우가 많음.
반면, InterrogateLLM은 후방 과정(Backward Process)에서 원본 질의를 다시 예측하는 접근법을 사용하여,
초기 질의와 응답 간의 차이를 직접 측정함으로써 보다 정확한 환각 탐지가 가능함.
특히, 후방 과정에서 모델 앙상블을 활용하면 더욱 강력한 환각 탐지 성능을 보임.
모델 다양성이 개별 모델의 약점을 보완하며, 특정 모델이 환각을 생성하더라도 다른 모델이 이를 보정할 가능성이 높아지기 때문.
이러한 결과는 Sec. 7에서 더 자세히 분석됨.
5.6 Ablation and hyper-parameter analysis
- 반복 횟수 의 영향 (Alg.1 line 4)
- 가변 온도(Variable Temperature) 값의 효과 (Eq. 8)
- 평균 함수(Average Function) 적용 여부의 중요성 (Eq. 5)
반복 횟수 가 성능에 미치는 영향
InterrogateLLM의 성능을 다양한 값에서 평가하였으며, 실험은 Movies, Books, GCI 데이터셋에서 수행되었다.
값은 [1, 2, 3, 4, 5] 범위에서 설정되었으며, 더 높은 값도 고려할 수 있지만 추가적인 계산 비용이 발생한다.
결과는 Tab. 3, Tab. 9, Tab. 10 (부록) 에 보고되었다.
- 샘플링 수가 많을수록 성능이 좋아지는군.
- 이것도 내 실험에서 해볼려고 했긴 했음
실험 결과, 을 사용하는 것이 필수적이며, 일 때 최고의 성능을 보였다.
즉, 반복 횟수를 늘릴수록 환각 탐지 성능이 향상됨을 확인할 수 있다.
다만, 값을 무한정 증가시키는 것은 계산량의 부담을 증가시키므로, 적절한 균형이 필요하다.
또한, GPT-3, Llama-2 (7B), Llama-2 (13B) 세 가지 모델을 앙상블로 사용했을 때, 모든 값에서 가장 높은 성능을 기록하였다.
이는 다양한 모델을 조합하여 복원 점수를 통합하는 것이 환각 탐지 성능을 더욱 향상시키는 방법임을 시사한다.
Fig. 2는 값의 증가에 따른 AUC 및 B-ACC 성능 향상 효과를 데이터셋별로 나타낸 그래프이다.
각 데이터 포인트는 세 가지 Forward LLM과 이에 대응하는 모든 Backward LLM의 평균 성능을 나타냄.
결과적으로, 값이 증가할수록 성능이 선형적으로 향상되는 경향을 보였다.
가변 온도(Variable Temperature) 값이 성능에 미치는 영향
InterrogateLLM의 후방 과정(Backward Process)에서 온도(Temperature)를 동적으로 변화시키는 기법을 적용하여 성능을 분석하였다.
각 반복 에 대해 가변 온도 는 Eq. 8에 정의된 방식을 따르며, 이 방법은 질의 재구성 과정에서 모델의 창의성과 확률적 특성을 증가시키는 역할을 한다.
실험에서는 를 고정한 상태에서 고정 온도 vs. 가변 온도 적용을 비교하였다.
- 고정 온도: 모든 반복에서 동일한 온도 사용
- 가변 온도: 각 반복마다 온도를 점진적으로 변화시키며, 더 다양한 생성 결과를 유도
결과는 Tab. 4, Tab. 6, Tab. 7 (부록 Sec.A.3)에 보고됨.
- Movies 데이터셋에서는 가변 온도 적용 시 환각 탐지 성능이 향상됨
- Books 및 GCI 데이터셋에서는 고정 온도와 비슷한 성능을 기록
이러한 결과를 바탕으로, 가변 온도를 적용하면 특정 상황에서 Mode Collapse(일관된 패턴으로 동일한 응답이 반복되는 현상)를 완화할 수 있음을 확인하였다.
즉, 일부 Backward 모델이 동일한 질의 재구성을 반복적으로 생성하는 경우, 가변 온도를 통해 더 다양한 재구성을 유도할 수 있음.
제안된 방법은 다양한 수준의 창의성을 가진 재구성 결과를 활용하여, 원본 질의와의 일치 여부를 더욱 정밀하게 평가하는 데 도움을 줄 수 있음.
특히, 대부분의 재구성된 질의가 원본 질의와 일치할 경우, 후방 프로세스가 신뢰할 수 있는 결과를 반영하고 있으며, 이는 보다 정확한 환각 탐지로 이어짐.
평균 함수(Average Function) 적용 여부의 중요성
Eq. 5에서 사용된 평균 함수의 역할 및 효과를 분석하기 위한 추가적인 실험이 진행되었다.
이 실험의 상세한 결과는 부록 Sec.A.1에서 확인 가능하다.
👉 결론:
- 사용이 효과적이며, 앙상블 모델이 가장 높은 성능을 보임.
- 가변 온도 적용이 Mode Collapse를 방지하며 일부 데이터셋에서는 성능을 더욱 향상시킴.
- 평균 함수가 환각 탐지의 신뢰도를 높이는 데 중요한 역할을 함.
- 최적의 성능을 위해 값을 늘리고, 가변 온도를 적용하며, 앙상블 모델을 사용하는 것이 바람직함.
6 Conclusion
본 논문에서는 대형 언어 모델(LLM)에서 발생하는 환각(Hallucination) 문제를 다루었다.
우리는 Few-shot 환경에서 환각을 탐지할 수 있는 새로운 방법인 InterrogateLLM을 제안하였다.
본 연구는 AI 기반 언어 모델의 책임 있는 활용에 대한 논의에 기여하며,
다양한 실제 응용 분야에서 LLM의 신뢰성을 향상시키는 방법을 제공한다.
향후 연구로는 Retrieval Augmented Generation (RAG) 환경으로 확장하는 것을 고려하고 있다.
이 설정에서는 질의(Query)와 함께 검색된 컨텍스트(Context)가 제공되며, 해당 정보를 기반으로 답변을 생성하는 방식을 적용할 예정이다.
7 Limitations
본 연구를 진행하면서 몇 가지 중요한 제한점을 발견하였다.
-
출처(Source)와 대상(Target) 도메인의 다대일(Many-to-One) 매핑 문제
- 하나의 생성된 응답이 여러 개의 서로 다른 질의와 연결될 경우, InterrogateLLM을 사용한 검증이 어려워진다.
- 후방 과정(Backward Process)에서 다양한 질의 후보가 재구성될 수 있으며, 이로 인해 원래의 질의와 다소 벗어날 가능성이 존재한다.
-
양방향 환각(Hallucinating Back and Forth) 문제
- 동일한 LLM이 환각을 포함한 응답을 생성한 경우,
후방 과정에서도 동일한 질의를 재구성하는 사례가 관찰되었다. - 이는 질의와 환각된 응답 사이에 대칭적 매핑(Symmetric Mapping)이 존재할 가능성을 시사하며,
결과적으로 환각이 양방향으로 반복될 위험성을 내포한다. - 하지만 여러 개의 모델을 앙상블(Ensemble)로 활용하면 이 문제를 어느 정도 완화할 수 있음을 확인하였다.
- 동일한 LLM이 환각을 포함한 응답을 생성한 경우,
-
부분적으로 사실인 응답(Semi-Truth Answer)에서의 환각 탐지 어려움
- 부분적으로만 환각이 포함된 응답을 탐지하는 것이 더욱 어려운 문제임을 발견하였다.
- 예를 들어, 영화 출연진 정보를 생성할 때, 전체적으로는 정확하지만 한 명의 배우가 추가되는 오류가 발생하는 경우,
InterrogateLLM은 원래의 영화 정보를 복원할 수 있었지만, 경미한 환각(Low-Severity Hallucination)을 감지하는 데는 실패하였다.
이러한 제한점들은 향후 연구에서 해결해야 할 주요 과제로 남아 있으며, 모델의 신뢰성을 더욱 향상시키기 위한 개선이 필요함을 시사한다.
Reference
댓글
댓글 쓰기