NL-242, Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus, EMNLP 2023

◼ Comment

  • reference-free 방법으로 모델의 uncertainty을 기반으로 환각을 검출하는 것이다
  • 이전의 논문들에서 토큰의 확률을 이용하여 환각을 검출하려는 시도가 있긴 했었고, 그에 대한 업그레이드 연구라 보면된다
  • 여기서도 마찬가지로 모든 토큰을 고려하지 않고 키워드를 추출하고 이것들만 고려하는데, 이 키워드는 spacy을 통해 추출한다고 한다.
    • 그냥 라이브러리 써서 추출하는 개념인듯
    • 그리고 키워드 토큰별로 환각점수를 계산하는데, 토큰 확률외에도 entropy까지 같이 고려한다. 
    • 약간 entropy를 고려해서 어떤 장점이 있는지 분석은 부족한 듯
  • 각 키워드 토큰의 환각 점수를 더한게 문장의 환각 점수가 되는 개념으로 보인다
    • 추가로 각 토큰의 환각 점수를 계산할 때, 앞틔 키워드 토큰까지 고려해서 더하는 개념을 제시한다 (attention weight 활용)
    • 그리고 키워드 토큰 앞에 entity 가 뭔지 달아줌으로써 뭐 후보 토큰 vocab을 근사화하는 개념을 썼다고 하는데.. 
  • 전체적인 흐름은 그림1-b를 보면 알 수 있음
    • casual하게 과거 토큰들이 미래에 영향을 주는 것이다. (그림이 뭔가 완벽하게 식이랑 대응되는거 같지는 않은데)
    • 그리고 entity tag을 첨가함으로써 1992의 토큰 확률이 변화함을 보여준다. (모든 토큰에 entity tag을 넣는게 아닌가?)

Abstract

대규모 언어 모델(LLMs)은 다양한 분야에서 뛰어난 성능을 발휘하며 큰 인기를 얻고 있습니다. 그러나 LLM은 많은 실제 응용 프로그램에서 사용자 기대를 충족하지 못하는 허위 또는 비논리적인 출력을 생성하는 경향이 있습니다. 기존의 LLM 환각(hallucination) 감지 연구는 참조 검색을 위해 외부 지식에 의존하거나 일관성 검증을 위해 LLM에서 여러 응답을 샘플링해야 하므로 비용이 많이 들고 비효율적입니다. 

본 논문에서는 참조 없이 불확실성 기반의 새로운 LLM 환각 감지 방법을 제안합니다. 우리의 접근법은 사실성 검증에서 인간의 초점을 모방하며, 다음 세 가지 측면에서 이를 수행합니다: 

  • 1) 주어진 텍스트에서 가장 정보가 많고 중요한 키워드에 집중; 
  • 2) 환각의 연쇄적 발생을 유발할 수 있는 과거 맥락에서 신뢰할 수 없는 토큰에 집중; 
  • 3) 토큰 유형과 토큰 빈도와 같은 토큰 속성에 집중. 관련 데이터셋에 대한 실험 결과, 
제안된 방법은 모든 평가 지표에서 최첨단 성능을 달성하고 추가 정보의 필요성을 제거함을 보여줍니다.

1 Introduction

대규모 언어 모델(LLMs)은 금융(Wu et al., 2023; Lopez-Lira and Tang, 2023), 의학(Javaid et al., 2023; Lee et al., 2023), 교육(Tlili et al., 2023; Baidoo-Anu and Owusu Ansah, 2023) 등 다양한 분야에서 뛰어난 성능으로 주목을 받고 있습니다. 이러한 모델은 높은 수준의 일관성, 유창성 및 정보성을 갖춘 자연어 텍스트를 생성하는 데 뛰어난 능력을 보입니다. 그러나 LLM이 직면한 주요 문제는 허위 또는 비논리적인 텍스트(환각, hallucination)를 생성할 위험(Shen et al., 2023b; Sallam, 2023)에 있습니다(Ji et al., 2023; Bang et al., 2023). 환각은 거의 모든 응용 프로그램에서 일반적으로 발생(Xu et al., 2023)하며, 특히 정확성과 진실성이 중요한 상황에서 LLM의 신뢰성과 신뢰도를 저하시킵니다.

LLM의 환각 감지에 대한 기존 연구는 크게 두 가지로 나눌 수 있습니다. 

  • (i) 참조 기반 방법(Min et al., 2023; Liu et al., 2023)은 지식 기반에 대해 주어진 텍스트의 진실성을 평가하며, 
  • (ii) 샘플링 기반 방법(Mündler et al., 2023; Manakul et al., 2023)은 평가된 텍스트와 동일한 LLM에서 추가로 샘플링된 응답 간의 정보 일관성을 평가합니다. => 참조없이 해결하는 방법 (selfcheckgpt, self-contradictionary)

그러나 참조 기반 방법은 항상 접근할 수 없는 외부 지식에 크게 의존하고, 샘플링 기반 방법은 정보 일관성 검증이나 모델 훈련을 위해 LLM에서 여러 응답을 필요로 하므로 비용이 많이 들고 비효율적입니다. (각각의 장단점)

위와 같은 문제를 해결하기 위해, 우리는 세계 지식에 비추어 사실적으로 부정확한 LLM의 환각을 감지하는 참조가 필요 없는 불확실성 기반 방법을 제안합니다. 제안된 방법은 오직 LLM 출력 텍스트에만 의존하며, 추가적인 샘플링 응답, 외부 지식, 또는 이와 관련된 데이터에 기반한 추가 훈련의 필요성을 제거합니다. 

기본 아이디어는 프록시 언어 모델을 사용해 주어진 텍스트의 각 토큰 확률을 계산하는 것입니다. 계산된 확률을 기반으로, 불확실성 기반 지표(Guerreiro et al., 2022; Xiao and Wang, 2021)를 사용해 토큰 및 문장 수준에서 환각 점수를 산출합니다. 이렇게 도출된 점수가 높은 토큰과 문장은 환각된 내용의 후보로 식별됩니다. 우리의 가정은 강력한 LLM이라면 학습 단계에서 습득한 세계 지식에서 벗어나는 환각 정보로 구성된 토큰에 낮은 확률을 부여할 것이라는 것입니다.

위 방법은 기본적인 프레임워크로 작동하지만, 단순한 프록시 모델의 예측 확률에 내재된 한계로 인해 제약을 받을 수 있습니다. 이러한 모델은 일반적인 확률 추정기로 작동하며, 그 예측은 구문, 의미, 기타 정보 원천을 반영하여 환각 자체에 집중하는 데 방해가 될 수 있습니다(Figure 1a 참조).

첫째, 프록시 모델은 정보성의 정도가 다양하다는 점을 무시하며, 이는 노이즈를 유발할 수 있습니다. 

둘째, 언어 모델(LMs)이 할당하는 확률은 일반적이며, 다양한 맥락에서 사실성 신뢰도와 다를 수 있습니다. 

예를 들어, 프록시 모델은 역사적 맥락에 표면적으로 연관된 토큰이 포함된 경우 환각된 토큰에 대해 과도한 확신을 가질 수 있습니다. 또한, 생성 과정의 자기회귀적 성격으로 인해 노출 편향(exposure bias, Bengio et al., 2015; Iqbal and Qureshi, 2022)이 발생할 수 있습니다. Figure 1a의 예는 환각된 토큰 "2012 Summer Olympics"에 높은 확률이 할당된 경우를 보여줍니다. 반면에, 맥락을 이어가는 주제 방향이 여러 가지로 가능한 경우, 프록시 모델은 과소평가할 수 있습니다. Figure 1a의 또 다른 예는 사실적인 토큰 "1992"가 "West"나 "Coral"과 같은 경쟁 후보로 인해 낮은 확률을 받은 경우를 보여줍니다.

환각에 대한 집중을 강화하기 위해, 인간의 사실성 검증 방식에서 영감을 받아 Figure 1b에 묘사된 세 가지 구체적인 고려 사항을 포함합니다:

  • 정보 키워드에 집중: 두드러진 정보를 표현하는 키워드를 추출하여 문장 및 문단 수준에서 환각 점수를 계산합니다.
  • 선행 단어에 집중: 이전 토큰의 불확실성을 주의 가중치(attention weights)를 통해 이후 토큰으로 전파하여 과도한 확신 문제를 완화합니다. 이는 신뢰할 수 없는 토큰과 강하게 연결된 단어들도 이러한 부정확성의 영향을 받을 수 있으며, 환각의 연쇄 반응을 유발할 수 있다는 가정에 기반합니다.
  • 토큰 속성에 집중: 예측된 토큰 확률을 해당 엔터티 유형(있을 경우)에 따라 조건화하고, 역문서빈도(IDF)로 조정합니다. 이를 통해 확률 분포가 사후적으로 인간 평가와 더 잘 맞게 조정되어 과소평가 문제를 완화합니다.

요약하면, 본 연구의 주요 기여는 LLM의 환각을 감지하기 위한 새로운 참조 없는(reference-free), 불확실성 기반 접근법을 도입한 것입니다. 이 접근법은 추가 샘플 응답이나 외부 지식 기반을 필요로 하지 않아 단순하고 비용 효율적입니다. 실험 결과, 제안된 방법은 다양한 규모의 모델에서 WikiBio GPT-3 데이터셋에서 최첨단 성능을 달성했으며, 소형 모델이 생성한 요약 내 환각을 감지하는 데 효과적임을 보여줍니다.

2 Related Work 

2.1 Hallucinations in Text Generation

환각(hallucination)은 추상적 요약(Huang et al., 2021; Nan et al., 2021), 대화 생성(Dziri et al., 2022; Rashkin et al., 2021), 질문 응답(Longpre et al., 2021; Su et al., 2022)과 같은 다양한 텍스트 생성 작업에 사용되는 딥러닝 기반 모델에서 흔히 발생하는 현상입니다(Xu et al., 2023). 환각은 텍스트 생성 작업에서 상당한 문제를 야기하는데, 이는 부정확하거나 오해를 불러일으키는 결과를 초래할 수 있으며, 대부분의 사용자 중심 응용 프로그램에서는 용납될 수 없습니다(Liu et al., 2022; Xu et al., 2023; Rebuffel et al., 2022).

2.2 Hallucination Detection

이전의 환각(hallucination) 감지 연구는 주로 특정 작업에 맞게 조정된 작은 모델(파라미터 수 10억 미만)에서 발생하는 환각을 식별하는 데 초점을 맞춰왔습니다. 

  • 예를 들어, Kasner et al. (2021)은 규칙 기반 시스템과 사전 학습된 언어 모델을 결합하여 표에서 텍스트로 변환하는 작업에서 환각을 식별했습니다. 
  • Guerreiro et al. (2022)는 기계 번역에서 환각을 감지하기 위해 출력 시퀀스의 모든 토큰에 대한 평균 로그 확률을 모델 불확실성 지표로 채택했습니다. 
  • Dale et al. (2022)는 생성된 텍스트에 대한 소스 기여도의 비율을 평가하여 환각을 감지하려고 시도했습니다. 

그러나 LLM이 보여주는 환각 패턴은 작은 모델에서 나타나는 패턴과 다르게 나타나는 경향이 있으며(Guerreiro et al., 2023), 이러한 방법을 LLM의 환각 감지에 일반화하는 데 어려움을 야기합니다. 따라서 작은 모델에서의 환각 감지는 본 논문의 주요 범위에 포함되지 않습니다.

LLM이 다양한 응용 프로그램에 널리 통합됨에 따라 LLM에서 발생하는 환각 문제에 대해 연구자들의 관심이 크게 증가했습니다(Bang et al., 2023; Shen et al., 2023a; Alkaissi and McFarlane, 2023). 

  • 예를 들어, Min et al. (2023)은 생성된 텍스트의 각 원자적 사실의 정확성을 지식 소스를 참조하여 평가하는 FACTSCORE를 도입했습니다. 
  • Mündler et al. (2023)은 동일한 위치에서 생성된 두 개의 샘플 문장이 서로 모순되는지 여부를 검토하여 환각을 감지하려 했습니다. 
  • 최근 Manakul et al. (2023)은 SelfCheckGPT라는 LLM 응답의 환각을 감지하기 위한 블랙박스 접근법을 제안했습니다. SelfCheckGPT의 주요 전제는 LLM이 주어진 개념에 대해 불확실할 때 샘플링된 응답이 일관되지 않은 사실을 포함할 수 있다는 것입니다. 
  • 그러나 이러한 방법은 외부 지식 기반이나 LLM에서 샘플링된 여러 응답에 의존하며, 이는 자원 소모가 크고 비효율적입니다.

3 Methods

우리 방법에서는 GPT-3(Ouyang et al., 2022)와 같이 토큰 수준의 확률에 접근할 수 없는 경우 불확실성 평가를 위해 프록시 모델을 활용합니다. 

Manakul et al. (2023)의 이전 연구는 프록시 모델 사용의 비효율적인 성능을 보여주었지만, 우리는 이를 사용된 불확실성 지표에 기인한다고 봅니다. 

  • 문장에서 모든 토큰에 대한 평균 엔트로피 및 평균 손실과 같은 지표는 인간 평가와 충분히 일치하지 않습니다. 
  • 이러한 문제는 모델과 인간이 정보를 인식하고 평가하는 방식의 본질적인 차이에서 비롯된다고 생각하며, 이는 환각 감지를 위한 불확실성 기반 접근법의 능력을 제한합니다.
  • 이전에 프록시 모델을 사용하는게 비효율적이라 했지만, 모든 토큰의 확률을 사용하는 것은 능력이 제한되는 것이고 새로운 방법을 제안하는 듯

이 문제를 완화하기 위해, 우리는 인간이 사실성 검증을 수행하는 방식을 세 가지 측면에서 모방합니다. 이는 다음 섹션에서 논의될 예정입니다.

3.1 Keywords selection 

이전 연구(Pagnoni et al., 2021; Kryściński et al., 2020)에 따르면, 엔터티(entity)가 텍스트 생성에서 가장 자주 환각되는 단어라는 점이 제시되었습니다. 이는 생성된 결과의 진실성을 평가할 때, 가장 중요한 정보를 전달하는 키워드에 주로 집중한다는 직관과 일치합니다. 이에 따라, 우리는 문장 수준과 문단 수준에서 환각 점수를 계산할 때 Spacy(Honnibal and Montani, 2017)가 식별한 키워드에만 집중합니다.

모든 토큰이 아닌 엔티티 토큰이 환각의 키포인트라는 것이고 (이전 연구에 따르면), 따라서 spacy가 판단한 키워드를 중점적으로 고려한다라는 듯

Spacy가 식별한 키워드는 두 그룹으로 분류할 수 있습니다. 

  • 첫 번째 그룹은 인물, 장소, 날짜, 이벤트, 조직 등을 포함한 18가지 유형의 명명된 엔터티로 구성됩니다. 
  • 두 번째 그룹은 첫 번째 그룹에 속하지 않는 명사들로 구성됩니다.

구체적으로, 주어진 텍스트 rr에 대해 rrii-번째 토큰 tit_i의 환각 점수 hih_i를 계산합니다. 지역 및 전역 불확실성 정보를 모두 활용하기 위해, hih_itit_i를 생성할 때의 음수 로그 확률과 엔트로피의 합으로 정의됩니다.

H_i = 2 - \sum_{v \in V} p_i(v) \cdot \log_2(p_i(v))

  • 텍스트 r의 i번째 토큰(ti)에 대한 환각 점수 = hi
  • ti의 확률이 낮으면 hi 올라간다 = 토큰생성확률 낮으면 환각 가능성 up
  • 모든 토큰을 고려하는 전역 불확실성 정보의 개념으로 엔트로피도 고려요소라고 함

여기서 pi(v)p_i(v)ii 위치에서 어휘집 VV의 모든 토큰 vv에 대해 vv가 생성될 확률을 나타냅니다.

문장 ss의 환각 점수 hsh_s는 키워드 여부에 따라 가중치를 부여한 합으로 계산됩니다:

h_s = \frac{1}{\sum_{i=0}^{|s|-1} I(t_i \in K)} \sum_{i=0}^{|s|-1} I(t_i \in K) \cdot h_i

  • hi의 sum의 개념인데, 모든 토큰이 아니라, 키워드의 환각점수들의 합이라고 보면된다.
  • weight을 결정짓는 I는 indicator function로 키워드면 1 아니면 0을 의미하는 듯

여기서 s|s|ss 내의 토큰 수를 나타내며, KK는 키워드의 집합, I()I(\cdot)는 지시 함수입니다.

이 수식을 확장하여 주어진 문단에서 키워드의 환각 점수 평균을 계산함으로써 문단 수준의 환각 점수를 구할 수 있습니다.

3.2 Hallucination propagation

여러 연구(Guerreiro et al., 2022; Xiao and Wang, 2021)는 환각 감지를 위한 척도로 토큰 확률을 활용했습니다. 그러나 언어 모델에서 도출된 확률은 생성된 내용의 사실성 신뢰도를 정확히 반영하지 못할 수 있습니다. 일부 환각된 토큰은 맥락(history context)에 환각된 정보가 포함된 경우 높은 확률을 할당받을 수 있으며, 이를 과도한 확신(overconfidence) 문제라고 합니다. 이 문제는 트랜스포머 기반 LLM에서 일반적으로 사용되는 셀프 어텐션(self-attention) 메커니즘에 의해 더욱 악화됩니다. 이 메커니즘은 훈련 단계에서의 교사 강제(teacher forcing) 사용으로 인해 훈련과 추론 간의 불일치(노출 편향, exposure bias, Bengio et al., 2015; Iqbal and Qureshi, 2022)를 초래합니다. 그 결과, 생성된 텍스트가 사실적 주장을 포함하는 것처럼 받아들여질 수 있지만, 실제로는 비사실적인 경우가 있습니다.

Figure 2는 과도한 확신 문제를 보여주는 예를 제공합니다. 

다음 텍스트를 고려해 보세요:
"Mackenzie Caquatto는 미국의 전직 기계체조 선수로, 2012년 런던 올림픽에 출전했습니다. Caquatto는 1992년에 태어났으며, 3세에 체조를 시작했습니다. 그녀는 2012년 런던 올림픽에서 비대칭 바와 균형 빔에 출전했습니다."
여기서 "2012"는 두 번 등장하며, 첫 번째 등장 시 확률이 두 번째 등장 시 확률보다 현저히 낮습니다. 시각화된 셀프 어텐션 매트릭스는 마지막 문장에서 "2012 Summer Olympics"를 생성할 때, 첫 번째 문장의 동일한 구문(파란색 상자로 표시된 부분)에 상당한 주의(attention)가 집중된다는 것을 보여줍니다. 그러나 "Mackenzie Caquatto가 2012년 런던 올림픽에 출전했다"는 주장은 사실이 아닙니다.

이 관찰은 신뢰할 수 없는 토큰에 주의(attention)가 집중된 토큰에 대해 "페널티"를 도입하는 아이디어를 고안하는 데 영감을 주었습니다. 즉, 선행 토큰의 환각 점수를 고려하여, 이를 해당 토큰의 주의 가중치에 따라 현재 토큰에 페널티로 적용합니다. 여기서 우리는 키워드 간의 전파만을 고려합니다.

키워드 토큰간의 attention을 고려해서 페널티를 주는 뭔가를 한다는 거 같음

  • 구체적으로, 현재 토큰이 키워드인지 확인합니다(3.1절에서 설명한 방식에 따라). 
  • 키워드가 아닌 경우 페널티는 0으로 설정됩니다. 
  • 키워드라면, 현재 토큰과 모든 이전 키워드 간의 주의 가중치를 정규화하여 페널티 가중치를 구합니다. 
  • 현재 토큰의 페널티는 이전 토큰과 연관된 환각 점수의 가중합으로 계산됩니다.

또한, 페널티가 멀티 홉(multi-hop)을 통해 이후 모든 토큰으로 전파될 수 있기 때문에, 홉 수가 증가함에 따라 페널티가 기하급수적으로 감소하도록 보장하기 위해 계수 γ[0,1]\gamma \in [0, 1]를 도입했습니다.

h^i\hat{h}_iii-번째 토큰 tit_i의 누적 페널티를 포함한 환각 점수를 나타낸다고 할 때, h^i\hat{h}_i의 계산식은 다음과 같이 표현됩니다:


  • 여기서 pi는 i-번째 토큰의 페널티를 나타낸다.
  • 즉 현재의 최종 환각점수는 3.1에서 구한 환각점수+앞의 키워드들의 환각점수를 일부 더하는 개념이라고 보면 됨

i,jw_{i,j}tit_itjt_j 간의 가중치를 나타내며, 다음과 같이 정의됩니다:


  • 가중치는 attention weight을 normalizing 한 개념인듯

여기서 변수는 다음과 같습니다:

  • h^i\hat{h}_i: ii-번째 토큰의 누적 페널티를 포함한 환각 점수.
  • hih_i: ii-번째 토큰의 기본 환각 점수.
  • I(tiK)I(t_i \in K): tit_i가 키워드 집합 KK에 포함되는지 여부를 나타내는 지시 함수.
  • γ\gamma: 페널티의 기하급수적 감소를 제어하는 계수(γ[0,1]\gamma \in [0, 1]).
  • pip_i: ii-번째 토큰의 페널티.
  • atti,j\text{att}_{i,j}: 모든 레이어와 어텐션 헤드에 대해 최대 풀링(max-pooling)된 후 tit_itjt_j 간의 어텐션 가중치.
  • wi,jw_{i,j}: tit_itjt_j 간의 정규화된 어텐션 가중치.

이 계산 방식은 키워드 간의 연결성과 각 토큰의 환각 점수를 기반으로 페널티를 누적시키며, 각 토큰의 중요성과 주의 메커니즘의 상호작용을 반영합니다.

3.3 Probability correction

과도한 확신(Overconfidence) 문제 외에도, 모델이 과소 확신(Underconfidence)을 보이는 경우가 있습니다. 이는 토큰 확률이 사실성 신뢰도와 일치하지 않는 결과를 초래할 수 있습니다. 우리는 이러한 과소 확신이 엔터티 유형(entity type)과 토큰 빈도(token frequency)를 포함한 토큰 속성과 관련이 있다고 봅니다.

Figure 1a에 나타난 바와 같이, “Caquatto was born in” 이후 단어를 생성할 때, 모델은 “West chester”, “Coral Springs”, “1992” 등 여러 가능한 주제 방향을 선택할 수 있습니다. 이는 환각이 특정 주제 방향 내의 서로 다른 토큰과 관련이 있음에도 불구하고, "1992"와 같은 날짜를 생성할 확률이 다른 가능한 선택지로 인해 상대적으로 낮아지는 결과를 초래합니다. 이는 모델이 정보를 평가하는 방식과 인간이 평가하는 방식의 뚜렷한 차이를 강조합니다. 모델은 다양한 엔터티 유형을 가진 모든 가능한 선택지를 세심히 고려하는 반면, 인간은 직관적으로 날짜와 관련된 후보 단어를 우선적으로 포함합니다.

모델 응답 rrnn개의 토큰 t0,t1,...,tn1t_0, t_1, ..., t_{n-1}이 있다고 가정합니다. c(t0:i)c(t_0:i)i+1i+1번째까지의 토큰이 주어졌을 때, tit_i에 대한 이상적인 후보 단어 집합을 나타냅니다. 베이즈 정리를 사용하면, tit_i의 생성 확률은 다음과 같이 표현됩니다:

p(t_i | t_0:i-1, c(t_0:i)) = \frac{p(t_i | t_0:i-1)}{\sum_{v \in c(t_0:i)} p(v | t_0:i-1)}

이 식은 주어진 단어의 합리성을 평가할 때 모든 가능한 선택지 대신 유사한 단어에 집중해야 함을 시사합니다. 그러나 모델 생성 단계에서 이상적인 후보 집합을 구축하는 것은 모든 단어가 문장 조각으로 토큰화되기 때문에 어려움을 동반합니다.

  • 약간 하나마나한 얘기한거 같은데.. c(t0:i)가 의미하는것은 응답 토큰에서 이상적인 후보단어 집합이다. 
  • 일반적으로 언어모델은 이런거 고려없이, 모든 토큰에 일정확률을 할당해가면서 다음 토큰을 예측하는데, c(t0:i)가 주어진다면 식7처럼 바뀐다는 것이다.
  • 근데 이상적인 후보 집합을 구축하는것은 어렵기 때문에 다음의 방법론으로 대체한다는 것

이 문제를 해결하기 위해, 우리는 프록시 모델의 **문맥 학습 능력(in-context learning capability)**을 활용합니다. 이를 위해, Spacy를 사용해 식별된 명명된 엔터티 앞에 엔터티 유형을 삽입합니다(Figure 3 참조). 

엔터티 유형은 생성 시 제약 조건으로 작용하며, 이를 통해 식 (7)에서 이상적인 후보 집합 c(t0:i)c(t_0:i)을 생성 확률이 임계값 ρ\rho 이상인 토큰으로 근사화합니다. 이렇게 하면 주어진 엔터티 유형에 부합하는 토큰에 더 높은 확률을 할당하도록 확률 분포가 조정됩니다.

  • 그림 3처럼 하면, 생성할 토큰앞에 엔티티가 뭔지를 언급하도록 llm이 next token을 생성할 것이란 것이다. (WHY? 앞의 텍스트가 그렇게 주어졌기 때문에 in-context learning 효과)
  • 그러면 엔티티에 따른 토큰이 더 높은 확률을 할당되도록 하는 것으로 식7을 근사화한다?

추가적으로, 기존 연구(Raunak et al., 2020; van der Poel et al., 2022; Demeter et al., 2020)에 따르면, 빈도가 낮은 토큰은 낮은 예측 확률을 받을 가능성이 있으며, 이는 모델의 과소 확신으로 이어질 수 있습니다. 이를 완화하기 위해, 토큰 tt의 확률은 토큰 IDF(Inverse Document Frequency)에 따라 다음과 같이 추가로 보정됩니다:

\hat{p}(t) = \frac{\tilde{p}(t) \cdot idf(t)}{\sum_{v \in V} \tilde{p}(v) \cdot idf(v)}

idf을 통해서 빈도가 낮은 토큰의 과소 확신을 막는다?

즉 이러한 기법을 통해서 그림1-b 처럼, 토큰의 확률을 변화시킨다는 것

여기서:

  • p~(t)\tilde{p}(t): 엔터티 유형이 주어진 상태에서 어휘집 VV 전체에 대해 토큰 tt의 확률.
  • idf(t)idf(t): RedPajama 데이터셋(1M 샘플 문서)에서 계산된 토큰 tt의 역문서빈도.

이 접근법은 엔터티 유형과 토큰 빈도 정보를 활용하여 모델의 과소 확신 문제를 완화하고, 생성 확률을 보다 신뢰성 있게 조정할 수 있도록 합니다.

3.4 Putting things together

위에서 제안한 모든 방법을 결합하기 위해, 식 (1)과 식 (2)의 토큰 확률을 p^(t)\hat{p}(t)로 대체합니다. 이후, 환각 전파(hallucination propagation)를 적용하여 페널티가 누적된 상태에서 토큰 수준의 환각 점수를 계산합니다. 문장 수준과 문단 수준의 환각 점수는 식 (3)을 기반으로 계산됩니다.

4 Experiments and Results 

4.1 Experiment setting

4.2 Main results

  • selfcheckgpt 논문보면, NLI, prompt방법은 이 방법론들보다 성능이 좋은데?
  • 따로 논문에서 언급이 안된거 같은데.. 일부러 누락한건가?;;

4.3 Analysis

4.4 Case study

5 Conclusion

본 논문에서는 LLM(대규모 언어 모델)에서 환각(hallucination)을 감지하기 위한 참조 없이(reference-free), 불확실성 기반(uncertainty-based) 방법을 제안합니다. 제안된 방법은 인간의 사실성 검증(factuality checking)을 모방하기 위해 다음 세 가지 측면을 고려합니다: 정보성 있는 키워드에 집중, 선행 단어에 집중, 토큰 속성에 집중.

실험 결과, 제안된 방법이 문장 및 문단 수준에서 환각 감지에 효과적임을 실증적으로 보여주며, 외부 지식이나 훈련 데이터를 필요로 하지 않습니다. 또한, 세 가지 초점 메커니즘 각각이 다른 프록시 모델(proxy model)을 백본(backbone)으로 사용할 때 전체 성능에 미치는 영향을 분석했습니다.

XSumFaith와 FRANK 데이터셋에서의 결과는 제안된 방법이 소규모 모델이 생성한 환각을 감지하는 잠재적인 능력도 있음을 추가적으로 보여줍니다. 본 연구가 LLM 연구 분야에 기여하고, LLM의 신뢰성과 사실성을 향상시키는 데 도움이 되기를 바랍니다.

Limitations

우리 접근법에서의 키워드 식별과 명명된 엔터티 인식(named entity recognition)은 Spacy를 기반으로 이루어지며, 실제 사용 시 관찰된 바에 따르면 일부 오류를 초래할 수 있습니다. 예를 들어, 텔레비전 드라마 **"The Great Ambition"**이 조직(organization)으로 잘못 분류되는 사례가 발생할 수 있습니다. 이러한 실패는 계산된 확률의 신뢰성을 떨어뜨려 성능 저하로 이어질 수 있습니다.

또한, 실제 시나리오에서 명명된 엔터티의 범주는 Spacy가 식별할 수 있는 범주보다 훨씬 다양합니다. 예를 들어 음식, 차량, 기타 전문적인 도메인과 같은 엔터티는 Spacy로 식별하기 어렵습니다.

추가적인 한계는, LLM 프록시(proxy)가 항상 최신의 사실적 지식을 유지한다고 가정한 점에서 발생합니다. 그러나 LLM은 훈련 이후 지속적으로 업데이트되지 않기 때문에, 최근에 등장한 사실적 정보를 포함하지 못할 수 있습니다. 이는 할당된 확률에 영향을 미치며, 결과적으로 환각 감지의 효과성을 저하시킬 수 있습니다.

Reference

댓글