◼ Comment

이 논문은 reference-free 로 접근하였고, 그 중에서도 model logit등을 이용한 uncertainty을 이용한 방법이라고 보면 된다
근데 뭔가 수식이 깔끔하지 않고 수학적 표기가 너무 지저분하다.

방법론도 스무스하게 따라가게 하지 않게 되어있고 부록의 결과를 너무 많이 인용한다고 느껴진다
개인적으로는 좀 writing이나 수학표기부터 다시해야한다고 느낌;; 그래도 GPT의 힘으로 이해는 함 ㅎ

베이스라인

여기서 소개하는 베이스라인은 기억해둘 필요가 있긴하다
일단 atomic claim과 관련된 단어를 추출되어있다고 가정함
이 atomic claim에 해당하는 단어 집합을 C라고 하면
C의 생성 확률, perplexity, entroy을 이용한 방법을 소개하고
P(True)라고해서 LLM이 답변한게 True인지 물어봐서, True로 답변할 확률 (True 토큰의 생성 확률값)을 활용하는 방법도 베이스라인으로 잡는다

방법론 (CCP)

다양한 종류의 uncertainty를 다루지 않고, claim uncertainty에 초점을 맞춰서 계산한다
즉 claim을 먼저 추출해야하고, 이에 대해 논문에서 자세히 안다루고 있는데 아마 기존 데이터 사용한듯

factscore에 있는 데이터를 쓴거 같음 (LLM에게 쪼개달라고 시켜서 얻은)

claim은 여러 단어로 이뤄져 있을 것이다. 주요 단어를 여기서 추출한다

부록에 있는 내용 (factscore 따른듯)
“주어진 사실 ‘fact’를 기반으로, 원문 문장 ‘sent’에서 이 사실을 도출하는 데 도움을 주는 해당 단어를 식별하세요. 관련된 모든 단어를 원문 문장에 나오는 순서대로 나열하고, 각 단어는 쉼표로 구분합니다.”
“Given the fact “fact”, identify the corresponding words in the original sentence “sent” that help derive this fact. Please list all words that are related to the fact, in the order they appear in the original sentence, each word separated by comma.”

각 단어에 대해 CCP_word 값을 먼저 계산한다
그리고 이를 곱하여 claim 단위값을 계산하여 CCP을 구한다.
아래 요약한걸 보면 좀더 이해하기 쉽다. 근데 느끼기엔 샘플링과 logit을 동시에 적절히 활용하는 느낌이다.
근데 top-k 샘플링이 흠.. 직관적으로 큰 의미가 있을까? 하는 느낌도 들긴함

GPT가 요약해준 과정

-------------------

CCP (Claim Conditioned Probability)는 특정 텍스트의 **주장(Claim)**이 얼마나 신뢰할 수 있는지를 측정하는 불확실성 정량화 방법입니다. CCP는 텍스트 생성 과정에서 발생하는 다양한 불확실성(예: 표면 형태의 다양성, 주장 유형의 선택 등)을 무시하고, 주장 자체의 신뢰성에만 초점을 맞춥니다. 다음은 CCP를 계산하는 과정을 간단히 정리하고 예를 들어 설명하겠습니다.

CCP 계산 과정 요약

대안 단어 생성 (Top-K Alternatives)
- 특정 단어(토큰) $x_j$ 에 대해, 모델이 생성 가능한 상위 $K$ 개의 대안 단어 $\{x_j^1, x_j^2, ..., x_j^K\}$ 를 수집합니다.
- 여기서 $x_j^1$ 은 원래 모델이 생성한 단어이고, 나머지는 모델이 선택 가능했던 대안들입니다.
NLI 모델 적용 (자연어 추론)
- $x_j^1$ 과 $x_j^k$ ( $k = 2, ..., K$ )를 비교하여, 대안 단어가 원래 단어와 같은 의미를 가지는지(NLI 결과: ‘entail’), 다른 의미를 가지는지(‘contradict’), 혹은 중립적 관계인지(‘neutral’)를 판단합니다.
CCP 계산
- 같은 의미(‘entail’)를 가지는 대안 단어들의 확률 합을 분자로,
- 같은 주장 유형(‘entail’ 또는 ‘contradict’)을 가지는 모든 대안 단어들의 확률 합을 분모로 사용하여 CCP를 계산합니다.
- 공식: $CCP_{word}(x_j) = \frac{\sum_{k: NLI(x_j^k, x_j^1) = \text{‘entail’}} P(x_j^k | x_{<j})}{\sum_{k: NLI(x_j^k, x_j^1) \in \{\text{‘entail’, ‘contradict’}\}} P(x_j^k | x_{<j})}.$
주장 수준 CCP 계산
- 하나의 주장 $C$ 에 포함된 모든 단어 $x_j$ 의 CCP를 곱하여 주장 수준의 CCP를 계산합니다.
- 공식: $CCP_{claim}(C) = 1 - \prod_{j \in C} CCP_{word}(x_j).$

예시

상황:

GPT 모델이 다음 문장을 생성했다고 가정합니다:
"Van Gogh graduated in 1880 with a degree in painting."

이 문장에서 **"Van Gogh graduated in 1880"**라는 주장에 대해 CCP를 계산한다고 가정해 봅시다.

대안 단어 생성
- "1880"이라는 단어 $x_j$ 에 대해 GPT 모델이 다음과 같은 상위 5개의 대안 단어를 생성했다고 가정합니다: (여기서 후보 단어는 top-k logit에 해당하는 토큰을 의미)
  - $x_j^1 = \text{"1880"}$ (원래 생성된 단어)
  - $x_j^2 = \text{"1879"}$
  - $x_j^3 = \text{"1881"}$
  - $x_j^4 = \text{"1890"}$
  - $x_j^5 = \text{"1870"}$
NLI 모델 적용
- 각 대안 단어를 원래 문장에 넣어 비교합니다:
  - $x_j^1 = \text{"1880"}$ : ‘entail’ (원래 문장과 동일)
  - $x_j^2 = \text{"1879"}$ : ‘contradict’ (다른 연도)
  - $x_j^3 = \text{"1881"}$ : ‘contradict’
  - $x_j^4 = \text{"1890"}$ : ‘contradict’
  - $x_j^5 = \text{"1870"}$ : ‘contradict’
CCP 계산
- 각 단어의 확률을 모델이 제공했다고 가정합니다:
  - $P(x_j^1 | x_{<j}) = 0.5$
  - $P(x_j^2 | x_{<j}) = 0.2$
  - $P(x_j^3 | x_{<j}) = 0.1$
  - $P(x_j^4 | x_{<j}) = 0.1$
  - $P(x_j^5 | x_{<j}) = 0.1$
- CCP 계산:
  $CCP_{word}(\text{"1880"}) = \frac{P(x_j^1 | x_{<j})}{P(x_j^1 | x_{<j}) + P(x_j^2 | x_{<j}) + P(x_j^3 | x_{<j}) + P(x_j^4 | x_{<j}) + P(x_j^5 | x_{<j})}$ $CCP_{word}(\text{"1880"}) = \frac{0.5}{0.5 + 0.2 + 0.1 + 0.1 + 0.1} = \frac{0.5}{1.0} = 0.5.$
주장 수준 CCP
- "Van Gogh graduated in 1880"라는 주장에 포함된 모든 단어의 CCP를 곱합니다.
- 예를 들어, 모든 단어의 CCP가 0.5라고 가정하면: $CCP_{claim} = 1 - (0.5 \times 0.5 \times 0.5) = 1 - 0.125 = 0.875.$

결과:

이 주장에 대한 CCP는 0.875로 계산됩니다. 이는 "Van Gogh graduated in 1880"이라는 주장이 상당히 신뢰할 수 있음을 나타냅니다.
CCP_claim이 크다는 것은, ccp_word 곱이 작다는 것이고, 각 ccp_word가 작다는 것.

그러려면 entailment에 해당하는 확률값의 합이 작다는 것. 그렇다는 것 해당 토큰에서 entailment(같은 토픽)에 해당하는 다른 토큰의 확률이 작다는 것.
그러면 모델입장에서 기존 생성된 토큰과 헷갈릴만한 다른 토큰이 없다는 것?

CCP는 모델이 특정 단어(또는 주장)를 생성할 때 얼마나 신뢰할 수 있는지를 확률적으로 평가합니다.
NLI를 사용해 대안 단어와 원래 단어의 관계를 비교하며, 같은 의미를 가진 단어들만을 기반으로 계산합니다.
주장 전체에 대해 CCP를 곱셈 방식으로 집계해 주장 수준의 신뢰도를 평가합니다.

CCP는 기본적으로 claim에 대한 신뢰도를 평가하는 개념이다

claim은 여러 단어로 이뤄져있기 때문에 단어단위로 먼저 계산후 합쳐서 전체 점수를 만드는 것이다

따라서 단어단위 점수를 식 5처럼 정의를 한다.

식5의 의미는, 특정 단어의 의미와 그 단어가 속하는 주장 유형이 같은 얼마나 신뢰할 수 있는지 보는 것이다

식 5을 풀어가면 식6처럼 되는데 이게 위 예시처럼 계산되는 것이다

-------------------

평가할때는 사람이 레이블링한 데이터를 소량 모아서 평가하기도 하는데, 이거는 데이터가 매우 적은편이다
따라서 factscore을 정답으로 간주하고 평가를 확장하기도 한다.

추가적으로 사람 레이블링 데이터에 대해 CCP와 factscore을 비교했을때 CCP가 괜찮은 성능을 보여준다.
그래서 CCP가 factscore 대안이 될 수 있다고도 주장하는 바이다

Abstract

대형 언어 모델(LLMs)은 잘못된 주장을 생성하는, 즉 "환각(hallucination)"으로 알려진 문제로 악명이 높습니다. 이러한 환각은 생성된 텍스트의 나머지 부분이 대체로 사실에 부합하는 경우, 사실과 다른 내용이 사용자에게 잘 드러나지 않아 위험할 수 있습니다. 현재 LLM을 활용하는 서비스들은 신뢰할 수 없는 출력을 탐지할 수 있는 수단을 제공하지 않는 경우가 많습니다. 우리는 이 격차를 메우기 위해 새로운 접근법을 제안합니다.

특히, 우리는 토큰 수준의 불확실성 정량화(uncertainty quantification)를 기반으로 한 사실 확인 및 환각 탐지 파이프라인을 제안합니다. 불확실성 점수는 신경망의 출력 또는 계층에 내재된 정보를 활용하여 신뢰할 수 없는 예측을 탐지하며, 이를 통해 LLM 출력 내 원자적 주장(atomic claims)을 사실 검증할 수 있음을 보여줍니다. 또한, 우리는 현재 단계에서 어떤 주장을 생성할지와 어떤 표면 형태를 사용할지에 대한 불확실성의 영향을 제거하는 새로운 토큰 수준 불확실성 정량화 방법을 제시합니다.

우리의 방법인 **Claim Conditioned Probability(CCP)**는 모델이 표현하는 특정 주장 값의 불확실성만을 측정합니다. 전기(전기 작성) 생성 작업에서의 실험은 CCP가 7개의 LLM 및 4개의 언어에 대해 기존 기준 방법 대비 강력한 개선 효과를 보인다는 것을 입증합니다. 또한, 인간 평가 결과는 불확실성 정량화를 기반으로 한 사실 확인 파이프라인이 외부 지식을 활용하는 사실 확인 도구와 경쟁할 수 있는 수준임을 보여줍니다.

ref-based와도 비교해보나?

1 Introduction

대규모 언어 모델(LLM)은 다양한 자연어 처리(NLP) 과제를 해결하는 데 있어 보편적이고 다목적 도구로 자리 잡았습니다. 사람들은 정보 검색(Sun et al., 2023b), 의료 관련 질문(Thirunavukarasu et al., 2023), 새로운 콘텐츠 생성(Sun et al., 2023a) 등 여러 작업에 이 모델들을 활용하고 있습니다. 최근에는 사용자들의 행동이 눈에 띄게 변화하여, 기존의 정보 채널을 넘어 LLM을 주된 정보원으로 삼고, 이를 더욱 신뢰하고 의존하는 경향이 두드러지고 있습니다.

그러나 이러한 모델의 확산과 함께 중요한 과제로 떠오른 것은 LLM이 “환각(hallucination)”을 일으키는 경향입니다. 즉, 사실과 다른 내용을 생성하여 잘못된 정보를 담은 출력을 생성하는 문제입니다(Bang et al., 2023; Dale et al., 2023). 이러한 환각은 현대의 LLM이 설계되고 학습되는 방식(Kalai and Vempala, 2023)에서 기인하는 부작용이며, 문제는 텍스트가 겉보기에는 매우 일관되고 설득력 있게 보일 수 있다는 점입니다. 예를 들어, 가상의 인물 전기를 만들어내거나 근거 없는 주장을 사실처럼 단언하는 경우가 빈번히 보고됩니다. 특히, 대다수의 문장이 사실에 부합하더라도 일부의 거짓 주장이 가려질 수 있어 사람이 이를 식별하기가 매우 어렵습니다.

LLM의 환각을 완전히 제거하기가 쉽지 않은 상황에서, 이러한 시스템을 사용하는 사람들은 텍스트 내에 잠재적으로 문제가 될 수 있는 부분을 하이라이트하여 경고를 받을 수 있다면 유용할 것입니다. 이를 해결하기 위한 한 가지 연구 분야로 팩트체크가 있습니다.

Ref-based 방법

보통 팩트체크는 외부 지식 소스를 활용하는 복잡한 시스템(Guo et al., 2022; Nakov et al., 2021; Wadden et al., 2020)을 통해 이루어집니다.
하지만 이러한 방식은 외부 지식의 불완전성 문제와, 지식을 저장하고 검색하기 위한 상당한 오버헤드를 야기할 수 있습니다.

Ref-free 방법

우리는 생성된 텍스트가 환각인지 여부에 관한 정보가 모델의 출력 자체에 이미 내재되어 있으며, 이를 불확실성 정량화(UQ, uncertainty quantification)를 통해 추출할 수 있다고 주장합니다(Gal et al., 2016; Kotelevskii et al., 2022; Vazhentsev et al., 2022, 2023a).
이렇게 하면, 추가적인 자원에 의존하거나 복잡하고 비용이 큰 팩트체크 시스템을 구현하지 않아도 됩니다.

기존 연구에서는 주로 전체 문장 단위의 불확실성 정량화에 중점을 두어, 기계 번역(Malinin and Gales, 2020), 질문 응답(Kuhn et al., 2023), 텍스트 요약(van der Poel et al., 2022) 등 제한된 과제에 대해 연구해 왔습니다. 그러나 생성된 텍스트 중 특정 부분에 대해서만 불확실성을 산출해야 하는 경우에는 문제가 훨씬 복잡해집니다.

여기서는 ref-free로 하면서도, 응답이 단순히 환각인지 판별하는걸 넘어서, 환각의심의 특정 부분을 알아내는 것 같음

이에 우리는 토큰 단위의 불확실성 점수를 활용하고, 이를 다시 주장(claim) 단위로 모으는 방식으로 접근합니다. 또한, 새롭게 “주장-조건화 확률(CCP, claim-conditioned probability)”이라는 토큰 단위 불확실성 점수를 제안합니다. 이 점수는 7종의 LLM과 4개 언어에 걸쳐 여러 베이스라인 대비 확고한 성능 향상을 보여줍니다.

우리가 아는 한, LLM 생성에서 주장 수준(claim-level)의 불확실성 정량화(UQ) 기술의 품질을 조사한 이전 연구는 없습니다. 이를 위해, 우리는 다양한 LLM을 사용하여 생성된 개인 전기에 대한 사실 검증을 기반으로 한 새로운 벤치마크를 구축했습니다.

LLM은 기계 번역이나 질문 응답 같은 작업에 비해 출력의 변동성이 더 크기 때문에, 각기 다른 LLM은 서로 다른 출력을 생성합니다. 따라서, 우리는 예측 결과와 불확실성 점수를 자동 외부 사실 검증 시스템인 FactScore(Min et al., 2023)의 결과와 비교합니다. 인간 평가를 통해, FactScore를 기반으로 구축된 우리의 벤치마크가 불확실성 점수의 성능을 적절히 평가할 수 있음을 확인했습니다.

우리의 주요 기여는 다음과 같습니다:

LLM 생성물의 사실 검증을 위한 새로운 프레임워크 제안
우리는 토큰 수준 불확실성 정량화를 활용하여 LLM의 생성물을 사실 검증하는 새로운 프레임워크를 제안합니다. 또한, 화이트박스(white-box) 모델에서 생성된 원자적 주장(atomic claims)의 불확실성을 효율적으로 추정하고, 이를 원래 응답으로 매핑하여 잠재적으로 잘못된 부분을 강조하는 절차를 제공합니다.
새로운 토큰 수준 불확실성 정량화 방법 제안
기존의 기준 방법보다 우수한 성능을 보이는 새로운 토큰 수준 불확실성 정량화 방법을 제안하며, 이를 사실 검증 프레임워크에서 플러그인으로 사용할 수 있습니다.
화이트박스 LLM을 위한 평가 접근법 설계
우리는 사실 검증을 기반으로 화이트박스 LLM에 대한 토큰 수준 UQ 방법을 평가하는 새로운 접근법을 설계하였으며, 이는 다른 화이트박스 LLM에도 적용할 수 있습니다.
방법에 대한 실증적 분석 및 소거 분석(ablation analysis)
우리는 LLM 생성물의 사실 검증을 위한 방법에 대해 실증적 분석과 소거 분석을 수행했으며, 우리가 생성한 불확실성 점수가 7개의 LLM과 4개의 언어(영어, 중국어, 아랍어, 러시아어)에서 사실 오류가 있는 주장을 식별하는 데 도움이 된다는 것을 발견했습니다.
LM-Polygraph 라이브러리로 구현
이 방법은 LM-Polygraph 라이브러리(Fadeeva et al., 2023)의 일부로 구현되었습니다. 모든 실험 코드와 데이터는 공개적으로 이용할 수 있습니다.

2 Related Work

2.1 Fact-Checking LLM Generations and Detecting Hallucinations

환각(hallucination) 문제는 LLM 출력의 사실 검증(fact-checking)을 연구 커뮤니티의 주요 주제로 만들었으며, 이와 관련된 연구 논문이 급증하고 있습니다.

Chern et al.(2023)은 Factool이라는 작업 및 도메인에 구애받지 않는 환각 탐지 프레임워크를 제안했으며, 이는 GPT를 활용하여 주장(claim)을 추출하고 검증합니다.
Manakul et al.(2023)은 블랙박스 LLM의 여러 출력을 샘플링하고, 샘플링된 응답 간 유사성을 외부 모델을 사용해 평가하는 방법을 제안했습니다.
Varshney et al.(2023)은 LLM 환각을 탐지하기 위해 출력의 핵심 부분을 외부 모델로 추출하고, 로짓(logits)에 기반한 불확실성을 추정합니다. 가장 불확실성이 높은 부분은 외부 지식 소스를 통해 검증됩니다.
Pan et al.(2023)은 복잡한 문장을 간단한 하위 작업으로 분해하고, 이를 검증하기 위한 추론 프로그램을 생성하여 사실 검증을 수행하는 방식을 제안했습니다.
Min et al.(2023)은 LLM이 생성한 긴 텍스트를 단순한 원자적 문장으로 분해한 후, 이를 특정 지식 소스와 대조하여 검증하는 방법론을 제시했습니다.
Wang et al.(2024a, 2024b)는 이후 연구에서 지식 기반 사실 검증 파이프라인의 구성 요소를 최적화하는 여러 방법을 추가로 제안했습니다.

우리의 접근법 차별성

이전 연구들은 주로 외부 지식 소스(데이터베이스나 다른 LLM)를 활용한 사실 검증에 초점을 맞췄지만, 우리의 연구는 LLM 및 그 출력만을 사용하여 토큰 수준의 불확실성 정량화(UQ) 방법을 조사한 최초의 연구입니다.

2.2 Uncertainty Quantification of LLM Generations

LLM 생성에 대한 불확실성 정량화(UQ) 기술은 크게 다섯 가지 주요 범주로 분류할 수 있습니다(Fadeeva et al., 2023).

정보 기반 방법 (Information-based methods)
이 방법은 생성된 토큰의 확률 분포를 활용하며, 추가 모델이 필요하지 않은 경우가 많습니다. 이 범주에는 Perplexity(Fomicheva et al., 2020), 평균 토큰 엔트로피(Fomicheva et al., 2020), 점별 상호정보량(PMI)(Takayama and Arase, 2019), 조건부 PMI(van der Poel et al., 2022)와 같은 방법들이 포함됩니다.
잠재 인스턴스 표현의 밀도 추정 기반 방법
이 범주의 대표적인 예는 Mahalanobis 거리(Lee et al., 2018)와 이를 수정한 다양한 변형들(Ren et al., 2023; Vazhentsev et al., 2023b)입니다. 그러나 이러한 방법은 외부 밀도 모델을 학습시키기 위해 LLM 훈련 데이터에 접근해야 하며, 이는 대부분의 범용 LLM에 적용하기 어렵다는 단점이 있습니다.
앙상블 및 몬테카를로 드롭아웃(Monte Carlo dropout) 방법
이러한 방법은 단일 쿼리에 대해 하나 또는 여러 버전의 LLM에서 샘플링된 여러 출력의 어휘 다양성에 기반합니다(Malinin and Gales, 2020; Fomicheva et al., 2020). 하지만, 이러한 방법은 다수의 예측이 필요해 계산 및 메모리 비용이 크며, 실용적으로 사용하기 어렵다는 단점이 있습니다. 또한, 샘플 간 큰 차이가 발생할 수 있어 주장과 같은 텍스트 조각의 불확실성을 정량화하기 어렵습니다.
LLM의 자기 반성적(confidence estimation) 방법
최근 연구에서는 LLM이 스스로 생성 결과의 진실성을 평가할 수 있음이 밝혀졌습니다(Kadavath et al., 2022). 이는 원래 예측에 대한 확률 분포를 분석하는 것보다 나을 수 있지만, 원래 출력을 쿼리의 일부로 다시 입력하여 두 번째 추론 과정을 거쳐야 한다는 점에서 단점이 있습니다.
생성된 의미의 다양성을 활용하는 방법
이 그룹에는 의미 엔트로피(semantic entropy)(Kuhn et al., 2023)와 출력 간의 유사성 행렬을 분석하여 점수를 계산하는 방법(Lin et al., 2023)이 포함됩니다.

UQ 방법의 접근성 분류

UQ 방법은 LLM 자체와 출력에 대한 접근 권한 여부에 따라 화이트박스(white-box)와 블랙박스(black-box) 접근법으로 분류될 수 있습니다(Lin et al., 2023). 블랙박스 기술은 생성된 텍스트 외에 다른 입력이 필요하지 않습니다.

본 연구의 방법

우리의 방법은 정보 기반 방법에 속하며, 생성된 토큰의 확률 분포에 접근해야 하므로 화이트박스 LLM에만 적용할 수 있습니다. 이 방법은 확률 분포를 사후 처리(post-processing)하는 새로운 접근법을 제공하며, 특히 원자적 주장(atomic claims) 및 개별 단어와 같은 출력 조각의 불확실성을 정량화하도록 설계되었습니다.

3 Fact-Checking Pipeline

사실 검증 파이프라인(그림 4 참조)은 생성된 텍스트를 원자적 주장(atomic claims)으로 분리하는 것으로 시작됩니다. 이를 위해, 해당 작업에 특화된 소형 모델을 파인튜닝하여 사용할 수 있습니다.

본 연구에서는 실험적 평가를 위해 OpenAI Chat API를 활용한 FactScore 접근법(Min et al., 2023)을 따랐습니다.

이 논문에서 factscore 접근법을 따라서, fact-checking 을 하는데, 아래와 같은 순서를 따른다고 한다.

위 그림보면, 대략적인 흐름은 알겠으나 자세한건 좀더 살펴봐야하긴함

각 원자적 주장은 원래 텍스트의 토큰 시퀀스 및 해당 확률 분포와 매칭됩니다.
그런 다음, 토큰 수준의 불확실성 점수를 계산하고 이를 집계하여 주장 수준의 불확실성을 산출합니다.
마지막으로, 주장 수준의 불확실성 점수는 검증 세트에서 얻은 임계값과 비교되며, 이 점수를 바탕으로 최종 사용자에게 신뢰할 수 없는 주장으로 강조 표시할지 여부를 결정합니다.

토큰 중복 처리:

개별 토큰이 여러 원자적 주장에 속할 수 있습니다. 만약 특정 토큰이 신뢰할 수 있는 주장과 신뢰할 수 없는 주장에 동시에 속하는 경우, 해당 토큰은 강조 표시되지 않습니다.

시각화 예시:

시각화된 예시는 그림 1에 제시되어 있으며, 이를 통해 사용자에게 어떤 주장이 신뢰할 수 없다고 판단되었는지 명확하게 전달할 수 있습니다.

4 Uncertainty Quantification

이 섹션에서는 먼저 토큰 수준에서 사용할 수 있는 일반적인 불확실성 정량화(UQ) 방법에 대한 배경을 제공한 뒤, 우리의 Claim-Conditioned Probability(CCP) 토큰 수준 방법을 상세히 설명하고, 마지막으로 토큰 수준 불확실성을 주장 수준 점수로 집계하는 방식을 설명합니다.

자기회귀(autoregressive) 언어 모델은 텍스트를 토큰 단위로 생성합니다. 본 연구에서는 단어 수준에서 작업을 수행하며, 일반성을 잃지 않고, 각 단계에서 자기회귀 분포가 Xj ∼ P(· | x<j)로 랜덤 단어를 생성한다고 가정합니다.

여기서 x<j는 위치 j의 단어 이전에 생성된 텍스트를 나타냅니다. 또한, 위치 j에서 생성된 단어를 xj, 위치 1부터 j까지의 단어로 구성된 텍스트를 x1:j = x<j ◦ xj로 나타냅니다.

예를 들어, 탐욕적(greedy) 생성의 경우, xj = arg max_x P(x | x<j)로 나타나며, 이는 Xj의 가장 확률이 높은 실현값(realization)인 xj를 의미합니다. 또한, 특정 원자적 주장과 관련된 단어의 인덱스 집합을 C로 나타냅니다.

4.1 Claim-Level UQ Baselines

실용적인 UQ(Uncertainty Quantification)이 되기 위해서는 속도가 빨라야 합니다.

따라서, Deep Ensembles(Lakshminarayanan et al., 2017)과 같이 계산 비용이 큰 방법은 고려하지 않았습니다.

주요 UQ 방법

최대 확률(Maximum Probability, MP)
가장 높은 확률의 생성을 신뢰도 점수로 간주하는 기본적인 접근 방식입니다:

atomic claim과 관련된 단어집합에 해당하는 토큰들의 생성확률을 곱한것을 빼주는 방법
Perplexity
LLM의 성능을 평가하는 일반적인 지표로, 낮은 Perplexity는 모델의 확률 분포가 샘플을 더 잘 예측함을 의미합니다. 원자적 주장 $C$ 에 속한 생성된 토큰의 평균 음의 로그 확률로 계산됩니다:

확률이 아닌, log 확률을 더해주는걸로 1번과 큰 차이가 없어보이는데
최대 엔트로피(Maximum Entropy)
주장 내 토큰의 최대 엔트로피를 사용합니다:

C 단어집합의 엔트로피중 가장 큰 엔트로피에 해당하는 것을 활용
여기서 $H(\cdot | x_{<j})$ 는 현재 토큰의 자기회귀 분포의 엔트로피를 나타냅니다.
초기 실험 결과에 따르면, 주장 내 토큰 엔트로피의 최대값을 단순히 사용하는 것이 평균값이나 최소값과 같은 다른 집계 방식보다 눈에 띄게 성능이 우수하며, 일반적으로 Perplexity보다 약간 더 나은 기준선으로 작동합니다.
P(True)
(Kadavath et al., 2022)와 유사하게, 생성된 주장이 사실인지 여부를 LLM에 직접 물어보는 방식으로 주장 불확실성을 측정합니다. 신뢰도는 첫 번째 생성된 토큰 $y_1$ 이 "True"와 동일할 확률로 정의됩니다:
$P(True) = 1 - P(y_1 = "True").$
이 기술이 다른 기준선을 능가한다는 보고가 있긴 하지만, 큰 단점은 원래 LLM을 두 번 실행해야 한다는 점입니다.

4.2 Claim-Conditioned Probability

이 하위 섹션에서는 토큰 및 클레임 수준 불확실성 정량화를 위한 새로운 방법을 제안합니다.

4.2.1 Motivation and Theoretical Background

LLM이 출력을 생성할 때, 현재 생성 단계의 토큰 분포에 반영된 다양한 유형의 불확실성에 직면합니다(예는 그림 5 참조).

우리는 세 가지 유형의 불확실성을 식별했습니다:

주장 유형/순서 불확실성 (Claim type/order uncertainty):
현재 단계에서 어떤 주장을 생성해야 할지에 대한 불확실성입니다. 예를 들어, LLM이 특정 단계에서 사람의 졸업 연도를 생성할지 전공 분야를 생성할지 망설일 수 있습니다. 주장 순서가 다르거나 주장이 생략되거나 생성된 주장 유형이 다르더라도, 생성된 텍스트가 덜 사실적이 되는 것은 아닙니다. 따라서, 사실 검증을 수행할 때 이 유형의 불확실성은 고려하지 않아야 합니다.
표면 형태 불확실성 (Surface form uncertainty):
주장을 생성할 때 어떤 동의어나 상위어를 사용할지에 대한 불확실성입니다(예: "art"와 "painting"). 서로 다른 표면 형태는 텍스트를 덜 사실적으로 만들지는 않습니다. 이는 텍스트의 스타일을 바꿀 수는 있지만, 텍스트의 근본적인 의미에는 영향을 주지 않습니다. 따라서, 이 유형의 불확실성 역시 사실 검증에는 관련이 없습니다.

주장 불확실성(Claim uncertainty):
특정 주장 유형에 대해 어떤 구체적인 정보를 전달할지에 대한 불확실성입니다. 예를 들어, LLM이 어떤 전공 분야를 생성해야 할지 확신하지 못할 경우, "painting", "acting", "sculpture"와 같은 여러 높은 확률의 변형을 포함하는 토큰 분포를 생성할 수 있습니다. 마찬가지로, 졸업 연도에 대해서도 여러 잠재적인 연도를 포함하는 분포를 생성할 수 있습니다. 이러한 불확실성은 모델이 전달하는 정보에 대해 확신하지 못하는 경우 사실적 오류의 가능성이 높아질 수 있으므로, 사실 검증에 있어 중요합니다.

세 가지 불확실성 유형 중 두 가지(주장 유형/순서 불확실성, 표면 형태 불확실성)는 사실 검증에 관련이 없으며, 최종 점수에 잡음을 도입할 뿐입니다. 따라서, 우리는 첫 번째와 두 번째 유형의 불확실성을 무시하고, 세 번째 유형인 주장 불확실성에만 초점을 맞춘 새로운 UQ 방법인 **Claim-Conditioned Probability(CCP)**를 제안합니다.

즉 여기서는 fact-check에 영향을 미치는 불확실성에 대한 점수를 계산하고 싶은 것이고, 이는 claim과 관련된 불확실성이라고 보는 것이다

CCP 정의

여기서,

$\text{ClaimType}(x_{1:j})$ : 생성된 시퀀스 $x_{1:j}$ 의 주장 유형을 나타냅니다.
$\text{Meaning}(x_{1:j})$ : 문장의 이전 단어 $x_{<j}$ 를 고려했을 때 $x_j$ 의 의미를 나타내는 함수입니다. 이를 통해 서로 다른 표면 형태를 가진 $x_j$ 의 유사한 의미가 단일 범주형 변수로 매핑됩니다.

조건부 확률의 재작성

조건부 확률은 비조건부 확률로 재작성할 수 있습니다:

단어 분포의 각 의미는 단일 주장 유형에만 해당한다고 가정하면, 결합 확률은 의미 확률과 동일합니다:

P(\text{Meaning}(x_{1:j}), \text{ClaimType}(x_{1:j}) | x_{<j}) = P(\text{Meaning}(x_{1:j}) | x_{<j}).

의미 확률은 동일한 의미를 가지는 단어 대안 $x_j^k$ 의 확률 합으로 계산됩니다:

P(\text{Meaning}(x_{1:j}) | x_{<j}) = \sum_{x_j^k \in M(x_j)} P(x_j^k | x_{<j}),

여기서 $x_j^k \in M(x_j)$ 는 $\text{Meaning}(x_{1:j}) = \text{Meaning}(x_{<j} \circ x_j^k)$ 를 만족하는 경우를 나타냅니다.

주장 유형의 확률은 특정 주장 유형에 해당하는 단어의 확률 합으로 계산됩니다:

P(\text{ClaimType}(x_{1:j})) = \sum_{x_j^l \in CT(x_j)} P(x_j^l | x_{<j}),

여기서 $x_j^l \in CT(x_j)$ 는 $\text{ClaimType}(x_{1:j}) = \text{ClaimType}(x_{<j} \circ x_j^l)$ 를 만족하는 경우를 나타냅니다.

CCP의 최종 형태

여기서 M은 xj와 같은 의미를 가지는 집합을 의미하고 CT는 같은 주장유형에 해당하는 단어들의 집합을 의미함
따라서 M은 NLI가 entail인 결과, CT는 entail 혹은 contradict 모두를 의미 (neutral은 제외하는데 WHY? 왜 같은 주장유형이 아닌거지)

의미 함수 및 특정 주장 유형에 속하는 단어 집합의 생성 방법은 다양한 방식으로 구현될 수 있으며, 이에 대한 우리의 접근법은 섹션 4.2.2에서 자세히 설명합니다.

기존 UQ 방법과의 비교

기존 UQ 방법은 위에서 설명한 불확실성 유형 중 일부를 부분적으로 고려했습니다. 예를 들어, Semantic Entropy(Kuhn et al., 2023)는 의미적으로 동등한 그룹 내의 불확실성을 고려함으로써 표면 형태 불확실성을 완화할 수 있었습니다. 그러나 우리의 방법은 추가적으로 주장 유형 불확실성의 영향을 제거하여 더 정밀한 분석을 제공합니다.

4.2.2 Implementation

우리는 CCP를 단어 수준에서 **자연어 추론(NLI)**을 사용하여 구현합니다. 여기서 원래 주장을 기준으로, 대상 단어를 자기회귀 분포에서 가져온 대안 단어로 대체한 주장을 비교합니다.

구현 과정

분포 근사화
위치 $j$ 에서의 분포 $X_j$ 는 상위 $K$ 개의 대안 $\{x_j^k\}_{k=1}^K$ 로 근사되며, 여기서 $x_j^1 ≡ x_j$ 입니다. 우리는 $x_j$ 를 대안 $x_j^k$ 로 대체하고, 새로운 인스턴스 $x_{<j} \circ x_j^k$ ( $k = 1, \ldots, K$ )를 생성합니다.
NLI 모델 적용
각 새로운 인스턴스를 원래 예측 $x_{1:j} = x_{<j} \circ x_j$ 과 비교하기 위해 NLI 모델을 적용합니다. 이를 $NLI(x_j^k, x_j) := NLI(x_{<j} \circ x_j^k, x_{1:j})$ 로 정의합니다.
NLI 절차의 결과는 세 가지 레이블 중 하나입니다:
- entail (‘e’): 포함
- contradict (‘c’): 모순
- neutral (‘n’): 중립
의미와 주장 유형의 관계 정의
- 새로운 인스턴스가 원래 예측을 포함하는 경우 ( $NLI(x_j^k, x_j) = 'e'$ ):
  $x_{<j} \circ x_j^k$ 는 $x_{1:j}$ 과 동일한 의미를 가지며 ( $x_j^k \in M(x_j)$ ), 동일한 주장 유형에 해당합니다 ( $x_j^k \in CT(x_j)$ ).
- 새로운 인스턴스가 원래 예측과 모순되는 경우 ( $NLI(x_j^k, x_j) = 'c'$ ):
  $x_{<j} \circ x_j^k$ 는 $x_{1:j}$ 과 다른 의미를 가지지만 ( $x_j^k \notin M(x_j)$ ), 동일한 주장 유형에 해당합니다 ( $x_j^k \in CT(x_j)$ ).
- 새로운 인스턴스가 원래 예측에 대해 중립적인 경우 ( $NLI(x_j^k, x_j) = 'n'$ ):
  $x_{<j} \circ x_j^k$ 는 $x_{1:j}$ 와 동일한 주장 유형에 해당하지 않습니다 ( $x_j^k \notin CT(x_j)$ ).
CCP 계산
위 관계를 바탕으로 CCP를 다음과 같이 정의할 수 있습니다:
기능 단어 처리
실용적인 관점에서, 기능 단어(function words)에 대한 CCP는 항상 1로 간주합니다. 실험에서는 NLTK(Bird and Loper, 2004)의 중지어(stop word) 목록을 기반으로 이 결정을 내립니다.
단어 대신 서브워드 토큰 사용
대부분의 Transformer 기반 LLM은 단어 대신 서브워드 토큰을 생성합니다. 이를 해결하기 위해, 우리는 **빔 서치(beam search)**를 사용하여 $K$ 개의 빔으로 하나 이상의 토큰을 생성하여 전체 단어의 분포를 얻습니다.
주장 수준 CCP 계산
주장 $C$ 에 속하는 각 단어의 CCP 곱을 통해 주장 수준 CCP 기반 불확실성을 계산합니다:

예시

CCP 계산의 예는 그림 2에 제시되어 있으며, 추가적인 세부 예시는 부록 B에 제공됩니다.

5 Benchmark for Evaluation of Claim-Level UQ Methods

우리는 전기(biography) 생성 작업에서 주장 수준의 UQ(Uncertainty Quantification) 기술과 환각(hallucination)을 탐지하는 능력을 평가합니다. 관련된 이전 연구(Manakul et al., 2023)에서는 GPT-3을 사용해 전기를 생성하고, 문장을 수작업으로 사실성을 주석하며, 다른 "프록시(proxy)" 모델의 불확실성을 정량화했습니다. 그런 다음 사실성 레이블을 사용하여 불확실성 점수의 품질을 평가했습니다. 그러나 이러한 프록시 모델 기반 접근법은 생성된 텍스트와 프록시 LLM이 실제로 생성하려는 것 사이에 큰 차이를 유발하여, UQ 평가 결과에 편향을 초래한다고 주장합니다.

우리의 접근 방식

실제 시나리오와 최대한 가깝게 평가하기 위해, 우리는 LLM에서 전기를 제한 없이 생성하도록 허용합니다. 그러나 이러한 제한 없는 생성은 사실 검증 파이프라인의 자동 평가를 복잡하게 만드는데, 이는 각 모델의 모든 출력을 수작업으로 주석 처리해야 하기 때문입니다. 따라서, 수작업 주석 외에도, 우리는 FactScore(Min et al., 2023)를 사용해 생성된 텍스트의 주장을 자동으로 주석 처리합니다. FactScore는 외부 지식 소스에 접근할 수 있는 사실 검증 도구입니다. FactScore를 사용하면 완전한 자동 평가가 가능하며, 실험의 확장성을 높일 수 있습니다.

사람 주석을 달기도 했지만, 이는 제한적인 숫자니까?
더 많은 데이터 평가로 확장할때는 factscore을 정답으로간주하여 평가한듯

실험 설정

우리는 영어, 중국어, 아랍어, 러시아어로 된 100개의 전기 프롬프트에 대해 LLM 응답을 생성합니다.
전형적인 전기 프롬프트는 다음과 같습니다:
"Give me a biography for in different languages."
- GPT-4를 사용해 1900년 이후 가장 유명한 사람들의 목록을 생성했습니다.
- 최대 생성 길이는 256 토큰으로 설정했습니다.
- 생성된 텍스트의 마지막 문장이 미완성된 경우(즉, 문장부호로 끝나지 않는 경우), 이를 삭제했습니다.

사용된 LLM

영어: Vicuna 13b (Zheng et al., 2023), Mistral 7b (Jiang et al., 2023), Jais 13b (Sengupta et al., 2023), GPT-3.5-turbo (Ouyang et al., 2022)
중국어: Yi 6b (Young et al., 2024)
아랍어: Jais 13b, GPT-4
러시아어: Vikhr-instruct-0.2 7b (Nikolich et al., 2024)

평가 방법

주장 분해: GPT-4를 사용해 생성된 텍스트를 원자적 주장으로 분해했습니다.
각 주장에 포함된 모든 단어를 생성된 텍스트로 다시 매핑하여 해당 토큰의 로짓에 접근했습니다.
모든 주장이 원래 응답에 완벽히 매칭되지는 않습니다. 예를 들어, Vicuna 13b의 경우 약 5%의 주장이 매칭되지 않았는데, 이는 ChatGPT가 응답을 회피하거나 원본에 없는 단어를 출력했기 때문입니다. 우리는 성공적으로 매칭된 주장만을 고려했습니다.
자동 주석:
- 영어에서는 FactScore를 사용해 원자적 주장을 "지원됨(supported)" 또는 "지원되지 않음(not supported)"으로 자동 분류했습니다.
- FactScore는 "retrieval+ChatGPT" 모델을 기반으로 하며, 외부 지식 소스로 Wikipedia 기사를 활용합니다.
수작업 주석:
- 우리는 Vicuna 13b 모델이 생성한 영어 전기에서 100개의 주장, 아랍어 전기에서 183개의 주장, 러시아어 전기에서 146개의 주장, 중국어 전기에서 1603개의 주장을 수작업으로 주석 처리했습니다.
- 각 진술은 두 명의 주석자가 해당 Wikipedia 기사에 접근하여 검토했으며, 두 명의 주석자가 모두 "지원됨"으로 표시한 경우에만 최종 레이블이 "지원됨"으로 설정되었습니다.

결과 데이터셋

영어로 자동 레이블링된 주장 데이터셋의 통계는 **표 6(Table 6)**에, 수작업으로 주석 처리된 데이터셋의 통계는 **표 7(Table 7)**에 제시되어 있습니다.
모델 출력의 대부분의 주장은 정확했으나, 6–29%의 주장이 환각으로 판별되었습니다.
FactScore를 사용한 UQ 방법 평가를 위한 자동 파이프라인의 개요는 **부록 C의 그림 6(Figure 6)**에 나와 있습니다.

6 Experiments

6.1 Experimental Setup

6.1 실험 설정

원자적 주장(atomic claims)의 사실 검증은 이진 분류 작업으로 정의되며, 불확실성 점수가 비사실성(non-factuality)의 예측 변수로 사용되고, FactScore 또는 인간 레이블이 정답(ground truth)으로 사용됩니다. 평가 지표는 ROC-AUC 및 PR-AUC(지원되지 않는 주장들을 긍정 클래스)입니다.

CCP 방법에서는 NLI 점수를 DeBERTa-large 모델(He et al., 2021)을 사용해 계산하며, 이 모델은 해당 작업에 맞게 파인튜닝되었습니다. CCP에서 사용되는 대안 단어의 수는 $K = 10$ 이며, 단, OpenAI API가 토큰 분포에서 5개의 대안만 반환하도록 제한하기 때문에 GPT-3.5-turbo 및 GPT-4의 경우 $K = 5$ 입니다. 하드웨어 및 실험에 사용된 계산 자원에 대한 세부 사항은 부록 F에 설명되어 있습니다.

6.2 Results for English on the FactScore Annotation

FactScore 레이블을 사용한 영어 실험의 주요 결과는 표 1 및 표 2에 제시되어 있습니다.

제안된 CCP 방법은 고려된 각 LLM에 대해 다른 UQ 기술을 능가했으며, 단 하나의 예외는 GPT-3.5-turbo 모델에서 PR-AUC 지표로, 이 경우 P(True) 접근법이 가장 높은 성능을 보였습니다.
GPT-3.5-turbo에서 CCP가 상대적으로 낮은 성능을 보인 이유는 OpenAI API를 통해 접근 가능한 토큰 옵션 및 관련 로짓이 제한적이기 때문으로 추정됩니다.
가장 큰 전반적인 개선은 Jais 13b에서 관찰되었으며, CCP는 가장 가까운 경쟁자를 ROC-AUC 0.07 및 PR-AUC 0.09만큼 능가했습니다.

추가 분석

생성된 텍스트의 처음부터 고려된 문장 수에 따라 ROC-AUC를 플로팅한 결과는 그림 3에 나타나 있습니다.

각 방법의 품질은 고려된 문장 수가 증가함에 따라 감소하는 경향이 있음을 확인했습니다. 이는 모델이 응답을 시작할 때는 비교적 쉽게 알 수 있고 신뢰할 수 있는 주장으로 시작하지만, 더 많은 텍스트를 생성할수록 복잡하고 덜 신뢰할 수 있는 진술을 생성해야 하기 때문일 수 있습니다. 이 현상은 Vicuna 13b 모델의 경우를 부록 그림 8에서 보여줍니다.
대부분의 경우 CCP는 다른 방법을 능가했으나, GPT-3.5-turbo가 생성한 첫 두 문장 및 첫 다섯 문장을 고려할 때는 예외였습니다.

6.3 Multilingual Results on Manual Annotation

수작업 주석을 기반으로 한 다국어 결과는 표 3 및 표 4와 그림 9에 제시되어 있습니다.

영어
수작업 주석을 사용해 FactScore 자체의 성능도 평가할 수 있었습니다. FactScore의 자동 주석 정확도는 77.2%, ROC-AUC는 0.72였습니다. FactScore의 오류에 대한 자세한 분석은 부록 C.3에 제공됩니다.
인간 주석 기반 평가에서는 모든 UQ 방법의 성능이 FactScore로 얻은 레이블 기반 성능보다 약간 더 높게 나타났습니다(표 3).
또한, CCP는 FactScore 자체를 ROC-AUC 0.06만큼 능가했습니다. 이는 LLM 환각을 탐지하는 작업에서 UQ 기술이 외부 지식 소스를 사용하는 사실 검증 도구에 대한 강력한 대안이 될 수 있음을 보여줍니다.
사실 ref-based와 ref-free를 직접적으로 자세히 비교했다고 보기는 어렵지만, CCP가 Factscore을 보완할 수 있다 정도로 기억하면 될듯
중국어, 아랍어, 러시아어
- 중국어 Yi 6b 모델: CCP와 기준선 간의 격차는 특히 초기 몇 가지 주장에서 매우 두드러졌습니다. 더 많은 주장을 고려할수록 CCP는 여전히 Maximum Probability 기준선을 명확히 능가했으나, P(True) 기준선은 격차를 크게 줄였습니다.
- 아랍어 및 Jais: CCP는 가장 가까운 경쟁자를 ROC-AUC 0.05만큼 능가했습니다. 그러나 GPT-4 아랍어 출력의 경우, 모든 방법의 성능 지표가 낮게 나타났습니다. 이는 GPT-4 출력에서 비사실적 주장 비율이 작기 때문으로 설명됩니다.
- 러시아 Vikhr 모델: CCP는 가장 가까운 경쟁자인 Maximum Probability를 ROC-AUC 0.05만큼 확실히 능가했습니다.

6.4 Ablation Studies

6.4 소거 연구(Ablation Studies)

이 섹션에서는 FactScore로 주석 처리된 영어 전기에 대해 CCP 구성 요소가 성능에 미치는 영향을 분석합니다(표 9–12). 각 소거 연구의 실험 설정에 대한 세부 정보는 부록 D에 나와 있습니다.

뭔가 너무 부록에 결과를 많이 넣은듯.

CCPword의 집계 방식(CCPclaim 계산)
확률의 곱(product) 외에도 정규화된 곱(normalized product), 최소값(minimum), 평균값(average probability)을 시도했습니다. 그러나 이러한 접근 방식 모두 확률 곱 방식보다 약간 낮은 성능을 보였습니다(표 9 참조).
NLI 모델
CCP 성능에 특정 NLI 모델이 미치는 영향을 조사했습니다. 표 10에 따르면 CCP의 효과는 사용된 NLI 모델의 복잡성에 크게 의존하지 않습니다. 특히, 매개변수 수가 22M인 상대적으로 작은 모델도 성능 저하 없이 강력한 성능을 유지했습니다.
NLI 컨텍스트
CCP에서 NLI에 필요한 컨텍스트를 분석했습니다(표 11). 기본 CCP에서 단어 이전의 주장을 포함하는 표준 변형 외에도, 컨텍스트 없이 단일 대상 단어만 사용하거나 대상 단어 이전의 전체 문장을 사용하는 실험을 수행했습니다. 모든 변형은 낮은 성능을 보였습니다. 컨텍스트가 없을 경우 ROC-AUC 0.02가 감소했으며, 더 긴 컨텍스트는 0.07 이상의 감소를 초래했습니다.
기능 단어 처리
그림 12에 따르면, CCP에서 기능 단어를 제외하는 것이 성능을 ROC-AUC 0.03만큼 개선하는 데 도움이 되었습니다. 이 접근 방식은 최대 확률(Maximum Probability) 기준선의 성능도 약간 향상시켰으나, 여전히 성능은 낮았습니다.
대안 단어 수 $K$
CCP에서 $K = 5$ 개의 대안 단어를 사용하는 경우 $K = 10$ 에 비해 ROC-AUC 0.02가 감소했습니다. 그림 7은 $K$ 를 더 줄이면 성능이 더욱 낮아지는 것을 보여줍니다. $K$ 를 증가시키면 성능은 $K = 8$ 에서 평탄화됩니다.

6.5 Qualitative Analysis

다양한 세대 및 모델에 대한 불확실성 점수의 정성적 분석 결과, 최대 확률(Maximum Probability) 기준선은 CCP에 비해 훨씬 더 많은 **거짓 양성(False Positive)**을 생성했습니다. 이는 CCP가 일부 유형의 불확실성을 무시하고 주장 불확실성에만 초점을 맞추기 때문입니다.

CCP는 다른 방법이 간과한 거짓 주장(False Claim)을 발견하기도 했습니다. 이는 특정 유형의 불확실성을 무시하면 주장을 표시하는 데 사용되는 임계값을 낮출 수 있기 때문입니다.
CCP와 최대 확률을 비교한 예는 그림 12에 나와 있으며, 추가 예시는 부록 G에 제공됩니다.

6.6 Computational Efficiency

CCP의 계산 효율성을 보여주기 위해, 가장 빠른 UQ 방법인 **Maximum Probability(MP)**와 비교했습니다.

실험은 100개의 전기 데이터셋과 Mistral 7b(Jiang et al., 2023)를 사용해 수행되었습니다.
공정한 비교를 위해, 전기 생성과 각 주장에 대한 불확실성 점수를 계산하는 데 소요된 시간만 측정했으며, 주장 추출 및 매칭에 소요된 시간은 제외했습니다.
실험은 32GB V100 GPU 두 대를 사용하여 수행되었으며, 각 전기는 단일 배치로 처리되었습니다.

결과

MP는 생성 과정에서 별도의 계산 오버헤드를 거의 추가하지 않습니다. 이는 생성된 로짓을 단순히 집계하기 때문입니다.
CCP는 각 토큰 위치에서 10개의 토큰 후보에 대해 NLI 모델을 실행해야 하므로 일부 오버헤드를 추가합니다.
표 5에 따르면, microsoft/deberta-large-mnli 모델(350M 매개변수)을 사용할 경우 MP 대비 런타임이 8% 증가했습니다.
성능이 유사한 cross-encoder/nli-deberta-v3-xsmall 모델(22M 매개변수)을 사용할 경우 계산 오버헤드는 3%로 감소했습니다.

7 Conclusion

우리는 토큰 수준 불확실성 정량화를 기반으로 한 새로운 사실 검증 및 환각 탐지 접근법을 제시했습니다. 인간 평가에 따르면, 이 접근법은 외부 지식 소스를 활용하는 사실 검증 도구인 FactScore와 경쟁할 수 있는 수준이며, LLM 출력만으로도 유사하거나 더 나은 결과를 달성했습니다.

우리는 계산 효율성이 높은 토큰 수준 및 주장 수준의 UQ(Uncertainty Quantification) 방법인 **Claim Conditioned Probability(CCP)**를 제안했으며, 이는 사실 검증에서 여러 기준선을 능가하는 성능을 보였습니다. 이 방법은 단어 분포를 사후 처리하여 표면 형태의 다양성과 현재 단계에서 생성할 주장 유형에 대한 불확실성의 영향을 완화합니다.

우리가 구축한 벤치마크(전기 텍스트에서 환각을 탐지하는 작업)에서, CCP는 GPT-3.5-turbo 및 GPT-4를 포함한 7개의 LLM과 4개의 언어에서 다른 방법들을 능가했습니다. 또한, CCP의 계산 오버헤드가 LLM 추론(runtime)의 3% 수준으로 매우 낮을 수 있음을 보여주었습니다.

Limitations

이 연구는 실험적이고 방법론적으로 최선의 관행에 따라 수행되었지만, 몇 가지 잠재적인 한계가 존재합니다.

텍스트 함의 분류기의 한계
이 접근법의 핵심은 텍스트 함의(entailment) 분류기에 있습니다. 이 분류기는 원래 약간 다른 용도로 사전 학습되었으므로, 다양한 도메인과 장르에서의 성능에 대한 보다 신중한 분석이 필요합니다.
OpenAI GPT 모델 의존성
현재 방법 구현은 FactScore와 유사하게 텍스트 분할 및 원자적 사실 추출을 위해 OpenAI의 GPT 모델을 사용합니다. 이는 실제 응용에서 실용적이지 않을 수 있습니다. 이러한 구성 요소를 더 저렴한 오픈 모델로 대체하는 것은 원칙적으로 가능하지만, 이는 미래 작업으로 남겨둡니다.
인간 평가의 주관성
일부 실험 결과는 주관적일 수 있는 인간 평가에 의존합니다. 평가자의 작업을 돕기 위해 상세한 지침을 제공했지만, 더 큰 겹침(overlap)을 가진 대규모 연구가 결과를 더욱 강화할 수 있을 것입니다.
토큰 기반 분석의 한계
우리의 불확실성 정량화는 토큰을 기반으로 하지만, 명사구(noun phrase)나 동사구(verb phrase)와 같은 더 큰 단위를 기본 분석 단위로 고려하는 것이 언어학적으로 더 적절할 수 있습니다.
CCP 점수의 보정 미고려
본 연구에서는 CCP 점수의 보정을 고려하지 않았습니다. 보정은 우리가 관심을 두고 있는 실질적 작업인 사실 검증에서 성능에 대한 정보를 제공하지 않기 때문입니다. 그러나 CCP는 다른 확률 또는 그 대용값처럼 사후 보정(post-calibration)이 가능할 수 있습니다.
환각 탐지에 국한된 접근법
우리의 접근법은 잠재적으로 잘못된 생성을 탐지하는 데만 초점을 맞춥니다. 향후 연구의 중요한 방향은 LLM의 생성을 수정하여 이러한 불확실한 부분을 제외하면서도 생성 텍스트의 유창성을 유지하는 것입니다. 단순히 불확실한 주장을 제거하는 것은 문장이 일관성을 잃는 결과를 초래할 수 있습니다.

Reference

https://aclanthology.org/2024.findings-acl.558.pdf

NL-244, Fact-Checking the Output of Large Language Models via Token-Level Uncertainty Quantification, Findings of ACL 2024