◼ Comment

할루시네이션 벤치마크에 대한 논문이다.
이 논문에 따르면, 과거에 2개의 벤치마크가 있었고 여기서 추가적으로 hard한 샘플들에 대해 1개의 벤치마크를 공개한 것이다
하드한 샘플이란건, 다양한 할루시네이션 검출 모델로(LLM포함) 할루시네이션인지 아닌지 판단했을때, 결과가 갈리는 경우라는 것이다
테스크는 요약으로, general domain은 아니라는 점
데이터는 아래 처럼 구성되는 듯

먼저 본문이 주어진다
본문을 LLM이 요약한다 (여기서 다양한 LLM을 쓰고, 데이터에 어떤 LLM을 썼는지 태그가 있음)
본문과 요약을 보고 사람이 할루시네이션인지 아닌지 판단을 한다
근데 단순히 본문-요약에 대해 하나의 레이블을 매핑하는게 아니라, 요약도 일부는 할루시네이션이 발생했고 일부는 아닐 수 있을 것이다.
따라서 span을 정하고, 그 span에 대해 레이블링을 한다.
즉 (본문, 요약)에 대해 여러 개의 레이블링이 생기는 형식이다.
레이블 카테고리는 "Unwanted", "Benign", "Questionable"이다. (정확히는 레이블안한건 consistency로 환각이 발생안한것이라 보면 되기 때문에 4개 클래스라 보면 됨)
만약 같은 span에 대해 여러 주석자가 레이블링 했으면, 두명이 토의를 하여 레이블을 맞추고,
여기서 분석할땐 span-level에서 가장 나쁜걸로 레이블을 간주하고 분석한듯

데이터 활용법

일반적으로 (본문, 요약)의 할루시네이션의 여부를 판단할때는 span-level에서 가장 나쁜 레이블로 매핑해서 데이터를 사용하면 될 듯 하고
좀 더 자세히 분석하고 싶으면, (본문, 요약, span)에 대한 span-label을 활용하면 될 듯함

Abstract

요약은 대규모 언어 모델(LLM)이 수행하는 가장 일반적인 작업 중 하나로, Retrieval-Augmented Generation(RAG)과 같은 응용 분야에서 자주 활용됩니다.
그러나 LLM이 생성한 요약에서의 환각(hallucination)에 대한 기존 평가와 환각 탐지 모델에 대한 평가 모두, 고려된 LLM과 LLM 패밀리의 다양성과 최신성이 부족하다는 문제가 있습니다.
이에 본 논문에서는 FaithBench라는 요약 환각 벤치마크를 소개합니다.
FaithBench는 8개의 서로 다른 LLM 패밀리에서 유래된 10개의 최신 LLM이 생성한 도전적인 환각 사례들로 구성되며, 인간 전문가들이 직접 작성한 정답 주석을 포함합니다.
여기서 "도전적"이라는 의미는 GPT4o-as-a-judge를 포함한 최신 환각 탐지 모델들이 해당 요약들에서 상반된 판단을 내린 경우를 지칭합니다.
결과에 따르면 GPT-4o와 GPT-3.5-Turbo가 가장 적은 환각을 생성했습니다.
하지만 FaithBench를 기반으로 한 평가에서 최고의 환각 탐지 모델조차 약 50%의 정확도를 보였으며, 이는 향후 개선 여지가 많음을 시사합니다.

1 Introduction

대규모 언어 모델(LLM)이 텍스트 데이터를 처리하는 데 점점 더 많이 사용됨에 따라, 이러한 모델의 신뢰성을 보장하는 것이 중요한 과제가 되었습니다.
Retrieval-Augmented Generation(RAG)(Lewis et al., 2020)과 같은 응용 분야에서는 LLM이 텍스트 입력으로부터 답변이나 요약을 생성하는 데 사용됩니다.
하지만 생성된 텍스트에 지원되지 않는 정보가 포함되면 이는 환각(hallucination)으로 간주되며, 이는 오해를 일으키거나 해로울 수 있습니다.
LLM에서의 환각 상태를 이해하는 것은 중요하지만 어려운 문제입니다.
Vectara의 Hallucination Leaderboard나 Galileo의 Hallucination Index와 같은 기존의 환각 리더보드는 Google의 TrueTeacher(Gekhman et al., 2023), Vectara의 HHEM-2.1-Open(Bao et al., 2024) 또는 GPT 시리즈 모델을 활용한 제로샷 방식의 LLM-as-a-judge(Luo et al., 2023; Liu et al., 2023) 등 다양한 모델로 환각을 탐지합니다.

실제 할루시네이션 detect 연구하면 위 모델들과 비교해보는게 필요할듯

하지만 이러한 탐지 모델은 AggreFact(Tang et al., 2023)나 RAGTruth(Niu et al., 2024)와 같은 벤치마크에서 80% 미만의 정확도를 보이며, 기존 벤치마크는 다양성이 부족한 오래된 LLM들에 의존하는 경향이 있습니다.

위 2개의 벤치마크들도 할루시네이션관련 벤치마크인듯?

LLM은 훈련 방식, 데이터셋, 아키텍처의 차이, 그리고 모델의 규모 확장에 따라 환각 방식이 달라질 수 있기 때문에, 기존 벤치마크로부터 도출된 결론은 특정 유형의 환각만을 포착해 불완전합니다.
이를 해결하기 위해, 다양한 모델 패밀리를 포함한 최신 LLM과 신뢰할 수 있는 평가를 위한 인간 주석 기반의 환각 벤치마크가 필요합니다.
본 논문에서는 FaithBench라는 요약 환각 벤치마크를 제시합니다.
FaithBench는 커뮤니티에서 널리 사용되는 Vectara의 Hallucination Leaderboard를 기반으로 구축되었으며, 수십 개의 최신 LLM이 생성한 요약을 포함합니다.

여기에 개별 텍스트 스팬 수준에서 정당화를 포함한 인간 주석을 추가했습니다.
특히 환각 탐지기 간 의견 불일치가 가장 많은 도전적인 샘플에 주석을 집중하여, 명백한 환각은 자동으로 신뢰성 있게 탐지하도록 했습니다.
FaithBench의 주석자는 대부분 환각 탐지 분야의 전문가로, 이들 중 절반은 주요 NLP 학회에서 환각 관련 논문을 발표한 경력을 보유하고 있습니다.
열심히 만든듯?ㅋㅋ

FaithBench는 LLM의 환각 발생률과 환각 탐지 모델의 정확도를 평가할 수 있는 도구를 제공합니다.
우리가 아는 한, FaithBench는 10개의 LLM과 8개의 LLM 패밀리를 인간이 주석한 정답 데이터를 사용하여 환각을 평가한 최초의 사례입니다.

GPT-4o가 가장 낮은 환각 발생률을 기록했으며, 그 뒤를 GPT-3.5-Turbo, Gemini-1.5-Flash, Llama-3-70B가 따랐습니다.
일반적으로 성능이 높으면 환각도 적게 발생하는것 같긴함

모든 환각 탐지기는 인간 주석 데이터와의 상관관계가 낮았으며, 최고 성능의 F1-매크로 점수와 균형 정확도는 각각 55%와 58%에 불과했습니다.

이는 환각에 대한 우리의 제한된 이해와 앞으로 해결해야 할 과제를 보여줍니다.
FaithBench는 LLM에서의 환각 탐지 및 완화 연구를 촉진하기를 기대합니다.

기존 벤치마크와 달리 FaithBench는 다음과 같은 특징을 가집니다:

1) 다양한 LLM 패밀리와 다양한 환각 특성을 포함합니다.
2) 환각 인식의 주관성을 고려하여, 이진적인 "일치"와 "비일치" 레이블에 두 가지 새로운 "회색 영역" 레이블인 "의문스러움(questionable)"과 "무해함(benign)"을 추가했습니다.
3) 도전적인 환각 샘플만 포함합니다.

FaithBench의 리포지토리는 https://github.com/vectara/FaithBench에서 확인할 수 있습니다.

2 The Benchmark

2.1 Definition of hallucinations

LLM의 맥락에서 "환각(hallucinating)"이라는 단어는 두 가지 의미를 가질 수 있습니다.

첫 번째는 "비사실적(non-factual)"이라는 의미로, 이는 LLM이 생성한 텍스트가 세계 지식과 일치하지 않을 때를 말합니다.
두 번째는 "불충실(unfaithful)" 또는 "비일관적(inconsistent)"이라는 의미로, 이는 LLM이 생성한 텍스트가 입력 내용에 충실하지 않을 때를 뜻합니다.

본 논문은 두 번째 경우에 초점을 맞추며, 이는 주어진 텍스트나 참조 자료를 바탕으로 요약을 생성하거나 질문에 답하는 등의 작업에서 LLM이 기대되는 역할을 제대로 수행하지 못하는 상황을 다룹니다.
이러한 상황은 Retrieval-Augmented Generation(RAG)과 같은 응용 분야에서 흔히 발생합니다.
이 정의에 따르면, 하나의 문장이 사실적이면서도 불충실할 수 있습니다.
예를 들어, 원문에 "물은 냄새가 난다"고 쓰여 있을 때, "물은 무취이다"라는 문장은 세계 지식상 사실일지라도, 원문에 충실하지 않기 때문에 환각으로 간주됩니다.
요약을 하면서 발생하는 할루시네이션에 초점을 맞춘거군? 단순히 fact에 관한 할루시네이션이 초점은 아님

2.2 Hallucination Taxonomy

환각(hallucination)은 NLP에서 자주 해롭고 오해를 일으키는 특성 때문에 많은 주목을 받고 있지만, 최근 연구(Ramprasad et al., 2024)에 따르면 모든 환각이 반드시 나쁜 것은 아니라고 주장합니다.
실제로 사용자들은 LLM이 제공하는 추론, 창의성, 사실 기반 지식 등의 가치를 높게 평가하기도 합니다.
따라서 우리는 환각을 "무해한(benign)" 환각과 "원치 않는(unwanted)" 환각으로 나누었습니다.
인간 주석자들 사이에서도 환각 여부에 대한 의견이 갈리는 경우가 있기 때문에, 본 논문은 환각을 다음 세 가지 유형으로 분류합니다:

1. 의문스러운(questionable): 명확히 환각이라고 보기 어려운 경우로, 판단은 사람에 따라 다를 수 있음.
2. 무해한(benign): 분명히 환각이지만, 세계 지식, 상식, 또는 논리적 추론에 의해 뒷받침되어 독자가 이를 수용하거나 긍정적으로 여길 수 있는 경우.
3. 원치 않는(unwanted): 명확한 환각이지만, 무해하지 않은 경우로, 다음 두 가지 하위 유형으로 세분화됨:

내재적(intrinsic): 원문과 일부 또는 전체적으로 모순되는 경우.
외재적(extrinsic): 원문에 의해 지지되지 않으며, 원문에서 추론할 수도 없고 사실적이지도 않은 경우.

2.3 Data Sampling

Sourcing the data

우리는 Vectara의 Hallucination Leaderboard를 활용했으며, 이 데이터셋은 커뮤니티에서 자주 인용되는 여러 LLM이 생성한 요약을 이미 포함하고 있습니다.
Leaderboard 데이터셋에서 요약의 원문은 다양한 자연어 추론(NLI), 사실 확인, 또는 요약 데이터셋에서 가져옵니다.
일부 원문은 LLM이 환각을 일으키도록 의도적으로 설계되었습니다(부록 F 참조).
예를 들어, 동일한 직업을 가진 두 명의 관련 없는 인물에 대한 정보를 하나의 문장에 결합하여 LLM이 지시어(coreference) 오류를 유발하도록 구성한 경우가 있습니다.
하나의 샘플은 원문과 LLM이 생성한 요약의 쌍으로 정의됩니다.

Filtering samples by LLM

주석 작업자의 노력을 균형 있게 유지하면서 LLM 다양성을 달성하기 위해, 우리는 벤치마크를 다음 8개의 주관적으로 인기 있는 LLM 계열로 제한합니다:

선정된 패밀리는 GPT, Llama, Gemini, Mistral, Phi, Claude, Command-R, Qwen

각 패밀리에서 최신 세대의 가장 작은 모델을 선택했습니다.
예외적으로, GPT와 Llama 시리즈에서는 각각 두 가지 모델을 선정했습니다.

GPT 시리즈: 비용 효율성이 높은 GPT-4o와 GPT-3.5-Turbo를 선택.
Llama 시리즈: 모델 크기의 영향을 평가하기 위해 Llama-3.1-70B와 -8B를 선택.

작은 크기와 비용 효율적인 모델을 선호하는 이유는 이러한 모델이 대규모 모델보다 커뮤니티에서 더 널리 사용되기 때문에, 우리의 연구가 커뮤니티에 더 큰 가치를 제공할 수 있기 때문입니다.

Filtering samples by consensus of detectors

명백한 헛소리(환각)에 대한 인간 주석 작업은 자동 시스템으로 쉽게 감지될 수 있기 때문에 그 가치가 제한적입니다.
진정한 가치는, 주요 감지 모델들 사이에서 의견이 일치하지 않는 어려운 샘플을 주석화하는 데 있습니다.
이러한 샘플은 커뮤니티에 귀중한 교정 데이터를 제공하여, 감지기가 어려움을 겪는 영역을 부각시키고 미래 개선 방향을 제시할 수 있습니다.
Mickus et al. (2024) 및 Sansford et al. (2024)의 연구에서 언급된 감지기의 인기를 바탕으로, 다음과 같은 헛소리 감지기를 선택하여 어려운 샘플을 식별합니다:

- **Google의 True-NLI** (Honovich et al., 2022)
- **TrueTeacher** (Gekhman et al., 2023)
- **Vectara의 HHEM-2.1-Open** (Bao et al., 2024)
- **GPT-{4o, 3.5-Turbo}-as-a-judge** (Liu et al., 2023; Luo et al., 2023)

Sample groups

이 논문에서는 각 샘플을 하나의 동일한 원문을 공유하지만 서로 다른 10개의 LLM에서 생성된 출력을 포함하는 10개 단위의 그룹으로 나눕니다.
이를 통해 원문 텍스트의 특성을 통제하면서 각 LLM의 성능을 비교할 수 있습니다.
그 후, 각 그룹에서 어려운 요약문의 수를 기준으로 그룹을 정렬합니다.
최소 7개의 어려운 요약문을 포함하는 상위 115개 그룹이 다음 단계로 이동됩니다.

2.4 Human Annotation

Annotators

헛소리(hallucination)에 대한 정답 데이터는 11명의 인간 주석 작업자에 의해 추가되었습니다.
이들 중 hallucination detection 분야의 전문가이며, 절반은 최상위 NLP 학술대회에서 헛소리 관련 논문을 발표한 경력을 가지고 있습니다.
주석 작업자들은 다음과 같은 배경을 가지고 있습니다:

약 절반은 미국/캐나다 대학의 대학원생
나머지 절반은 머신러닝 엔지니어

이처럼 다양하면서도 전문적인 배경을 가진 주석 작업자들이 참여함으로써, 주석의 품질을 보장할 수 있었습니다.
또한, 3명의 주석 작업자는 영어를 모국어로 사용합니다.
모든 주석 작업자는 자신들이 생성한 데이터가 공개 오픈소스로 제공될 것임을 인지하고 있습니다.

The pilot run

30개의 서로 다른 본문에 해당하는 30개의 랜덤 샘플에 대해 파일럿 실행을 진행하여, 주석 작업자들이 헛소리에 대한 정의와 분류에 대해 합의할 수 있는지 확인했습니다.
파일럿 실행에서는 두 가지 문제가 드러났습니다.

첫째, 스포츠 관련 샘플 중 상당수가 유럽 스포츠 용어에 대한 구체적인 지식을 요구했는데, 이는 해당 스포츠에 익숙하지 않은 주석 작업자들에게 도전 과제가 되었습니다.
둘째, 본문을 구성하는 과정에서 발생한 잡음으로 인해 일부 원문이 자체적으로 일관성이 없다는 점이 발견되었습니다.

이러한 관찰을 바탕으로, 모든 본문을 시각적으로 점검하고 해당 샘플을 제거한 결과 800개의 샘플이 남았습니다.
샘플은 이후 16개의 배치로 나뉘었으며, 각 배치는 50개의 샘플(5개의 본문 × 10개의 LLM 생성 요약문)로 구성되었습니다.
모든 배치는 두 명의 주석 작업자가 주석을 달았으며, 대부분의 배치에는 추가적인 의견을 제공하기 위해 세 번째 주석 작업자가 참여했습니다.
파일럿 이후 주석 작업 과정에서 이미지 캡션이나 광고와 같은 잡음이 포함된 본문을 가진 샘플들이 추가로 발견되었고, 이들도 벤치마크에서 제외되었습니다.
최종 벤치마크는 총 660개의 샘플(66개의 본문 × 10개의 LLM)로 구성되었습니다.

Semantic-assisted cross-checking

요약문의 특정 텍스트 span이 이를 뒷받침하거나 반박하는 본문 부분과 대응되는 부분을 찾는 것은 종종 어렵습니다.
이는 현대의 LLM이 매우 추상적인 방식으로 작동하기 때문에, 정확한 문자열 매칭의 유용성이 제한적이기 때문입니다.
이 문제를 해결하기 위해, 우리는 요약문에서 선택한 텍스트 부분과 의미적으로 유사한 본문의 문장을 강조 표시하는 브라우저 기반 주석 도구를 개발했습니다.
이 도구를 활용하여 주석 작업자들은 요약문에서 헛소리(hallucination)로 판단되거나 헛소리로 의심되는 모든 부분을 선택하도록 요청받습니다.
선택된 각 부분에 대해 다음을 수행해야 합니다:

1. 적절한 레이블을 할당 (§ 2.2 참고)
2. 자신의 판단 이유를 설명하는 노트를 추가

또한, 해당 텍스트 부분이 본문의 특정 부분과 관련이 있다면, 주석 작업자들은 요약문의 텍스트 부분과 본문의 텍스트 부분을 연결하도록 권장받습니다.

3 Results

3.1 Annotation quality

이 분야의 일반적인 관행에 따라, 주석 품질은 샘플 수준에서 Krippendorff의 알파(Krippendorff, 2018)를 사용하여 주석자 간 합의도(IAA)로 측정됩니다.
요약문에서 서로 다른 텍스트 범위(span)는 동일한 주석 작업자에 의해 서로 다른 레이블을 받을 수 있습니다.
IAA를 계산하기 위해, 각 샘플의 텍스트 span-level중 "가장 나쁜(worst-pooled)" 레이블로 통합하여 샘플 수준 레이블을 만듭니다.
환각의 심각도는 다음과 같이 정렬됩니다:

일관된(consistency, best) ≻ 경미한(benign) ≻ 의문스러운(questionable) ≻ 원치 않는(unwanted, worst)

"일관된"과 "원치 않는" 클래스에 대한 IAA는 0.748로 나타났습니다.
반면, "의문스러운"과 "경미한" 클래스의 IAA는 당연히 낮을 것입니다.
"일관된 + 경미한" 대 "원치 않는"으로 이진 분류를 했을 때의 IAA는 0.679였고,

"일관된 + 경미한" 대 "의문스러운" 대 "원치 않는"으로 삼분류를 했을 때는 0.58로 나타났습니다.

"의문스러운"과 "경미한" 레이블을 고려한 후 IAA가 크게 낮아진 것은 경계선에 위치한 환각 사례에서 높은 주관성이 있다는 것을 보여주며, 이를 벤치마크에 포함시킬 필요성을 입증합니다.
주석은 두 단계로 이루어졌습니다:

1. 첫 번째 라운드에서는 각 주석 작업자가 독립적으로 작업합니다.
2. 두 번째 라운드에서는 작업자들이 의견을 논의하고 불일치를 해결합니다.
이 과정에서, 주석 작업자들은 다른 작업자들과 의견을 일치시키기 위해 강요받지 않고, 자신의 판단에 자신이 있다면 고수할 것을 권장받습니다.
첫 번째 라운드의 IAA는 0까지 낮아질 수 있지만, 두 번째 라운드에서는 IAA가 크게 향상되었습니다.
이는 환각 주석이 매우 어렵다는 것을 보여주며, 경험이 많은 전문가조차 이를 놓칠 수 있음을 반영합니다.
즉 2명이 레이블링을 각각하고, 의논을 하는 방식 (환각 레이블링이 어렵다)

3.2 Ranking LLMs by Hallucinations

그림 1은 각 LLM별로 "가장 나쁜 레이블(worst-pooled)" 샘플 수준 레이블의 분포를 보여줍니다.

worst-pooled: 2명의 어노테이션 레이블중 나쁜걸로 처리했을때, 나쁜 것으로 처리
GPT-3.5-Turbo는 가장 높은 비율(37.70%)의 완전히 일관된 요약을 생성합니다.
GPT-4o와 Gemini1.5-Flash는 약 1/3의 요약이 완전히 일관된 상태로 생성되며 공동 2위를 차지합니다.
Claude-3.5-Sonnet은 경미한 헛소리(benign hallucination)를 포함한 요약을 가장 많이 생성하며, 그 비율은 21.31%에 달합니다.

샘플 수준 레이블을 사용하여 LLM의 헛소리 발생률을 계산하고 이를 순위로 나타낼 수 있습니다(표 1).

FaithBench(처음 세 열)에 따른 순위는 Vectara의 Hallucination Leaderboard(오른쪽 열) 순위와 대체로 잘 일치합니다.
Faith 순위는 LLM이 생성한 요약의 환각 레이블 개수로 따진건가?
VHL 리더보드 순위는 논문에서 따로 측정한게 아닌, github 결과 가져온듯?
반면 Galileo의 Hallucination Index는 약간 다른 결과를 보여주며, Claude-3.5-Sonnet을 가장 우수한 상용 LLM으로 평가합니다.
할루시네이션 벤치마크로 대략 3개가 있는듯: Vectara, Galileo, fatihbencth
vectara꺼는 직접 모델 제출해서 활용할 수 있는듯
galielo는 private하게 운영되는듯
논문에서 만든 데이터세트도 제공됨
즉 vectara와 fatihbench 데이터세트 정도 참고해볼 수 있을듯

그림 2는 각 LLM에서 원치 않는(unwanted), 의문스러운(questionable), 경미한(benign) 주석(span-level)이 모든 헛소리 주석에서 차지하는 비율을 나타냅니다.

위의 모든 결과를 해석할 때, 이러한 데이터는 어려운 샘플(challenging samples)에 대해서만 해당하며, 모든 샘플에 대해 동일하게 적용되지 않을 수 있다는 점을 염두에 두어야 합니다.

3.3 Ranking Hallucination Detectors

표 2는 FaithBench에서 헛소리 감지기의 균형 정확도(BA)와 F1-Macro 점수를 보여줍니다.
여기서 샘플은 "원치 않는" 또는 "의문스러운" 경우 헛소리로 간주됩니다.
모든 감지기의 균형 정확도는 약 50%로, 이는 FaithBench의 엄격함을 나타내며, 헛소리에 대응하기 위해 FaithBench와 같은 도전적인 벤치마크가 필요함을 시사합니다.
GPT의 제로샷 사용을 위해서는 (Luo et al., 2023)의 프롬프트 템플릿을 사용합니다.
위 표를 기반으로 hallucination detector의 순위를 매기면 GPT-4-turbo가 제일 좋긴하다.

그리고 HHEM-2.1, GPT-4o, MiniCheck-Roberta-L 정도?
위 표가 나름 비교모델로 많이들 사용하는건가?

4 Conclusion

이 논문은 요약에서 발생하는 헛소리를 평가하는 벤치마크인 FaithBench를 소개합니다.
FaithBench는 8개 모델 계열의 10개의 최신 LLM이 생성한 요약에서 인간이 주석한 헛소리를 포함하고 있습니다.
헛소리에 대한 주관적인 인식을 고려하여, "일관된"과 "헛소리"라는 이진 레이블 외에도 "의문스러운"과 "경미한"이라는 두 개의 회색 영역 레이블을 추가했습니다.
인간 주석은 텍스트 span-level에서 세밀하게 이루어지며, 대부분의 주석에는 더 나은 설명을 위한 이유가 함께 제공됩니다.
FaithBench를 통해 우리는 최신 LLM과 헛소리 감지기를 순위별로 평가할 수 있습니다.
LLM의 순위는 대체로 인기 있는 헛소리 리더보드와 일치하지만, 헛소리 감지기는 FaithBench에서 약 50%의 정확도를 기록합니다.
요약하자면, FaithBench의 생성과 관리는 헛소리를 효과적으로 해결하는 긴 여정에서 중요한 한 걸음을 내딛은 것입니다.

Limitations

FaithBench의 주요 목표는 다양한 특성의 헛소리를 다루는 것이지만, 짧은 논문 형식으로 많은 내용을 다룰 수는 없습니다.
FaithBench는 요약에 대해서만 다루고 있으며, 질문 응답과 같은 다른 작업에서도 헛소리 탐지가 필요합니다.
기본 데이터셋의 구성으로 인해 대부분의 텍스트는 106(1사분위수)에서 380(3사분위수) 단어 길이(부록 B)입니다.
이는 대략 137에서 494개의 토큰에 해당합니다.
따라서 FaithBench는 LLM에서 짧은 컨텍스트의 헛소리만 측정할 수 있습니다.
우리는 RAGTruth의 구절을 사용하는 등 더 긴 컨텍스트의 샘플을 포함하도록 확장할 예정입니다. 그러나 이는 인간 주석 작업의 어려움과 비용을 증가시킬 것입니다.
인간 주석에 엄청난 노동력이 필요하기 때문에, 우리는 동일한 계열의 다양한 크기의 모델을 모두 다룰 수 없습니다.
이로 인해 모델 크기가 헛소리에 미치는 영향을 연구하는 데 한계가 있습니다.
FaithBench에서 수집한 텍스트 범위와 그에 대한 이유는 LLM과 헛소리 탐지기를 평가하는 데 사용되지 않습니다.
FaithBench는 도전적인 샘플만 포함하고 있기 때문에, LLM과 헛소리 탐지기에 대한 순위는 모든 샘플에 대한 순위를 반영하지 않습니다.
위의 모든 결과를 해석할 때, 이 점을 염두에 두는 것이 중요합니다.
마지막으로, FaithBench는 의문스러운 헛소리와 경미한 헛소리 레이블링에서 주관성을 고려하려고 노력했지만, 두 회색 영역 헛소리에 대한 주석자 간 합의도는 낮습니다.
우리는 이러한 주석/샘플을 더 면밀히 살펴본 후, 더 나은 헛소리 분류법을 개발해야 할 것입니다.

Reference

https://arxiv.org/pdf/2410.13210

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-233, FaithBench: A Diverse Hallucination Benchmark for Summarization by Modern LLMs, Preprint 2024

◼ Comment

Abstract

1 Introduction

2 The Benchmark

2.1 Definition of hallucinations

2.2 Hallucination Taxonomy

2.3 Data Sampling

2.4 Human Annotation

3 Results

3.1 Annotation quality

3.2 Ranking LLMs by Hallucinations

3.3 Ranking Hallucination Detectors

4 Conclusion

Limitations

댓글

댓글 쓰기