NL-233, FaithBench: A Diverse Hallucination Benchmark for Summarization by Modern LLMs, Preprint 2024

◼ Comment

  • 할루시네이션 벤치마크에 대한 논문이다.
  • 이 논문에 따르면, 과거에 2개의 벤치마크가 있었고 여기서 추가적으로 hard한 샘플들에 대해 1개의 벤치마크를 공개한 것이다
  • 하드한 샘플이란건, 다양한 할루시네이션 검출 모델로(LLM포함) 할루시네이션인지 아닌지 판단했을때, 결과가 갈리는 경우라는 것이다
  • 테스크는 요약으로, general domain은 아니라는 점
  • 데이터는 아래 처럼 구성되는 듯
    • 먼저 본문이 주어진다
    • 본문을 LLM이 요약한다 (여기서 다양한 LLM을 쓰고, 데이터에 어떤 LLM을 썼는지 태그가 있음)
    • 본문과 요약을 보고 사람이 할루시네이션인지 아닌지 판단을 한다
    • 근데 단순히 본문-요약에 대해 하나의 레이블을 매핑하는게 아니라, 요약도 일부는 할루시네이션이 발생했고 일부는 아닐 수 있을 것이다.
    • 따라서 span을 정하고, 그 span에 대해 레이블링을 한다.
    • 즉 (본문, 요약)에 대해 여러 개의 레이블링이 생기는 형식이다.
    • 레이블 카테고리는 "Unwanted", "Benign", "Questionable"이다. (정확히는 레이블안한건 consistency로 환각이 발생안한것이라 보면 되기 때문에 4개 클래스라 보면 됨)
    • 만약 같은 span에 대해 여러 주석자가 레이블링 했으면, 두명이 토의를 하여 레이블을 맞추고, 
    • 여기서 분석할땐 span-level에서 가장 나쁜걸로 레이블을 간주하고 분석한듯
  • 데이터 활용법
    • 일반적으로 (본문, 요약)의 할루시네이션의 여부를 판단할때는 span-level에서 가장 나쁜 레이블로 매핑해서 데이터를 사용하면 될 듯 하고
    • 좀 더 자세히 분석하고 싶으면, (본문, 요약, span)에 대한 span-label을 활용하면 될 듯함

Abstract 

  • 요약은 대규모 언어 모델(LLM)이 수행하는 가장 일반적인 작업 중 하나로, Retrieval-Augmented Generation(RAG)과 같은 응용 분야에서 자주 활용됩니다. 
  • 그러나 LLM이 생성한 요약에서의 환각(hallucination)에 대한 기존 평가와 환각 탐지 모델에 대한 평가 모두, 고려된 LLM과 LLM 패밀리의 다양성과 최신성이 부족하다는 문제가 있습니다. 
  • 이에 본 논문에서는 FaithBench라는 요약 환각 벤치마크를 소개합니다. 
  • FaithBench는 8개의 서로 다른 LLM 패밀리에서 유래된 10개의 최신 LLM이 생성한 도전적인 환각 사례들로 구성되며, 인간 전문가들이 직접 작성한 정답 주석을 포함합니다. 
  • 여기서 "도전적"이라는 의미는 GPT4o-as-a-judge를 포함한 최신 환각 탐지 모델들이 해당 요약들에서 상반된 판단을 내린 경우를 지칭합니다. 
  • 결과에 따르면 GPT-4o와 GPT-3.5-Turbo가 가장 적은 환각을 생성했습니다. 
  • 하지만 FaithBench를 기반으로 한 평가에서 최고의 환각 탐지 모델조차 약 50%의 정확도를 보였으며, 이는 향후 개선 여지가 많음을 시사합니다.

1 Introduction

  • 대규모 언어 모델(LLM)이 텍스트 데이터를 처리하는 데 점점 더 많이 사용됨에 따라, 이러한 모델의 신뢰성을 보장하는 것이 중요한 과제가 되었습니다. 
  • Retrieval-Augmented Generation(RAG)(Lewis et al., 2020)과 같은 응용 분야에서는 LLM이 텍스트 입력으로부터 답변이나 요약을 생성하는 데 사용됩니다. 
  • 하지만 생성된 텍스트에 지원되지 않는 정보가 포함되면 이는 환각(hallucination)으로 간주되며, 이는 오해를 일으키거나 해로울 수 있습니다.
  • LLM에서의 환각 상태를 이해하는 것은 중요하지만 어려운 문제입니다. 
  • Vectara의 Hallucination Leaderboard나 Galileo의 Hallucination Index와 같은 기존의 환각 리더보드는 Google의 TrueTeacher(Gekhman et al., 2023), Vectara의 HHEM-2.1-Open(Bao et al., 2024) 또는 GPT 시리즈 모델을 활용한 제로샷 방식의 LLM-as-a-judge(Luo et al., 2023; Liu et al., 2023) 등 다양한 모델로 환각을 탐지합니다. 
    • 실제 할루시네이션 detect 연구하면 위 모델들과 비교해보는게 필요할듯
  • 하지만 이러한 탐지 모델은 AggreFact(Tang et al., 2023)나 RAGTruth(Niu et al., 2024)와 같은 벤치마크에서 80% 미만의 정확도를 보이며, 기존 벤치마크는 다양성이 부족한 오래된 LLM들에 의존하는 경향이 있습니다.
    • 위 2개의 벤치마크들도 할루시네이션관련 벤치마크인듯?
  • LLM은 훈련 방식, 데이터셋, 아키텍처의 차이, 그리고 모델의 규모 확장에 따라 환각 방식이 달라질 수 있기 때문에, 기존 벤치마크로부터 도출된 결론은 특정 유형의 환각만을 포착해 불완전합니다. 
  • 이를 해결하기 위해, 다양한 모델 패밀리를 포함한 최신 LLM과 신뢰할 수 있는 평가를 위한 인간 주석 기반의 환각 벤치마크가 필요합니다.
  • 본 논문에서는 FaithBench라는 요약 환각 벤치마크를 제시합니다. 
  • FaithBench는 커뮤니티에서 널리 사용되는 Vectara의 Hallucination Leaderboard를 기반으로 구축되었으며, 수십 개의 최신 LLM이 생성한 요약을 포함합니다. 
    • 여기에 개별 텍스트 스팬 수준에서 정당화를 포함한 인간 주석을 추가했습니다. 
    • 특히 환각 탐지기 간 의견 불일치가 가장 많은 도전적인 샘플에 주석을 집중하여, 명백한 환각은 자동으로 신뢰성 있게 탐지하도록 했습니다.
    • FaithBench의 주석자는 대부분 환각 탐지 분야의 전문가로, 이들 중 절반은 주요 NLP 학회에서 환각 관련 논문을 발표한 경력을 보유하고 있습니다.
    • 열심히 만든듯?ㅋㅋ
  • FaithBench는 LLM의 환각 발생률과 환각 탐지 모델의 정확도를 평가할 수 있는 도구를 제공합니다. 
  • 우리가 아는 한, FaithBench는 10개의 LLM과 8개의 LLM 패밀리를 인간이 주석한 정답 데이터를 사용하여 환각을 평가한 최초의 사례입니다. 
    • GPT-4o가 가장 낮은 환각 발생률을 기록했으며, 그 뒤를 GPT-3.5-Turbo, Gemini-1.5-Flash, Llama-3-70B가 따랐습니다. 
    • 일반적으로 성능이 높으면 환각도 적게 발생하는것 같긴함
  • 모든 환각 탐지기는 인간 주석 데이터와의 상관관계가 낮았으며, 최고 성능의 F1-매크로 점수와 균형 정확도는 각각 55%와 58%에 불과했습니다. 
    • 이는 환각에 대한 우리의 제한된 이해와 앞으로 해결해야 할 과제를 보여줍니다.
    • FaithBench는 LLM에서의 환각 탐지 및 완화 연구를 촉진하기를 기대합니다. 
  • 기존 벤치마크와 달리 FaithBench는 다음과 같은 특징을 가집니다:
    • 1) 다양한 LLM 패밀리와 다양한 환각 특성을 포함합니다.
    • 2) 환각 인식의 주관성을 고려하여, 이진적인 "일치"와 "비일치" 레이블에 두 가지 새로운 "회색 영역" 레이블인 "의문스러움(questionable)"과 "무해함(benign)"을 추가했습니다.
    • 3) 도전적인 환각 샘플만 포함합니다.
  • FaithBench의 리포지토리는 https://github.com/vectara/FaithBench에서 확인할 수 있습니다.  

2 The Benchmark

2.1 Definition of hallucinations

  • LLM의 맥락에서 "환각(hallucinating)"이라는 단어는 두 가지 의미를 가질 수 있습니다. 
    • 첫 번째는 "비사실적(non-factual)"이라는 의미로, 이는 LLM이 생성한 텍스트가 세계 지식과 일치하지 않을 때를 말합니다. 
    • 두 번째는 "불충실(unfaithful)" 또는 "비일관적(inconsistent)"이라는 의미로, 이는 LLM이 생성한 텍스트가 입력 내용에 충실하지 않을 때를 뜻합니다.
  • 본 논문은 두 번째 경우에 초점을 맞추며, 이는 주어진 텍스트나 참조 자료를 바탕으로 요약을 생성하거나 질문에 답하는 등의 작업에서 LLM이 기대되는 역할을 제대로 수행하지 못하는 상황을 다룹니다. 
  • 이러한 상황은 Retrieval-Augmented Generation(RAG)과 같은 응용 분야에서 흔히 발생합니다.
  • 이 정의에 따르면, 하나의 문장이 사실적이면서도 불충실할 수 있습니다. 
  • 예를 들어, 원문에 "물은 냄새가 난다"고 쓰여 있을 때, "물은 무취이다"라는 문장은 세계 지식상 사실일지라도, 원문에 충실하지 않기 때문에 환각으로 간주됩니다.  
  • 요약을 하면서 발생하는 할루시네이션에 초점을 맞춘거군? 단순히 fact에 관한 할루시네이션이 초점은 아님

2.2 Hallucination Taxonomy

  • 환각(hallucination)은 NLP에서 자주 해롭고 오해를 일으키는 특성 때문에 많은 주목을 받고 있지만, 최근 연구(Ramprasad et al., 2024)에 따르면 모든 환각이 반드시 나쁜 것은 아니라고 주장합니다. 
  • 실제로 사용자들은 LLM이 제공하는 추론, 창의성, 사실 기반 지식 등의 가치를 높게 평가하기도 합니다. 
  • 따라서 우리는 환각을 "무해한(benign)" 환각과 "원치 않는(unwanted)" 환각으로 나누었습니다.
  • 인간 주석자들 사이에서도 환각 여부에 대한 의견이 갈리는 경우가 있기 때문에, 본 논문은 환각을 다음 세 가지 유형으로 분류합니다:
    • 1. 의문스러운(questionable): 명확히 환각이라고 보기 어려운 경우로, 판단은 사람에 따라 다를 수 있음.
    • 2. 무해한(benign): 분명히 환각이지만, 세계 지식, 상식, 또는 논리적 추론에 의해 뒷받침되어 독자가 이를 수용하거나 긍정적으로 여길 수 있는 경우.
    • 3. 원치 않는(unwanted): 명확한 환각이지만, 무해하지 않은 경우로, 다음 두 가지 하위 유형으로 세분화됨:
      • 내재적(intrinsic): 원문과 일부 또는 전체적으로 모순되는 경우.
      • 외재적(extrinsic): 원문에 의해 지지되지 않으며, 원문에서 추론할 수도 없고 사실적이지도 않은 경우.  

2.3 Data Sampling

  • Sourcing the data
    • 우리는 Vectara의 Hallucination Leaderboard를 활용했으며, 이 데이터셋은 커뮤니티에서 자주 인용되는 여러 LLM이 생성한 요약을 이미 포함하고 있습니다.
    • Leaderboard 데이터셋에서 요약의 원문은 다양한 자연어 추론(NLI), 사실 확인, 또는 요약 데이터셋에서 가져옵니다. 
    • 일부 원문은 LLM이 환각을 일으키도록 의도적으로 설계되었습니다(부록 F 참조). 
    • 예를 들어, 동일한 직업을 가진 두 명의 관련 없는 인물에 대한 정보를 하나의 문장에 결합하여 LLM이 지시어(coreference) 오류를 유발하도록 구성한 경우가 있습니다. 

    • 하나의 샘플은 원문과 LLM이 생성한 요약의 쌍으로 정의됩니다.
  • Filtering samples by LLM
    • 주석 작업자의 노력을 균형 있게 유지하면서 LLM 다양성을 달성하기 위해, 우리는 벤치마크를 다음 8개의 주관적으로 인기 있는 LLM 계열로 제한합니다:
      • 선정된 패밀리는 GPT, Llama, Gemini, Mistral, Phi, Claude, Command-R, Qwen
    • 각 패밀리에서 최신 세대의 가장 작은 모델을 선택했습니다. 
    • 예외적으로, GPT와 Llama 시리즈에서는 각각 두 가지 모델을 선정했습니다.
      • GPT 시리즈: 비용 효율성이 높은 GPT-4o와 GPT-3.5-Turbo를 선택.
      • Llama 시리즈: 모델 크기의 영향을 평가하기 위해 Llama-3.1-70B와 -8B를 선택.
    • 작은 크기와 비용 효율적인 모델을 선호하는 이유는 이러한 모델이 대규모 모델보다 커뮤니티에서 더 널리 사용되기 때문에, 우리의 연구가 커뮤니티에 더 큰 가치를 제공할 수 있기 때문입니다.
  • Filtering samples by consensus of detectors
    • 명백한 헛소리(환각)에 대한 인간 주석 작업은 자동 시스템으로 쉽게 감지될 수 있기 때문에 그 가치가 제한적입니다. 
    • 진정한 가치는, 주요 감지 모델들 사이에서 의견이 일치하지 않는 어려운 샘플을 주석화하는 데 있습니다. 
    • 이러한 샘플은 커뮤니티에 귀중한 교정 데이터를 제공하여, 감지기가 어려움을 겪는 영역을 부각시키고 미래 개선 방향을 제시할 수 있습니다.
    • Mickus et al. (2024) 및 Sansford et al. (2024)의 연구에서 언급된 감지기의 인기를 바탕으로, 다음과 같은 헛소리 감지기를 선택하여 어려운 샘플을 식별합니다:
      • - **Google의 True-NLI** (Honovich et al., 2022)
      • - **TrueTeacher** (Gekhman et al., 2023)
      • - **Vectara의 HHEM-2.1-Open** (Bao et al., 2024)
      • - **GPT-{4o, 3.5-Turbo}-as-a-judge** (Liu et al., 2023; Luo et al., 2023)
  • Sample groups
    • 이 논문에서는 각 샘플을 하나의 동일한 원문을 공유하지만 서로 다른 10개의 LLM에서 생성된 출력을 포함하는 10개 단위의 그룹으로 나눕니다. 
    • 이를 통해 원문 텍스트의 특성을 통제하면서 각 LLM의 성능을 비교할 수 있습니다.
    • 그 후, 각 그룹에서 어려운 요약문의 수를 기준으로 그룹을 정렬합니다. 
    • 최소 7개의 어려운 요약문을 포함하는 상위 115개 그룹이 다음 단계로 이동됩니다. 

2.4 Human Annotation

  • Annotators
    • 헛소리(hallucination)에 대한 정답 데이터는 11명의 인간 주석 작업자에 의해 추가되었습니다. 
    • 이들 중 hallucination detection 분야의 전문가이며, 절반은 최상위 NLP 학술대회에서 헛소리 관련 논문을 발표한 경력을 가지고 있습니다.
    • 주석 작업자들은 다음과 같은 배경을 가지고 있습니다:
      • 약 절반은 미국/캐나다 대학의 대학원생
      • 나머지 절반은 머신러닝 엔지니어
    • 이처럼 다양하면서도 전문적인 배경을 가진 주석 작업자들이 참여함으로써, 주석의 품질을 보장할 수 있었습니다.
    • 또한, 3명의 주석 작업자는 영어를 모국어로 사용합니다.
    • 모든 주석 작업자는 자신들이 생성한 데이터가 공개 오픈소스로 제공될 것임을 인지하고 있습니다.
  • The pilot run
    • 30개의 서로 다른 본문에 해당하는 30개의 랜덤 샘플에 대해 파일럿 실행을 진행하여, 주석 작업자들이 헛소리에 대한 정의와 분류에 대해 합의할 수 있는지 확인했습니다.
    • 파일럿 실행에서는 두 가지 문제가 드러났습니다.
      • 첫째, 스포츠 관련 샘플 중 상당수가 유럽 스포츠 용어에 대한 구체적인 지식을 요구했는데, 이는 해당 스포츠에 익숙하지 않은 주석 작업자들에게 도전 과제가 되었습니다.
      • 둘째, 본문을 구성하는 과정에서 발생한 잡음으로 인해 일부 원문이 자체적으로 일관성이 없다는 점이 발견되었습니다.
    • 이러한 관찰을 바탕으로, 모든 본문을 시각적으로 점검하고 해당 샘플을 제거한 결과 800개의 샘플이 남았습니다.
    • 샘플은 이후 16개의 배치로 나뉘었으며, 각 배치는 50개의 샘플(5개의 본문 × 10개의 LLM 생성 요약문)로 구성되었습니다. 
    • 모든 배치는 두 명의 주석 작업자가 주석을 달았으며, 대부분의 배치에는 추가적인 의견을 제공하기 위해 세 번째 주석 작업자가 참여했습니다.
    • 파일럿 이후 주석 작업 과정에서 이미지 캡션이나 광고와 같은 잡음이 포함된 본문을 가진 샘플들이 추가로 발견되었고, 이들도 벤치마크에서 제외되었습니다.
    • 최종 벤치마크는 총 660개의 샘플(66개의 본문 × 10개의 LLM)로 구성되었습니다.
  • Semantic-assisted cross-checking
    • 요약문의 특정 텍스트 span이 이를 뒷받침하거나 반박하는 본문 부분과 대응되는 부분을 찾는 것은 종종 어렵습니다. 
    • 이는 현대의 LLM이 매우 추상적인 방식으로 작동하기 때문에, 정확한 문자열 매칭의 유용성이 제한적이기 때문입니다.
    • 이 문제를 해결하기 위해, 우리는 요약문에서 선택한 텍스트 부분과 의미적으로 유사한 본문의 문장을 강조 표시하는 브라우저 기반 주석 도구를 개발했습니다.
    • 이 도구를 활용하여 주석 작업자들은 요약문에서 헛소리(hallucination)로 판단되거나 헛소리로 의심되는 모든 부분을 선택하도록 요청받습니다.
    • 선택된 각 부분에 대해 다음을 수행해야 합니다:
      • 1. 적절한 레이블을 할당 (§ 2.2 참고)
      • 2. 자신의 판단 이유를 설명하는 노트를 추가
    • 또한, 해당 텍스트 부분이 본문의 특정 부분과 관련이 있다면, 주석 작업자들은 요약문의 텍스트 부분과 본문의 텍스트 부분을 연결하도록 권장받습니다.

3 Results 

3.1 Annotation quality

  • 이 분야의 일반적인 관행에 따라, 주석 품질은 샘플 수준에서 Krippendorff의 알파(Krippendorff, 2018)를 사용하여 주석자 간 합의도(IAA)로 측정됩니다.
  • 요약문에서 서로 다른 텍스트 범위(span)는 동일한 주석 작업자에 의해 서로 다른 레이블을 받을 수 있습니다. 
  • IAA를 계산하기 위해, 각 샘플의 텍스트 span-level중 "가장 나쁜(worst-pooled)" 레이블로 통합하여 샘플 수준 레이블을 만듭니다.
  • 환각의 심각도는 다음과 같이 정렬됩니다: 
    • 일관된(consistency, best) ≻ 경미한(benign) ≻ 의문스러운(questionable) ≻ 원치 않는(unwanted, worst)
  • "일관된"과 "원치 않는" 클래스에 대한 IAA는 0.748로 나타났습니다. 
  • 반면, "의문스러운"과 "경미한" 클래스의 IAA는 당연히 낮을 것입니다.
  • "일관된 + 경미한" 대 "원치 않는"으로 이진 분류를 했을 때의 IAA는 0.679였고, 
    • "일관된 + 경미한" 대 "의문스러운" 대 "원치 않는"으로 삼분류를 했을 때는 0.58로 나타났습니다. 
  • "의문스러운"과 "경미한" 레이블을 고려한 후 IAA가 크게 낮아진 것은 경계선에 위치한 환각 사례에서 높은 주관성이 있다는 것을 보여주며, 이를 벤치마크에 포함시킬 필요성을 입증합니다.
  • 주석은 두 단계로 이루어졌습니다:
    • 1. 첫 번째 라운드에서는 각 주석 작업자가 독립적으로 작업합니다.
    • 2. 두 번째 라운드에서는 작업자들이 의견을 논의하고 불일치를 해결합니다.
    • 이 과정에서, 주석 작업자들은 다른 작업자들과 의견을 일치시키기 위해 강요받지 않고, 자신의 판단에 자신이 있다면 고수할 것을 권장받습니다.
    • 첫 번째 라운드의 IAA는 0까지 낮아질 수 있지만, 두 번째 라운드에서는 IAA가 크게 향상되었습니다. 
    • 이는 환각 주석이 매우 어렵다는 것을 보여주며, 경험이 많은 전문가조차 이를 놓칠 수 있음을 반영합니다.
    • 즉 2명이 레이블링을 각각하고, 의논을 하는 방식 (환각 레이블링이 어렵다)

3.2 Ranking LLMs by Hallucinations

  • 그림 1은 각 LLM별로 "가장 나쁜 레이블(worst-pooled)" 샘플 수준 레이블의 분포를 보여줍니다. 
    • worst-pooled: 2명의 어노테이션 레이블중 나쁜걸로 처리했을때, 나쁜 것으로 처리
    • GPT-3.5-Turbo는 가장 높은 비율(37.70%)의 완전히 일관된 요약을 생성합니다. 
    • GPT-4o와 Gemini1.5-Flash는 약 1/3의 요약이 완전히 일관된 상태로 생성되며 공동 2위를 차지합니다. 
    • Claude-3.5-Sonnet은 경미한 헛소리(benign hallucination)를 포함한 요약을 가장 많이 생성하며, 그 비율은 21.31%에 달합니다.
  • 샘플 수준 레이블을 사용하여 LLM의 헛소리 발생률을 계산하고 이를 순위로 나타낼 수 있습니다(표 1). 
    • FaithBench(처음 세 열)에 따른 순위는 Vectara의 Hallucination Leaderboard(오른쪽 열) 순위와 대체로 잘 일치합니다. 
    • Faith 순위는 LLM이 생성한 요약의 환각 레이블 개수로 따진건가?
    • VHL 리더보드 순위는 논문에서 따로 측정한게 아닌, github 결과 가져온듯?
    • 반면 Galileo의 Hallucination Index는 약간 다른 결과를 보여주며, Claude-3.5-Sonnet을 가장 우수한 상용 LLM으로 평가합니다.
    • 할루시네이션 벤치마크로 대략 3개가 있는듯: Vectara, Galileo, fatihbencth
    • vectara꺼는 직접 모델 제출해서 활용할 수 있는듯
    • galielo는 private하게 운영되는듯
    • 논문에서 만든 데이터세트도 제공됨
    • 즉 vectara와 fatihbench 데이터세트 정도 참고해볼 수 있을듯
  • 그림 2는 각 LLM에서 원치 않는(unwanted), 의문스러운(questionable), 경미한(benign) 주석(span-level)이 모든 헛소리 주석에서 차지하는 비율을 나타냅니다. 
    • 위의 모든 결과를 해석할 때, 이러한 데이터는 어려운 샘플(challenging samples)에 대해서만 해당하며, 모든 샘플에 대해 동일하게 적용되지 않을 수 있다는 점을 염두에 두어야 합니다.  

3.3 Ranking Hallucination Detectors

  • 표 2는 FaithBench에서 헛소리 감지기의 균형 정확도(BA)와 F1-Macro 점수를 보여줍니다. 
  • 여기서 샘플은 "원치 않는" 또는 "의문스러운" 경우 헛소리로 간주됩니다. 
  • 모든 감지기의 균형 정확도는 약 50%로, 이는 FaithBench의 엄격함을 나타내며, 헛소리에 대응하기 위해 FaithBench와 같은 도전적인 벤치마크가 필요함을 시사합니다. 
  • GPT의 제로샷 사용을 위해서는 (Luo et al., 2023)의 프롬프트 템플릿을 사용합니다.
  • 위 표를 기반으로 hallucination detector의 순위를 매기면 GPT-4-turbo가 제일 좋긴하다.
    • 그리고 HHEM-2.1, GPT-4o, MiniCheck-Roberta-L 정도?
    • 위 표가 나름 비교모델로 많이들 사용하는건가?

4 Conclusion

  • 이 논문은 요약에서 발생하는 헛소리를 평가하는 벤치마크인 FaithBench를 소개합니다. 
  • FaithBench는 8개 모델 계열의 10개의 최신 LLM이 생성한 요약에서 인간이 주석한 헛소리를 포함하고 있습니다. 
  • 헛소리에 대한 주관적인 인식을 고려하여, "일관된"과 "헛소리"라는 이진 레이블 외에도 "의문스러운"과 "경미한"이라는 두 개의 회색 영역 레이블을 추가했습니다. 
  • 인간 주석은 텍스트 span-level에서 세밀하게 이루어지며, 대부분의 주석에는 더 나은 설명을 위한 이유가 함께 제공됩니다. 
  • FaithBench를 통해 우리는 최신 LLM과 헛소리 감지기를 순위별로 평가할 수 있습니다. 
  • LLM의 순위는 대체로 인기 있는 헛소리 리더보드와 일치하지만, 헛소리 감지기는 FaithBench에서 약 50%의 정확도를 기록합니다. 
  • 요약하자면, FaithBench의 생성과 관리는 헛소리를 효과적으로 해결하는 긴 여정에서 중요한 한 걸음을 내딛은 것입니다.

Limitations

  • FaithBench의 주요 목표는 다양한 특성의 헛소리를 다루는 것이지만, 짧은 논문 형식으로 많은 내용을 다룰 수는 없습니다.
  • FaithBench는 요약에 대해서만 다루고 있으며, 질문 응답과 같은 다른 작업에서도 헛소리 탐지가 필요합니다.
  • 기본 데이터셋의 구성으로 인해 대부분의 텍스트는 106(1사분위수)에서 380(3사분위수) 단어 길이(부록 B)입니다. 
  • 이는 대략 137에서 494개의 토큰에 해당합니다. 
  • 따라서 FaithBench는 LLM에서 짧은 컨텍스트의 헛소리만 측정할 수 있습니다. 
  • 우리는 RAGTruth의 구절을 사용하는 등 더 긴 컨텍스트의 샘플을 포함하도록 확장할 예정입니다. 그러나 이는 인간 주석 작업의 어려움과 비용을 증가시킬 것입니다.
  • 인간 주석에 엄청난 노동력이 필요하기 때문에, 우리는 동일한 계열의 다양한 크기의 모델을 모두 다룰 수 없습니다. 
  • 이로 인해 모델 크기가 헛소리에 미치는 영향을 연구하는 데 한계가 있습니다.
  • FaithBench에서 수집한 텍스트 범위와 그에 대한 이유는 LLM과 헛소리 탐지기를 평가하는 데 사용되지 않습니다.
  • FaithBench는 도전적인 샘플만 포함하고 있기 때문에, LLM과 헛소리 탐지기에 대한 순위는 모든 샘플에 대한 순위를 반영하지 않습니다. 
  • 위의 모든 결과를 해석할 때, 이 점을 염두에 두는 것이 중요합니다.
  • 마지막으로, FaithBench는 의문스러운 헛소리와 경미한 헛소리 레이블링에서 주관성을 고려하려고 노력했지만, 두 회색 영역 헛소리에 대한 주석자 간 합의도는 낮습니다. 
  • 우리는 이러한 주석/샘플을 더 면밀히 살펴본 후, 더 나은 헛소리 분류법을 개발해야 할 것입니다.


























Reference

댓글