NL-231, Self-contradictory Hallucinations of Large Language Models: Evaluation, Detection and Mitigation, ICLR 2024

Abstract 

  • 대규모 언어 모델(large LMs)은 잘못된 내용을 포함하는 텍스트를 생성하는 문제가 있으며, 이 중 중요한 사례로 자기모순(self-contradiction)을 들 수 있습니다. 
  • 자기모순은 동일한 문맥에서 서로 모순되는 두 문장을 생성하는 경우를 말합니다. 
  • 본 연구에서는 여러 instruction-tuned LMs에 대한 자기모순 문제를 평가, 탐지 및 완화하는 포괄적인 조사를 제공합니다. 
  • 주요 평가 과제로는 오픈 도메인 텍스트 생성이 포함되며, 짧은 질문 응답 형식에도 본 접근법이 적용 가능함을 입증하였습니다.
  • 분석 결과, 자기모순이 광범위하게 나타남을 확인했으며, 예를 들어 ChatGPT가 생성한 문장 중 17.7%에서 자기모순이 발견되었습니다. 
  • 이를 해결하기 위해 효과적으로 자기모순을 탐지하고 완화하는 새로운 프롬프트 기반 프레임워크를 제안합니다. 
  • 탐지 모델은 높은 정확도를 달성했으며, 예를 들어 ChatGPT를 프롬프트 기반으로 활용했을 때 약 80%의 F1 점수를 기록했습니다. 
  • mitigation 알고리즘은 생성된 텍스트의 유창성과 정보성을 유지하면서 모순되는 정보를 반복적으로 수정합니다.
  • 특히, 본 프레임워크는 외부 지식을 검색할 필요 없이 블랙박스 언어 모델에 적용 가능하며, 검색 기반 방법을 보완합니다. 
  • 이는 self-contradictions의 큰 비중(예: ChatGPT의 경우 35.2%)이 온라인 텍스트를 통해 검증되지 않기 때문입니다. 
  • 본 접근법은 실질적으로 효과적이며, 대중을 위해 손쉽게 사용할 수 있는 도구로 제공되고 있습니다. 
  • 자세한 내용은 https://chatprotect.ai/에서 확인 가능합니다.

1 INTRODUCTION

  • 대규모 언어 모델(large LMs)은 방대한 텍스트 데이터 코퍼스를 기반으로 사전 학습되며, 이후 인간의 지시를 따르도록 세밀하게 튜닝됩니다.
  • Instruction-tuned LMs, 예를 들어 ChatGPT는 자연어 작업을 해결하는 데 있어 놀라운 제로샷 능력을 보여주었으며, 따라서 온라인 검색 및 전문 환경을 포함한 일상생활의 다양한 측면에 점점 더 통합되고 있습니다.
  • 그러나 ChatGPT와 GPT-4와 같은 널리 채택된 LMs조차 비합리적이거나 사실에 기반하지 않은 내용을 생성하는 경향이 있으며, 이는 흔히 hallucinations이라고 불립니다. 
  • 이러한 문제는 LMs의 신뢰성과 관련된 심각한 우려를 제기하며, hallucinations를 탐지하고 완화하는 문제는 여전히 해결되지 않은 과제입니다. 
  • 특히, 최신 상태의 독점적인 LMs는 블랙박스 방식으로만 접근할 수 있기 때문에, 이를 다루는 데 더 큰 어려움이 따릅니다.
  • Reasoning about Self-contradictory Hallucinations
    • 본 연구는 hallucinations의 한 중요한 유형인 self-contradiction에 초점을 맞춥니다. 
    • 이는 동일한 문맥에서 논리적으로 일관되지 않은 두 문장을 생성하는 경우를 말합니다. 
    • 본 연구의 핵심 통찰은 self-contradiction을 활용하여 비사실적인 모델 출력 문제를 효과적으로 해결할 수 있다는 점입니다. 
    • 두 개의 모순된 문장은 동시에 사실일 수 없으므로, self-contradiction은 비사실성을 필연적으로 드러냅니다. 
    • 더불어, 모순된 문장에서 상충하는 정보를 제거하면 non-factuality이 감소합니다.
    • 중요한 점은, 이러한 모순 탐지와 제거가 현대 LMs의 강점인 논리적 추론을 통해 가능하다는 것입니다. 
    • 따라서 외부 지식을 검색하거나, 수십 개의 샘플을 비교해야 하는 기존 접근 방식에 의존하지 않아도 됩니다. 
    • 이는 실제로 어려움이 크거나 비용이 많이 드는 문제를 해결합니다.
  • Self-contradiction에 대한 추론을 위한 3단계 파이프라인
    • 본 연구는 self-contradiction을 다루기 위한 3단계 파이프라인을 제안합니다:
    • 1. Self-contradiction trigger: 적절한 제약 조건을 사용하여 관련된 문장 쌍을 생성합니다.
    • 2. detection: self-contradiction을 탐지하기 위해 기존의 다양한 프롬프트 전략을 탐색합니다.
    • 3. mitigation: 반복적인 수정 절차를 통해 모순되는 정보를 제거하면서, 텍스트의 유창성과 정보성을 유지합니다.
    • 이 프레임워크는 프롬프트 기반으로 작동하기 때문에 최신 블랙박스 LMs에도 바로 적용할 수 있습니다.
  • Self-contradiction의 중요성
    • 본 연구는 네 가지 최신 LMs(GPT-4(OpenAI, 2023b), ChatGPT(OpenAI, 2023a), Llama2-70B-Chat(Touvron et al., 2023b), Vicuna-13B(Chiang et al., 2023))에 대해 광범위한 평가를 수행하였습니다. 
    • 주요 평가 과제는 LMs의 내부 지식을 사용하여 긴 텍스트를 생성하는 open-domain text generation이며, 이는 높은 신뢰성을 요구하지만 달성하기 어려운 작업입니다.
    • 평가 결과, self-contradiction의 중요성이 강조되었습니다. 
    • 예를 들어, ChatGPT가 open-domain text generation에서 생성한 모든 문장 중 17.7%에서 self-contradiction이 발견되었습니다. 
    • 이러한 self-contradiction의 상당 부분(예: ChatGPT의 경우 35.2%)은 Wikipedia나 웹 검색으로 검증할 수 없습니다. 
    • 이는 본 연구가 retrieval-based 접근법을 보완하는 데 유용하다는 것을 보여줍니다.
    • chatgpt에서 17.7%가 모순의 문장 2개를 생성하는 할루시네이션이 발생했는데, 이 중 35.2%는 검색으로도 검증할수가 없었다.
    • 즉 RAG 방식을 보완하는데 유용하다고 주장
  • Effective Detection 및 Mitigation
    • 제안된 프레임워크는 self-contradiction의 detection과 mitigation에서 높은 효과를 보였습니다. 
    • 예를 들어, detection 단계에서는 약 80%의 F1 점수를 기록했으며, mitigation 단계에서는 self-contradiction을 최대 89.5%까지 줄이면서 텍스트의 정보성과 유창성을 유지했습니다. 
    • Table 1에서는 ChatGPT가 생성한 self-contradiction의 두 가지 사례를 제시하며, 이들은 본 연구의 방법으로 성공적으로 trigger, detect, mitigate되었습니다. 
    • 추가적인 사례는 Appendix C에서 문장 및 텍스트 수준의 긴 예제로 확인할 수 있습니다.
  • Generality
    • 본 방법은 question answering 작업에도 적용되었습니다. 
    • 그 결과, vanilla 및 retrieval-augmented question answering 모두에서 높은 정확도(예: 74.2%에서 83.8%의 precision)로 상당한 수의 self-contradiction(12.7%에서 38.0%)을 탐지할 수 있었습니다.
  • 사용자 친화적 도구 및 오픈소스 제공
    • 제안된 프레임워크는 높은 효과성과 범용성을 통해 실용성을 입증하였습니다. 
    • 이를 바탕으로 hallucination에 대해 경고를 제공하고 이를 자동으로 완화하는 사용자 친화적인 도구를 https://chatprotect.ai/에서 공개하였습니다. 
    • 또한, 코드와 데이터셋은 https://github.com/eth-sri/ChatProtect에서 누구나 사용할 수 있도록 오픈소스로 제공됩니다.

2 RELATED WORK 

  • In this section, we discuss works that are closely related to ours.

























Reference

댓글