NL-231, Self-contradictory Hallucinations of Large Language Models: Evaluation, Detection and Mitigation, ICLR 2024
Abstract 대규모 언어 모델(large LMs)은 잘못된 내용을 포함하는 텍스트를 생성하는 문제가 있으며, 이 중 중요한 사례로 자기모순(self-contradiction)을 들 수 있습니다. 자기모순은 동일한 문맥에서 서로 모순되는 두 문장을 생성하는 경우를 말합니다. 본 연구에서는 여러 instruction-tuned LMs에 대한 자기모순 문제를 평가, 탐지 및 완화하는 포괄적인 조사를 제공합니다. 주요 평가 과제로는 오픈 도메인 텍스트 생성이 포함되며, 짧은 질문 응답 형식에도 본 접근법이 적용 가능함을 입증하였습니다. 분석 결과, 자기모순이 광범위하게 나타남을 확인했으며, 예를 들어 ChatGPT가 생성한 문장 중 17.7%에서 자기모순이 발견되었습니다. 이를 해결하기 위해 효과적으로 자기모순을 탐지하고 완화하는 새로운 프롬프트 기반 프레임워크를 제안합니다. 탐지 모델은 높은 정확도를 달성했으며, 예를 들어 ChatGPT를 프롬프트 기반으로 활용했을 때 약 80%의 F1 점수를 기록했습니다. mitigation 알고리즘은 생성된 텍스트의 유창성과 정보성을 유지하면서 모순되는 정보를 반복적으로 수정합니다. 특히, 본 프레임워크는 외부 지식을 검색할 필요 없이 블랙박스 언어 모델에 적용 가능하며, 검색 기반 방법을 보완합니다. 이는 self-contradictions의 큰 비중(예: ChatGPT의 경우 35.2%)이 온라인 텍스트를 통해 검증되지 않기 때문입니다. 본 접근법은 실질적으로 효과적이며, 대중을 위해 손쉽게 사용할 수 있는 도구로 제공되고 있습니다. 자세한 내용은 https://chatprotect.ai/에서 확인 가능합니다. 1 INTRODUCTION 대규모 언어 모델(large LMs)은 방대한 텍스트 데이터 코퍼스를 기반으로 사전 학습되며, 이후 인간의 지시를 따르도록 세밀하게 튜닝됩니다. Instruction-tuned LMs, 예를 들어 ChatGPT는 자연어 작업을 해결하는 데 있어 놀라운 제로샷