NL-246, SAC3: Reliable Hallucination Detection in Black-Box Language Models via Semantic-aware Cross-check Consistency, Findings of EMNLP 2023
◼ Comment LLM을 이용해서 환각검출하는 나름 괜찮은 시도의 방법인거 같다 예전에 QA 모델에서 question(입력)을 패러프레이징하여 응답을 여러개 추출하여 aggregation하여 성능 높이는걸 본 적이 있는데 비슷한 결이다 이 논문에서 주장하길 consistency=fact가 아니라는 것이다 그림 1이나 테이블 1이 그런거에 대한 예시이다 즉 self-model을 활용해서 응답을 여러개 샘플링하여 단순히 비교하는 방식은 한계가 있음을 지적한다 (selfcheckgpt 같은) selfcheckgpt는 기본적으로 주어진 입력에 응답만 여러개 추출해서 consistency을 파악하는거다 따라서 응답을 좀 더 다양화 하는 전략을 펼친다 여기서는 입력을 패러프레이징하고 패러프레이징된 여러 입력에 대해 여러 응답을 추출한다 그리고 이를 모두 consistency을 판단하는 것이다 입력이 패러프레이징됐지만 조금 달라졌기 때문에 (Q,A)을 하나의 쌍으로 비교를 한다 예를 들면, 원래 yes가 나와야하는 입력인데 반대로 물어보게해서 no가 나와야하는 경우도 있기 때문인거 같다 또한 모델을 self-model말고 proxy-model 느낌으로다가 다른 모델을 활용해서도 응답의 다양성을 높인다 이렇게 다양하게 (QA)쌍을 비교해가면서 yes/no을 추출하여 점수화한다 SC2의 문제점 : SC2의 경우, 상당수의 환각된 샘플이 매우 일관된(consistently high) 점수를 받는 것을 관찰했습니다. 이는 타겟 LM이 질문 및 모델 다양성이 부족하여 일관되게 잘못된 예측을 한 결과이며, Section 3의 분석과 일치합니다. proxy 모델을 써야하는 좋은 레퍼런스가 될 거 같음 Abstract 환각 감지는 현대 언어 모델(LMs)의 신뢰성을 이해하기 위한 중요한 단계입니다. 이를 위해, 우리는 기존의 언어 모델 자체 일관성(self-consistency)에 기반한 환각 감지 접근 방식을 재검토하고, 1) 질문 수준과 2) 모델 수준에서 발생...