NL-246, SAC3: Reliable Hallucination Detection in Black-Box Language Models via Semantic-aware Cross-check Consistency, Findings of EMNLP 2023

이미지
◼ Comment LLM을 이용해서 환각검출하는 나름 괜찮은 시도의 방법인거 같다 예전에 QA 모델에서 question(입력)을 패러프레이징하여 응답을 여러개 추출하여 aggregation하여 성능 높이는걸 본 적이 있는데 비슷한 결이다 이 논문에서 주장하길 consistency=fact가 아니라는 것이다 그림 1이나 테이블 1이 그런거에 대한 예시이다 즉 self-model을 활용해서 응답을 여러개 샘플링하여 단순히 비교하는 방식은 한계가 있음을 지적한다 (selfcheckgpt 같은) selfcheckgpt는 기본적으로 주어진 입력에 응답만 여러개 추출해서 consistency을 파악하는거다 따라서 응답을 좀 더 다양화 하는 전략을 펼친다 여기서는 입력을 패러프레이징하고 패러프레이징된 여러 입력에 대해 여러 응답을 추출한다 그리고 이를 모두 consistency을 판단하는 것이다 입력이 패러프레이징됐지만 조금 달라졌기 때문에 (Q,A)을 하나의 쌍으로 비교를 한다 예를 들면, 원래 yes가 나와야하는 입력인데 반대로 물어보게해서 no가 나와야하는 경우도 있기 때문인거 같다 또한 모델을 self-model말고 proxy-model 느낌으로다가 다른 모델을 활용해서도 응답의 다양성을 높인다 이렇게 다양하게 (QA)쌍을 비교해가면서 yes/no을 추출하여 점수화한다 SC2의 문제점 : SC2의 경우, 상당수의 환각된 샘플이 매우  일관된(consistently high)  점수를 받는 것을 관찰했습니다. 이는 타겟 LM이 질문 및 모델 다양성이 부족하여 일관되게 잘못된 예측을 한 결과이며, Section 3의 분석과 일치합니다. proxy 모델을 써야하는 좋은 레퍼런스가 될 거 같음 Abstract 환각 감지는 현대 언어 모델(LMs)의 신뢰성을 이해하기 위한 중요한 단계입니다. 이를 위해, 우리는 기존의 언어 모델 자체 일관성(self-consistency)에 기반한 환각 감지 접근 방식을 재검토하고, 1) 질문 수준과 2) 모델 수준에서 발생...

NL-245, Towards Mitigating Hallucination in Large Language Models via Self-Reflection, Findings of EMNLP 2023

이미지
◼ Comment 응답을 생성하고 환각을 없애도록 post-editing한 논문이라고 보면 된다. https://ai-information.blogspot.com/2024/11/nl-231-self-contradictory.html 위 논문과 유사하게 LLM에게 그냥 시켜서 환각을 잡고 문장을 재생성하는거다 이 연구의 방법론은 사실 노벨티가 있다고 느껴지진 않는다. (그냥 해본 느낌?;;) 방법론으 다음과 같다. 당뇨병의 원인은 무엇인가요? 이라는 질문이 있다고 하자 그러면 이에 해당하는 knowledge을 LLM에게 생성하라고 한다.  쉽게 생각하면 당뇨벙의 원인을 대답하기 위한 백그라운드 지식을 생성하세요 . 을 던지는것이다. (물론 여기서 사용한 프롬프트는 다르다. 본문 참고) 생성된 지식이 환각이 있을수 있기 때문에 LLM에게 사실성 점수를 매기라고한다 (이거에 대한 프롬프트는 논문에 안적혀있는데, 어케한거지?) 사실성 점수가 정해진 threshold 밑이면 생성된 지식을 수정하라고 LLM에게 다시 시킨다. 이를 반복하여 final knowledge을 생성한다. 이제 final knowledge을 이용하여 기존 질문에 대해 답변하라고 한다. 생성된 답변도 환각이 있을수 있기 때문에 일관성 점수를 매기는데, 여기서는 CTRLEval이란 기존의 모델을 활용한다.  일관성 점수가 정해진 threshold보다 높을때까지 LLM에게 수정하라고하면서 응답을 재생성한다. 마지막으로 질문과 최종 응답사이의 점수를 sentence-bert로 매긴다. sentence-bert가 주어진 threshold보다 낮으면 처음부터 다시 시작하여 재생성한다고 함 위 방법을 들으면, 그냥 LLM에게 지속적으로 재생성하라고 시키는 것이다. 딱히 학습은 없고, 그냥 기존 LLM을 통해 이런 재생성을 했다는 것이고 결과적으로 환각이 줄어든 응답을 얻을 수 있다고 주장한다. 뭔가 되게 비용적으로 비효율적이라는 느낌이 들긴하지만?  실험에 비교 방법이 없는...