NL-245, Towards Mitigating Hallucination in Large Language Models via Self-Reflection, Findings of EMNLP 2023

◼ Comment

  • 응답을 생성하고 환각을 없애도록 post-editing한 논문이라고 보면 된다.
  • https://ai-information.blogspot.com/2024/11/nl-231-self-contradictory.html
    • 위 논문과 유사하게 LLM에게 그냥 시켜서 환각을 잡고 문장을 재생성하는거다
  • 이 연구의 방법론은 사실 노벨티가 있다고 느껴지진 않는다. (그냥 해본 느낌?;;)
  • 방법론으 다음과 같다.
    • 당뇨병의 원인은 무엇인가요? 이라는 질문이 있다고 하자
    • 그러면 이에 해당하는 knowledge을 LLM에게 생성하라고 한다. 
    • 쉽게 생각하면 당뇨벙의 원인을 대답하기 위한 백그라운드 지식을 생성하세요. 을 던지는것이다. (물론 여기서 사용한 프롬프트는 다르다. 본문 참고)
    • 생성된 지식이 환각이 있을수 있기 때문에 LLM에게 사실성 점수를 매기라고한다 (이거에 대한 프롬프트는 논문에 안적혀있는데, 어케한거지?)
    • 사실성 점수가 정해진 threshold 밑이면 생성된 지식을 수정하라고 LLM에게 다시 시킨다.
    • 이를 반복하여 final knowledge을 생성한다.
    • 이제 final knowledge을 이용하여 기존 질문에 대해 답변하라고 한다.
    • 생성된 답변도 환각이 있을수 있기 때문에 일관성 점수를 매기는데, 여기서는 CTRLEval이란 기존의 모델을 활용한다. 
    • 일관성 점수가 정해진 threshold보다 높을때까지 LLM에게 수정하라고하면서 응답을 재생성한다.
    • 마지막으로 질문과 최종 응답사이의 점수를 sentence-bert로 매긴다.
    • sentence-bert가 주어진 threshold보다 낮으면 처음부터 다시 시작하여 재생성한다고 함
  • 위 방법을 들으면, 그냥 LLM에게 지속적으로 재생성하라고 시키는 것이다.
    • 딱히 학습은 없고, 그냥 기존 LLM을 통해 이런 재생성을 했다는 것이고 결과적으로 환각이 줄어든 응답을 얻을 수 있다고 주장한다.
    • 뭔가 되게 비용적으로 비효율적이라는 느낌이 들긴하지만? 
    • 실험에 비교 방법이 없는걸보면 이런 연구가 거의 없었던거 같다.

Abstract

대규모 언어 모델(LLM)은 질문-응답(QA) 작업을 포함한 생성 및 지식 집약적 작업에서 유망한 성과를 보이고 있습니다. 그러나 실제 배포에서는 여전히 몇 가지 과제가 존재하며, 특히 "환각(hallucination)" 문제는 중요한 이슈로 꼽힙니다. 환각은 모델이 그럴듯해 보이지만 사실과 다르거나 비논리적인 정보를 생성하는 현상을 말합니다. 이러한 문제는 특히 전문적 개념이 드물게 사용되고 사회적 위험이 존재할 수 있는 의료 분야에서 더욱 심각합니다.

이 논문은 널리 사용되는 LLM과 데이터셋을 활용하여 의료 생성형 QA 시스템에서의 환각 현상을 분석합니다. 우리는 환각에 중점을 두고 일반적인 문제 답변을 식별하고 이해하는 데 초점을 맞추고 있습니다. 이 문제를 해결하기 위해, 우리는 지식 습득과 답변 생성을 통합한 상호작용적 자기 반영(interactive self-reflection) 방법론을 제시합니다. 이 피드백 과정을 통해 우리의 접근 방식은 생성된 답변의 사실성, 일관성, 함의(entailment)을 지속적으로 개선합니다.

결과적으로, 우리는 LLM의 상호작용성과 다중작업 능력을 활용하여 점진적으로 더 정확하고 정밀한 답변을 생성할 수 있었습니다. 자동 평가와 인간 평가 모두에서의 실험 결과는 환각 감소에 있어 기존의 기법들에 비해 우리 접근 방식의 우수성을 입증합니다.

환각이 적게 응답을 생성하도록 하는 연구인듯. 반복적으로 수정하는 방식으로 응답을 일단 생성하고 응답에서 환각을 없애서 응답을 재생성하는 느낌인듯? 평가 도메인은 의료 도메인

1 Introduction

대규모 언어 모델(LLM)은 세계적 또는 도메인 지식을 요구하는 생성 및 지식 집약적 작업에서 유망한 성과를 보이고 있습니다(Petroni et al., 2021). 이러한 작업의 대표적인 예로는 생성형 질문-응답(GQA)이 있습니다. GQA는 질의에 대한 관련 정보를 제공하며(Li et al., 2021a; Su et al., 2023; Nakano et al., 2021), 언어 모델의 능력을 평가하는 데도 활용될 수 있습니다(Wang et al., 2021).

그러나 이러한 잠재력과 최근의 발전에도 불구하고, LLM은 "환각(hallucination)"이라는 심각한 문제에 직면해 있습니다. 환각은 모델이 그럴듯해 보이지만 사실과 다르거나 비논리적인 정보를 생성하는 현상을 말합니다(Ji et al., 2023). 의료 분야에서는 환각으로 인한 도전 과제가 특히 중요합니다. 부정확하거나 오해를 불러일으킬 수 있는 정보는 환자 치료에 심각한 결과를 초래할 수 있기 때문입니다(Puchert et al., 2023). 더불어, 드문 전문적 개념이 의료 GQA 작업을 더욱 복잡하게 만듭니다(Kaddari et al., 2020).

예를 들어, 그림 1의 GQA 사례에서 PTEN(Phosphatase and tensin homolog) 돌연변이는 일반적으로 누난 증후군(Noonan syndrome)과 관련이 없으나, 답변이 그럴듯해 보이기 때문에 이는 환각된 정보에 해당합니다. 

따라서, AI 기반 의료 서비스의 신뢰성과 안전성을 보장하기 위해 이러한 환각을 이해하고 완화하는 것이 매우 중요합니다(Morley et al., 2020).

  • 외부의 관련 지식을 검색하는 작업과 병행하여(Lewis et al., 2020; Guu et al., 2020; Izacard et al., 2022), 
  • 최근 연구(Yu et al., 2023; Wang et al., 2021; Roberts et al., 2020; Xu et al., 2022; Sun et al., 2023)에서는 LLM에 내재된 파라메트릭 지식을 활용하고 지식 집약적 작업에서의 잠재력을 탐구하고 있습니다. 

다른 도메인의 GQA 연구(Lin et al., 2021; Su et al., 2022)는 환각 문제를 해결하고 응답의 충실도를 개선하는 것이 중요하다고 강조합니다. 그러나 LLM이 생성한 의료 답변에서 환각의 범위에 대한 현재 이해는 명확하지 않으며, 이 측면에서 추가적인 개선 가능성을 탐구할 필요가 있습니다.

이 격차를 메우기 위해, 본 연구는 의료 GQA 시스템에서의 환각을 조사합니다. 특히 Vicuna(Chiang et al., 2023), Alpaca-LoRA(Wang, 2023), ChatGPT(OpenAI, 2023a)와 같은 일반 LLM과 MedAlpaca(Han et al., 2023), Robin-medical(Diao et al., 2023)과 같은 의료 특화 LLM을 활용하며, PubMedQA(Jin et al., 2019), MedQuAD(Ben Abacha 및 Demner-Fushman, 2019), MEDIQA2019(Ben Abacha et al., 2019), LiveMedQA2017(Ben Abacha et al., 2017), MASH-QA(Zhu et al., 2020)와 같은 인기 있는 의료 데이터셋에서 연구를 수행합니다.

우리는 환각 발생률을 평가하고, 잠재적 원인을 탐색하며, 이 문제를 완화하기 위한 전략을 제안합니다. 최신 모델에 대한 종합적인 분석을 통해, 이러한 시스템에서의 환각에 대한 이해를 높이고, 더 신뢰할 수 있는 AI 지원 의료 서비스를 위한 로드맵을 제공하고자 합니다.

현재 연구(Yin et al., 2023; Burns et al., 2022; Rajpurkar et al., 2018; Kadavath et al., 2022; Manakul et al., 2023)는 자연어 생성(NLG) 작업에서 표면적 표현과 내재된 지식 간의 격차를 강조합니다. 모델은 어느 정도 자신이 환각된 정보를 생성하고 있음을 인지할 수 있습니다. 이러한 격차를 줄이고 의료 GQA에서의 환각을 완화하기 위해, 우리는 LLM의 다중 턴 상호작용성과 다중 작업 능력을 활용한 반복적이고 내성적인 프로세스를 고안했습니다.

우리의 자기 반영(self-reflective) 방법론은 주어진 질문에 대한 관련 배경 지식을 생성하는 것으로 시작하며, 이후 사실성을 평가합니다. 

  • 불일치가 발견되면, 모델은 자신의 내재된 반영 능력을 활용하여 지식을 수정하도록 유도됩니다. 
  • 이 순환적인 과정은 만족스러운 수준의 사실성을 달성할 때까지 반복됩니다. 답변 생성 단계에서는 유사한 생성-평가-수정 전략을 적용하여 생성된 답변과 배경 지식 간의 일관성을 확보합니다. 
  • 추가적으로, 답변과 질문 간의 함의(entailment)를 평가하며, 생성된 답변이 기준을 충족하지 못하면 프로세스는 초기 단계로 돌아가 반복됩니다.

이 방법은 시스템과 지식 간의 동적 상호작용을 촉진하여, 의료 환경에서 정확하고 신뢰할 수 있으며 사실적으로 기반된 응답을 제공하는 모델의 능력을 향상시킵니다.

우리 방법의 실험 결과는 7B와 175B 파라미터를 가진 다양한 LLM과 다섯 가지 데이터셋에서의 효과를 보여줍니다. 이러한 강력한 성능은 우리의 접근 방식의 일반성과 확장 가능성을 강조하며, 의료 질문-응답 작업에서 그 유효성을 더욱 입증합니다. 우리는 LLM에서 지식을 추출하고 심화 탐구하며, 모델의 잠재력을 최대한 활용하고 궁극적으로 상위 성능 한계에 접근하려 노력합니다. 또한, 외부 지식 활용이나 더 강력한 LLM과 같은 다른 기술과 결합하여 견고한 응용 시스템 개발에 기여할 수 있습니다.

요약하면, 본 연구의 주요 기여는 다음 세 가지로 정리됩니다:

  • 다섯 가지 의료 GQA 데이터셋과 다섯 가지 LLM을 활용하여 의료 GQA 시스템에서의 환각 현상을 포괄적으로 분석했습니다.
  • LLM에서의 환각을 완화하기 위한 혁신적인 자기 반영 방법을 제안했습니다. 이 반복적 피드백 루프는 지식과 답변을 생성, 평가, 수정하여 만족스러운 수준에 도달할 때까지 과정을 진행하며, 답변의 정확성과 신뢰성을 향상시킵니다.
  • 실험 결과는 우리의 방법이 효과적이고, 일반적이며, 확장 가능함을 보여줍니다. 이 연구는 LLM이 의료 GQA 작업에서 가치 있는 도구로서, 특정 데이터셋에 대한 명시적 훈련 없이도 의미 있는 통찰을 제공할 수 있음을 입증합니다.

2 Related Work

의료 질문-응답 시스템

의료 QA(Medical QA) 시스템은 의료 분야에서 정보 접근성과 이해를 향상시키는 데 있어 상당한 잠재력을 보여주고 있습니다. 이러한 시스템은 Yes/No 질문(Tsatsaronis et al., 2015; Jin et al., 2019), 다중 선택(Pal et al., 2022; Li et al., 2021b; Welbl et al., 2018; Berant et al., 2014; Abacha et al., 2019; Morante et al., 2012), 추출형(Tsatsaronis et al., 2015; Dhingra et al., 2018; Šuster and Daelemans, 2018; Tang et al., 2020; Möller et al., 2020; Pampari et al., 2018), 생성형(Savery et al., 2020; Mollá et al., 2016; Jin et al., 2019; Ben Abacha and Demner-Fushman, 2019; Ben Abacha et al., 2019, 2017) 등 다양한 형식의 질문에 응답할 수 있습니다. 사전 학습된 언어 모델의 도입은 GQA(생성형 질문-응답) 시스템의 역량을 더욱 강화하여 의료 질문에 대해 유창하고 의미 있는 답변을 생성할 수 있게 했습니다(Soni and Roberts, 2020; Liu et al., 2022; Savery et al., 2020; Alsentzer et al., 2019; Kaddari et al., 2020).

생성형 질문-응답의 환각 문제

신뢰성 있는 GQA는 소스 텍스트나 유효한 외부 지식에 기반하여 답변을 생성하는 것을 목표로 하며, 이는 최근 연구에서 중요한 주제로 부각되었습니다(Nakano et al., 2021; Su et al., 2022, 2023). 답변이 더 신뢰성 있을수록 환각된 내용이 적게 포함됩니다. 환각 수준을 반영하는 용어로는 의미적 드리프트(semantic drift), 사실적 정확성(factual correctness) 등이 사용됩니다(Li et al., 2021a; Su et al., 2022).

Rationale-Enriched Answer Generator(REAG)(Li et al., 2021a)은 답변의 근거를 추출하는 작업을 추가하여 높은 신뢰도로 답변을 생성합니다. Read-before-Generate(Su et al., 2022)는 답변 생성과 기계 독해를 결합하여 정밀하고 답변과 관련된 중요한 정보를 통합합니다. Lin et al.(2021)이 제안한 벤치마크는 다양한 도메인에서 언어 모델이 생성한 답변의 진실성을 측정합니다. 이러한 연구들은 환각을 줄이는 것이 중요하다는 점을 강조하며, 이는 본 연구의 핵심 초점이기도 합니다.

대규모 언어 모델

GPT-3(Brown et al., 2020), ChatGPT(OpenAI, 2023a), LLaMA(Touvron et al., 2023), GPT-4(OpenAI, 2023b)와 같은 대규모 언어 모델(LLM)의 등장은 자연어 처리 작업에 혁신을 가져오며, 유창하고 맥락적으로 적합한 답변을 생성하는 뛰어난 언어 능력을 보여주고 있습니다(Brown et al., 2020; OpenAI, 2023a; Touvron et al., 2023; OpenAI, 2023b).

이 모델들은 또한 맥락 학습(in-context learning)(Min et al., 2022), 제로샷 학습(zero-shot instruction)(Ouyang et al., 2022; Wei et al., 2021), 연쇄적 사고(chain-of-thought reasoning)(Wei et al.) 등과 같은 새로운 능력을 보여줍니다. 그러나 이러한 모델을 실제 응용에 배치하는 과정에서 통제, 편향, 신뢰성과 관련된 문제(Tamkin et al., 2021)가 부각되었으며, 최근 환각 문제가 점점 더 명확히 드러나고 있습니다(OpenAI, 2023a; Bang et al., 2023).

3 Analysis of Hallucination 

이 섹션에서는 다섯 가지 데이터셋을 활용하여 LLM(대규모 언어 모델)에게 의료 관련 질문을 직접 제시하고, 이들의 제로샷(zero-shot) 능력을 평가합니다. 

이후, 생성된 답변을 종합적으로 평가 및 분석하며, 특히 환각(hallucination)의 발생 여부를 중점적으로 검토합니다.

3.1 Models

우리는 생성된 답변을 다섯 가지 LLM(대규모 언어 모델)에서 평가합니다. 여기에는 세 가지 일반 LLM과 두 가지 의료 도메인에 특화된 LLM이 포함됩니다. 

  • Vicuna(Chiang et al., 2023)는 ShareGPT에서 사용자 공유 대화를 활용하여 LLaMA를 파인튜닝한 모델입니다. 
  • AlpacaLoRA(Wang, 2023)는 Low-Rank Adaptation(LoRA)을 활용하여 Stanford의 Alpaca 모델의 결과를 재현합니다. 
  • ChatGPT(OpenAI, 2023a)는 인간 피드백 강화 학습(RLHF)을 통해 프롬프트를 해석하고 포괄적인 응답을 제공합니다. 
  • MedAlpaca(Han et al., 2023)는 LLaMA 프레임워크를 기반으로 의료 대화와 질문-답변(QA) 텍스트를 학습하여 지시 조정 형식으로 파인튜닝된 모델입니다. 
  • Robin-medical(Diao et al., 2023)은 LMFlow를 사용하여 의료 도메인에 특화되도록 LLaMA를 파인튜닝한 모델입니다.

3.2 Dataset

PubMedQA(Jin et al., 2019)는 생의학 질문-답변(QA) 데이터셋으로, 연구 논문의 제목에서 파생된 질문, 초록을 배경 정보로 사용한 맥락, 초록의 결론에서 추출한 긴 답변, 그리고 간결한 "예/아니요/아마도" 형태의 답변을 포함한 1,000개의 전문가 라벨링된 사례를 포함하고 있습니다. 

MedQuAD(Ben Abacha와 Demner-Fushman, 2019)는 미국 국립보건원(NIH) 웹사이트에서 수집한 47,457개의 QA 쌍으로 구성되어 있으며, 질병, 약물, 진단 검사 등 다양한 의료 주제를 다룹니다. 

MEDIQA2019(Ben Abacha 등, 2019) 챌린지의 의료 QA 데이터셋을 사용하며, 점수 3 및 4를 받은 답변을 정답으로 간주합니다. 

LiveMedQA2017(Ben Abacha 등, 2017)은 질문 분석 및 답변 시스템을 위한 주석이 달린 의료 QA 쌍을 포함합니다. 

MASH-QA(Zhu 등, 2020)는 소비자 건강 도메인에서 다중 답변 스팬 헬스케어 QA를 위해 설계된 34,000개의 QA 쌍을 제공합니다.

PubMedQA를 제외한 다른 데이터셋의 답변 주석은 신뢰할 수 있는 웹 콘텐츠에서 수작업으로 추출하고 복사하는 방식으로 이루어집니다. 이러한 답변은 관련성이 높고 검증 가능하지만, 문맥적 일관성과 질문 연계성 측면에서 개선 여지가 있습니다. 자세한 내용과 예시는 부록 A를 참조하십시오.

3.3 Evaluation Protocols

생성 품질을 평가하기 위해, 이전 연구(Su et al., 2022)를 참고하여 GQA(Grounded Question Answering) 메트릭인 unigram F1과 ROUGE-L(Lin, 2004)을 활용합니다. 그러나 널리 사용되는 n-gram 유사성 메트릭은 종종 환각(hallucinated)이나 잘못된 답변을 구분하지 못하고, 인간 평가와의 상관관계가 약한 경우가 많습니다(Lee et al., 2021; Zhou et al., 2021). 

이를 보완하기 위해, 우리는 **Med-NLI(Medical Natural Language Inference)**를 도입하여 생성된 답변이 제공된 맥락 또는 참조 답변과 논리적으로 일치(entailment)하는지를 평가합니다.

평가를 위해 SciFive(Phan et al., 2021) 모델을 사용하며, 이는 방대한 생의학 코퍼스에 대해 사전 학습된 T5 모델입니다. 우리의 평가는 두 가지 수준에서 이루어집니다:

  1. 샘플 수준 Med-NLI: 각 생성된 답변이 맥락 또는 참조 답변과 논리적으로 일치(1), 중립(0), 또는 모순(-1)되는지를 평가합니다.
  2. 문장 수준 Med-NLI: 생성된 답변의 각 개별 문장에 대해 동일한 논리적 평가를 수행합니다.

또한, CTRLEval(Ke et al., 2022)을 활용합니다. 이는 비지도학습 방식으로 참조 없이 다양한 측면에서 생성 결과를 평가하는 메트릭으로, 각 측면을 여러 텍스트 보완(infilling) 태스크로 구성합니다. 본 연구에서는 이 메트릭의 일관성(consistency) 측면을 중심으로 평가를 수행합니다.

3.4 Results and Discussion

표 2는 다섯 가지 데이터셋의 테스트 세트에 대한 자동 평가 메트릭 실험 결과를 보여줍니다.

오류 분석

다섯 가지 모델에서 직접 생성된 250개의 예제를 분석한 결과, 문제 있는 답변을 사실 불일치(Fact Inconsistency), 질문 불일치(Query Inconsistency), 주변성(Tangentiality)의 세 가지 카테고리로 분류했습니다. 

각 카테고리 및 모델별 대표 예제와 발생 비율은 표 1그림 2를 참고하십시오. 첫 번째와 두 번째 카테고리는 환각(hallucination) 문제로 간주됩니다.

1. 사실 불일치 (Fact Inconsistency)

  • 정의: 답변이 사실과 불일치하거나 충돌하는 정보를 제공하는 경우입니다.
  • 원인: 모델이 질문에 응답할 때 관련 지식을 적절히 호출하지 못할 때 발생합니다.
  • 예시: 표 1의 답변은 Noonan 증후군이 유전되지 않는다고 잘못 서술했지만, 실제로 이는 상염색체 우성 방식으로 유전됩니다.

2. 질문 불일치 (Query Inconsistency)

  • 정의: 답변이 질문과 무관하거나 비논리적인 경우입니다.
  • 원인: 모델이 질문에 응답하지 않거나 관련 지식을 적절히 활용하지 못할 때 발생합니다.
  • 예시: 표 1의 답변은 심장 재수술에 대해 질문했지만, 비타민의 이점만을 언급하며 관련이 없습니다.

3. 주변성 (Tangentiality)

  • 정의: 답변이 주제와 관련이 있지만 질문에 직접적으로 응답하지 않는 경우입니다.
  • 원인: 모델이 귀납적, 연역적, 논리적 추론과 같은 학습된 지식을 추가로 처리하지 않을 때 발생합니다.
  • 예시: 표 1의 답변은 uveal membrane에 대해 언급하지만, c-Kit이 uveal membrane에 미치는 영향을 구체적으로 다루지 못합니다.

해결 방안

이러한 문제를 해결하려면 모델이 사실적 지식 회상, 문맥적 이해, 추론 능력을 강화해야 합니다. 생성 시스템의 신뢰성과 신뢰도를 향상시키기 위해 LLM의 이러한 기능에 대한 추가적인 탐구와 개발이 필요합니다.

4 Hallucination Mitigation Method 

의료 도메인에서의 파인튜닝 효과

의료 도메인 텍스트로 파인튜닝된 LLM(Han et al., 2023; Diao et al., 2023)은 다중 선택형 QA와 같은 특정 유형의 질문에서 성능이 향상되었으며, 이는 풍부한 학습 데이터의 활용에서 기인합니다. 그러나 GQA(Grounded Question Answering) 과제에서는 다음과 같은 문제로 인해 성능 저하를 겪습니다:

  • 관련 없는 콘텐츠,
  • 문법 문제,
  • 부적절한 템플릿 사용,
  • 존재하지 않는 참고 자료,
  • 설명적 추론 부족.

표 2에 따르면, Robin-medical은 F1 및 ROUGE-L 점수가 가장 낮게 나타났습니다. 예를 들어, "Who can get eczema?"라는 질문에 대해, Robin-medical은 다음과 같은 응답을 생성합니다:

"(A) All (B) 10% (C) 20% (D) 30%.\n Output: A."
이와 같은 결과는 MedAlpaca와 Robin-medical 간의 성능 차이를 보여주며, 비지시 학습(non-instruction tuning)보다 지시 학습(instruction learning)이 LLM 작업에 더 적합하다는 것을 시사합니다. Robin-medical의 상대적으로 낮은 생성 성능으로 인해, 이후 실험에서 이를 제외했습니다.

빈도의 영향

LLM의 사전 학습 코퍼스에 따른 빈도를 측정하는 것은 비현실적이기 때문에, 우리는 자연 언어 세계와 사전 학습 코퍼스의 텍스트 분포를 대리할 수 있는 Google Ngrams4를 사용했습니다. 일반 모델에서 생성된 100개의 샘플을 무작위로 선택하고, 질문의 키워드 또는 주제를 추출했습니다. 이 키워드들은 주로 질병 이름입니다.
1950년부터 2019년까지의 평균 빈도(McKenna et al., 2023)를 계산한 결과, 그림 3에 따르면 문제 있는 답변은 양호한 답변에 비해 낮은 빈도를 보였습니다. 

이는 낮은 빈도가 환각(hallucination)의 잠재적 원인일 가능성을 시사하며, 이를 증명하기 위해 추가적인 탐구가 필요합니다.

4.1 Methodology

환각(hallucination) 문제를 해결하기 위해, 우리는 LLM(대형 언어 모델)의 응답 생성 및 개선 역량을 활용한 반복적 자기반성 프로세스를 제안합니다. 

Figure 4에서 설명된 바와 같이, 이 방법론은 사실 지식 획득 루프(Factual Knowledge Acquiring Loop), 지식 일관 응답 루프(Knowledge-Consistent Answering Loop), 질문 함축 응답 루프(Question-Entailment Answering Loop)라는 세 가지 루프로 구성됩니다.

1. 사실 지식 획득 루프 (Factual Knowledge Acquiring Loop)

먼저, 모델이 주어진 질문을 바탕으로 배경 지식을 생성합니다. 이 단계는 LLM의 맥락 관련 정보를 종합하는 능력을 활용하여, 후속 평가 및 개선 단계를 위한 기초를 형성합니다.

그 후, 생성된 지식에 대한 사실성 평가(factuality evaluation)참조 없이 수행되는 맞춤형 평가 도구를 통해 이루어집니다. 사실성 평가는 다음과 같은 문맥 내 지침 학습(in-context instruction learning) 공식을 사용하여 설계됩니다:

F_s(k|D, Q) = \sum_{t=1}^m \log P(k_t | k_{<t}, T(D, Q))

여기서 평가 대상 지식 kk{k1,k2,...,km} \{k_1, k_2, ..., k_m\}이고, DD는 주석이 달린 몇 가지 예시(few-shot demonstrations), QQ는 주어진 질문입니다. T()T(·)는 사실성 정의와 과제 설명이 포함된 프롬프트 템플릿입니다.

프롬프트 템플릿 예:

  • 질문을 기반으로 사실적인 지식을 생성하세요. 이를 위해 다음 요소를 고려하세요: 검증 가능성(Verifiability), 객관성(Objectivity), 신뢰할 수 있는 출처(Reliability of Source). 평가는 현재 이용 가능한 최고의 의학 지식에 기초해야 합니다. 질문: ... 지식: ...

Factscorer 프롬프트 (부록)

  • 질문: 심장병의 위험 요인은 무엇인가요?
  • 지식:
  • 심장병의 위험 요인은 수정 가능한 요인과 수정 불가능한 요인으로 나눌 수 있습니다.
  • 수정 가능한 위험 요인에는 고혈압, 고콜레스테롤, 흡연, 건강하지 못한 식습관, 신체 활동 부족, 비만, 과도한 음주가 포함됩니다.
  • 수정 불가능한 위험 요인에는 나이, 성별, 가족력, 그리고 인종 또는 민족이 포함됩니다.
  • 질문: 흡연은 폐 건강에 어떤 영향을 미치나요?
  • 지식:
  • 흡연은 폐의 기도와 작은 공기 주머니를 손상시켜 만성 기관지염, 폐기종, 폐암과 같은 다양한 폐 질환을 유발할 수 있습니다.
  • 또한 폐 용량을 감소시키고, 감염에 대한 방어력과 점액을 제거하는 능력을 떨어뜨립니다.
  • 질문: 매일 아스피린을 복용하는 것이 안전한가요?
  • 지식:
  • 일부 사람들에게는 매일 아스피린을 복용하는 것이 심장마비나 뇌졸중 예방에 도움이 될 수 있습니다.
  • 그러나 매일 아스피린을 복용하는 것은 모든 사람에게 적합하지 않습니다.
  • 위장 출혈과 같은 부작용을 유발할 수 있으며, 특정 건강 상태를 가진 사람이나 특정 약물을 복용하는 사람에게는 권장되지 않습니다.
  • 새로운 약물 요법을 시작하기 전에 반드시 의료 전문가와 상담하세요.
문맥 내 지침 학습은 관련성, 유창성, 정보성 등 텍스트 생성 과제에서 효과적임이 입증되었습니다(Fu et al., 2023).
만약 사실성 점수가 평가 단계에서 설정된 임계값(THRESHOLD_FACTUAL)보다 낮으면, 모델에 자기 반성을 수행하도록 지시하고 지식을 개선합니다. 

지시 프롬프트는 다음과 같습니다:

  • 해당 지식의 사실성 점수는 XXX(THRESHOLD_FACTUAL 미만)로, 이는 지식이 경험적 증거에 의해 강하게 뒷받침되지 않음을 의미합니다. 사실성을 개선하기 위해 지식을 수정하세요.

생성-평가-수정(generate-score-refine) 전략은 사실성 수준이 만족스러운 수준에 도달할 때까지 반복적으로 수행됩니다. 이 반복적 절차는 시스템과 생성된 지식 간의 동적 상호작용을 촉진하며, 모델이 생성된 배경 지식을 점진적으로 사실에 부합하도록 개선하도록 합니다.

  • LLM에게 질문에 대한 백그라운드를 생성해달라고 시킨다.
  • 생성된 지식에 대한 사실성 점수를 LLM으로 평가하고 (in-context learning) 이 점수가 threhsold보다 낮으면 다시 지식을 수정하라고 LLM에게 시킨다.
  • threshold보다 높으면 final knowledge로 간주하고 다음 step으로 넘어간다

2. 지식 일관 응답 루프 (Knowledge-Consistent Answering Loop)

생성된 지식이 요구되는 품질 기준을 충족하면, 모델은 제공된 질문과 최종 지식을 바탕으로 응답을 생성합니다. 이를 위해 다음 템플릿을 사용합니다:

  • 지식: "final_knowledge"를 참고하여 질문: XXX에 대해 하나의 단락으로 답하세요.

생성된 응답은 CTRLEval(3.3절에서 소개됨)을 통해 **일관성 평가(consistency evaluation)**를 거칩니다. 만약 응답의 일관성 점수가 임계값(THRESHOLD_CONS)보다 낮으면, 모델은 자기 반성을 수행하고 응답을 수정하도록 지시받습니다. 지시 프롬프트는 다음과 같습니다:

  • 응답의 일관성 점수는 XXX(THRESHOLD_CONS 미만)로, 이는 응답과 지식 간의 정렬 및 일관성이 낮음을 의미합니다. 응답의 일관성을 개선하기 위해 응답을 수정하세요.

생성-평가-수정(generate-score-refine) 전략은 응답이 충분한 일관성 수준에 도달할 때까지 반복됩니다. 이러한 반복적 절차는 모델이 검증된 배경 지식과 일치하는 응답을 점진적으로 개선하도록 하여 응답의 **무결성(integrity)**을 유지합니다.

  • final_knowledge 생성했던 것처럼, 응답을 생성하고 일관성 점수 측정하는 것을 반복한다. 
  • 일관성 점수가 threshold가 넘을때까지 응답을 수정하는 방식이다.
  • 일관성 점수는 CTRLEval로 구함 (기학습된 모델 ref로 사용한듯)

3. 질문 함축 응답 루프 (Question-Entailment Answering Loop)

앞선 두 루프를 거친 후, 생성된 응답의 함축(entailment) 여부를 확인하기 위해 sentence-BERT 임베딩 유사도(Reimers and Gurevych, 2019)를 사용해 평가합니다. 

이 단계는 응답이 질문과 논리적으로 연결되고 응답 가능성을 보장하는 데 목적이 있습니다.

  • 질문과 응답이 sentence-bert 점수가 어느정도 높아야한다고 필터링하는 듯
  • sentence-bert 점수가 threshold보다 낮으면 처음부터 다시시작

만약 생성된 응답이 만족스러운 함축 수준에 도달하지 못하면, 프로세스는 프레임워크의 초기 단계로 되돌아가며, 앞서 설명한 모든 단계를 다시 반복합니다.

이 반복적 과정은 모델이 생성된 지식 및 응답이 질문의 의도와 일관되며 적절히 정렬되도록 보장합니다.

4.2 Experiments 

4.2.1 Evaluation

사람 평가 (Human Evaluation)

§ 3.3에서 설명한 자동화된 평가 지표 외에도, 생성된 응답의 품질을 추가로 평가하기 위해 Amazon Mechanical Turk를 활용한 **사람 평가(human evaluation)**를 진행했습니다.

1. 질문-일관성 및 주변성 평가 (Question-Consistency and Tangentiality Evaluation)

  • 이 평가는 샘플 수준에서 이루어지며, 주석자들에게 각 응답을 다음 세 가지 범주로 분류하도록 요청했습니다:
    • Query-Inconsistent (질문-비일관적): 응답이 질문과 관련 없는 정보를 제공하거나 비논리적이며 무의미한 경우를 의미합니다.
    • Tangential (주변적): 응답이 질문과 관련된 정보를 제공하지만, 질문을 직접적으로 다루지 않는 경우를 의미합니다.
    • Entailed (함축적): 응답이 질문을 직접적으로 다루는 경우를 의미합니다.

2. 사실-일관성 평가 (Fact-Consistency Evaluation)

  • 이 평가는 문장 수준에서 이루어지며, 주석자들에게 응답의 각 문장을 다음 세 가지 범주로 분류하도록 요청했습니다:
    • Fact-Inconsistent (사실-비일관적): 응답 문장이 참고 문맥 또는 웹사이트에 의해 반박되거나 검증될 수 없는 경우를 의미합니다.
    • Fact-Consistent (사실-일관적): 응답 문장이 제공된 문맥 또는 웹사이트에 의해 뒷받침되는 경우를 의미합니다.
    • Generic (일반적): 응답 문장이 평가할 명확한 진술을 포함하지 않는 경우를 의미합니다.

평가 방법과 절차에 대한 자세한 내용은 **부록 D(Appendix D)**를 참조하세요.

4.2.2 Results

자동 평가 (Automatic Evaluation)

**표 2(Table 2)**는 우리의 자기반성 루프(self-reflection loop) 접근법과 직접적으로 응답을 생성하는 기존 기준선(baseline) 모델들 간의 자동 평가 결과를 보여줍니다.

_L이 있는게 post-editing한건데 성능이 올라갔다고 보여줌

  • 성과 비교:
    우리의 접근법은 모든 다섯 개의 데이터셋에서 **전통적인 중복성 지표(classic overlap metrics)**와 환각 지표(hallucination metrics) 모두에서 기준선을 능가하는 우수한 성능을 보였습니다.

    • 특히, MedNLI에서 괄목할 만한 성능 향상이 관찰되었습니다.
    • 예를 들어, PubMedQA에서 Alpaca-Lora-7B 모델에 자기반성 루프를 적용하면, 샘플 수준 및 문장 수준 MedNLI에서 기준선 대비 약 3배 향상을 기록했습니다.
  • F1 및 Rouge-L 점수:

    • F1 및 Rouge-L과 같은 중복 기반 지표에서는 상대적으로 보통 수준의 향상이 관찰되었습니다.
    • 이는 이러한 지표가 정답(golden answers)의 정확성에 크게 의존하기 때문입니다.
    • 결과적으로, 생성된 응답이 높은 품질을 보이더라도 정답과 다를 경우, 이러한 지표의 성능에 부정적인 영향을 미칠 수 있습니다.
  • 모델 크기와 일반화 가능성:

    • 우리의 방법은 7B부터 175B에 이르는 다양한 파라미터 크기의 언어 모델에서 효과를 발휘했으며, 모든 다섯 개 데이터셋에서 우수한 성과를 보였습니다.
    • 이러한 견고한 성능은 일반화 가능성과 확장성을 강조하며, 의료 질문-응답 작업에서 접근법의 유효성을 추가로 입증합니다.

사람 평가 (Human Evaluation)

**표 3(Table 3)**는 우리의 접근법이 VicunaChatGPT 모델 모두에서 질문 비일관성, 주변성(tangentiality), 그리고 사실 비일관성의 비율을 성공적으로 줄였음을 보여줍니다.

  • 자동 평가와의 일치:

    • 이러한 결과는 자동 평가 결과와도 일치하며, 접근법의 전반적인 개선 효과를 확인시켜 줍니다.
  • 주석자 간 합의도(inter-annotator agreement):

    • Krippendorff’s alpha(Krippendorff, 2011)로 측정한 결과,
      • 질문 비일관성과 주변성에서 0.8 이상,
      • 사실 일관성에서 0.7 이상의 높은 합의도를 나타냈습니다.

자세한 결과는 **부록 D(Appendix D)**를 참조하세요.

4.3 Discussion 

4.3.1 Ablation Study

성분별 기여도 평가 (Ablation Analysis)

우리 방법론의 특정 구성 요소가 개별적으로 미치는 영향을 평가하기 위해 **성분 분석(ablation analysis)**을 수행했습니다. **표 4(Table 4)**는 자동화된 환각 지표(hallucination metrics)를 기준으로 다양한 변형 방법들의 성능을 보여줍니다.


1. 정제 단계의 효과 (Effect of Refinement)

  • 정제(scoring 및 refining) 단계를 생략하고 생성 단계만 수행했습니다.
    • 이 경우, 질문을 바탕으로 배경 지식을 생성하고 이를 바탕으로 응답을 작성했습니다.
  • 결과:
    • 정제 단계를 포함하지 않은 루프에서 생성된 응답은 MedNLICtrlEval 점수가 더 낮았습니다.
    • 이는 정제 단계가 환각을 줄이고 일관성을 높이는 데 기여한다는 것을 의미합니다.

2. 측면 설명의 효과 (Effect of Aspect Description)

  • 개선을 위해 특정 측면(aspect)을 명시하는 단계를 생략하고, 더 일반적인 지시문을 사용했습니다:
    • “지식/응답을 정제하세요.”
  • 결과:
    • 특정 측면을 명시하지 않은 루프에서 생성된 응답은 MedNLICtrlEval 점수가 더 낮았습니다.
    • 이는 구체적인 측면 설명이 환각을 줄이고 일관성을 높이는 데 도움을 준다는 것을 보여줍니다.

3. 점수 표시의 효과 (Effect of Score Number)

  • 평가 단계에서 **구체적인 점수(exact score)**를 제공하지 않고, 개선이 필요한 측면만 설명했습니다:
    • 지식 정제를 위한 지시:
      • “지식이 경험적 증거에 의해 충분히 뒷받침되지 않습니다. 지식의 사실성을 개선하세요.”
    • 응답 정제를 위한 지시:
      • “응답과 지식 간의 정렬 및 일관성이 낮습니다. 응답의 일관성을 개선하세요.”
  • 결과:
    • 점수를 표시하지 않은 루프에서 생성된 응답은 MedNLICtrlEval 점수가 더 낮았습니다.
    • 이는 구체적인 점수 제공이 정제 품질을 향상시키는 데 기여한다는 것을 나타냅니다.

결론

성분 분석 결과, 정제 단계, 구체적인 측면 설명, 그리고 구체적인 점수 제공이 모두 환각을 줄이고 일관성을 높이는 데 중요한 역할을 한다는 점을 확인했습니다.

4.3.2 Case Study

예시 분석 (Examples Analysis)

**표 5(Table 5)**의 예시는 우리의 방법론이 사실 및 질문 비일관성 문제를 해결하는 데 효과적임을 보여줍니다.

1. 첫 번째 예시

  • 직접 생성된 응답:
    • EtCO2(호기말 이산화탄소) 수준이 동맥 CO2 수준의 신뢰할 수 있는 지표가 아닐 수 있다고 부정확하게 진술함.
  • 우리의 응답:
    • EtCO2와 동맥 CO2 수준 사이의 양의 상관관계를 정확하게 설명하며, 정답(golden answer) 및 사실과 일치함.

2. 두 번째 예시

  • 직접 생성된 응답:
    • 이메일 형식으로 작성되며, Nadine이라는 인물을 언급하고 성인 수컷 쥐의 PAG 기반 GABAA 신호 전달과 우울 및 불안 관련 행동과 같은 질문과 무관한 정보를 포함함.
  • 우리의 응답:
    • 질문에 직접적으로 관련된 정보만 제공하며, 더욱 적절하고 유의미한 응답을 생성함.

추가 예시

더 많은 사례는 **부록 E(Appendix E)**를 참조하세요.

위 예시는 우리의 접근법이 생성된 응답의 관련성과 정확성을 향상시키는 데 효과적임을 구체적으로 입증합니다.

5 Conclusion and Future Work

환각 문제와 해결 방안 요약

생성 작업에서 발생하는 **환각(hallucination)**은 AI의 신뢰성과 책임성에 중요한 도전을 제기합니다. 우리는 이 문제를 의료 질문-응답(Medical GQA) 및 **특정 도메인에 특화된 대형 언어 모델(LLM)**의 맥락에서 철저하고 체계적으로 조사했습니다.


해결 방안

이 문제를 해결하기 위해, 우리는 생성-평가-정제(generate-score-refine) 전략을 활용한 **반복적 자기반성 방법(iterative self-reflection method)**을 제안했습니다.

  • 배경 지식과 응답에 대해 반복적으로 평가하고 정제하여 환각을 줄이고 품질을 향상시키는 방법론입니다.
  • 우리의 접근법은 효과성, 일반화 가능성, 확장 가능성이 입증되었으며, 환각을 줄이는 데 유효합니다.

향후 연구 방향

  • 환각의 근본 원인 분석: 환각 현상의 기저 원인을 더 깊이 탐구할 예정입니다.
  • 다른 생성 작업으로 확장: 이 현상을 다른 생성 작업에서도 검토하고, 이러한 작업에서 발생하는 도전 과제를 해결하기 위해 우리의 방법을 확장할 계획입니다.

이 연구는 환각 문제를 해결하고 AI의 신뢰성을 향상시키는 데 기여할 수 있는 중요한 단계를 제시합니다.

Reference

댓글