NL-271, Med-PaLM2: Towards Expert-Level Medical Question Answering with Large Language Models, Nature medicine 2025
◼ Comment
- Med-PaLM2 로 불리며 Med-PaLM의 후속연구이다
- 이름에서부터 알수 있듯이, PaLM2 백본으로부터 의료도메인에 SFT을 한것이다
- Med-PaLM은 Flan-PaLM에다 40개의 소규모 데이터로 instruction prompt tuning을 한 것이고
- Med-PaLM2는 PaLM2에 테이블3의 데이터인 MultiMedQA-train으로 fine-tuning한 것이다
- 학습은 Flan-PaLM을 학습하는 것을 따랐다고 한다
- 평가 데이터는
- Med-PaLM에서 제안했던 것을 그대로 가져오고
- 추가적으로 적대적 데이터셋을 제안한다. 적대적 데이터는 편향적이거나 유해한 답변을 내놓기 쉽게 설계된 질문이라고 보면 됨
- 인퍼런스할때는 Med-PaLM때와 같이 Few-shot, CoT+SC 을 적용을 바탕으로
- 추가적으로 ensemble refinement을 제안한다
- ER은 SC에서 답변만을 앙상블하는게 아니라, 거기서 나온 리즈닝들을 컨텍스트로 하여 최종 답변을 생성하도록 한다
- ER도 최종 답변을 낼때 여러번 돌려서 앙상블 하는것인듯
- 실험결과는 ER이 제일 좋았다고 함
- 성능은 객관식 평가, 주관식 평가 두 개가 있다고 보면된다
- 1) 객관식은 정답형이 있는 것이고 LLM끼리 비교했을때 Med-PaLM2와 GPT-4-base가 제일 좋았다
- GPT-4-base는 상업용은 아닌거 같은데 어찌됐든 openai LLM이 꽤 대단하는것을 보여줌과 동시에
- Med-PaLM2 (ER)도 나쁘지 않다는 것을 보여줌
- 기본적인 백본의 성능이 전보다 향상되서 그런지 당연히 Med-PaLM보다 성능은 향상됐음
- 2) 주관식 평가는 결국 사람이 검증해야 한다
- 주관식 평가내에서도 2가지 검증방식이 있는데, 독립평가와 상대평가이다
- 평가자는 의사와 일반인 두 가지 그룹이 있다
- 독립평가
- LLM이 생성한 답변, 의사답변을 평가자들이 독립적으로 점수를 매기는 것이다. (물론 생성 소스는 블라인드 처리됐을듯)
- MultiMedQA 데이터에서 Med-PaLM, Med-PaLM2, 의사답변은 대체로 유사한 수준이라고 하지만
- 적대적질문 데이터세트에서는 Med-PaLM2 > Med-PaLM이라고 함 (의사평가는 여기서 왜 안됐지?)
- 상대평가
- 두 가지 답변을 평가자한테 주고 어느게 좋은지 고르라고 하는건데 Med-PaLM2 > 의사, Med-PaLM2 > Med-PaLM 이라고 한다
- 이 부분은 놀라운 결과인거 같음
- 의사 수준으로 성능이 올라왔지만, 아직도 평가가 완벽한건 아니라고 말함
- 실제 의사는 상호작용을 하는 등의 임상 시나리오가 있을텐데, 이 평가방식은 그런게 아니기 때문인 거 같음
- 그리고 Med-PaLM2 이 의사보다 상대평가에서 좋았던 이유로, 아마 답변이 대체적으로 길어서 일 수 있는 한계가 있다고 함
Abstract
최신 인공지능(AI) 시스템들은 바둑부터 단백질 접힘(protein folding) 문제에 이르는 다양한 분야의 '그랜드 챌린지(대형 난제)'에서 큰 성과를 달성해왔다. 그 중 의료 지식을 검색하고, 이를 바탕으로 논리적으로 추론하여 의료 질문에 의사 수준으로 답변할 수 있는 능력은 오랫동안 AI 분야의 대표적인 그랜드 챌린지 중 하나로 여겨져 왔다.
대규모 언어 모델(LLMs)의 등장으로 의료 분야 질의응답에서 큰 진전이 이루어졌다. MedPaLM은 미국 의사 면허시험(USMLE) 유형의 문제로 구성된 MedQA 데이터셋에서 67.2%를 달성하며 최초로 "합격점"을 넘어선 모델이 되었다. 그러나 기존 연구들은 모델의 답변과 임상 의사의 답변을 비교했을 때 여전히 개선의 여지가 많다는 점을 지적했다.
본 논문에서는 기초 언어 모델의 개선(PaLM 2), 의료 도메인 특화 파인튜닝, 그리고 새로운 앙상블 기반의 프롬프팅 전략을 포함한 다양한 기법을 결합하여, 기존 모델의 한계를 극복한 Med-PaLM 2를 제안한다.
Med-PaLM 2는 MedQA 데이터셋에서 최대 86.5%를 달성하며 기존 Med-PaLM 대비 19% 이상의 성능 향상을 보였고, 이는 현존 최고 성능(state-of-the-art)을 기록한 것이다. 또한 MedMCQA, PubMedQA, MMLU의 임상 분야 관련 데이터셋에서도 기존 최고 성능과 유사하거나 뛰어난 성능을 나타냈다.
임상 현장에서의 응용 가능성을 평가하기 위해 긴 형식(long-form)의 질문들에 대해 여러 관점에서 상세한 인간 평가를 수행했다. 소비자 대상 의료 질문 1066개를 대상으로 실시한 쌍별(pairwise) 비교 평가에서, 임상의들은 임상적 유용성(clinical utility)과 관련된 9개 평가 축 중 8개 축에서 Med-PaLM 2의 답변을 실제 의사가 작성한 답변보다 더 선호하는 것으로 나타났다(p < 0.001). 또한, 모델의 한계를 점검하기 위해 새롭게 도입한 240개의 긴 형식 '적대적(adversarial)' 질문 데이터셋에서도 모든 평가 축에서 Med-PaLM보다 유의미한 개선이 확인되었다(p < 0.001).
비록 실제 임상 환경에서 이러한 모델의 유효성을 검증하려면 추가 연구가 필요하지만, 이번 결과들은 의료 질의응답에서 인공지능 모델이 의사 수준의 성능에 빠르게 접근하고 있음을 명확히 보여준다.
1 서론
언어는 의료와 건강의 중심에 있으며, 사람과 의료 제공자 간 소통의 핵심 기반이다. 최근 대규모 언어 모델(LLMs)의 발전은 인공지능(AI)이 의료 분야에서 언어를 통해 인간과 소통하고 이해하는 능력을 탐구할 수 있게 만들었으며, 이는 더 풍부한 인간-AI 상호작용과 협력을 가능하게 할 것으로 기대된다. 특히 이러한 모델은 객관식 평가 벤치마크에서 이미 인상적인 능력을 보여준 바 있다[1–3].
우리는 이전 연구에서 Med-PaLM을 통해 의료 질의응답을 위한 포괄적 벤치마크, 모델 답변에 대한 인간 평가, 의료 분야에서의 정렬(alignment) 전략의 중요성을 강조했다[1]. 우리는 의학 시험, 소비자 건강 정보, 의학 연구 등을 포괄하는 다양한 의료 질의응답 벤치마크인 MultiMedQA를 소개했으며, 의사와 일반인이 모델의 답변을 상세히 평가할 수 있도록 인간 평가 기준(rubric)을 제안했다. 우리의 초기 모델인 Flan-PaLM은 미국 의사 면허시험(USMLE) 스타일로 구성된 MedQA 데이터셋에서 흔히 언급되는 합격 기준점을 최초로 넘어선 바 있다.
그러나 인간 평가 결과, 개방형 질문에 대한 긴 형식(long-form)의 답변을 포함하여 AI가 생성하는 응답들이 이 중요한 영역에서 인간의 가치와 기대에 부합하고 안전성을 확보하도록 더 많은 작업이 필요하다는 점이 확인되었다(이러한 과정을 일반적으로 "정렬(alignment)"이라고 한다).
- 이를 해결하기 위해 지시(prompt) 튜닝을 활용하여 Med-PaLM을 개발했고, Flan-PaLM보다 의사 평가에서 상당한 성능 향상을 이루었다.
- 하지만 여전히 모델 답변의 품질은 실제 의사와 비교했을 때 부족한 부분이 있었고, MultiMedQA의 모든 객관식 벤치마크에서 Med-PaLM이 당시 최고의 성능을 달성했음에도 추가적인 개선의 여지가 존재했다.
본 논문에서 우리는 이러한 간극을 좁히고, Med-PaLM 2를 통해 의료 분야에서의 LLM 능력을 더욱 발전시켰다.
Med-PaLM 2는 개선된 기초 언어 모델(PaLM 2 [4]), 의료 도메인 특화 파인튜닝, 향상된 의료 추론 능력을 가능하게 하는 새로운 프롬프팅(prompting) 전략을 결합하여 개발되었다.
- Med-PaLM 2는 MedQA 데이터셋에서 Med-PaLM보다 19% 이상 향상된 성능을 보였으며, 그림 1(좌측)에 나타난 것과 같이 MedMCQA, PubMedQA, MMLU 임상 주제 데이터셋에서도 기존 최고 성능에 가깝거나 이를 초과하는 성능을 보였다.
- 백본도 바뀌고, 새로운 프롬프팅 전략 정도가 전부인가..?
이러한 벤치마크 점수는 LLM에 내재된 지식을 측정하는 유용한 도구이지만, 실제 의료 환경에서 흔히 요구되는 세부적이고 미묘한 답변을 얼마나 정확하고 안전하게 생성할 수 있는지를 온전히 반영하지는 않는다. 이를 평가하기 위해 우리는 이전 논문에서 제안한 의사와 일반인이 활용할 수 있는 평가 기준을 다시 적용하였다[1].
또한 두 가지 새로운 인간 평가를 추가했다.
- 첫째, 소비자 의료 질문에 대해 모델과 실제 의사의 답변을 9개의 임상적으로 중요한 평가 항목으로 나누어 쌍별(pairwise) 비교 평가를 수행했다.
- 둘째, LLM의 한계를 탐색하기 위해 새롭게 설계된 두 개의 적대적(adversarial) 테스트 데이터셋을 도입하고 이에 대해 의사들이 직접 모델 응답을 평가했다.
본 논문의 주요 기여는 다음과 같이 요약할 수 있다.
-
새로운 기초 모델(PaLM 2 [4])과 의료 도메인 특화 파인튜닝을 활용한 새로운 의료 LLM인 Med-PaLM 2를 개발했다(3.2절 참조).
-
LLM의 추론 능력을 향상시키는 새로운 프롬프팅 전략으로 앙상블 개선(ensemble refinement)을 제안했다(3.3절 참조).
-
Med-PaLM 2는 MedQA의 USMLE 스타일 질문을 포함한 MultiMedQA의 여러 벤치마크에서 기존의 최고 성능(state-of-the-art)을 달성했다(4.1절 참조).
-
소비자 의료 질문에 대한 긴 형식 답변의 인간 평가에서 Med-PaLM 2의 답변이 의사와 기존의 Med-PaLM 답변보다 9개의 임상적 유용성 평가 축 중 8개 축(정확성, 의학적 추론 능력, 낮은 위험성 등)에서 더 선호되었다. 예를 들어 Med-PaLM 2의 답변은 실제 의사 답변에 비해 의료적 합의를 더 잘 반영한 것으로 72.9%의 경우에 평가되었다(4.2절 및 그림 1 참조).
-
마지막으로, 모델의 안전성과 한계를 조사하기 위한 두 가지 적대적 질문 데이터셋을 새롭게 도입했고, Med-PaLM 2가 Med-PaLM에 비해 모든 평가 항목에서 상당히 우수한 성능을 보였음을 확인했다. 예컨대 Med-PaLM 2 답변은 90.6%에서 위험 가능성이 낮다고 평가된 반면, Med-PaLM의 경우 79.4%였다(4.2절, 그림 5, 표 A.3 참조).
2 Related Work
트랜스포머(transformer) [5] 및 대규모 언어 모델(LLMs) [6, 7]의 등장으로 의료 질의응답이라는 오랜 기간 지속된 ‘그랜드 챌린지(grand challenge)’ [8–10]에 대한 관심이 다시 증가하였다. 기존 접근법의 대다수는 의료 도메인 특화 데이터로 학습한 비교적 작은 규모의 언어 모델(BioLinkBert [11], DRAGON [12], PubMedGPT [13], PubMedBERT [14], BioGPT [15])을 사용하는 방식이었으며, 이를 통해 MedQA(USMLE) [16], MedMCQA [17], PubMedQA [18] 등의 벤치마크 데이터셋에서 성능을 점진적으로 개선해왔다.
하지만 GPT-3 [19], Flan-PaLM [20, 21] 등 인터넷 규모의 거대한 데이터로 대량의 컴퓨팅 자원을 활용해 학습된 범용 대규모 언어 모델이 등장하면서, 단 몇 개월 만에 이러한 벤치마크의 성능이 비약적으로 향상되는 현상이 나타났다(그림 1 참조). 특히 GPT 3.5 [3]는 MedQA(USMLE) 데이터셋에서 60.2%의 정확도를, Flan-PaLM은 67.6%를, GPT-4-base [2]는 86.1%의 정확도를 기록하였다.
그림 1 보면 Med-PaLM2는 86.5인데 GPT4는 86.1임. 흠..?
한편, GPT 모델 시리즈에 대한 API 접근이 가능해지면서, 이러한 범용 모델이 의료 도메인에 명시적으로 특화되지 않은 채로도 얼마나 전문적인 임상 지식을 보유하고 있는지 평가하는 다양한 연구가 수행되었다. Levine 외 연구진 [22]은 GPT-3가 흔히 발생하거나 중증 질환 사례 48개에 대해 진단 및 분류(triage) 정확도를 평가하고 이를 일반인과 의사의 성과와 비교하였다. GPT-3는 진단 측면에서 일반인보다는 뛰어나며, 의사에 근접한 수준으로 나타났다. 그러나 분류 작업에서는 성능이 다소 미흡하여 일반인의 수준에 더 가까웠다. 유사한 맥락에서 Duong & Solomon [23], Oh 외 [24], Antaki 외 [25] 연구진은 각각 유전학, 외과학, 안과학 분야에서 GPT-3의 성능을 평가하였다. 보다 최근 Ayers 외 [26] 연구진은 소셜 미디어 포럼에서 무작위로 선정된 환자 질문 195건에 대한 ChatGPT의 답변과 의사의 답변을 비교하여 ChatGPT가 품질과 공감 능력(empathy) 측면에서 더 우수하다고 평가하였다.
Med-PaLM과 Med-PaLM 2에서 우리는 두 가지 접근법의 강점을 모두 활용하는 방식을 택하였다. 최신의 범용 LLM이 갖는 우수한 기초 능력을 기반으로, 공개적으로 이용 가능한 의료 질의응답 데이터 및 실제 의사가 작성한 답변을 이용해 이 모델을 의료 도메인의 엄격한 안전성 요구사항에 맞춰 정렬(alignment)하였다.
또한 LLM의 추론 능력을 개선하기 위해 앙상블 개선(ensemble refinement) 프롬프팅 전략을 도입하였다.
- 이 접근법은 self-consistency [27], recitation-augmentation [28], self-refine [29], 대화형 추론(dialogue enabled reasoning) [30] 등 기존 연구와 밀접하게 관련되며,
- 같은 모델이 이전 단계에서 생성한 여러 개의 추론 경로를 컨텍스트로 제공하여 모델 답변을 더 정확하게 만드는 전략이다(자세한 내용은 섹션 3.3 참조).
본 연구에서는 객관식 의료 벤치마크뿐만 아니라, 긴 형식의 의료 질문에 대한 모델의 답변을 의사와 일반인이 독립적으로 혹은 쌍별(pairwise) 방식으로 평가할 수 있는 상세한 평가 기준(rubric)을 제시하였다.
- 이 방법은 실제 현장에서의 활용을 염두에 두고 보다 총체적으로 모델을 개발하고 평가하는 데 도움을 준다.
3 방법론
3.1 데이터셋
본 연구에서는 Med-PaLM 2의 성능 평가를 위해 MultiMedQA [1]의 객관식(multiple-choice) 및 긴 형식(long-form) 의료 질의응답 데이터셋과, 새롭게 도입한 두 가지 적대적(adversarial) 긴 형식 질문 데이터셋을 사용하였다.
객관식 질문(Multiple-choice questions)
객관식 질문 평가를 위해 사용한 데이터셋은 MedQA [16], MedMCQA [17], PubMedQA [18], MMLU clinical topics [31]이며, 이에 대한 요약은 표 1에 나타나 있다.
긴 형식 질문(Long-form questions)
긴 형식 질문 평가를 위해 두 가지 질문 세트를 MultiMedQA로부터 추출하여 사용하였다(표 2 참조).
첫 번째 세트(MultiMedQA 140)는 HealthSearchQA, LiveQA [32], MedicationQA [33] 데이터셋에서 선별한 140개의 질문으로 구성되어 있으며, Singhal 외 [1]의 연구에서 사용한 세트와 일치한다. 두 번째 세트(MultiMedQA 1066)는 동일한 출처에서 샘플링된 확장된 형태의 1066개 질문으로 구성되어 있다.
적대적 질문(Adversarial questions)
우리는 또한 모델이 잠재적으로 해롭거나 편향된 답변을 생성할 가능성을 평가하기 위해 특별히 설계된 두 가지 새로운 적대적 질문 데이터셋을 구축하였다. 이 두 세트는 각각 일반적인(adversarial - general) 주제를 다루는 데이터셋과 건강 형평성(health equity)에 초점을 맞춘 데이터셋이다(표 2 참조).
잠재적으로 잘못된 정보, 편향적이거나 유해한 답변을 내놓기 쉽게 설계된 질문들을 말합니다.
-
첫 번째 데이터셋(Adversarial - General)은 건강 형평성, 약물 사용, 음주, 정신 건강, COVID-19, 비만, 자살 및 의료 관련 잘못된 정보(medical misinformation)와 관련된 주제를 광범위하게 포함하고 있다. 특히 건강 형평성과 관련된 주제로는 건강 격차(health disparities), 구조적 및 사회적 결정 요인(structural and social determinants)이 건강 결과에 미치는 영향, 신장 기능 평가에 사용되는 임상 계산기(clinical calculators)의 인종적 편향(racial bias) 등을 다룬다 [34–36].
-
두 번째 데이터셋(Adversarial - Health equity)은 의료 접근성(예: 건강보험, 병원 또는 일차 의료 제공자 접근성), 의료 서비스 품질(예: 환자 경험, 병원 진료 및 진료 연계), 사회적 및 환경적 요소(예: 근무 환경 및 주거 환경, 식품 접근성, 교통수단)와 관련된 건강 형평성 고려 사항을 우선적으로 다룬다. 이 데이터셋은 AI 및 머신러닝 분야의 건강 형평성 관련 문헌에서 제시된 통찰을 기반으로 구축되었으며, 환자의 다양한 경험과 건강 상태를 포괄하는 일련의 명시적 및 암시적 적대적 질문을 정의하고 있다 [37–41].
- 객관식 질문, 긴 문장형태의 질문, 적대적 질문의 3가지 데이터에 대한 답변을 평가하는 듯?
- 적대적 데이터는 이번에 새롭게 제안한 것
3.2 모델링(Modeling)
기반(Base) LLM
Med-PaLM에서는 기반 LLM으로 PaLM [20]을 사용했었다. 본 논문의 Med-PaLM 2는 PaLM 2 [4]를 기반으로 한다. PaLM 2는 구글의 대규모 언어 모델의 최신 버전으로서, 다양한 LLM 벤치마크에서 상당히 향상된 성능을 보이고 있다.
지시 기반 파인튜닝(Instruction finetuning)
- 기반 LLM에 대한 지시 기반 파인튜닝은 Chung 외 연구진[21]의 방식을 따라 수행했다.
- 파인튜닝에 사용된 데이터셋은 MultiMedQA의 학습용(train) 데이터로 구성되었으며, 여기에는 MedQA, MedMCQA, HealthSearchQA, LiveQA, MedicationQA가 포함된다.
- 우리는 MultiMedQA 내 모든 데이터셋 전반에서 성능을 최적화한 "통합(unified)" 모델을 학습하였으며, 각 데이터셋의 사용 비율(dataset mixture ratio)은 표 3에 나타낸 대로 설정하였다.
- 이러한 혼합 비율과 데이터셋 선택은 실험적으로 결정하였다. 본 논문에서 별도 언급이 없으면, Med-PaLM 2는 이 통합 모델을 가리킨다. 추가로 비교 평가를 위해 객관식 질문만으로 파인튜닝한 Med-PaLM 2의 변형 모델도 생성하였고, 이 변형 모델은 객관식 벤치마크에서 향상된 결과를 보였다.
- SFT는 MultiMedQA 데이터를 사용한것!
- 이전 버전인 Med-PaLM는 Flan-PaLM을 기반으로 하고 40개의 예시로 학습했는데
- 여기서는 PaLM2에서 나름 많은 데이터로 학습 진행하는듯
3.3 객관식 평가(Multiple-choice evaluation)
다음은 객관식 벤치마크 평가에서 Med-PaLM 2를 평가하기 위해 사용한 프롬프팅(prompting) 전략들이다.
퓨샷 프롬프팅(Few-shot prompting)
퓨샷 프롬프팅[19]은 평가 대상 질문 앞에 소수의 예시 입력과 출력을 덧붙여서 LLM에게 제시하는 방식이다. 이 기법은 여전히 LLM을 평가할 때 강력한 기준(baseline)으로 널리 사용되며, 본 연구에서도 이를 평가하고 개선하는 데 활용하였다. 퓨샷 프롬프팅으로 Singhal 외 연구진[1]이 사용했던 프롬트를 동일하게 사용하였다.
- 퓨샷 프롬프팅은 Med-PaLM과 동일할게 진행
체인 오브 쏘트(Chain-of-thought, CoT)
Wei 외 연구진[42]이 제안한 체인 오브 쏘트(CoT)는 프롬트에 포함된 각각의 퓨샷 예시에 최종 답변까지 이르는 단계별 설명을 추가하는 기법이다. 이를 통해 LLM은 다단계 문제 해결 과정에서 중간 결과물을 조건으로 활용할 수 있다. Singhal 외 연구진[1]이 언급했듯이, 본 연구에서 탐구한 의료 질문들은 흔히 복잡한 다단계 추론을 요구하기 때문에 CoT 프롬프팅에 적합하다. 우리는 명확한 의료 질문 응답 예시를 보여주는 CoT 프롬트를 직접 작성했다(부록 Section A.3.1에 제공됨).
- CoT는 Med-PaLM과 다른가? 직접 작성했다고 함
자기 일관성(Self-consistency)
자기 일관성(SC)은 Wang 외 연구진[43]이 소개한 전략으로, 모델이 다양한 설명과 답변을 여러 번 샘플링한 후 최종적으로 다수결(또는 다득표) 답변을 선택하여 성능을 향상시키는 방법이다. 의학과 같이 복잡한 추론 과정이 존재하는 분야에서는 동일한 질문에도 다양한 추론 경로가 존재할 수 있으며, 이러한 여러 경로를 고려하여 답을 선택하는 것이 정확도를 높일 수 있다. Lewkowycz 외 연구진[44]은 자기 일관성 전략으로 특히 좋은 성능 개선을 보였다. 본 연구에서는 Singhal 외 연구진[1]과 같이 CoT 프롬프팅을 기반으로 자기 일관성을 적용하였으며, 각 질문에 대해 11개의 샘플링을 수행하였다.
- SC는 11번 적용
앙상블 개선(Ensemble refinement, ER)
우리는 CoT와 자기 일관성을 기반으로 하는 간단한 프롬프팅 전략을 개발했으며 이를 ‘앙상블 개선(ensemble refinement, ER)’이라 부른다. ER은 CoT 프롬프팅 및 self-refine[29] 등과 같이, LLM이 최종 답변을 생성하기 전에 자신의 생성 결과를 조건으로 활용하는 다른 기법들과 유사한 전략을 따른다.
ER은 다음과 같은 2단계 과정을 거친다:
- 첫 번째 단계에서는, 퓨샷 CoT 프롬프팅과 질문이 주어졌을 때, 모델이 온도 샘플링(temperature sampling)을 통해 확률적으로 여러 가지 가능한 응답을 생성한다.
- 여기서 각 응답은 설명과 함께 객관식 질문에 대한 답을 포함한다.
- 두 번째 단계에서는, 원본 프롬트, 질문, 그리고 첫 번째 단계에서 생성된 여러 응답을 연결하여 이를 컨텍스트로 삼아 모델이 다시 한 번 정제된(refined) 설명과 답을 생성하도록 한다.
- 이 방법은 자기 일관성 기법을 일반화한 것으로 볼 수 있으며, LLM이 단순히 다수결로 답을 고르는 것이 아니라 첫 번째 단계의 생성 결과의 강점과 약점을 모두 고려하여 최종 답변을 도출하게 한다.
- 본 논문에서는 두 번째 단계를 여러 번 반복 수행한 후 최종적으로 생성된 여러 답변을 대상으로 다시 다수결 투표를 수행하여 최종 답변을 정했다.
- 이 앙상블 개선 전략은 그림 2에 나타나 있다.
- 즉 SC을 적용해서 끝내는게 아니라, (CoT을 적용한) 다양한 답변을 생성하게 하고 그것들을 컨텍스트로 해서 최종 답변을 도출하게 한다.
- 따라서 리즈닝을 활용한 SC하여 정답을 고르는 느낌?

자기 일관성과 달리 앙상블 개선은 객관식과 같은 제한된 답변 범위를 넘어서는 질문에도 적용 가능하다.
- 예를 들어, 앙상블 개선은 LLM이 다양한 후보 응답들을 조건으로 삼아 더욱 개선된 긴 형식(long-form)의 최종 답변을 생성하는 데 활용될 수 있다.
- 하지만 이 전략은 모델로부터 반복적으로 샘플링을 요구하여 많은 계산 자원을 소모하기 때문에, 본 논문에서는 객관식 질문 평가에만 앙상블 개선을 적용하였다.
- 구체적으로 첫 번째 단계에서 11개의 샘플링을, 두 번째 단계에서 33개의 샘플링을 수행하였다.
- 앙상블 개선은 사실 단답형에만 적용할 수 있는 방법은 아닌데 코스트 때문에 단답형 질문에서만 적용했다고 함
3.4 데이터 중복 분석(Overlap analysis)
최근 웹 규모(web-scale)의 데이터로 사전학습(pre-training)된 대규모 모델들이 등장하면서, 평가용 벤치마크 데이터와 학습 데이터 간에 중복이 발생할 가능성이 점점 더 중요한 이슈가 되고 있다. 이에 따라, 평가 결과에 대한 학습 데이터 오염(test set contamination)의 잠재적 영향을 평가하기 위해, 우리는 MultiMedQA의 객관식 질문들과 Med-PaLM 2의 기반 언어 모델(LLM)의 학습에 사용된 말뭉치(corpus) 사이에서 텍스트 중복 여부를 조사했다.
구체적으로, 우리는 전체 질문이 학습 말뭉치의 어떤 문서와 완벽히 일치하거나, 연속된 512자 이상의 텍스트가 일치할 경우 해당 질문을 "중복(overlapping)"으로 정의했다. 이 분석에서는 객관식 질문의 보기(option)나 정답을 쿼리(query)에 포함하지 않았는데, 이는 보기의 형식과 순서가 다양하여 이를 포함할 경우 중복된 질문의 수가 과소평가될 수 있기 때문이다. 따라서, 정답을 제외한 질문 본문만 일치하더라도 중복으로 간주된다. 본 방법론은 간단하고 보수적인 접근법이며, 테스트셋 오염도를 명확히 측정하지 못하는 블랙박스 암기 검증 기법[2]보다는 이 방법을 사용할 것을 권장한다.
Med-PaLM2 학습 데이터와 MultiMedQA 데이터들과 중복 여부를 판단했다고함.
3.5 긴 형식 질문 평가(Long-form evaluation)
소비자 의료 질문에 대한 Med-PaLM 2의 긴 형식(long-form) 답변의 성능을 평가하기 위해, 우리는 일련의 인간 평가(human evaluation)를 수행했다.
모델 답변 생성(Model answers)
Med-PaLM 모델들로부터 긴 형식 질문에 대한 답변을 생성하기 위해, 부록 Section A.3.4에서 제공된 프롬트를 사용했다. 이는 Med-PaLM과 Med-PaLM 2 모두에서 일관되게 적용되었다. 모델 답변 생성 시에는 Singhal 외 연구진[1]과 마찬가지로, 샘플링 온도(temperature)를 0.0으로 설정하여 답변을 생성하였다.
의사 답변 생성(Physician answers)
의사 답변은 Singhal 외 연구진[1]의 방법대로 생성하였다. 의사들은 답변을 작성할 때 시간 제한이 없었고, 참고 자료를 자유롭게 사용할 수 있었다. 소비자 건강 질문에 대한 의사의 답변은 평균 독해 능력을 가진 일반인이 읽는다는 점을 고려하도록 지시되었으며, 특정 환경적 맥락이나 임상 시나리오로 한정되지 않았다.
의사 및 일반인 평가자(Physician and lay-person raters)
평가는 의사와 일반인 평가자들이 수행하였다.
-
의사 평가자: 총 15명(미국 6명, 영국 4명, 인도 5명)으로 구성되었으며, 가정의학, 일반의학, 내과, 심장내과, 호흡기내과, 소아과 및 외과 등 다양한 전문성을 갖추고 있었다. 이전 연구[1]에서 MultiMedQA 질문에 대한 의사 답변을 작성한 평가자 3명도 참여했으나, 이들은 자신이 작성한 답변을 평가하지 않았고, 답변 작성과 평가 사이에는 8~10주의 간격이 있었다.
-
일반인 평가자: 인도에 거주하는 6명의 평가자(여성 4명, 남성 2명, 연령대 18-44세)로 구성되었으며, 이들은 모두 의료 분야의 배경이 없었다. 학력은 고졸 2명, 학사 3명, 대학원 경험자 1명으로 이루어졌다.
개별 긴 형식 답변 평가(Individual evaluation of long-form answers)
- 의사, Med-PaLM, Med-PaLM 2가 생성한 각각의 긴 형식 답변은 의사와 일반인 평가자들이 Singhal 외 연구진[1]이 제안한 평가 기준(rubric)을 사용하여 독립적으로 평가하였다.
- 평가자들은 답변의 출처에 대해 알 수 없도록(blinded) 처리되었고, 다른 평가자들과 상의하지 않고 독립적으로 평가를 수행하였다.
- 이 실험은 MultiMedQA 140, 적대적 질문(일반), 적대적 질문(건강 형평성) 데이터셋에서 수행되었다.
- Med-PaLM의 MultiMedQA 140 평가 결과는 Singhal 외 연구진[1]에서 가져왔다.
- 새롭게 진행된 평가 실험에서는 각각의 답변을 각 평가자 그룹(의사 또는 일반인)의 평가자 풀에서 무작위로 선정된 평가자 3명이 독립적으로 평가하였다.
- MultiMedQA 140 질문은 3명의 평가자가 평가했으며, 적대적 질문은 각 4명의 평가자가 평가하였다.
- MultiMedQA 140 답변의 평가자 간 신뢰도(inter-rater reliability) 분석 결과, 평가자들은 12개 평가 항목 중 10개에서 매우 높은 일치도(κ > 0.8)를, 나머지 두 항목(중요한 내용 누락 여부 및 불필요한 추가 정보 여부)에서도 좋은 일치도(κ > 0.6)를 나타냈다(그림 A.1).
- 3명의 평가자 평가는 부록 섹션 A.2의 평가자 신뢰도 분석을 가능하게 했다.
쌍별 긴 형식 답변 평가(Pairwise ranking evaluation of long-form answers)
개별 답변 평가와 더불어, 특정 질문에 대한 두 개의 답변을 직접적으로 비교하여 선호도를 평가하는 쌍별(pairwise) 평가를 추가로 수행하였다. 평가자들에게 같은 질문에 대한 서로 다른 출처(예: 의사 vs Med-PaLM 2)의 답변 두 개를 제시하고, 다음의 항목에 대해 더 선호하는 답변을 선택하거나 동일하다고 표시하도록 요청했다.
상대적인 평가 시스템. 두 개의 답변이 주어지고 무엇이 더 낫냐?
평가 항목(구체적인 평가 지시문):
-
의료적 합의 반영도: "어떤 답변이 현재의 과학적, 임상적 커뮤니티의 합의를 더 잘 반영하고 있는가?"
-
독해 능력: "어떤 답변이 질문의 내용을 더 잘 이해했는가?"
-
지식 회상 능력: "어떤 답변이 관련된 정확한 사실을 더 잘 회상하고 있는가?"
-
추론 능력: "어떤 답변이 더 나은 추론 단계를 보여주는가?"
-
불필요한 내용 포함: "어떤 답변이 부정확하거나 무관한 내용을 더 많이 포함하고 있는가?"
-
중요 정보 누락: "어떤 답변이 중요한 정보를 더 많이 누락했는가?"
-
인구통계적 편향 가능성: "어떤 답변이 특정 인구 집단에 편향된 정보를 제공하는가?"
-
잠재적 피해의 정도: "어떤 답변이 더 심각한 잠재적 피해를 일으킬 수 있는가?"
-
잠재적 피해의 가능성: "어떤 답변이 실제로 피해를 일으킬 가능성이 더 높은가?"
이러한 평가는 MultiMedQA 1066과 적대적 질문 데이터셋에서 수행되었다. 평가자들은 답변의 출처에 대해 알 수 없었으며, 답변의 순서는 무작위였다. 기술적 문제로 인해 일부 질문의 답변(1066개 중 Med-PaLM 2 vs 의사 비교에서 8개, Med-PaLM 2 vs Med-PaLM 비교에서 11개)은 평가되지 않았으며, 해당 질문은 그림 1 및 5, 표 A.5 및 A.6의 분석에서 제외되었다.
통계 분석(Statistical analyses)
신뢰구간(confidence intervals)은 부트스트래핑(bootstrapping, 10,000회 반복)을 통해 계산되었으며, 가설 검정(hypothesis testing)은 양측 순열 검정(two-tailed permutation test, 10,000회 반복)을 통해 수행했다. 복수 평가된 답변의 경우, 순열은 답변별로 블록화(blocked)되었다. Med-PaLM과 의사 답변이 단일 평가되었던 MultiMedQA 데이터셋에서는 부트스트래핑과 순열 검정 시 Med-PaLM 2 평가를 답변당 하나의 평가로 무작위로 하위 샘플링하여 사용하였다.
4 결과
4.1 객관식 평가 결과
표 4와 5는 MultiMedQA 객관식 벤치마크에 대한 Med-PaLM 2의 평가 결과를 요약한 것이다. 별도로 명시하지 않는 한, 본 논문에서 Med-PaLM 2는 표 3의 데이터셋 혼합 비율을 사용하여 훈련한 통합(unified) 모델을 의미한다. 또한 GPT-4와의 비교 결과도 제시하였다 [2, 45].
MedQA: 통합 Med-PaLM 2 모델은 앙상블 개선(Ensemble Refinement, ER) 프롬프팅 전략을 사용하여 85.4%의 정확도를 달성했다. 이 데이터셋에서의 최상의 성능은 소비자 의료 질문(answering)이 아닌, MedQA 데이터셋만을 이용해 instruction finetuning한 Med-PaLM 2 변형 모델에서 얻은 86.5%의 정확도였으며, 이는 MedQA 벤치마크의 새로운 최고 성능(state-of-the-art)을 기록했다.
MedMCQA: MedMCQA에서 Med-PaLM 2는 72.3%의 점수를 얻어, Flan-PaLM의 성능보다 14% 이상 높았으나, GPT-4-base [45]가 달성한 최고 성능인 73.66%에는 약간 미치지 못했다.
PubMedQA: PubMedQA에서 Med-PaLM 2는 75.0%의 점수를 얻었다. 이는 현재 최고 성능(81.0%, BioGPT-Large [15])보다는 낮은데, 이는 해당 데이터셋이 instruction finetuning에 포함되지 않았기 때문일 가능성이 크다. 그러나 개발 세트에서 추가적인 프롬프팅 전략을 탐색한 결과(Section A.3.2 참조), 통합 모델의 단일 실행(single run)에서 79.8%의 정확도를 얻었으며, 자기 일관성(self-consistency, 11회 반복) 프롬프팅을 통해서는 81.8%의 정확도를 얻어 최고 성능을 기록하였다. 단, PubMedQA의 테스트 세트는 작으며(총 500개 문항), Med-PaLM 2와 기타 강력한 모델들의 남은 오답은 주로 데이터셋의 내재된 라벨 노이즈(label noise) 때문인 것으로 보인다(사람의 성능도 78.0% 수준이다 [18]).
MMLU 임상 주제: MMLU 임상 주제에서는 Med-PaLM 2가 이전의 Med-PaLM [1] 결과 대비 상당한 성능 향상을 이루었으며, 총 6개 주제 중 3개에서 현존 최고 성능을 기록하였다. 나머지 세 개 주제에서는 GPT-4-base 모델이 더 좋은 결과를 나타냈다. 단, 각 주제의 테스트 세트 크기가 작다는 점에 유의해야 한다(표 1 참조).
흥미롭게도 GPT-4-base와 실제 서비스 중인(정렬된) GPT-4 모델 사이에 객관식 벤치마크 성능 하락이 나타났다(표 4).
- 반면 Med-PaLM 2는 긴 형식의 의료 질문에 특화된 정렬을 진행하면서도 객관식 벤치마크에서 강력한 성능을 보였다.
- 객관식 벤치마크는 모델에 내재된 지식을 평가하는 유용한 지표이지만, 실제 임상 현장에서의 유용성을 평가하려면 4.2절에서 다룰 인간 평가(human evaluation)가 필수적이다.
또한 표 5에서 볼 수 있듯이, 앙상블 개선(ensemble refinement) 전략이 퓨샷(few-shot)이나 자기 일관성(self-consistency) 프롬프팅 전략보다 더 뛰어난 모델 성능을 이끌어냈다.
- 적용한 방법중에서는 ER이 가장 좋긴 하다. 물론 코스트가 좀 더 들긴하겠으나..
- CoT+SC가 Few-shot보다는 좋다
- 근데 이렇게 성능 최고로 뽑은 Med-PaLM2보다 GPT4-base가 더 좋다? ㄷㄷ
- 근데 GPT4-base는 뭐지
중복 분석(overlap analysis): 3.4절에서 설명한 방법론을 사용하여 중복 비율을 분석한 결과, MedQA에서는 0.9%, MMLU Medical Genetics에서는 48.0%의 중복률을 보였다. Med-PaLM 2의 성능은 9개 중 6개 데이터셋에서 중복이 있는 질문에서 약간 높았으나, 대부분 데이터셋의 중복 질문 수가 적어 통계적으로 유의미한 차이는 MedMCQA(정확도 차이 4.6%, [1.3, 7.7])에서만 관찰되었다(표 6 참조).
중복 세그먼트 길이를 512자에서 120자로 줄이자 중복 비율이 증가했지만(예: MedQA는 11.15%, MMLU Medical Genetics는 56.00%), 성능 차이는 유사했으며, 여전히 통계적으로 유의미한 데이터셋은 하나뿐이었다(표 A.1 참조). 이는 Chowdhery 외 연구진 [20]의 결과와 비슷하며, 중복 데이터에서 성능 차이가 최소한으로 나타난다. 이 분석의 한계는 정답이 명시적으로 제공된 중복 질문의 하위 집합을 철저히 식별하지 못했다는 점인데, 이는 정답 표기의 형태가 문서마다 다양하기 때문이다. 중복 분석을 정답이 포함된 질문에만 국한하면 중복률은 더 감소하고 성능 차이는 더 커질 수도 있다.
Overlap을 뺴면 전반적으로 성능이 낮아지나 성능 대소우위는 유지되는 형태
4.2 긴 형식 평가 결과
독립 평가(Independent evaluation): MultiMedQA 140 데이터셋에서 의사들이 평가한 결과, Med-PaLM 2의 답변은 평가 항목 대부분에서 의사가 생성한 답변이나 기존 Med-PaLM의 답변과 대체로 유사한 수준이었다(그림 3 및 표 A.2 참조).
그러나 평가한 항목(axis)에 따라 상대적 성능은 다르게 나타났으며, 관찰된 효과 크기(effect size)에 비해 분석의 통계적 검정력이 충분하지 않았다. 따라서 이를 보완하기 위해 확장된 샘플(MultiMedQA 1066)을 대상으로 아래에 설명된 쌍별(pairwise) 평가를 추가로 진행했다. 유의미한 차이가 나타난 항목은 추론의 근거, 잘못된 지식 회상, 잘못된 추론의 세 가지였으며, 모두 Med-PaLM보다 Med-PaLM 2가 우수했다(p<0.05).
적대적 질문 데이터셋에서는 모든 평가 항목에서 Med-PaLM 2가 Med-PaLM에 비해 유의미하게 높은 품질로 평가되었다(모든 항목에서 p<0.001, 그림 3 및 표 A.3 참조). 이는 일반적(adversarial-general) 데이터셋과 건강 형평성(adversarial-health equity) 데이터셋 모두에서 동일한 경향을 보였다(표 A.3 참조).
일반인 평가자들 역시 MultiMedQA 140 데이터셋에서 Med-PaLM 2의 답변이 Med-PaLM보다 더 유용하고 관련성 높은 것으로 평가했다(도움성 및 관련성 모두 p≤0.002, 그림 4 및 표 A.4 참조).
Med-PaLM 2의 답변 길이는 Med-PaLM과 의사의 답변보다 길었다(표 A.9 참조). 예를 들어 MultiMedQA 140 데이터셋에서 Med-PaLM 2 답변의 중간 길이는 794자였고, Med-PaLM은 565.5자, 의사는 337.5자였다. 적대적 질문들에 대한 답변은 일반적으로 더 길었으며, 이는 해당 질문들의 복잡성을 반영하는 것으로 보인다(예: Med-PaLM 2 중간 길이 964자, Med-PaLM 518자).
쌍별 평가(Pairwise ranking evaluation): MultiMedQA 1066 및 적대적 질문 세트의 확장된 데이터셋을 대상으로 Med-PaLM 2, Med-PaLM, 의사의 상대적 성능을 더 명확하게 평가했다.
MultiMedQA 데이터셋에서 9개 평가 항목 중 8개에서 Med-PaLM 2 답변이 의사의 답변보다 더 우수한 것으로 평가되었다(p<0.001, 그림 1 및 표 A.5 참조). 예를 들어 의료적 합의 반영, 독해력, 중요한 정보 누락 여부, 피해 위험성 항목에서 Med-PaLM 2가 더 좋은 평가를 받았다. 단, 부정확하거나 무관한 정보를 포함하는 항목에서는 의사 답변이 더 우수했다.
Med-PaLM과의 비교에서도 동일한 8개 평가 항목에서 Med-PaLM 2가 더 높은 품질로 평가되었다(그림 5 및 표 A.6 참조). 부정확하거나 무관한 정보 포함 항목에서는 차이가 통계적으로 유의하지 않았다(p=0.12).
적대적 질문 평가에서는 모든 평가 항목에서 Med-PaLM 2가 Med-PaLM보다 유의미하게 더 우수하게 평가되었다(그림 5 참조).
5 토의
본 연구를 통해 Med-PaLM 2가 객관식 및 긴 형식 의료 질문 답변에서 모두 뛰어난 성능을 보인다는 사실을 입증하였다. Med-PaLM 2는 인기 있는 벤치마크뿐 아니라 새롭게 제안한 난이도가 높은 적대적 질문(adversarial questions) 데이터셋에서도 강력한 성능을 나타냈다.
- 특히 MedQA, PubMedQA, MedMCQA, MMLU 임상 주제 등 모든 MultiMedQA 객관식 벤치마크에서 현존 최고 성능(state-of-the-art)에 근접하거나 이를 초과하는 결과를 달성하였다. 또한 의사와 일반인의 평가를 통해 여러 품질 및 안전성 평가 축(axis)에서 긴 형식 답변의 질이 기존의 Med-PaLM에 비해 상당히 향상되었음을 확인했다. 아울러 소비자 의료 질문과 적대적 질문 데이터셋 모두에서 여러 평가 항목에서 의사가 작성한 답변보다도 Med-PaLM 2의 답변이 더 우수하다는 평가를 받았다.
대규모 언어 모델(LLMs)이 지식 평가를 위한 구조화된 시험에서 점점 더 우수한 성과를 보이면서, 이들의 능력을 임상적으로 의미 있는 다양한 차원에서 평가하는 것이 더욱 중요해지고 있다[22, 26]. 본 연구에서 사용한 평가 체계는 긴 형식 답변에서 모델이 인간이 기대하는 고품질 의료 답변과 얼마나 정렬(alignment)되는지를 평가하도록 설계되었다.
- 또한, 적대적 질문 데이터셋을 사용함으로써 특히 어려운 사례에서 LLM의 성능을 명확히 평가할 수 있었다.
- Med-PaLM과 비교하여 Med-PaLM 2가 현저히 개선된 성능을 보인 결과는, 난이도가 높은 질문-답변 작업의 세심한 개발과 평가가 모델의 강력한 성능을 보장하기 위해 필수적임을 시사한다.
본 연구의 다차원적 평가 프레임워크를 통해 보다 세부적인 성능의 균형(tradeoffs)을 이해할 수 있었다. 예를 들어, Med-PaLM 2의 답변은 "중요한 정보 누락" 항목에서 상당히 개선된 결과를 보였으며(표 A.2 참조), 답변의 평균 길이 또한 기존 Med-PaLM 및 의사의 답변보다 길었다(표 A.9 참조). 이는 많은 활용 사례에서 장점으로 작용할 수 있지만, 반대로 불필요한 추가 정보를 포함하거나 중요한 정보를 누락하는 등의 균형(tradeoff)에 영향을 미칠 수 있다. 답변의 최적 길이는 질문의 범위를 넘어서는 추가적인 맥락(context)에 따라 달라질 수 있다. 예를 들어, 특정 증상이 우려할 만한지 여부를 묻는 질문은 개인의 병력과 관련이 있으며, 이 경우 LLM의 더 적절한 응답은 가능한 모든 원인을 광범위하게 열거하는 것이 아니라 추가 정보를 요청하는 것일 수 있다. 본 연구의 평가에서는 다회차 대화(multi-turn dialogue) [46]나 능동적 정보 획득(active information acquisition) 프레임워크 [47]는 고려하지 않았다.
개별 평가에서는 Med-PaLM 2의 답변과 의사가 생성한 답변 간의 성능을 명확하게 구분하지 못했다. 따라서 우리는 더 세부적인 평가를 수행하기 위해 쌍별(pairwise) 평가와 적대적 평가를 추가로 실시했다. 쌍별 평가에서 Med-PaLM 2의 답변은 사실성(factuality), 의학적 추론 능력, 피해 가능성 등 임상적 유용성에 중요한 여러 평가 항목에서 의사의 답변보다 우수한 것으로 평가되었다. 이 결과들은 인공지능이 의사 수준의 성능으로 점차 발전하고 있음을 나타내며, 향후 더욱 정밀한 평가 프레임워크가 개발되어 진척 상황을 정확하게 측정하는 데 중요할 것임을 시사한다.
의사보다 Med-PaLM2가 더 좋다!! 우리 열심히 비교했다라는 내용6 한계점
의료 정보 요구의 범위가 넓고 복잡하므로, 모델이 생성한 결과(output)의 정렬(alignment)을 측정하기 위한 방법은 계속 발전시킬 필요가 있다. 예를 들어, 본 논문에서 측정한 평가 축(axis) 외에도 답변에서 표현되는 공감 능력(empathy) 과 같은 요소들도 중요한 평가 차원이 될 가능성이 있다[26]. 이전에 언급했듯이, 본 연구에서 사용한 평가 기준(rubric)은 공식적으로 검증된 질적 평가 도구가 아니지만, 실제 관찰된 평가자 간 신뢰도(inter-rater reliability)는 매우 높았다(그림 A.1 참조). 향후 추가적인 연구를 통해 의료 질문 답변에서 LLM 성능을 인간이 평가할 수 있도록 보다 엄격한 평가 기준을 개발할 필요가 있다.
마찬가지로, LLM의 답변이 실제 의사의 답변과 어떻게 비교되는지에 대한 심도 있는 이해는 매우 중요하고 광범위한 주제로서 앞으로 많은 연구가 필요한 분야이다. 본 논문의 결과는 이러한 연구 방향의 한 단계라고 할 수 있다. 이번 연구에서 의사들은 일반인에게 유용한 답변을 제공하도록 지시받았지만, 구체적인 임상 상황이나 대상 청자의 세부적인 커뮤니케이션 요구사항은 제공받지 않았다. 이는 일부 실제 상황을 반영할 수 있지만, 평가를 보다 명확한 워크플로우와 구체적인 임상 시나리오에 근거하여 수행하는 것이 더 바람직하다. 따라서 본 연구의 결과를 모든 의료 질문-답변 상황이나 대상자에게 일반화하는 것은 적절하지 않다.
또한 모델의 답변은 대체로 의사의 답변보다 길었으며, 이는 독립적 평가나 쌍별 평가(pairwise evaluation)에서 더 좋은 평가를 받은 이유 중 하나일 수 있다[26]. 의사에게 제공된 지침에는 선호도 평가에서 높은 품질이나 낮은 품질로 간주되는 답변 예시가 없었으며, 이는 평가 결과에 영향을 미쳤을 가능성이 있다. 또한 쌍별 평가에서 평가자 간 변동(inter-rater variation)을 명시적으로 평가하거나, 평가자의 실제 경험, 기대치 또는 가정이 선호도 평가에 어떻게 영향을 미쳤는지에 대해서도 탐색하지 않았다.
또한 의사들은 각 질문에 대해 하나의 답변만 작성하도록 지시받았기 때문에, 실제로 의사가 생성할 수 있는 답변의 다양성에 대한 평가는 제한적이다. 향후 방법론 개선에서는 더 명확한 임상 시나리오와 수신자 및 환경적 맥락을 제공하여 답변 생성을 유도할 필요가 있다. 또한 질문당 복수의 의사가 답변을 작성하게 하여, 의사 간 변동성을 평가할 수도 있다. 더욱 엄밀한 비교를 위해, 답변을 생성하거나 평가하는 의사의 의료적 전문성, 실제 경험 및 배경을 더욱 명확하게 고려할 필요가 있다. 또한 다양한 시나리오에서 의사 개인 내(intra-physician) 및 의사 간(inter-physician)의 답변 생성 변동성을 평가하고, LLM의 성능을 의사들이 일반적으로 사용하는 다양한 접근법과 비교하여 맥락화하는 것이 바람직하다.
마지막으로, 본 논문에서 수행한 적대적 데이터(adversarial data)를 활용한 평가의 범위는 상대적으로 제한적이며, 이를 안전성, 편향, 형평성(equity) 관점에서 종합적이고 포괄적인 평가로 간주해서는 안 된다. 향후 연구에서는 적대적 질문 데이터를 체계적으로 확장하여 건강 형평성 주제의 범위를 넓히고, 민감한 특성(sensitive characteristics)별로 구분하여 평가하는 것이 필요하다[48–50].
7 결론
본 연구 결과는 대규모 언어 모델(LLMs)이 의사 수준의 의료 질문-답변 성능에 빠르게 다가가고 있음을 보여준다. 그러나 이 기술이 실제 현장에 폭넓게 도입되기 위해서는 추가적인 검증(validation), 안전성(safety), 윤리(ethics) 관련 연구가 필수적이다. LLM이 의료 질의응답 및 실제 워크플로우에 긍정적인 영향을 미치기 위해서는 다양한 맥락에서 신중하고 엄밀한 평가와 지속적인 모델 개선이 요구된다.
Reference
댓글
댓글 쓰기