NL-270, Med-PaLM: Large language models encode clinical knowledge, Nature 2023
◼ Comment
- 논문이 상당히 길며 Nature에 실렸으며 인용수가 엄청 많다
- continual finetuning을 의료 도메인에서 수행한것이며, 벤치마크를 제공하고 이리저리 실험한 결과를 분석한다.
- 도메인 변환으로 continual 학습하는 부분에서는 의료도메인/금융도메인이 주로 연구되고 있는거 같으며 의료면 이 논문의 벤치마크를 사용하면 될 것 같음
- 학습 및 추론
- 학습 방법은 사실 큰 노벨티는 없다
- instruction prompt tuning이라는 것을 제안하는데, hard prompt와 soft prompt(학습가능한)을 동시에 적용해서 학습한 것이라 보면 된다
- 애초에 의료도메인 학습 데이터가 많지 않기 때문에 full fine-tuning보다 이런식으로 학습하는게 낫다라고 주장하고
- soft prompt는 벡터단에서 학습가능한 프롬프트를 주입하는 거고
- hard prompt는 텍스트단에서 프롬프트를 사용하는거다
- few-shot samples는 전문가와 협의해서 정했다고
- CoT도 임상가들과 함께 예시를 설정했다고함 (CoT만 쓰는건 성능향상에 큰 효과는 없었다고함)
- 보기형 문제는 self-consistency도 적용해서 성능을 극대화 했다고 함 (CoT+SC가 좋은듯)
- 학습데이터: 최종적으로, HealthSearchQA, MedicationQA, LiveQA 세 데이터셋에서 총 40개의 예시가 instruction prompt tuning에 사용되었다.
- 즉 일반적으로 알려진 스킬들은 다 짬뽕해서 사용한 것으로 보임
- 의료 도메인에 대해 언급하자면
- 실제로 쓰려면 정확도가 매우 중요한 도메인이라고 함 (가짜 의학답변을 받으면 안되긴 하니까)
- 이전의 평가 방식으로는 실제 쓸 수 있는 모델인지 판단하기 어렵기 때문에 벤치마크도 만들었고 평가도 빡세게 해봤다
- 백본 Llm은 구글에서 만든 PaLM (pretraining)에 instruction tuning된 Flan-PaLM을 기반으로 한다
- 사이즈는 540B로 엄청 큼
- 여기서 사전 실험같은걸로 해본게 llm 사이즈가 커질수록 & instruction tuning 모델이 기본적으로 의료도메인에서도 성능이 높다고 보여줌
- 여기에 continual finetuning한 Med-PaLM이 성능이 더 극대화 된 것이다
- 실험 부분은 상당히 긴데.. SoTA라고 주장한다
- 근데 비교 모델들과 같은 사이즈가 아니긴 함
- 하지만 사람에 비해서는 아직 부족한 상태라고함
Abstract
대규모 언어모델(LLM)은 자연어 이해와 생성 분야에서 놀라운 성능을 보이고 있지만, 의료 및 임상 분야에서 요구하는 품질 수준은 매우 높다. 현재 모델의 임상 지식을 평가하기 위한 시도들은 대부분 제한된 벤치마크를 통한 자동화된 평가에 의존하고 있다. 모델의 예측과 추론 능력을 다양한 작업에 걸쳐 평가하는 표준 기준은 존재하지 않는다.
이 문제를 해결하기 위해 우리는 여섯 개의 기존 오픈 데이터셋을 결합하여 전문가용 의학 시험 문제, 연구 관련 질문, 일반 소비자의 질의까지 포괄한 벤치마크인 MultiMedQA를 제안한다.
- 또한 인터넷에서 의료 관련 질문을 검색하여 새롭게 구축한 자유 응답형 데이터셋인 HealthSearchQA도 함께 제시한다.
- 더불어 모델의 답변을 사실 정확성(factuality), 정밀성(precision), 잠재적 유해성(possible harm), 편향(bias) 등 다양한 측면에서 인간이 평가할 수 있는 프레임워크를 제안한다.
- 평가 벤치마크가 이때 처음 나왔나 보군. 의료 도메인으로 실험하면 이 데이터세트를 살펴봐야할듯
이와 함께 우리는 5400억 개의 파라미터를 가진 PaLM 모델과 이를 지시형으로 미세 조정한 변형 모델인 Flan-PaLM을 MultiMedQA에서 평가하였다.
- 다양한 프롬프팅(prompting) 전략을 활용한 결과, Flan-PaLM은 MultiMedQA 내의 모든 객관식 데이터셋(MedQA, MedMCQA, PubMedQA, MMLU 임상 주제)에서 최첨단 성능을 달성했다.
- 특히 MedQA(미국 의사면허시험 문제)에서는 67.6%의 정확도를 기록하여, 기존의 최고 성능을 17% 이상 초과하는 결과를 보였다.
- 그러나 인간 평가(human evaluation)를 통해 Flan-PaLM의 답변에서 핵심적인 부족한 점들이 발견되었다.
이러한 문제를 해결하기 위해 우리는 **지시형 프롬프트 튜닝(instruction prompt tuning)**이라는 방식을 소개하였다.
- 이는 소수의 예제를 활용하여 효율적으로 LLM을 새로운 도메인에 맞춰 조정할 수 있는 파라미터 효율적인(parameter-efficient) 방법이다.
- 이 방법으로 생성된 모델인 Med-PaLM은 고무적인 성능을 보였지만, 여전히 실제 임상 전문가보다는 낮은 수준이었다.
- 소수의 프롬프트 파라미터를 학습하는 instruction prompt tuning이라는걸 제안한듯?
- 소프트 프롬프트를 초기 접두사로 사용하고, 이를 학습하는 방법이라고함
우리의 실험은 모델의 규모 확대와 지시형 프롬프트 튜닝을 통해 언어모델의 이해력(comprehension), 지식 회상 능력(recall of knowledge), 그리고 의학적 추론(medical reasoning)이 향상됨을 보여주었으며, 이는 의학 분야에서 LLM이 잠재적으로 유용할 수 있음을 시사한다. 또한 인간 평가를 통해 현재의 모델들이 지닌 중요한 한계점들이 드러났고, 이는 임상 분야에서 안전하고 유용한 LLM 모델을 구축하기 위해 평가 프레임워크와 방법론 개발의 중요성을 다시 한번 강조한다.
아직까지 사람보다 좋은건 아니라고 함
1 서론
의학은 인간 중심의 분야로서, 언어는 임상 전문가, 연구자, 환자 간의 핵심 상호작용을 가능하게 하는 매개체 역할을 한다. 그러나 오늘날 의학 및 헬스케어 응용 프로그램을 위한 인공지능(AI) 모델들은 대부분 언어의 잠재력을 충분히 활용하지 못하고 있다. 이러한 모델들은 유용하기는 하지만 주로 단일 작업 시스템(예: 분류, 회귀, 분할(segmentation))에 그쳐 표현력과 상호작용성이 부족하다[21, 81, 97]. 그 결과 현재의 모델들이 수행할 수 있는 작업과 현실 임상 현장에서 기대되는 바 사이에 상당한 불일치가 존재한다[42, 74].
최근 대규모 언어 모델(Large Language Models, 이하 LLM)의 발전은 인간-AI 상호작용의 매개 도구로서 언어를 활용하여 AI 시스템을 재구성할 수 있는 가능성을 제시한다. LLM은 “기반 모델(Foundation models)”[10]로서, 광범위한 분야와 다양한 작업에 최소한의 노력으로 재사용할 수 있도록 사전 학습된 대규모 AI 시스템이다. 이러한 표현력 있고 상호작용이 가능한 모델은 대규모 의료 코퍼스에 내재된 지식을 통해 일반적으로 유용한 표현을 학습할 수 있다는 점에서 큰 가능성을 지닌다. 지식 검색, 임상 의사 결정 지원, 주요 결과 요약, 환자의 일차 진료 우선순위 결정 등의 다양한 의료 분야 응용 사례가 있다.
하지만 의료 분야의 안전성이 매우 중요하기 때문에, 발전 상황을 의미 있게 측정하고 잠재적 위험을 포착 및 완화할 수 있는 신중한 평가 프레임워크 개발이 필수적이다.
- 이는 특히 LLM의 경우 더욱 중요하다. 이 모델들은 임상적·사회적 가치와 맞지 않는 내용을 생성할 가능성이 있기 때문이다.
- 예를 들어, 그럴듯한 의학적 오정보를 만들어 내거나 건강 격차를 악화시킬 수 있는 편향성을 포함할 수 있다.
- 의료 분야는 정확도가 매우 중요하다. 환각 감소랑도 연관성이 있긴한데..?
우리는 LLM이 임상 지식을 얼마나 잘 내재화했는지, 그리고 의학 분야에서의 잠재력을 평가하기 위해 의료 질문 답변(medical question answering) 작업을 고려한다. 이 작업은 까다로운 문제다. 고품질의 의학적 질문에 답하기 위해서는 의학적 맥락 이해, 적절한 의학적 지식 회상, 전문가 정보에 기반한 추론이 필요하기 때문이다.
기존 의료 질문 답변 벤치마크[33]는 흔히 분류 정확도나 자동화된 자연어 생성 지표(예: BLEU[67])만을 평가하는 데 그쳐 실제 임상 응용 프로그램에서 요구되는 세부적 분석을 가능하게 하지 않는다.
- 따라서 LLM의 답변 사실성, 전문가 지식 활용의 의학적·과학적 추론 능력, 유용성, 정밀성, 건강 형평성, 모델의 출력물을 사실로 받아들이는 사람에게 발생할 수 있는 잠재적 위험성을 평가할 수 있는 광범위한 의료 질문 답변 벤치마크가 절실히 필요하다.
- 이전의 연구들의 평가방법론으로는 실제 임상 프로그램에서 쓸 수 있을지 판단할 수 없다
이를 해결하기 위해, 우리는 7개의 의료 질문 답변 데이터셋으로 구성된 MultiMedQA 벤치마크를 구축하였다.
- 여기에는 MedQA[33], MedMCQA[64], PubMedQA[34], LiveQA[1], MedicationQA[2], MMLU clinical topics[29]의 기존 데이터셋 6개와, 새롭게 구축한 HealthSearchQA 데이터셋(흔히 검색되는 건강 질문으로 구성)이 포함된다.
- 따라서 벤치마크 만듬!!
MultiMedQA를 이용해 LLM을 평가하기 위해, 우리는 540억 개 파라미터의 PaLM[14] 모델과 이를 지시 튜닝한 변형인 Flan-PaLM[15]을 기반으로 삼았다.
- Few-shot[12], 체인 오브 씽킹(CoT, Chain-of-Thought)[91], 자기 일관성(self-consistency)[88] 촉진 전략의 조합을 활용하여, Flan-PaLM은 MedQA, MedMCQA, PubMedQA, MMLU clinical topics에서 최신 성능(state-of-the-art, SOTA)을 달성했고, 강력한 여러 LLM 기준선을 크게 뛰어넘었다.
- 특히 USMLE 질문으로 구성된 MedQA 데이터셋에서 Flan-PaLM은 이전 SOTA를 17% 이상 뛰어넘었다.
다중 선택형 문제에서 Flan-PaLM은 강력한 성능을 보였지만, 일반 소비자의 의료 질문에 대한 답변에서는 중요한 한계점이 드러났다.
- 이를 해결하기 위해 우리는 데이터 및 파라미터 효율적인 정렬 기법인 "지시 프롬프트 튜닝(instruction prompt tuning)"을 제안하여 Flan-PaLM을 의료 도메인에 더 잘 맞추었다.
- 그 결과물인 Med-PaLM 모델은 인간 평가의 여러 측면에서 고무적인 성능을 보였다.
- 예컨대 임상 전문가 패널의 평가 결과, Flan-PaLM의 긴 형식 답변 중 과학적 합의에 부합하는 비율이 61.9%에 불과했던 데 반해 Med-PaLM은 92.6%로 임상 전문가 생성 답변(92.9%)과 비슷한 수준을 보였다.
- 또한, Flan-PaLM의 답변 중 잠재적으로 유해한 결과를 초래할 가능성이 있는 경우가 29.7%였던 데 반해, Med-PaLM은 5.8%에 불과하여 임상 전문가 생성 답변(6.5%)과 비슷한 수준이었다.
이러한 결과는 유망하지만, 의학 분야의 복잡성을 고려할 때 추가 평가가 필요하다. 특히 공정성, 형평성 및 편향성 측면에서 더욱 철저한 검토가 요구된다. 우리의 연구는 이 모델들이 임상 응용 프로그램으로 실질적으로 활용되기까지 극복해야 할 여러 가지 한계를 명확히 드러내고 있다. 본 연구에서는 이를 위한 주요 한계점과 향후 연구 방향을 제시한다.
본 논문의 주요 기여 사항을 요약하면 다음과 같다:
• 의료 질문 답변을 위한 LLM 평가 접근법 제안
-
HealthSearchQA 및 MultiMedQA의 구축: 흔히 검색되는 소비자 의료 질문 3375개를 포함한 HealthSearchQA 데이터셋을 새롭게 소개하고, 이를 기존의 6개 오픈 데이터셋과 함께 제시하여 의료 시험, 의학 연구, 소비자 의료 질문을 망라하는 다양하고 폭넓은 벤치마크를 제공함(3.1절 참조).
-
인간 평가 파일럿 프레임워크: 다중 선택형 데이터셋의 정확도 외에도 과학적·임상적 합의 부합성, 위해성 가능성 및 정도, 독해력, 관련 임상 지식 회상, 유효한 추론을 통한 지식 조작, 답변의 완결성, 편향 가능성, 관련성, 유용성 등을 평가하기 위한 임상 전문가 및 일반 사용자 평가 프레임워크를 파일럿으로 구축(3.2절 참조).
• 의료 질문 답변 벤치마크의 최신 성능 달성: MedQA, MedMCQA, PubMedQA, MMLU clinical topics 데이터셋에서 촉진 전략을 활용한 Flan-PaLM으로 SOTA 성능을 달성하여 강력한 LLM 베이스라인들을 뛰어넘음(4절 참조).
• LLM의 의료 도메인 정렬을 위한 지시 프롬프트 튜닝: 의료 도메인을 위한 간단하고 효율적인 기법인 지시 프롬프트 튜닝을 도입하고, 이를 적용하여 Med-PaLM을 개발(3.3.3절 참조).
• 인간 평가로 드러난 LLM의 주요 한계점 제시: LLM이 실질적인 임상 활용에 적합해지기 위해 반드시 개선되어야 할 핵심적 문제들을 제시하고 향후 연구 방향을 논의(6절 참조).
intro만 봐도 AI 생태계에 중요한 결과물을 보여줬다는게 느껴짐
2 Related work
대규모 언어 모델(LLMs)
지난 몇 년 동안, 대규모 언어 모델(LLM)은 자연어 처리(NLP) 분야의 다양한 작업에서 인상적인 성능을 보여 왔다[12, 14, 15, 30, 69, 70, 73, 89, 91, 99]. 이 모델들의 성공 요인은 트랜스포머(transformer) 기반 모델의 학습 규모(scale)를 확대했기 때문이다[84]. 모델의 성능과 데이터 효율성은 모델 크기와 데이터셋 크기에 따라 증가하는 것으로 알려져 있다[37]. LLM은 일반적으로 위키피디아(Wikipedia)나 BooksCorpus와 같은 범용 텍스트 코퍼스를 이용하여 대규모의 자기지도(self-supervision) 학습을 통해 훈련된다. 이 모델들은 전문적인 과학 지식과 추론 능력이 필요한 작업들을 포함하여 다양한 작업에서 유망한 결과를 보여 왔다[17, 29]. 아마도 이러한 LLM의 가장 흥미로운 측면은 맥락 내 소수 예시 학습(in-context few-shot learning) 능력일 것이다. 이 능력을 통해 모델들은 그래디언트 기반 파라미터 업데이트 없이도 다양한 작업에 빠르게 적응할 수 있다[12, 40, 43, 89]. 이는 이 모델들이 새로운 작업에 빠르게 일반화할 수 있고, 적절한 프롬프팅 전략(prompting strategies)을 통해 심지어 추론 능력을 발휘할 수도 있음을 의미한다[14, 47, 79, 91].
여러 연구에 따르면, LLM은 암묵적인 지식 베이스 역할을 수행할 수 있는 능력을 가지고 있다[29, 35, 79]. 하지만 이러한 모델들이 환각(hallucination)을 일으키거나, 훈련 데이터에 존재하는 사회적 편향(social biases)을 증폭시키거나, 추론 능력에서 결함을 보이는 등 심각한 위험 또한 존재한다. LLM의 현재 한계를 조사하고 인간과 LLM의 언어 능력 간 격차를 정량적으로 평가하기 위해, BIG-bench는 현재의 언어 모델로는 해결하기 어렵다고 여겨지는 작업들에 대한 벤치마크로서 커뮤니티 차원의 프로젝트로 제안되었다[78].
과학 및 바이오의학 분야에서의 LLM
최근의 연구들인 SciBERT [5], BioNLP [46], BioMegatron [76], BioBERT [44], PubMedBERT [25], DARE [66], ScholarBERT [31], BioGPT [56] 등은 엄선된 과학 및 바이오의학 코퍼스를 활용한 판별적(discriminative) 및 생성적(generative) 언어 모델링의 효과성을 보여주었다.
- 이러한 모델들은 유망하긴 하지만, GPT-3 [12], PaLM [14]과 같은 초대형 LLM에 비하면 일반적으로 규모와 범위가 작다.
- 의료 도메인은 특히 까다로운 분야이지만, 이미 LLM을 활용한 구체적인 제안들이 제시된 바 있다.
- 예를 들어, 임상적으로 중요하지 않은(clinically non-critical) 평가의 보조나 복잡한 의료 커뮤니케이션의 요약 작업 등이 그것이다[3, 41, 75].
- 여기 BioLM ref에 대해 정리해뒀군. 근데 비교적 작은 모델 (GPT2 정도?)에 대한 연구인거 같음
본 연구와 가장 유사한 선행 연구로는 Galactica라는 과학 분야 특화 LLM을 소개한 Taylor 외 연구진의 연구[79], 그리고 의료 질문 답변 분야에서 LLM의 추론 능력을 연구한 Liévin 외 연구진의 연구[50]가 있다.
특히 Liévin 등[50]은 지시 튜닝된(instruction-tuned) GPT-3 모델인 Instruct GPT-3 [63]를 사용하였고, 여기에 체인 오브 씽킹(chain-of-thought) 프롬프팅[91]을 적용하여 MedQA, MedMCQA, PubMedQA 데이터셋에서 결과를 개선하였다.
Galactica, Liévin 연구 정도가 비슷한듯? 읽어보면 도움되긴 할듯
3 Methods
이 장에서는 다음 내용을 자세히 설명한다:
-
데이터셋: 의료 질문 답변 작업에서 LLM을 평가하기 위한 벤치마크인 MultiMedQA
-
인간 평가 프레임워크: 임상의 및 일반인 평가자가 모델(및 임상의)의 답변을 평가할 수 있도록 고안된 평점 프레임워크
-
모델링: 본 연구에서 의료 도메인의 요구사항에 맞게 정렬(alignment)한 대규모 언어 모델(LLM) 및 그 방법
3.1 데이터셋 (Datasets)
의료 분야에서 LLM의 가능성을 평가하기 위해, 우리는 의료 질문 답변(medical question answering) 작업에 집중하였다. 의료 질문에 답하기 위해서는 다음과 같은 능력이 필요하다:
-
읽기 이해력(reading comprehension)
-
의학 지식을 정확하게 회상하는 능력
-
전문가 수준의 지식을 활용하는 능력
의료 질문 답변을 위한 다양한 기존 연구용 데이터셋이 존재한다. 예를 들면 다음과 같다:
-
의료 시험 문제와 같이 전문 의학 지식을 평가하는 데이터셋 [33, 64]
-
의학 연구를 이해하는 능력을 요구하는 질문들로 구성된 데이터셋 [34]
-
사용자의 의도를 파악하고 의료 정보 요구에 부합하는 유용한 답변을 제공해야 하는 데이터셋 [1, 2]
우리는 의학 지식이 양적으로도 질적으로도 방대하다는 점을 인지하고 있으며, 기존의 벤치마크는 본질적으로 제한적이며 의료 지식의 전체 영역을 부분적으로만 다룬다는 한계를 가진다. 그럼에도 불구하고 다양한 의료 질문 답변 데이터셋을 통합함으로써, 단순한 다지선다형 정확도나 BLEU와 같은 자연어 생성 지표보다 LLM의 의료 지식을 더 깊이 평가할 수 있는 기반을 마련할 수 있다.
우리가 구성한 데이터셋들은 다양한 능력을 평가할 수 있도록 구성되어 있다. 예를 들면 다음과 같다:
-
일부는 객관식(multiple-choice) 질문을 포함하고 있고, 일부는 서술형(long-form) 답변을 요구한다.
-
일부는 오픈 도메인(open domain) 문제로, 사전에 지정된 정보원 없이 질문에 답해야 한다.
-
다른 일부는 클로즈 도메인(closed domain) 문제로, 관련 참고 문서에서 정보를 검색해 답을 생성해야 한다.
-
출처 또한 다양한 경로에서 수집되었다.
최근 몇 년간 의료 질문 답변 분야에서 활발한 연구 활동이 이루어졌으며, 의료 질문 답변 데이터셋에 대한 포괄적인 요약은 [33]을 참조하면 된다.
3.1.1 MultiMedQA – 의료 질문 답변을 위한 벤치마크
MultiMedQA는 다음과 같은 다양한 유형의 질문 답변 데이터셋을 포함한다:
-
객관식 문제(multiple-choice questions) 데이터셋
-
**의료 전문가가 제시한 질문에 대해 서술형 답변(long-form answers)**을 요구하는 데이터셋
-
비전문가가 할 수 있는 질문에 대해 서술형 답변을 요구하는 데이터셋
구체적으로 포함된 데이터셋은 다음과 같다:
-
MedQA [33]
-
MedMCQA [64]
-
PubMedQA [34]
-
LiveQA [1]
-
MedicationQA [2]
-
MMLU clinical topics [29]
우리는 여기에 더해 일반적으로 많이 검색되는 건강 관련 질문들로 구성된 새로운 데이터셋인 HealthSearchQA를 새롭게 구축하여 MultiMedQA에 추가하였다.
모든 데이터셋은 영어로 작성되어 있으며, 각각에 대해서는 아래에서 자세히 설명한다.
이들 데이터셋은 다음과 같은 축(axis)을 기준으로 다양성을 지닌다:
-
형식(format): 객관식 vs. 서술형 질문
-
평가되는 능력(capabilities tested): 예를 들어 단순한 의학 지식 회상 능력 평가 vs. 회상에 더해 의학적 추론 능력 평가
-
도메인(domain): 오픈 도메인(open domain, 제한된 정보 없이 자유롭게 답변) vs. 클로즈 도메인(closed domain, 특정 참고 문서 내에서만 답변)
-
질문의 출처(question source): 전문 의료 시험, 의학 연구 문서, 또는 일반 소비자의 건강 정보 질문 등
-
레이블 및 메타데이터(labels and metadata): 답변의 정답 여부 또는 설명의 존재 여부, 그리고 해당 출처
MedMCQA, PubMedQA, LiveQA, MedicationQA 데이터셋은 참조용 서술형 답변 또는 설명을 제공하지만, 본 연구에서는 이를 사용하지 않았다.
그 이유는 다음과 같다:
-
참조 답변의 출처가 데이터셋마다 일관되지 않기 때문이다. 많은 답변이 자동화 도구나 사서(librarian)와 같은 비의료 전문가로부터 생성되었으며,
이들 선도적 데이터셋에서 참조 답변 및 설명을 생성할 때 답변의 전체성(holistic) 또는 포괄적 품질(comprehensive quality) 평가를 염두에 두지 않았기 때문에,
BLEU 같은 자동화된 자연어 지표로 LLM을 평가할 수 있는 정확한 기준(ground truth) 으로 쓰기엔 적합하지 않다.→ 이 문제를 완화하기 위해, 4.5절에서 설명하듯 우리는 임상 자격을 갖춘 전문가들로부터 일부 벤치마크 질문에 대한 표준화된 답변 세트를 새로 수집하였다.
-
의료 도메인은 안전성이 매우 중요한 분야이므로, 우리는 BLEU 같은 자동화된 정량 지표만으로는 부족하며,
본 연구에서 제안한 것처럼 보다 정교하고 미묘한 인간 평가 프레임워크를 활용하는 것이 중요하다고 본다.
다음은 각 데이터셋 설명의 한글 번역입니다:
MedQA (USMLE)
MedQA 데이터셋 [33]은 미국의 의사면허시험(USMLE) 형식의 질문들로 구성되어 있으며, 미국 국가의료시험위원회(National Medical Board Examination)로부터 4지 또는 5지선다형 질문 형태로 수집되었다. 개발 세트는 11,450개의 질문으로, 테스트 세트는 1,273개의 질문으로 구성되어 있다.
-
형식: 질문 + 정답, 객관식, 오픈 도메인
-
크기 (개발/테스트): 11,450 / 1,273
-
예시 질문:
-
65세 고혈압 남성이 정기 건강검진을 위해 병원을 방문했다. 현재 복용 중인 약은 아테놀롤, 리시노프릴, 아토르바스타틴이다. 맥박은 86회/분, 호흡은 18회/분, 혈압은 145/95 mmHg이다. 심장 청진에서 확장기 말기 심잡음이 들렸다. 다음 중 가장 가능한 원인은?
-
정답: (A) 좌심실 순응도 감소, (B) 승모판 점액양 변성, (C) 심막 염증, (D) 대동맥근 확장, (E) 승모판 판막 비후
-
MedMCQA
MedMCQA는 인도 의대 입시시험(AIIMS/NEET)의 객관식 4지선다형 문제 19.4만 개 이상으로 구성된 데이터셋이다 [64]. 이 데이터셋은 2,400개의 의료 주제와 21개 의학 과목을 포괄하며, 개발 세트에는 18.7만 개 이상의 질문이 포함되어 있다.
-
형식: 질문 + 정답, 객관식, 오픈 도메인
-
크기 (개발/테스트): 187,000 / 6,100
-
예시 질문:
-
다음 중 염색체 이상(aneuploidy)과 가장 높은 연관성을 가지는 초음파 소견은?
-
정답: (A) 맥락총 낭종, (B) 목덜미 투명대, (C) 낭성 림프관종, (D) 단일 제대 동맥
-
설명: 모든 보기 항목은 염색체 이상 위험과 연관된 초음파 소견이지만, 낭성 림프관종이 가장 높은 연관성을 보인다.
-
PubMedQA
PubMedQA [34]는 전문가가 라벨링한 1,000개의 질문-답변 쌍으로 구성된 데이터셋이며, 질문과 함께 주어진 PubMed 초록을 바탕으로 "예/아니오/모름" 중 하나를 선택해야 하는 폐쇄형(closed-domain) 문제이다.
-
형식: 질문 + 정답 + 문맥, 객관식, 클로즈 도메인
-
크기 (개발/테스트): 500 / 500
-
예시 질문:
-
커뮤니티 환경에서의 이중풍선소장내시경(DBE)은 효과적이고 안전한가?
-
정답: 예
-
긴 답변: DBE는 tertiary center와 비교했을 때 유사한 효과, 수율, 부작용 발생률을 보여 커뮤니티 환경에서도 안전하고 효과적인 것으로 보인다.
-
MMLU ("Massive Multitask Language Understanding")
MMLU [29]는 총 57개 분야의 시험 문제를 포함한 대규모 멀티태스크 언어 이해 벤치마크이다. 본 연구에서는 의학 지식과 관련된 하위 과제만 선택하여 사용하였다. 해당 하위 과제는 다음과 같다:
-
해부학 (Anatomy)
-
임상 지식 (Clinical Knowledge)
-
대학 의학 (College Medicine)
-
의학 유전학 (Medical Genetics)
-
전문 의학 (Professional Medicine)
-
대학 생물학 (College Biology)
각 하위 과제는 4지선다형 객관식 문제와 정답으로 구성되어 있으며, 오픈 도메인 형태이다.
📘 해부학 (Anatomy)
-
데이터 크기 (개발/테스트): 14 / 135
-
질문: 다음 중 체온, 수면, 식욕을 조절하는 기관은?
-
정답:
(A) 부신 (Adrenal glands)
(B) 시상하부 (Hypothalamus) ✅
(C) 췌장 (Pancreas)
(D) 시상 (Thalamus)
📗 임상 지식 (Clinical Knowledge)
-
데이터 크기 (개발/테스트): 29 / 265
-
질문: 다음 중 알츠하이머병의 특징이 아닌 것은?
-
정답:
(A) 단기 기억 상실 (short-term memory loss)
(B) 혼란 (confusion)
(C) 주의력 저하 (poor attention)
(D) 졸림 (drowsiness) ✅
📕 대학 의학 (College Medicine)
-
데이터 크기 (개발/테스트): 22 / 173
-
질문: 스포츠에서 성공을 결정짓는 주요 요인은?
-
정답:
(A) 고열량 식단과 큰 식욕
(B) 높은 지능과 성공에 대한 동기
(C) 훌륭한 코치와 동기 부여
(D) 선천적 재능과 훈련 자극에 대한 반응 능력 ✅
📙 의학 유전학 (Medical Genetics)
-
데이터 크기 (개발/테스트): 11 / 100
-
질문: 겸상적혈구 빈혈과 연관된 대립유전자는 어떤 이유로 일부 인구집단에서 높은 빈도로 나타났는가?
-
정답:
(A) 무작위 교배 (random mating)
(B) 말라리아 지역에서 이형접합자의 생존 적합도가 높기 때문 ✅
(C) 해당 유전자를 가진 사람들의 이주
(D) 높은 돌연변이율
📒 전문 의학 (Professional Medicine)
-
데이터 크기 (개발/테스트): 31 / 272
-
질문: 19세 여성이 자가 유방 촉진에서 2주 전 덩어리를 발견하였다. 어머니는 40세에 전이성 유방암으로 사망했다. 진찰 결과, 유방은 치밀하며 좌측 상외측 사분면에 2cm 크기의 단단하고 움직이는 종괴가 촉진된다. 피부 및 유두 변화는 없고, 액와 림프절도 촉지되지 않는다. 가장 가능성 있는 진단은?
-
정답:
(A) 섬유선종 (Fibroadenoma) ✅
(B) 유방 낭포성 변화
(C) 침윤성 유관암
(D) 유관 유두종
📓 대학 생물학 (College Biology)
-
데이터 크기 (개발/테스트): 16 / 144
-
질문: 특정 생물의 체세포에서 polyteny(거대염색체 현상)를 가장 직접적으로 유발하는 요인은 무엇인가?
-
정답:
(A) RNA 전사
(B) 염색질 초나선화
(C) 세포 분열 없이 염색체 복제 ✅
(D) 염색체 재조합
이 데이터셋은 LLM의 의학 지식 이해도를 다양한 수준과 영역에서 평가할 수 있는 중요한 구성 요소로 작용한다.
LiveQA
LiveQA [1]는 TREC 2017의 일부로 구축되었으며, 미국 국립의학도서관(NLM)에 일반인이 제출한 의료 질문들로 구성되어 있다. NIH 등 신뢰할 수 있는 출처로부터 수집된 참조 답변도 포함된다.
-
형식: 질문 + 긴 답변, 자유 텍스트 응답, 오픈 도메인
-
크기 (개발/테스트): 634 / 104
-
예시 질문: 간접흡연이 노화성 황반변성(AMD)의 조기 발병에 영향을 줄 수 있는가?
-
긴 답변: 흡연은 AMD 발병 가능성을 2~5배 증가시키며, 망막은 산소 소비율이 높기 때문에 산소 전달에 영향을 주는 요소는 시력에 영향을 미칠 수 있다. 흡연은 산화적 손상을 유발하여 AMD의 발생과 진행에 기여할 수 있다.
-
MedicationQA
MedicationQA [2]는 일반 소비자가 자주 묻는 약물 관련 질문으로 구성된 데이터셋이다. 질문 외에도 약물 초점, 상호작용 등의 주석이 포함되어 있으며, LiveQA와 유사하게 서술형 답변 생성 능력을 평가한다.
-
형식: 질문 + 긴 답변, 자유 텍스트 응답, 오픈 도메인
-
크기 (개발/테스트): NA / 674
-
예시 질문: 발륨(Valium)은 뇌에 어떤 영향을 미치는가?
-
약물 초점: 발륨
-
질문 유형: 작용(action)
-
긴 답변: 디아제팜(Diazepam)은 벤조디아제핀 계열로, 항불안, 진정, 근육 이완, 항경련, 기억 소실 효과를 지닌다. 이러한 효과는 대부분 중추신경계의 억제성 신경전달물질인 GABA의 작용을 촉진함으로써 나타난다.
-
HealthSearchQA
HealthSearchQA는 본 연구진이 자체적으로 구축한 데이터셋으로, 3,375개의 자주 검색되는 일반 건강 관련 질문들로 구성되어 있다. 특정 의학 질환 및 증상을 시드로 사용하여 검색 엔진에서 공용으로 제공된 질문을 수집하였다. 이 데이터셋은 실제 소비자의 관심사를 반영하는 오픈 벤치마크로 공개된다.
-
형식: 질문만 포함, 자유 텍스트 응답, 오픈 도메인
-
크기: 3,375
-
예시 질문:
-
심방세동은 얼마나 심각한가요?
-
코로나에 걸리면 어떤 종류의 기침이 생기나요?
-
가래에 피가 섞여 있으면 위험한가요?
-
요약:
MultiMedQA는 LLM의 의료 질문 답변 능력을 다방면에서 평가할 수 있게 해주지만, 여전히 모든 의료 지식을 포괄하지는 않는다. 향후에는 전자의무기록 기반 질의응답 능력 평가 [65], 기초 생의학 지식 기반 평가 [83] 등의 데이터셋을 추가하여 확장할 계획이다.
3.2 인간 평가 프레임워크
이 장에서는 의료 질문에 대한 서술형 답변을 인간이 평가하기 위한 프레임워크를 제안한다.
3.2.1 임상의 평가
객관식 질문에 대한 정확도와 같은 정량적인 평가지표는 모델 성능을 측정하는 데 있어 강력한 도구이지만, 여러 중요한 측면을 간과한다. 의료 주제에 대한 개방형 질문 응답에서 LLM의 생성 출력을 더 깊이 있게 평가하기 위해, 우리는 LiveQA, MedicationQA, HealthSearchQA 데이터셋의 소비자 의료 질문에 대한 모델의 서술형 답변을 평가하는 파일럿 인간 평가 프레임워크를 개발하였다.
이 프레임워크는 임상 환경에서 LLM의 응답의 강점과 약점을 평가하기 위해 Feng 외 연구에서 제안된 접근법을 참고하였으며, 영국, 미국, 인도에 기반한 임상의들과의 포커스 그룹 및 인터뷰를 통해 평가 항목을 확장하였다. 이로써 다음과 같은 평가 축을 추가하였다: 과학적 합의와의 일치 여부, 위해 가능성과 그 확률, 응답의 완전성 및 정보 누락, 편향 가능성 등이다.
과학적 합의와의 정렬은 평가자에게 모델의 응답이 현재 통용되는 과학적 합의(예: 임상 진료 지침)와 일치하는지, 반대되는지, 혹은 해당 질문에 대해 명확한 과학적 합의가 존재하지 않는지를 묻는 방식으로 평가하였다.
‘해’라는 개념은 여러 측면(신체 건강, 정신 건강, 윤리적, 재정적 등)에서 평가될 수 있는 복합적인 개념이지만, 본 평가에서는 신체적/정신적 건강과 관련된 위해 가능성에만 초점을 맞추었다. 평가자들은 소비자 또는 의사가 모델의 응답을 기반으로 행동할 수 있다는 가정 하에, AHRQ의 위해 평가 형식을 참고하여 위해의 심각도와 발생 가능성을 평가하였다.
편향성 평가는 특정 환자 집단에 적용 불가능하거나 부정확한 정보를 모델의 응답이 포함하고 있는지를 평가자가 전반적으로 판단하는 방식으로 수행되었다.
평가 항목의 형식, 문구, 응답 척도는 각 데이터셋에서 질문-응답 쌍 25개씩을 임상 자격을 갖춘 세 명의 전문가가 삼중 평가(triplicate assessment)하는 과정을 거쳐 다듬어졌다. 평가자에게는 예시 질문에 대한 등급 기준이 포함된 평가 지침이 제공되었으며, 평가자들의 판단이 수렴할 때까지 지침을 반복적으로 개선하였다. 평가 기준이 수립된 이후에는 소비자 의료 질문 데이터셋에서 더 큰 규모의 질문-응답 쌍을 추출하여, 영국, 미국, 인도에 기반을 두고 해당 국가에서 진료 자격을 갖춘 9명의 임상가가 각 문항을 단독으로 평가하였다. 이들 평가자는 소아과, 외과, 내과, 1차 진료 등 다양한 전문 분야를 포함한다.
3.2.2 일반 사용자(비전문가) 평가
소비자 의료 질문에 대한 모델 응답의 유용성과 실용성을 평가하기 위해, 별도의 일반 사용자 평가를 수행하였다. 이 평가는 의학적 배경이 없는 인도 거주자 5명이 수행하였다.
이 평가의 목적은 다음 두 가지 항목에 대해 판단하는 것이었다:
-
응답이 질문의 의도(숨겨진 의미 또는 필요)를 얼마나 잘 충족시키는가
-
응답이 실제로 유익하고 실질적인 조치를 취하는 데 도움이 되는가
이 평가에서 사용된 질문 항목은 표 3에 요약되어 있다.
3.3 모델링
이 장에서는 대규모 언어 모델(LLM)과 이들을 의료 도메인의 요구사항에 맞추어 정렬하는 데 사용된 기술을 상세히 설명한다.
3.3.1 모델
본 연구에서는 PaLM 및 Flan-PaLM 계열의 대규모 언어 모델을 기반으로 한다.
PaLM(Pathways Language Model)은 [14]에서 소개된 디코더 전용(transformer decoder-only) 언어 모델로, Google의 대규모 기계학습 인프라 시스템인 Pathways [4]를 사용하여 TPU 팟 전체에 걸쳐 효율적으로 학습되었다.
PaLM의 학습 코퍼스는 웹페이지, 위키백과, 소스코드, 소셜 미디어 대화, 뉴스 기사, 도서 등으로 구성된 7800억 개의 토큰으로 이루어져 있다. 모든 PaLM 모델 변형은 동일하게 학습 데이터에 대해 1 epoch 동안 학습되었다. 자세한 학습 데이터 설명은 [14, 19, 80]을 참조할 수 있다.
PaLM 540B 모델은 출시 당시 복잡한 다단계 추론 작업에서 기존 최첨단 모델을 능가하고, BIG-bench 벤치마크에서도 평균적인 인간 성능을 초과하는 성과를 달성하였다 [14, 78].
Flan-PaLM은 기본 PaLM 모델에 대해 지시 튜닝(instruction tuning) 기법을 적용한 변형이다 [15]. 이 방식은 **지시 문장 또는 소수의 예시(few-shot example)**가 포함된 다양한 데이터셋을 이용하여 모델을 미세 조정(finetuning)하는 것을 의미한다.
Chung 외 [15]는 작업 수(task variety), 모델 크기, 그리고 체인 오브 씽킹(chain-of-thought, CoT) 데이터를 지시문으로 사용함으로써 성능을 향상시킬 수 있음을 보여주었다. Flan-PaLM은 MMLU, BBH, TyDIQA [16]와 같은 여러 벤치마크에서 최첨단 성능을 달성하였다.
Flan-PaLM은 [15]에서 다룬 평가 작업들 전반에 걸쳐 기본 PaLM 대비 평균 9.4% 향상을 보이며 instruction tuning의 효과를 입증하였다.
본 연구에서는 PaLM 및 Flan-PaLM의 세 가지 크기(8B, 62B, 540B) 모델을 실험 대상으로 고려하였으며, 가장 큰 모델(540B)은 6144개의 TPUv4 칩을 이용하여 사전 학습되었다.
3.3.2 의료 도메인에 맞춘 정렬(Alignment)
PaLM [14], GPT-3 [12]와 같은 범용 LLM은 BIG-bench와 같은 도전적인 벤치마크에서 최첨단 성능을 보여주었다. 하지만 의료는 안전이 핵심인 분야이므로, 해당 도메인에 특화된 데이터로 모델을 정렬(adapt)하는 것이 필수적이다.
일반적으로 도메인 정렬(domain adaptation)은 대량의 도메인 데이터를 이용한 **엔드 투 엔드 파인튜닝(finetuning)**에 기반하지만, 의료 데이터는 희소하기 때문에 이러한 방식은 현실적으로 어려운 경우가 많다. 따라서 본 연구에서는 **프롬프트 기반 기법(prompting)**과 프롬프트 튜닝(prompt tuning) 등 데이터 효율적인 정렬 전략에 초점을 맞추었다.
- general llm은 의료도메인에서 성능이 떨어지는데, 의료도메인은 성능이 매우 중요함
- 따라서 의료도메인에 대한 모델 정렬이 필수적
- 근데 데이터가 얼마 없어서 End-to-end로 학습하기에는 어렵고..
- 프롬프트 튜닝으로 학습해보자고 한것
프롬프트 기법 (Prompting Strategies)
Brown 외 [12]는 LLM이 소수 예시(few-shot) 상황에서 입력 맥락에 포함된 예시(prompt)를 통해 빠르게 학습할 수 있음을 보였다. 이러한 프롬프트에는 입력-출력 예시가 텍스트로 포함되며, 모델 파라미터의 변화 없이 새로운 작업에 일반화할 수 있다.
이후 수많은 프롬프트 전략들이 등장하였으며, 대표적으로 다음이 있다:
-
Scratchpad [61]
-
Chain-of-Thought(CoT) [91]
-
Least-to-Most prompting [100]
본 연구에서는 특히 다음 세 가지 전략에 집중하였다:
소수 예시(few-shot) 프롬프트, 체인 오브 씽킹(CoT) 프롬프트, 자기 일관성(self-consistency) 프롬프트
소수 예시 프롬프트 (Few-shot Prompting)
Brown 외 [12]가 제안한 기본 전략으로, 몇 개의 입력-출력 쌍을 포함한 텍스트 예시로 프롬프트를 구성한다.
-
사용되는 예시 개수는 모델의 입력 컨텍스트 창에 들어갈 수 있는 토큰 수에 따라 결정된다.
-
Zero-shot prompting은 예시 없이 지시문만 포함되며, few-shot에 비해 성능이 낮은 경향을 보인다.
-
Wei 외 [90]는 특정 모델 크기 이상에서 emergent abilities(소형 모델에는 없는 능력이 갑자기 나타나는 현상)가 발생함을 관찰하였다.
본 연구에서는 임상 전문가들과 협업하여, 각 데이터셋에 최적화된 few-shot 예시를 설계하였다(자세한 내용은 부록 A.8 참고).
-
대부분의 소비자 질문 데이터셋에는 5개 예시를,
-
PubMedQA와 같이 **초록(Abstract)**이 함께 포함되어야 하는 경우에는 3개 이하로 제한하였다.
데이터셋에 따른 좋은 few-shot을 전문가들과 설정했다고 함. 음 실제 사용자입장에서는 어떤 질문이 올지 모르는데 이렇게 설정해도 되는 것일까? random으로 설정해야 하는 것이 현실적일거 같긴한데
체인 오브 씽킹 프롬프트 (Chain-of-Thought Prompting)
Wei 외 [91]가 제안한 CoT 프롬프트는 각 예시에 대해 단계별 사고 과정을 포함한 중간 추론 단계들을 명시적으로 제공하는 방식이다.
-
다단계 계산과 추론이 필요한 작업에서 사람의 사고 과정을 모방하도록 설계되었다.
-
LLM이 충분히 크면 CoT 프롬프트를 통해 추론 능력이 유도되고, 성능이 크게 향상됨이 입증되었다.
-
STEM 벤치마크에서 뛰어난 성능을 달성한 Lewkowycz 외 [47] 역시 CoT를 핵심 전략으로 활용하였다.
본 연구의 많은 의료 질문이 복잡한 다단계 추론을 요구하기 때문에 CoT는 매우 적합하며, 우리는 임상가들과 함께 효과적인 CoT 예시를 설계하였다(자세한 예시는 부록 A.9 참고).
- CoT도 임상가들이 작성함
자기 일관성 프롬프트 (Self-consistency Prompting)
Wang 외 [88]가 제안한 전략으로, 모델로부터 여러 개의 응답을 생성한 후 다수결 방식으로 최종 답변을 결정한다.
-
의료와 같이 복잡한 추론 경로가 존재하는 분야에서는 이러한 방식이 더 일관된 결과를 도출하는 데 효과적이다.
-
본 연구에서도 MedQA, MedMCQA, PubMedQA, MMLU 등 객관식 평가 데이터셋에 해당 전략을 적용하였다.
프롬프트 튜닝 (Prompt Tuning)
PaLM [14], GPT-3 [12]처럼 수백억~수천억 개 파라미터를 가진 LLM을 전체 파인튜닝하는 것은 계산적으로 매우 비용이 크다.
Few-shot prompting으로 어느 정도 이 문제가 해결되긴 했지만, 더 나은 성능을 위해 gradient 기반 학습이 필요한 작업도 많다.
이에 대해 **Lester 외 [45]는 "프롬프트 튜닝"**을 제안하였다.
-
이는 전체 모델은 고정(freeze)한 채, 소프트 프롬프트 벡터만을 역전파로 학습하는 방식이다.
-
GPT-3 등의 하드 텍스트 기반 프롬프트와 달리, 임베딩 벡터 수준에서 학습 가능하며, 적은 수의 라벨 데이터만으로도 좋은 성능을 얻을 수 있다.
프롬프트 튜닝은 다음과 같은 특성을 갖는다:
-
수십 개 수준의 라벨만으로도 효과적
-
모델 크기가 클수록 성능이 전체 파인튜닝과 유사해짐
-
프리픽스 튜닝(prefix tuning) [48]의 단순화 버전으로 볼 수 있음
(프리픽스 튜닝은 각 레이어에 프리픽스 벡터를 추가로 붙이는 방식)
결론적으로, 프롬프트 튜닝은 계산 효율성과 도메인 정렬 모두에 유리한 접근이며, 본 연구에서도 효과적으로 활용되었다.
학습자체는 특이한 점은 없는듯? 하드한 text을 프롬프트로 넣지 않고, 벡터단에서 소프트 프롬프트를 넣어서 튜닝한다는 개념임
3.3.3 지시 프롬프트 튜닝 (Instruction Prompt Tuning)
Wei 외 [89], Chung 외 [15]는 **다중 작업 지시 기반 파인튜닝(multi-task instruction finetuning)**의 이점을 입증하였다.
Flan-PaLM 모델은 BIG-bench [47], MMLU [29] 등 여러 벤치마크에서 **최첨단 성능(state-of-the-art)**을 기록하였고, 특히 CoT(Chain-of-Thought) 데이터를 사용한 파인튜닝이 추론을 요구하는 과제에서 강력한 성능 향상으로 이어졌음을 보여주었다.
이러한 instruction tuning의 강력한 성과에 기반하여, 본 연구에서도 주로 Flan-PaLM 모델을 기반으로 구축하였다.
그러나 4.5절에서 논의된 바와 같이, 인간 평가 결과, Flan-PaLM은 few-shot prompting을 사용했음에도 소비자 의료 질문 데이터셋에서 중요한 성능 격차를 보였다.
이에 우리는 안전성이 핵심인 의료 도메인의 요구사항에 모델을 더 잘 맞추기 위해, 의료 데이터에 대한 추가 학습을 시도하였다.
이 추가 학습에서는 전체 모델을 파인튜닝하지 않고, 계산 자원과 임상 데이터 생성 비용을 고려하여 **프롬프트 튜닝(prompt tuning)**을 사용하였다.
이 접근 방식은 Flan-PaLM의 "지시를 따르는 능력 학습" 원칙을 프롬프트 튜닝 단계까지 확장한 것이다.
구체적으로, 일반적인 prompt tuning에서는 task-specific human-engineered prompt를 soft prompt로 대체하지만,
우리는 **soft prompt를 전체 의료 데이터셋에 공통으로 사용하는 초기 접두(prefix)**로 활용하고,
그 뒤에 **지시문 또는 few-shot 예시(예: CoT 포함 가능)**를 포함한 기존의 human-engineered hard prompt와 실제 질문/문맥을 연결하였다.
이 방식을 우리는 **"지시 프롬프트 튜닝(instruction prompt tuning)"**이라 부른다.
- 이는 학습 및 추론 단계 모두에서 데이터 효율성, 파라미터 효율성, 계산 효율성을 동시에 확보할 수 있는 경량 학습 방식으로 볼 수 있다.
- 본 연구의 경우, instruction prompt tuning을 통해 의료 데이터셋에서 사용되는 특정 유형의 지시문을 LLM이 더 잘 따르도록 적응시켰다.
- 이처럼 soft prompt와 hard prompt를 조합하는 instruction prompt tuning은 "hard-soft 하이브리드 프롬프트 튜닝" [52]의 일종으로 볼 수 있다.
- 즉 임상자가 만든 hard prompt가 있고, 그 앞에 soft prompt을 넣어서 학습까지 하겠다는 것
- 이렇게 하면 데이터 효율성, 파라미터 효율성, 계산 효율성을 확보할 수 있다고 하는데..? 왜 그런지 직관적이지는 않음
- 그냥 소프트 프롬프트만 해서 잘되기 때문에 기존의 소프트 프롬프트 학습이 하이라이트 받았던거 아닌가 싶은데
- 어쨌든 여기서는 soft prompt는 전체 의료 데이터에 대한 것이고, hard prompt는 테스크에 핏하게 된거의 개념으로 구분되긴 함
기존 연구에서 시도된 방식에는 다음과 같은 변형이 포함된다:
-
soft prompt에 hard anchor token 삽입 [53]
-
hard prompt에 학습된 soft token 삽입 [28]
-
zero-shot hard prompt 앞에 soft prompt를 접두(prefix)로 삽입 [26, 96]
우리가 제안한 방식은, 지시문 및 few-shot 예시로 구성된 완전한 hard prompt 앞에 soft prompt를 접두로 추가한 최초의 사례로 알려져 있다.
3.3.4 통합: Med-PaLM
Flan-PaLM을 의료 도메인에 맞추기 위해, 우리는 instruction prompt tuning을 소규모 예시 세트에 적용하였다.
이러한 예시들은 모델이 의료 도메인에 적합한 텍스트 생성을 할 수 있도록 학습시키기 위한 것이다.
예를 들어, 의료 개념에 대한 이해, 임상 지식의 회상, 환자에게 해를 끼치지 않는 방식의 추론 등이 포함된다.
따라서 이 예시들의 구성은 매우 중요하였다.
우리는 MultiMedQA의 자유 응답 데이터셋(HealthSearchQA, MedicationQA, LiveQA)에서 무작위로 예시를 샘플링하고,
미국과 영국에 기반을 둔 5명의 임상 전문가 패널에게 해당 질문에 대한 모범 답변을 생성하도록 요청하였다.
이들 임상의는 1차 진료, 외과, 내과, 소아과 분야의 전문성을 갖추고 있었다.
이후, 전문가들은 모델 학습에 적합하지 않다고 판단되는 질문/답변 쌍을 제거하였다.
예를 들어, 명확한 이상적인 답변을 생성할 수 없거나, 정보 자체가 불완전한 경우가 이에 해당하였다.
최종적으로, HealthSearchQA, MedicationQA, LiveQA 세 데이터셋에서 총 40개의 예시가 instruction prompt tuning에 사용되었다.
이렇게 학습된 Med-PaLM 모델은 MultiMedQA의 소비자 의료 질문 답변 데이터셋에서 Flan-PaLM과 함께 평가되었다.
Figure 2는 Med-PaLM에 적용된 instruction prompt tuning 절차의 개요를 보여준다.
하이퍼파라미터 최적화 및 모델 선택 과정에 대한 더 자세한 정보는 부록 A.1에,
Med-PaLM의 모델 카드(model card)는 부록 A.5에 제시되어 있다.
4 Results
이 장에서는 Figure 3과 Figure 4에 요약된 주요 결과를 먼저 개관한 후, 결과 해석을 돕기 위한 다양한 분석(ablation)을 제시한다.
4.1 Flan-PaLM, MedQA(USMLE)에서 기존 최첨단 성능 대비 17% 이상 향상
미국 의사면허시험(USMLE) 스타일의 4지선다형 질문으로 구성된 MedQA 데이터셋에서, Flan-PaLM 540B 모델은 67.6%의 객관식 정확도를 달성하였다. 이는 기존 DRAGON 모델 [94]보다 20.1% 높은 성능이다.
우리 연구와 동시에, Bolton 외 [9]는 생물의학 초록과 논문에만 기반해 학습된 2.7B 규모의 PubMedGPT 모델을 제안하였고, 이 모델은 4지선다형 MedQA 질문에서 **50.3%**의 정확도를 기록하였다. Flan-PaLM 540B는 이보다 17.3% 더 높은 성능을 보였다.
표 4는 본 데이터셋에서의 최고 성능 모델 간의 비교를 제공한다.
보다 어려운 5지선다형 질문 세트에서는 Flan-PaLM 540B가 **62.0%**의 정확도를 달성하였다.
근데 애초에 모델 사이즈가 너무 차이나는데?ㅋㅋ
4.2 MedMCQA 및 PubMedQA에서도 최첨단 성능 달성
인도 의대 입시 문제로 구성된 MedMCQA 데이터셋에서, Flan-PaLM 540B는 개발 세트 기준 57.6%의 정확도를 기록하였다. 이는 기존 Galactica 모델 [79]의 최고 성능인 52.9%를 능가하는 결과이다.
PubMedQA에서도 Flan-PaLM 540B는 79.0%의 정확도를 달성하여, 기존 최고 성능인 BioGPT (78.2%) [56]보다 0.8% 향상되었다. Figure 2에 결과가 요약되어 있다.
MedQA 및 MedMCQA 대비 개선폭은 작지만, PubMedQA의 단일 평가자 기준 인간 정확도는 78.0% [33]로, 성능 상한선이 존재할 수 있음을 시사한다.
4.3 MMLU 임상 주제에서도 최첨단 성능 달성
MMLU 데이터셋은 해부학, 임상의학, 전문의학, 유전학, 대학 생물학 등 의료 관련 여러 주제에 대한 객관식 질문으로 구성된다.
Flan-PaLM 540B는 이 모든 하위 과제에서 기존의 강력한 LLM들(PaLM, Gopher, Chinchilla, BLOOM, OPT, Galactica 등)을 능가하며 최고 성능을 기록하였다.
애초에 Flan-PaLM이 다른 LLM과 비교해서 SoTA 상태긴함
특히 전문의학 및 임상 지식 하위 과제에서는 각각 83.5%, 84.0%의 정확도를 달성하였다.
Figure 4는 모델별 성능 비교를 시각적으로 제시하고 있다.
4.4 분석(Ablation)
MedQA, MedMCQA, PubMedQA의 세 가지 객관식 데이터셋을 대상으로 다양한 분석을 수행하여 Flan-PaLM의 성능 요인을 이해하고자 하였다. 주요 결과는 다음과 같다:
Instruction tuning은 의료 질문 응답 성능을 향상시킴
모델 크기에 상관없이, instruction tuning이 적용된 Flan-PaLM 모델은 기본 PaLM 모델보다 모든 데이터셋에서 더 우수한 성능을 보였다.
프롬프트는 부록 A.8에 명시된 few-shot 방식으로 설정되었다.
특히 PubMedQA에서는 Flan-PaLM 8B가 기본 PaLM 8B를 30% 이상 초과하는 성능을 보였다.
62B 및 540B 버전에서도 유사한 수준의 향상이 관찰되었다. 이는 instruction tuning의 강력한 효과를 보여준다.
애초에 Flan-PaLM이 PaLM보다 매우 좋은 성능을 보여준다
※ 이 장에서는 Flan-PaLM에 대한 분석만 포함하며, Med-PaLM (instruction prompt tuning이 적용된 Flan-PaLM)에 대한 객관식 정확도 분석은 아직 수행되지 않았다.
그러나 domain-agnostic instruction tuning이 객관식 질의응답에 효과적이라는 점에서, 도메인 특화 지시 프롬프트 튜닝도 유망하며, 초기 결과는 부록 A.6에 제시되어 있다.
모델 스케일링은 성능을 크게 향상시킴
모델 크기를 8B → 62B → 540B로 확장함에 따라, MedQA 및 MedMCQA에서 약 2배 수준의 성능 향상이 관찰되었다.
Flan-PaLM의 경우, 540B는 62B보다 14% 이상, 8B보다 24% 이상 높은 정확도를 기록하였다.
사이즈가 커질수록 당연히 성능은 향상됨
이러한 결과에 기반하여, Flan-PaLM 540B 모델이 후속 실험 및 분석의 기준 모델로 사용되었다.
가장 좋은 Flan-PaLM을 베이스 LLM으로 설정하고 학습진행했다는 것
관련 스케일링 결과는 부록 A.4에 수록되어 있다.
체인 오브 씽킹(CoT) 프롬프트는 기대보다 향상 효과가 적음
Figure 6은 Flan-PaLM 540B 모델에 대해 CoT 프롬프팅 결과와 표준 few-shot 프롬프팅 결과를 비교한다.
예상과는 달리, MedQA, MedMCQA, PubMedQA 세 데이터셋 모두에서 CoT는 명확한 성능 향상을 보이지 않았다.
사용된 CoT 프롬프트는 부록 A.9에 요약되어 있다.
자기 일관성(Self-consistency)은 객관식 성능을 크게 향상시킴
Wang 외 [88]는 CoT 프롬프팅이 성능을 저해할 경우, self-consistency가 효과적임을 보였다.
이에 따라 본 연구에서도 self-consistency 전략을 적용하였다.
각 데이터셋마다 CoT 방식으로 11개의 추론 경로를 생성하고, 이들 중 가장 일관된 응답을 선택하였다.
이 방식은 Flan-PaLM 540B 모델에서 MedQA와 MedMCQA 성능을 크게 향상시켰으며, MedQA에서는 7% 이상의 정확도 향상이 확인되었다.
반면 PubMedQA에서는 오히려 성능이 소폭 감소하였다. 결과는 표 7에 요약되어 있다.
MedQA에 대한 Flan-PaLM 540B의 예시 응답은 표 8에 수록되어 있다.
불확실성과 선택적 예측 (Uncertainty and Selective Prediction)
LLM은 길고 정합성 있는 복잡한 응답을 생성할 수 있지만, 사실과 일치하지 않는 문장을 만들 수도 있다.
의료 환경에서는 이러한 오류를 철저히 검토해야 하며, 사실일 가능성이 낮은 응답은 보류하고 전문가나 다른 정보 출처에 의존해야 할 필요가 있다.
이러한 맥락에서, 모델이 자신의 불확실성을 명시적으로 전달하는 것은 유용하다.
LLM의 출력에 대한 불확실성 측정은 현재 활발한 연구 주제이며 [36, 51], 본 연구에서는 그 첫 시도로 self-consistency로 생성된 응답 수를 불확실성의 대리 지표로 활용하였다.
구체적으로 Flan-PaLM 540B 모델에서 CoT + self-consistency 조합으로 41개의 응답을 생성하고,
일치 응답 수가 적을 경우 해당 응답을 제출하지 않고 보류하는 방식으로 selective prediction 실험을 수행하였다.
그 결과, 보류율이 증가할수록 MedQA 정확도가 향상되는 경향이 나타났으며, 보류율이 0.45일 때 정확도는 82.5%에 도달하였다.
이는 본 대리 지표가 불확실성 판단에 일정 부분 유효하며, LLM이 의료 지식에 대해 어느 정도 불확실성을 내재적으로 표현할 수 있음을 시사한다.
다만, 이러한 초기 분석을 넘어선 심화 연구가 더 필요하다.
4.5 인간 평가 결과
우리는 상세한 인간 평가를 위해 다음과 같이 서술형 답변 벤치마크를 구축하였다:
HealthSearchQA에서 무작위로 100개, LiveQA에서 20개, MedicationQA에서 20개의 질문을 선정하였다.
이 질문들은 실제 소비자들의 의료 정보 질문을 반영하며, Med-PaLM 학습에 사용된 지시 프롬프트 튜닝 예시와는 중복되지 않도록 하였다.
먼저 임상 전문가 패널이 각 질문에 대한 참조용 전문 답변을 작성하였다. 이후, 같은 질문에 대해 **Flan-PaLM 및 Med-PaLM (둘 다 540B 모델)**을 이용해 모델 응답을 생성하였다.
질문 및 Med-PaLM 응답의 정성적 예시는 표 9에 제시되어 있다.
모델과 전문가의 세 종류의 답변은 출처를 밝히지 않은 채 또 다른 임상의 평가 패널에 의해 평가되었다. 각 답변은 한 명의 임상의가 평가했으며, 총 9명의 임상가(미국, 영국, 인도 기반)가 참여하였다. 평가의 일반화 가능성을 높이기 위해, 비모수 부트스트랩 방식으로 100개의 복제 샘플을 기반으로 95% 신뢰구간을 계산하였다.
과학적 합의(Scientific consensus)
140개의 질문에 대해 평가한 결과,
-
전문가 답변은 92.9%의 질문에서 과학적 합의에 부합하는 것으로 평가됨
-
반면, Flan-PaLM은 단 61.9%의 답변만이 합의와 일치함
-
Med-PaLM은 다시 92.9%로 전문가 수준과 동일한 정합성을 보였으며, 지시 프롬프트 튜닝의 효과를 입증
단, PaLM, Flan-PaLM, Med-PaLM 모두 과거 시점의 위키, 웹, 도서, 의학 문서 등으로 학습되었기에 과거의 과학적 합의에 기반할 가능성이 있으며, 이는 **지속 학습(continual learning)**과 실시간 정보 검색 기능의 필요성을 시사한다.
이해, 회상, 추론 능력 (Comprehension, retrieval, reasoning)
모델이 생성한 답변이 의학적 이해, 지식 회상, 추론 능력을 반영하는지를 평가하였다.
Feng 외 [22] 방식을 따라, 정확한 증거와 오류 증거를 동시에 평가하였다.
-
전문가 답변은 Flan-PaLM에 비해 월등히 뛰어났으며,
-
Med-PaLM은 Flan-PaLM보다 모든 세부 항목에서 개선됨
예를 들어,
-
의학 지식 회상 능력의 정확성: 전문가 97.8%, Flan-PaLM 76.3%, Med-PaLM 95.4%
오류 또는 누락된 내용 (Incorrect or missing content)
응답이 누락 없이 완전하며, 부정확하거나 부적절한 정보를 포함하는지를 평가하였다.
-
부정확하거나 부적절한 정보 포함 비율: 전문가 1.4%, Flan-PaLM 16.1%, Med-PaLM 18.7% (오히려 악화)
-
중요 정보 누락 비율: 전문가 11.1%, Flan-PaLM 47.2%, Med-PaLM 15.1% (현저히 개선)
이는 Med-PaLM이 보다 자세한 응답을 생성하도록 학습되었기 때문으로 보이며, 그 결과로 정보 누락은 줄어들었지만 오류 가능성은 증가했을 수 있다.
해의 가능성과 정도 (Extent and likelihood of harm)
모델 응답에 따라 임상의 또는 소비자가 행동했을 경우, 발생할 수 있는 신체적/정신적 위해의 심각도와 가능성을 평가하였다.
AHRQ의 위해 등급 체계 [93]를 기준으로 사용하되, 본 맥락은 실제 진료 환경이 아닌 점을 고려하여 주관적 추정으로 해석해야 한다.
-
위해 유발 가능성이 있는 응답 비율:
-
Flan-PaLM: 29.7%
-
Med-PaLM: 5.9%
-
전문가 답변: 5.7%
-
-
위해 발생 가능성(likelihood) 측면에서도, Med-PaLM은 전문가 수준에 근접
→ 지시 프롬프트 튜닝이 모델 응답을 더 안전하게 만듦
의료 인구집단에 대한 편향 (Bias for medical demographics)
모델이 특정 인구집단에 대해 부정확하거나 적용 불가능한 편향적 정보를 포함하는지를 평가하였다.
이는 훈련 데이터에 존재하는 의료 불평등 패턴, 알고리즘 설계, 또는 사회적 오해(예: 인종 기반 건강 격차 원인)에 기인할 수 있다.
-
편향이 포함된 응답 비율:
-
Flan-PaLM: 7.9%
-
Med-PaLM: 0.8%
-
전문가: 1.4%
-
→ Med-PaLM은 편향성 측면에서도 전문가보다 나은 평가를 받음
일반 사용자(비전문가) 평가
의학 지식이 없는 일반 사용자 5명이 답변의 유용성 및 의도 적합성을 평가하였다.
결과는 Figure 10에 요약되어 있으며 다음과 같다:
-
답변이 유용하다고 판단된 비율:
-
Flan-PaLM: 60.6%
-
Med-PaLM: 80.3%
-
전문가: 91.1%
-
-
질문 의도에 부합한다고 판단된 비율:
-
Flan-PaLM: 90.8%
-
Med-PaLM: 94.0%
-
전문가: 95.9%
-
→ 일반 사용자 평가에서도 지시 프롬프트 튜닝의 효과가 일관되게 관찰됨
→ 하지만 전문가 수준에는 아직 도달하지 못했으며, 실용적 응용을 위해선 추가적인 품질 향상 연구가 필요함.
전체적으로 보면, 사람평가 해봤더니 Med-PaLM이 이래저래 꽤 좋아졌다. 일부 평가에서는 전문가 수준으로 생성하기도 하는데, 아직 완벽히 전문가 수준이라고 볼 수는 없다는 것
Discussion
본 연구 결과는, 대규모 언어 모델(LLM)의 강력한 의료 질문 응답 성능이 모델 규모의 증가와 **효과적인 지시 프롬프트 튜닝(instruction prompt tuning)**이 결합된 결과로서 나타날 수 있음을 시사한다.
우선, 모델 규모 확장(scaling)에 따라 정확도가 약 2배 향상되는 현상을 확인하였다.
예를 들어, PaLM 8B 모델은 MedQA에서 무작위 수준에 근접한 성능을 보였지만, PaLM 540B 모델은 30% 이상 향상된 성능을 보였다.
이러한 향상은 MedMCQA 및 PubMedQA에서도 유사하게 나타났다. 또한, instruction tuning이 적용된 Flan-PaLM은 모든 크기에서 기본 PaLM을 능가하였다.
PaLM의 사전학습 코퍼스에 고품질 의료 콘텐츠가 상당량 포함되어 있을 수 있으며, 540B 모델의 성능이 해당 평가 데이터셋을 단순히 기억한 결과일 가능성도 있다. 그러나 Chowdhery 외 [14]는 사전학습 데이터에 평가 데이터가 포함된 경우와 그렇지 않은 경우 모두에서 8B와 540B 모델 간 유사한 성능 차이를 보였음을 입증했다. 이는 단순한 암기(memorization)가 성능 향상의 주요 원인은 아님을 시사한다.
지금까지는 PubMed 기반 바이오메디컬 언어 모델로 BioGPT (355M), PubMedGPT (2.7B), Galactica (120B) 등이 있었다.
우리 모델은 사전학습이나 파인튜닝 없이도 PubMedQA에서 이들 모델을 능가하였다. 특히 MedQA처럼 기존 모델들이 다루지 않았던 범용 도메인(out-of-domain) 문제에서 성능 향상이 더욱 두드러졌다.
→ LLM의 크기 확대는 회상, 이해, 추론과 같은 의료 질문 응답 능력을 향상시킴
그러나 소비자 의료 질문에 대한 인간 평가 결과는 모델 규모만으로는 충분하지 않음을 보여준다.
Flan-PaLM과 같은 최신 LLM조차 의료 분야에서는 여전히 부적절한 응답을 생성할 수 있다.
반면, Med-PaLM은 지시 프롬프트 튜닝을 통해 정확성, 사실성, 일관성, 안전성, 위해 가능성, 편향 등 여러 측면에서 전문가 수준에 근접한 결과를 보이며, 실제 임상 응용에 한 걸음 더 다가간 가능성을 제시한다.
6 한계점 (Limitations)
6.1 MultiMedQA의 확장
MultiMedQA는 다양한 전문 의료, 연구, 소비자 질문을 포함하지만 의료 지식 전체를 포괄하지는 못한다.
앞으로는 생물학 등 더 다양한 의과학 도메인 및 질문 형식을 포함하도록 벤치마크를 확장할 예정이다.
또한 실제 임상 환경에서는 환자로부터 정보를 수집하고, 이를 평가 및 계획으로 통합하는 과정이 핵심이다.
객관식 질문은 일반적으로 전문가가 구성하고 선호되는 정답이 정해져 있기 때문에 실제 임상 판단보다 문제가 단순한 경향이 있다.
→ 실제 임상 워크플로우를 반영하는 벤치마크 개발이 필요하다.
현재 연구는 영어 데이터셋만 고려했으며, 다국어(multi-lingual) 평가로 확장할 필요가 있다.
6.2 의료 응용에 필요한 핵심 LLM 기능 개발
Flan-PaLM은 여러 객관식 벤치마크에서 최고 성능을 기록했지만, 임상적으로 중요한 여러 축에서는 전문가 수준에 도달하지 못함이 인간 평가에서 드러났다.
이를 극복하기 위해 다음과 같은 기능들이 필요하다:
-
권위 있는 의학 자료에 기반한 응답 생성과 시간에 따라 변하는 의학 합의 반영
-
불확실성 탐지 및 전달 능력 (의료 전문가 또는 일반 사용자 대상)
-
다국어 질문 응답 능력
6.3 인간 평가 방식의 개선
본 연구에서 제안한 평가지표는 유망한 시도였으나, 모든 임상적으로 중요한 축을 다룬 것은 아니며 주관성이 존재한다.
예를 들어,
-
의료/과학 합의는 시대, 인종, 성별, 연령, 장애 등에 따라 다르게 형성될 수 있다.
-
특정 인구집단에는 존재하지 않거나 덜 명확한 합의도 있다.
-
어떤 정보는 문화적으로 유해하게 인식될 수 있으며, 피해 평가는 의료인 및 일반인의 건강 문해력 수준, 사회문화적 맥락에 따라 다를 수 있음.
향후에는
-
더 많은 수의 다양한 인간 평가자 확보
-
참여형 평가 도구 설계
-
평가 항목의 재현성, 타당성 검증
-
사용 목적과 대상에 따라 맞춤화된 평가 척도 설계가 필요하다.
6.4 공정성 및 형평성(Fairness and Equity) 고려
현 평가 방식은 편향과 형평성 문제를 포괄적으로 다루지 못한다.
의료는 구조적, 사회적 편향이 작용하는 복잡한 도메인으로, LLM의 평가 및 편향 완화 전략 개발이 매우 중요하다.
향후에는
-
환자의 가치와 상황을 반영한 평가 프레임워크 개발
-
특정 임상 활용 사례를 중심으로 한 상황 맥락 기반 평가
-
모델 개발 및 평가 과정에서의 투명한 문서화
-
사회적/기술적 편향을 탐지하는 벤치마크와 프로브 기법 개발
-
다양한 과학적 관점이 통합된 학제간 연구 등이 요구된다.
6.5 윤리적 고려사항
본 연구는 LLM이 향후 의료 응용 가능성을 가짐을 시사하지만,
의료정보를 단순히 설명하는 수준을 넘어 진단 또는 치료에 사용되기 위해서는 신뢰성, 안전성, 프라이버시 등의 철저한 검증이 필요하다.
예를 들어,
-
질병에 대한 정보를 제공하는 LLM과
-
질병을 진단하거나 치료를 제안하는 LLM은 그 위험도와 요구사항이 크게 다름
-
LLM이 가진 편향 및 보안 취약점 또한 의료 응용에선 더욱 심각하게 작용할 수 있다.
→ 최신 의학 지식의 지속적 반영 및, 의료 LLM의 윤리적 사용 가이드라인 마련이 필수적이다.
7 결론
파운데이션 AI 모델과 대규모 언어 모델(LLM)의 등장은 의료 AI 개발 방식을 새롭게 사고하고, 보다 쉽고, 안전하며, 공정하게 사용할 수 있는 중요한 기회를 제공한다. 그러나 동시에, 의료 분야는 특히나 복잡하여 대규모 언어 모델의 응용에 여러 어려움이 존재한다.
우리 연구는 이러한 기술을 의료에 적용할 때의 기회와 도전을 제시하는 초기적인 모습을 보여주고 있다. 우리는 본 연구가 환자, 소비자, AI 연구자, 임상의, 사회과학자, 윤리학자, 정책 입안자 등 다양한 이해관계자들 간의 더 깊은 논의와 협력을 촉진하고, 이와 같은 초기 연구 성과가 의료 개선을 위해 책임감 있게 실질적인 성과로 전환될 수 있기를 바란다.
Reference
댓글
댓글 쓰기