NL-308, KaFT: Knowledge-aware Fine-tuning for Boosting LLMs’ Domain-specific Question-Answering Performance, Findings of ACL 2025

Abstract

지도 학습 기반의 미세조정(Supervised fine-tuning, SFT)은 대규모 언어 모델(LLM)의 도메인 특화 질의응답(QA) 성능을 향상시키는 일반적인 접근 방식이다. 그러나 최근 연구에 따르면, LLM 내부에 내재된 지식과 학습 데이터의 맥락적 지식(context knowledge) 간 충돌(conflict)로 인해 전체 QA 학습 데이터를 일괄적으로 사용하는 기존의 단순 SFT는 최적의 성능을 내지 못하는 것으로 나타났다.

본 논문에서는 우선 견고한 충돌 탐지를 위해 질의 다각화 전략(query diversification strategy)을 설계하고, 지식 충돌이 미치는 영향을 분석하기 위한 일련의 실험을 수행했다. 실험 결과, (1) 충돌 수준에 따라 학습 샘플의 기여도가 다르게 나타났으며, 충돌이 큰 데이터를 사용한 미세조정은 성능을 급격히 저하시켰고, (2) 충돌 데이터(conflict data)를 단순히 제거하는 것보다 이를 적절하게 활용하는 것이 성능 향상에 더 효과적이었다.

이러한 관찰에 기반하여, 우리는 LLM의 성능을 효과적으로 높이기 위해 간단하면서도 효과적인 지식 인지 미세조정(Knowledge-aware Fine-tuning, KaFT)을 제안한다. KaFT의 핵심 아이디어는 충돌 수준에 따라 각 학습 샘플에 서로 다른 가중치(reward)를 부여하여 학습 가중치를 조정하는 것이다. 다양한 실험을 통해 KaFT는 네 가지 LLM 모델에서 일관되고 유의미한 성능 향상을 가져왔으며, 추가적인 분석에서는 KaFT가 모델의 일반화(generalization)를 효과적으로 개선하고 환각(hallucination) 문제를 완화함을 입증하였다.

1. 서론 (Introduction)

대규모 언어 모델(Large Language Models, 이하 LLMs)(OpenAI, 2023; Dubey 등, 2024; Zhao 등, 2023)은 범용적인 작업에서 강력한 능력을 입증해 왔지만, 여전히 의료 질의응답(QA)과 같은 도메인 특화 작업을 다루는 데 어려움을 겪고 있다(Labrak 등, 2024). 따라서, 지도학습 기반의 미세조정(Supervised fine-tuning, 이하 SFT)이 일반적으로 필요하다. SFT의 목적은 LLM 내부에 내재된 지식을 활성화하고, 모델 출력이 원하는 행동 규범(behavioral norms)과 정렬되도록 유도하는 것이다(Zhou 등, 2024; Zhang 등, 2024).

그러나 최근 연구(Ren 등, 2024; Gekhman 등, 2024)에 따르면, 도메인 특화 SFT는 일반적으로 중요한 문제를 가지고 있다. 바로 지식 충돌(knowledge conflict) 문제인데, 이는 LLM의 내부 지식(internal knowledge)과 학습 데이터의 맥락적 지식(context knowledge) 사이의 불일치를 의미한다(Xu 등, 2024). 사전학습(pretraining) 코퍼스가 가진 긴 꼬리 분포(long-tail distribution)와 시의성 문제로 인해, LLM은 사전학습 단계에서 도메인 특화 지식을 충분히 습득하지 못할 수 있다. 반면, SFT 학습 데이터셋은 대개 더 최신이면서 전문적인 지식을 담고 있다. 그러나 안타깝게도, SFT는 추가적인 지식을 효과적으로 학습하지 못하며(Ren 등, 2024), SFT를 통해 모델에게 강제로 새로운 지식을 학습시키는 과정에서 기존에 모델이 보유한 능력을 손상시키고, 결과적으로 환각(hallucination) 문제를 초래할 수 있다(Gekhman 등, 2024).

이러한 문제를 해결하기 위해 일부 경험적 연구들이 진행되었다(Ren 등, 2024; Gekhman 등, 2024; Ye 등, 2024). 예컨대, Ren 등(2024)은 인컨텍스트 러닝(In-context learning, ICL, Brown 등, 2020)을 사용하여 LLM 내부 지식을 탐색(probing)하고 학습 데이터와의 충돌 여부를 판별하였다. 이를 통해 충돌 데이터를 사용한 SFT 후 LLM의 행동 양상을 분석하였다. 그러나 이들의 연구는 몇 가지 의미 있는 통찰을 제공했음에도 여전히 단점이 존재한다. 첫째, 제안된 충돌 탐지 방법이 단순히 ICL에 의존하기 때문에 소수의 예시(few-shot examples)에 매우 민감하며, 그 결과 편향이 발생할 수 있다(Min 등, 2022; Ye 등, 2024). 둘째, 기존 연구들은 충돌 데이터의 부정적인 영향을 완화하기 위해 데이터를 단순히 제거(filtering)하는 방식만을 사용했으며, 충돌 데이터를 보다 효과적으로 활용하는 방법에 대해서는 충분히 고려하지 않았다.

이에 본 논문에서는 먼저 질의 다각화 전략(query diversification strategy)을 통해 ICL 기반의 충돌 탐지 방법을 개선하여, 소수 예시로 인한 편향을 감소시켰다. 이를 바탕으로 지식 충돌의 영향을 파악하기 위한 일련의 예비 실험을 진행하였다. 구체적으로, 각 학습 데이터마다 충돌 점수(conflict score)를 계산하고, 이를 기반으로 학습 데이터를 충돌 수준에 따라 네 개의 하위 집합(subsets)으로 균등하게 나누었다. 다양한 충돌 수준을 가진 하위 집합으로 LLM을 미세조정한 결과, 다음과 같은 점을 발견하였다:

  • 서로 다른 하위 집합은 각기 다른 기여도를 갖고 있으며, 충돌이 큰 하위 집합만으로 미세조정을 수행할 경우 성능이 급격히 저하된다.

  • 충돌이 큰 하위 집합을 직접 제거(filtering)하는 방법과 비교할 때, 이를 적절히 활용하는 것이 더 큰 이득이 될 수 있다.

이러한 관찰에 근거하여, 모든 학습 데이터가 SFT 과정에서 동등하게 중요한 것이 아니라는 점을 인식하게 되었고, 따라서 LLM이 각 데이터에 서로 다른 주의를 기울여야 한다고 판단하였다. 이를 바탕으로, 본 논문은 LLM의 QA 성능을 효과적으로 높이기 위해 간단하면서도 효과적인 지식 인지 미세조정(Knowledge-aware Fine-tuning, KaFT) 접근법을 제안한다. 

그림 1에서 보듯이, KaFT의 핵심은 각 하위 데이터 집합에 서로 다른 리워드를 부여하고, 이 리워드를 사용해 LLM의 학습 과정을 조정하는 것이다. 구체적으로, 충돌이 큰 데이터는 부정적 영향을 줄이기 위해 낮은 리워드를 부여하며, 반대로 충돌이 적은 데이터는 학습을 촉진하도록 높은 리워드를 부여한다. 이 방식을 통해 KaFT는 충돌 데이터에 과적합(overfitting)되는 것을 방지할 뿐 아니라, 내부 지식을 효과적으로 활성화하여 더 효율적인 도메인 적응(domain adaptation)을 가능하게 한다.

본 연구에서는 LLaMA3-8B/3B(Dubey 등, 2024), Qwen1.5-7B(Bai 등, 2023), Mistral-7B(Jiang 등, 2023) 등 네 가지 인기 있는 LLM 모델을 이용하여 의료 QA 응용 분야에서 KaFT의 성능을 주로 평가하였다. 폭넓은 실험 결과 KaFT는 다른 기법들과 비교하여 일관되고 유의미한 성능 향상 효과를 보여주었으며, 기본 모델 대비 최대 평균 점수 +5.73%, 기존의 단순 SFT 방식 대비 최대 +2.40%의 성능 향상을 달성하였다. 추가적인 심층 분석 결과, KaFT는 다른 도메인 특화 응용 분야에도 확장 가능함을 입증했으며, 특히 모델의 일반화 성능을 개선하고 환각 문제를 효과적으로 완화하는 것으로 나타났다.

논문의 주요 기여

논문의 기여를 요약하면 다음과 같다:

  1. 견고한 충돌 탐지를 위한 질의 다각화 전략을 제안하였다. 이를 통해 다양한 충돌 수준을 가진 학습 데이터가 서로 다른 기여도를 가진다는 점을 밝혔다.

  2. 이러한 발견을 바탕으로 간단하면서도 효과적인 지식 인지 미세조정 접근법(KaFT)을 제안하였으며, 이는 데이터 별 적응형 리워드를 통해 LLM의 QA 성능을 개선하는 것이다.

  3. 다양한 실험 결과 KaFT는 기존 단순 SFT를 명확히 능가했으며, 모델의 일반화 성능 역시 효과적으로 개선하였다.

2. 예비 사항(Preliminary)

2.1 작업 정의(Task Formulation)

주어진 도메인 특화 QA 학습 데이터셋을 ( $D = {(q_i, o_i, a_i)}{i=1}^{N} $) 라고 하자. 여기서 ( $q_i $)는 질문(question), ( $o_i $)는 선택지(options), ( $a_i $)는 정답(answer)을 의미하며, ( N )은 전체 학습 샘플의 개수를 나타낸다. 또한, 파라미터 ( $\theta$ )로 정의된 사전학습된 대규모 언어 모델(LLM)을 ( $M{\theta}$ ) 라고 하자.

SFT(지도학습 기반의 미세조정)의 목표는 데이터셋 ( D )를 이용하여 지도학습(최대 우도 추정, maximum likelihood estimates)을 통해 ( $M_{\theta}$ )를 미세조정하여, 최종적으로 도메인에 적응된 언어 모델 ( $M_{\theta^*}$ ) 를 얻는 것이다.

2.2 질의 다각화 전략을 이용한 지식 충돌 탐지 (Knowledge Conflict Detection with Query Diversification Strategy)

앞서 1장에서 언급했듯이, SFT는 일반적으로 지식 충돌(knowledge conflict) 문제로 인해 어려움을 겪는다. Ren 등(2024)은 데이터셋 (D)의 지식 충돌을 탐지하기 위한 인컨텍스트 러닝(ICL) 기반의 탐지 방법(probing method)을 제안했다. 구체적으로, 이 방법은 몇 개의 학습 데이터를 랜덤하게 선택하여 few-shot 예시로 활용하고, 이를 통해 모델 (M_\theta)가 각 질의((q_i, o_i))에 대해 온도(temperature)를 0으로 설정한 greedy decoding 방식으로 응답 (r_i)을 생성하도록 한다. 생성된 응답 (r_i)는 해당 질문 (q_i)에 대한 모델 파라미터의 내재 지식(parameter knowledge)으로 간주된다. 그리고 응답 (r_i)가 참조 정답 (a_i)와 일치하는지 여부((I(r_i = a_i)), 여기서 (I(\cdot))는 indicator 함수)를 판별하고, 일치하지 않는 샘플을 충돌 데이터(conflict data)로 간주한다. 자세한 이해를 돕기 위해 부록 A.3에 예시를 제시하였다.

그러나 명백하게도, 이렇게 단순한 ICL 기반 접근법은 few-shot 예시에 매우 민감하여 결과에 편향(bias)을 야기할 수 있기 때문에 견고하지 않다. 따라서 본 연구에서는 질의 다각화(query diversification) 전략을 통해 기존 방법을 개선하였다.

이 전략의 핵심 아이디어는, 만약 선택지 옵션((o_i))의 내부 순서를 변경했을 때도 모델 (M_\theta)가 항상 정답을 맞히지 못한다면, 해당 모델이 실제로 그 질문에 대한 지식을 학습하지 못했다고 판단할 수 있다는 것이다. 구체적으로는 각 데이터 포인트((q_i, o_i))에 대해 옵션 (o_i)의 내부 순서를 바꾸어 (N_o)개의 서로 다른 질의 집합(({(q_i, o_i^j)}{j=1}^{N_o}))을 생성한다. 그런 다음 생성된 질의들을 모델 (M\theta)에 입력하여 응답을 얻는다. 더 나아가 self-consistency(Wang 등, 2023)의 아이디어에서 영감을 받아, 생성 시 온도를 0.7로 설정하고 각 질의(((q_i, o_i^j)))에 대해 (N_r)개의 후보 응답(({r_{ik}^j}_{k=1}^{N_r}))을 샘플링한다. 최종적으로, 지식 충돌은 아래의 식으로 계산할 수 있다:

여기서 (\text{Score}_i)는 i번째 학습 데이터의 충돌 점수(conflict score)를 나타내며, 값이 클수록 충돌이 적음을 의미한다.

  • 즉, 여러 퓨샷, 여러 temperature로 No x Nr만큼 응답을 추출해서 정답과의 일치도 매칭을 하고
  • 위 점수를 기반으로 4등분해서 데이터를 얼마나 아는지 4그룹으로 나눈 것

2.3 경험적 분석 (Empirical Analyses)

설정(Setting)
본 연구에서는 인기 있는 의료 QA 벤치마크인 MedQA(Jin 등, 2021)를 테스트베드로 사용하며, 이 데이터셋은 총 10,178개의 학습 데이터를 포함한다.
실험에는 최신의 네 가지 LLM 모델인 LLaMA3-8B/3B(Dubey 등, 2024), Qwen1.5-7B(Bai 등, 2023), Mistral-7B(Jiang 등, 2023)를 사용했다. 미세조정된 모델들은 MedQA, MedMCQA(Pal 등, 2022), MMLU*(Hendrycks 등, 2020), CMB(Wang 등, 2024b), CMExam(Liu 등, 2024b), CMMLU*(Li 등, 2024)의 테스트 세트를 포함한 총 6개의 의료 QA 벤치마크를 통해 평가하였다. 충돌 탐지(conflict detection) 과정에서는 옵션 순서 변경 수((N_o))와 응답 후보 샘플링 횟수((N_r))를 각각 10으로 설정하였다. 계산된 충돌 점수(Score)의 분포는 그림 2(a)에 나타내었다.

(MMLU 및 CMMLU 벤치마크에서 의학 관련 하위 분야만 선택하여 MMLU, CMMLU*로 표기하였다.)


발견한 주요 사실(Findings)
지식 충돌(knowledge conflict)의 영향을 조사하기 위해 체계적인 분석을 진행하였으며, 그 결과 다음과 같은 경험적 관찰을 할 수 있었다.

서로 다른 충돌 수준을 가진 하위 집합이 모델 성능에 다르게 기여하며, 충돌이 많은 하위 집합으로만 미세조정하면 성능이 급격히 저하됨.
우선 각 학습 데이터의 충돌 점수(Score)를 계산하고, 이를 기반으로 전체 학습 데이터를 충돌 점수 순으로 정렬한 뒤, 충돌 수준에 따라 네 개의 하위 집합으로 균등하게 나누었다. 이 네 개의 집합을 각각 right, might-right, might-wrong, wrong이라 명명했다. 이 중 right 집합은 충돌이 가장 적은 데이터로 구성되었고, wrong 집합은 충돌이 가장 심한 데이터로 구성되었다. 주목할 점은 이 네 가지 하위 집합이 동일한 수의 학습 샘플을 포함하고 있다는 것이다.
다양한 하위 집합을 개별적으로 사용하여 모델을 미세조정한 결과를 그림 2(b)에 나타냈으며, 참고를 위해 랜덤 샘플을 사용한 SFT 결과도 제시하였다.
그 결과, 서로 다른 하위 집합으로 미세조정된 모델의 성능이 확연히 달라졌다. 이전 연구(Ren 등, 2024)의 결과와 마찬가지로, wrong 데이터만을 이용한 미세조정은 모델 성능을 급격히 떨어뜨렸으며, 이는 지식 충돌의 부정적 영향을 분명히 보여준다. 더욱 흥미롭게도, 충돌이 가장 적은 right 집합이 항상 최적의 성능을 내는 것은 아니었으며, 오히려 모든 모델에서 might-right 집합이 더 나은 성능을 보였다. 이는 right 집합의 데이터가 이미 모델에 학습된 지식을 많이 포함하고 있어 유용한 정보를 제공하지 못하는 경우가 많고, 반면 might-right 집합이 모델 내부의 지식을 활성화하여 성능을 더욱 효과적으로 끌어올릴 수 있다고 추측할 수 있다.

또한, 각 하위 집합의 영향을 보다 상세히 조사하기 위해 MedQA 테스트 세트를 충돌 정도에 따라 4개 그룹으로 나누고, 각각의 세부 테스트 결과를 표 1에 나타냈다.


결과에서 확인할 수 있듯이, wrong 데이터로 훈련한 모델은 실제로 wrong 테스트 데이터에 대해서는 더 나은 성능을 보였지만, 나머지 하위 집합에 대해서는 성능이 매우 떨어졌다. 이는 충돌 데이터를 강제로 모델이 학습하도록 하면 기존 능력을 크게 손상시킨다는 점을 재차 입증하는 것이다.

충돌이 큰 하위 집합을 단순히 제외하는 것보다, 이를 적절히 활용하는 것이 더 효과적일 수 있음.
지식 충돌의 부정적 영향을 완화하기 위한 직관적이고 간단한 방법은 충돌이 가장 심한 wrong 하위 집합을 전체 데이터셋 (D)에서 제거하고 나머지 데이터를 이용해 SFT를 수행하는 것이다. 그러나 앞서 언급한 것처럼 적절한 양의 충돌 데이터가 오히려 모델 내부 지식을 활성화하고 더 나은 성능을 가져올 수 있다는 가능성이 있다.
이러한 추측을 검증하기 위해 충돌이 덜한 나머지 데이터에 wrong 집합에서 충돌 데이터를 서로 다른 비율((\lambda), 0%~100%)로 추가한 뒤 미세조정 실험을 수행했다. 그 결과를 그림 2(c)에 나타냈다. 결과를 보면, 충돌 데이터 wrong을 완전히 제거하는 방식((\lambda = 0%))과 비교했을 때, 적정량의 충돌 데이터(예: (\lambda = 25%))를 포함시키는 것이 오히려 더 나은 성능 향상을 가져올 수 있음을 확인할 수 있었다. 이는 충돌 데이터를 효과적으로 활용할 수 있는 더 진보된 SFT 방법의 필요성을 강조한다.

3. 지식 인지 미세조정 (Knowledge-aware Fine-tuning, KaFT)

앞서 2.3절에서의 관찰을 기반으로, 우리는 모든 학습 샘플이 SFT(지도학습 기반 미세조정)에서 동일한 중요도를 갖는 것은 아니며, LLM이 각각의 샘플에 서로 다른 수준의 주의를 기울여야 한다는 점을 알 수 있었다. 본 장에서는 이러한 문제를 해결하기 위해, 지식 충돌(knowledge conflict)의 부정적 영향을 완화하고 LLM의 성능을 향상시키는 지식 인지 미세조정(Knowledge-aware Fine-tuning, 이하 KaFT)을 제안한다. 본 절에서는 KaFT의 상세한 내용을 설명한다.

동기와 직관적 이해 (Motivation and Intuition)

2.3절의 경험적 분석 외에도, 우리의 KaFT는 잘 알려진 인지구조 이동 이론(cognitive structure migration theory, Ausubel 등, 1978) 에서 영감을 받았다. 이 이론은 “학습에 가장 큰 영향을 주는 단일 요소는 학생이 이미 알고 있는 것”이라고 강조하며, 이미 학습한 지식과 관련된 새로운 정보에 더 많은 주의를 기울이는 것이 효과적인 지식 전이를 가져온다고 주장한다. 직관적으로 생각해볼 때, 충돌이 큰 데이터(예: wrong)에 대해 LLM은 익숙하지 않은 지식에 쉽게 과적합(overfitting)되어 일반화 성능이 저하될 수 있다. 반대로 충돌이 적은 데이터에 대해서는 모델 내부의 기존 지식을 활성화하고, 효과적인 도메인 적응(domain adaptation)을 촉진하기 위해 더 깊은 학습이 필요하다.

KaFT 구현 방법 (Implementation of KaFT)

실제 구현에서, 앞서 제안한 2.2절의 질의 다각화 전략을 사용하여 각 학습 데이터((q_i, o_i, a_i))의 충돌 점수((\text{Score}_i))를 먼저 계산한 후, 전체 학습 데이터셋 (D)를 충돌 점수에 따라 4개의 하위 집합(right, might-right, might-wrong, wrong)으로 균등하게 나눈다. 이후 각 하위 집합에 서로 다른 리워드를 할당한다. 특히 충돌이 덜한 집합(might-right, right)은 상대적으로 높은 리워드를 부여받고, 충돌이 심한 집합(wrong, might-wrong)은 상대적으로 낮은 리워드를 부여받는다. 최종적으로 이러한 리워드는 각 하위 집합의 학습 가중치(learning weight)를 조정하는 데 사용된다.

KaFT의 학습 목표는 다음과 같이 정리할 수 있다:

여기서 (R_i)는 i번째 학습 데이터에 대한 리워드를 나타내며, (\theta^)는 최종적으로 얻고자 하는 언어 모델 (M_{\theta^})의 파라미터를 의미한다. (\alpha)와 (\beta)는 0과 1 사이의 값으로, 일반적으로 (\alpha)가 (\beta)보다 작은 값을 갖는다. 본 논문에서는 경험적 실험을 통해 (\alpha=0.1), (\beta=0.5)로 설정하였다.

📌 4.1 실험 설정(Setup)

데이터셋 및 작업(Tasks and Datasets)

  • 의료 QA 분야를 주요 실험 대상으로 선택함.

  • 학습 데이터: MedQA

  • 평가 데이터: 총 6개 의료 QA 벤치마크
    영어 벤치마크: MedQA, MedMCQA, MMLU*
    중국어 벤치마크: CMB, CMExam, CMMLU*

    • (표 2에 상세 결과 기재됨)

  • 추가적으로 도메인 외(OOD) 성능 평가를 위해 history, engineering, law 분야의 데이터셋을 추가로 평가

    • (표 3에 상세 결과 기재됨)

비교모델 및 베이스라인(Models & Baselines)

  • 총 4개의 최신 모델 사용:

    • LLaMA3-8B/3B, Qwen1.5-7B, Mistral-7B

  • 비교 베이스라인:

    • Base: 미세조정 없이 원본 LLM 사용

    • Vanilla SFT: 전체 데이터를 균등하게 활용한 일반적인 미세조정

    • No-conflict: 충돌 데이터(wrong)를 제외하고 미세조정

    • Self-aligning: 충돌 데이터를 LLM의 내부 지식과 일치하도록 수정한 후 미세조정

    • 제안하는 KaFT 방식


📌 4.2 실험 결과(Compared Results)

의료 QA 성능 결과 (표 2)

  • 모든 모델에서 KaFT가 다른 모든 베이스라인보다 우수한 성능을 달성

  • 각 모델의 성능 향상 (KaFT vs Base):

    • Mistral-7B: +5.73%

    • Qwen1.5-7B: +1.32%

    • LLaMA3-8B: +1.80%

    • LLaMA3-3B: +2.99%

  • 즉, KaFT는 모델 종류와 크기에 상관없이 일관되게 성능을 향상시킴을 입증함.

도메인 외(OOD) 성능 결과 (표 3)

  • KaFT는 도메인 외 데이터셋에서도 베이스라인보다 성능이 뛰어나, 모델이 충돌 데이터에 과적합되지 않고 일반화 성능이 향상됨을 보임.

  • 특히 Mistral-7B와 LLaMA3-3B 모델에서 OOD 데이터셋(history, engineering, law)에 대해 평균적으로 더 높은 정확도를 달성함.

📌 4.3 Ablation Study (추가 분석 및 제거 실험)

충돌 탐지 방식의 효과 분석 (표 4)

  • 논문에서 제안한 질의 다각화 전략(query diversification)의 효과성을 검증하기 위한 실험 수행

  • 비교한 방법:

    • 원본 방법(Ours)

    • 질의 다양화를 하지 않은 경우(-w/o diverse query)

    • 응답 샘플링을 하지 않은 경우(-w/o response sampling)

    • 둘 다 하지 않은 경우(-w/o both, Ren 등(2024)의 방식)

  • 논문의 질의 다각화 전략이 가장 효과적으로 충돌 데이터를 탐지했음을 확인(성능 저하가 가장 심함)

리워드 전략의 효과 분석 (그림 3)

  • KaFT가 제안한 리워드 전략을 검증하기 위해 다음 방법과 비교:

    • 모든 데이터에 동일 리워드를 주는 방법(-w. constant)

    • 충돌 점수를 그대로 리워드로 사용하는 방법(-w. auto-adapt)

  • KaFT의 리워드 전략이 가장 우수한 성능을 보였으며, 충돌 데이터를 적절히 제어하는 효과가 있음을 입증함.

데이터 파티션 전략 분석 (표 5)

  • 충돌 데이터의 파티션 수(2, 4, 8 subsets)에 따른 성능 분석 진행

  • 하위 집합을 더 세밀하게 나눌수록 성능은 더 좋았으나, 하이퍼파라미터 조정의 부담이 있으므로 논문에서는 균형을 위해 4 subsets를 기본값으로 사용함.

하이퍼파라미터 분석 (그림 4)

  • KaFT에서 사용한 리워드 하이퍼파라미터((\alpha), (\beta))의 영향을 분석함.

  • 실험 결과, (\alpha=0.1, \beta=0.5)로 설정하는 것이 가장 좋은 성능을 가져옴.

📌 추가 심층 분석 (5장에 일부 언급된 실험)

다국어 의료 QA 벤치마크 분석 (그림 5)

  • KaFT는 다국어(MMedBench)에서도 일반화 성능을 효과적으로 향상시킴.

환각 현상(Hallucination) 분석 (표 6)

  • KaFT가 환각 현상을 크게 완화시킴을 입증 (HaluEval 평가 사용)

  • 특히 충돌 데이터를 강제로 학습시킬 경우 환각이 심해지는 현상을 명확히 보임.

기타 도메인 실험 (표 7)

  • KaFT가 역사(history), 공학(engineering), 법률(law) 등 다른 도메인에서도 성능 향상을 보임을 입증

🎯 실험 파트에서 논문이 제시한 모든 표와 그림 요약

실험 항목 표 / 그림 번호 핵심 내용 요약
의료 QA 성능 결과 표 2 KaFT가 모든 모델과 벤치마크에서 최고 성능
도메인 외(OOD) 성능 결과 표 3 KaFT가 도메인 외 QA에서도 성능 향상
충돌 탐지 방식 Ablation 표 4 제안한 query diversification이 효과적임
리워드 전략 Ablation 그림 3 KaFT의 차등 리워드 방식이 가장 효과적
데이터 파티션 방식 Ablation 표 5 4개 하위 집합이 실용적인 최적화 선택임
하이퍼파라미터(α,β) 분석 그림 4 α=0.1, β=0.5가 최적 성능을 제공함
다국어 의료 QA 성능 그림 5 다국어 환경에서도 KaFT가 효과적임
환각(hallucination) 완화 성능 표 6 KaFT가 환각 현상을 매우 효과적으로 완화
역사/공학/법률 도메인 성능 표 7 다른 도메인에서도 KaFT가 성능을 향상

🗒️ 정리 및 결론

전체 실험을 통해 논문에서 제안한 KaFT 방식은 충돌 데이터를 적절히 관리하며, 도메인 특화 QA 성능을 전반적으로 향상시키고 일반화 능력 및 환각 현상 완화에도 매우 효과적임이 다양한 실험으로 검증되었습니다.

5. Discussion

✅ 5.1 KaFT가 모델의 일반화를 개선하는가?

  • 다국어 일반화:

    • 다국어 의료 QA 벤치마크(MMedBench)에서 KaFT는 여러 언어(영어, 중국어, 일본어, 러시아어 등)에 걸쳐 일반화 성능을 일관되게 향상시킴.

  • 환각(Hallucination) 현상 완화:

    • 충돌 데이터를 학습시키면 환각 현상이 증가하지만, KaFT는 이를 효과적으로 완화하여 모델의 신뢰성을 높임.

→ 결론: KaFT는 모델의 일반화 능력을 효과적으로 높이고 환각 문제를 크게 완화한다는 것을 입증함.


✅ 5.2 KaFT가 의료 외 다른 도메인에서도 효과적인가?

  • 의료 도메인뿐 아니라, 역사(history), 공학(engineering), 법률(law) 등 다양한 도메인의 QA 작업에서도 성능을 일관되게 향상시킴.

  • 즉, KaFT 방법은 다른 도메인 특화 작업에서도 범용적으로 효과적임을 보임.

→ 결론: KaFT는 의료 도메인을 넘어 다양한 도메인에서도 적용 가능하며 효과적이다.


🔑 최종 결론 (Takeaway)

KaFT는 충돌 데이터를 적절히 관리하여:

  • 모델의 일반화 성능을 향상시키고,

  • 환각 현상을 효과적으로 완화하며,

  • 의료 분야뿐 아니라 다양한 도메인에서도 뛰어난 범용성을 입증하였다.

이러한 결과는 KaFT 방법이 도메인 특화 QA 작업에서 매우 실용적이고 효과적인 접근법임을 시사합니다.

6. 관련 연구 (Related Works)

대규모 언어 모델(LLM, Large Language Models)(Ouyang 등, 2022; OpenAI, 2023; Dubey 등, 2024; Liu 등, 2024a)은 범용적인 작업에서 이미 뛰어난 성능을 보여주고 있다. 하지만 의료 질의응답(QA)과 같은 도메인 특화 응용에서는 여전히 부족한 모습을 보일 수 있다(Labrak 등, 2024). 이에 따라 많은 선행 연구들이(Singhal 등, 2023; Li 등, 2023b; Chen 등, 2023; He 등, 2025) 도메인 특화된 QA 데이터셋을 활용한 지도학습 기반 미세조정(SFT)을 통해 도메인 적응(domain adaptation)을 촉진하고자 하였다.

비록 미세조정(SFT)이 뛰어난 성능을 제공하지만, 여전히 중요한 도전 과제가 존재한다. 바로 지식 충돌(knowledge conflicts) 문제이다. 도메인 특화 SFT는 전문적인 지식이 포함되어 있기 때문에, 일반적인 사전학습(pretraining) 단계에서 모델이 충분히 습득하지 못한 전문 지식이 많고, 이로 인해 사전학습된 LLM의 내부 지식(internal knowledge)과 SFT 학습 데이터의 맥락 지식(context knowledge) 사이에 불일치(discrepancy)가 발생할 수 있다. 최근 Ren 등(2024)의 연구는 SFT가 추가적인 지식을 제대로 학습하지 못함을 보여주었고, Gekhman 등(2024)은 SFT 과정에서 모델에 강제로 새로운 지식을 학습시키면 기존 능력이 손상되며 환각(hallucination) 현상이 증가할 수 있다고 보고했다. 즉, 모든 데이터를 균등하게 사용하여 LLM을 단순히 미세조정하는 것은 최적이 아니다.

이 문제를 해결하기 위한 기존 연구(Ren 등, 2024; Gekhman 등, 2024; Ye 등, 2024)가 일부 존재한다. 하지만 이들 방법은 여전히 한계점을 가지며, 지식 충돌 문제를 효과적으로 해결하지 못한다. 구체적으로, 이들이 제안한 충돌 탐지 방법은 소수 예시에 매우 민감한 인컨텍스트 러닝(ICL)(Brown 등, 2020)에 크게 의존하고 있기 때문에, 편향(bias)이 발생할 수 있다(Min 등, 2022). 또한, 충돌 데이터를 탐지한 이후에도, 이들은 조기 종료(early-stopping)를 하거나 데이터를 아예 제거(filtering)하는 방식만으로 충돌 데이터의 부정적 영향을 완화하고자 했고, 충돌 데이터를 효과적으로 활용할 방법에 대해서는 충분히 고민하지 않았다.

본 연구는 이들과 달리, 우선 질의 다각화(query diversification) 전략을 설계하여 견고하게 충돌 데이터를 탐지하고, 나아가 모든 데이터를 효과적으로 활용할 수 있는 KaFT 방식을 제안하였다. KaFT의 핵심 아이디어는 샘플 적응적 리워드(sample-adaptive rewards)를 이용하여 LLM의 학습을 더 효과적으로 유도하는 것으로, 이는 이전 연구의 데이터 적응형 학습(adaptive-learning) 접근 방식(Wang 등, 2024a; Li 등, 2020; Kang 등, 2020; Ghorbani & Zou, 2019; Yoon 등, 2020; Zhong 등, 2024)과 다소 유사한 측면이 있다. 하지만 데이터 하위 집합(subsets)에 서로 다른 가중치를 부여하는 방법은 직관적이면서도 흔히 사용될 수 있는 방법일지라도, 특히 도메인 특화된 SFT 맥락에서 각 하위 집합의 가중치를 어떻게 결정할 것인가 하는 문제는 결코 간단한 문제가 아니다. 본 연구는 이 문제를 효과적으로 다루고 있기 때문에, KaFT는 혁신적이며 본 논문의 연구는 의미 있는 통찰을 제공한다고 할 수 있다.

7. 결론 (Conclusion)

본 논문에서는 도메인 특화된 지도학습 기반 미세조정(SFT) 과정에서 매우 중요하지만 아직 충분히 탐구되지 않은 문제인 **지식 충돌(knowledge conflict)**을 다루었다. 이를 위해, 충돌을 견고하게 탐지할 수 있도록 질의 다각화(query diversification) 전략을 제안하였다. 이를 바탕으로 여러 예비 분석(preliminary analysis)을 수행하였으며, 분석을 통해 각 학습 샘플이 서로 다른 기여도를 가지며, 특히 충돌이 많은 데이터가 LLM의 성능을 급격히 저하시킬 수 있음을 밝혔다. 이러한 분석 결과를 기반으로, 추가적으로 지식 인지 미세조정(Knowledge-aware Fine-tuning, KaFT) 방식을 제안하였다.

간단히 말해, KaFT는 데이터 샘플에 따라 적응적인 리워드를 부여하여 충돌 데이터의 부정적 영향을 억제하고, LLM이 더 관련된 내부 지식을 효과적으로 활성화할 수 있도록 유도한다. 의료 QA 벤치마크를 이용한 광범위한 실험 결과, KaFT가 효과적이고 범용적이며 성능을 일관되게 향상시킴을 입증하였다. 더 나아가, 심층적인 분석을 통해 KaFT가 모델의 일반화(generalization) 성능을 향상시키고, 환각(hallucination) 문제를 효과적으로 완화함을 확인하였다.

한계점 (Limitations)

본 연구에는 몇 가지 잠재적인 한계점이 존재한다.
첫 번째로, 제한된 계산 자원으로 인해 주된 실험에서 최대 8B 크기의 언어 모델까지만 KaFT의 효과를 검증하였다. 따라서 더 큰 규모의 모델(예: 70B 이상)로 확장하거나 더 최근의 다양한 모델 아키텍처에 KaFT를 적용하여 그 효과를 입증한다면 더욱 설득력이 높아질 것이다.

두 번째로, 본 연구에서는 LLM 내부 지식을 보다 효과적으로 탐지하기 위해 기존 연구들(Ren 등, 2024; Ye 등, 2024)을 따라 주로 다지선다형(multiple-choice) QA 작업에 초점을 맞췄다. 추후 연구에서는 장문 형태(long-form)의 QA 시나리오까지 방법론을 확장하여 추가적인 검증을 진행할 계획이다.

Reference

댓글