NL-305, Understanding Finetuning for Factual Knowledge Extraction, ICML 2024
Abstract
본 연구에서는 QA(질의응답) 파인튜닝 데이터가 모델의 사실적 성능(factuality)에 미치는 영향을 분석하였다. 사전학습(pretraining) 과정에서 잘 기억되지 않은, 상대적으로 덜 알려진 사실(lesser-known facts)에 대해 파인튜닝을 할 경우, 사전학습 중 잘 저장된 유명한 사실(well-known facts)에 비해 사실적 성능이 현저히 나빠진다는 것을 확인했다. 이는 모든 사실이 이미 사전학습 때 관찰되었음에도 불구하고 발생하는 현상이다. 이 현상을 이론적으로도 증명하였는데, 덜 알려진 사실을 학습할 경우 모델이 주제(subject entity)의 이름을 무시하고 대신 일반적으로 타당해 보이는 응답을 내놓는 경향을 갖게 될 수 있다.
PopQA, Entity Questions, MMLU의 세 가지 질의응답 벤치마크와 Llama-2-7B, Mistral-7B 두 가지 언어 모델을 이용한 실험에서 다음과 같은 결과를 얻었다.
(i) 완전히 사실적이지만 덜 알려진 데이터로 파인튜닝할 경우 이후의 사실적 성능이 5~10% 악화되었다.
(ii) 반면 잘 알려진 데이터만을 부분적으로 사용하여 파인튜닝한 경우 전체 데이터를 사용하여 파인튜닝한 것과 비슷하거나 오히려 더 좋은 성능을 보였다.
결국 본 연구는 사전학습 지식과 파인튜닝 데이터 사이의 상호작용에 대한 통찰을 제공하며, 지식 집약적인 과제에서 모델이 가진 사전학습된 사실이 어떻게 저장되어 있는지를 고려하여 파인튜닝 데이터를 신중하게 구성하는 것이 중요함을 보였다.
1. 서론
대규모 언어 모델(Large Language Models, LLMs)은 사전학습(pretraining)을 통해 엄청난 양의 사실적 지식(factual knowledge)을 가중치(weights)에 저장한다(Jiang 등, 2020; Petroni 등, 2019; Mallen 등, 2023). 그 결과 사실 기반의 질의응답과 같은 지식 집약적(knowledge intensive) 작업들에서 뛰어난 성능을 보이고 있다(Roberts 등, 2020; Radford 등, 2019). 그러나 이러한 능력들은 신뢰할 수 없으며, 언어 모델은 질문에 대해 그럴듯하지만 부정확한 답변을 생성하는 경향이 있다(Huang 등, 2023).
사실적 성능을 개선할 수 있는 자연스러운 방법은 파인튜닝(fine-tuning)으로, 최근의 여러 연구들에서 활발히 연구되고 있다(Kazemi 등, 2023; Joshi 등, 2023; Ouyang 등, 2022; Tian 등, 2023a; Yang 등, 2023). 하지만 많은 연구들이 언어 모델이 정답을 알고 있음에도 불구하고 틀린 답변을 하는 경우가 많다고 보고하고 있으며, 이는 현재의 파인튜닝 접근법이 최적이 아닐 수도 있음을 시사한다(Burns 등, 2022; Li 등, 2023a; Liu 등, 2023b). 더 나은 파인튜닝 방법을 개발하거나 그 한계점을 찾기 위해서는, 파인튜닝의 성능에 영향을 미치는 요인들이 무엇인지 이해할 필요가 있다. 즉, "파인튜닝이 사실적 성능을 개선하는 메커니즘은 무엇인가?" 라는 질문을 명확히 탐구할 필요가 있다.
기존 연구들의 논의를 크게 세 가지 요인으로 요약할 수 있다. Joshi 등(2023)은 진실성(truthfulness)을 가진 데이터로 파인튜닝할 경우 모델이 신뢰할 수 있는 페르소나(persona)를 채택하도록 영향을 미친다고 주장한다. 이 이론에 따르면, 파인튜닝 데이터의 사실적 정확성을 확보하는 것만으로도 이후의 사실적 성능을 확보할 수 있다는 것이다. 또 다른 관점으로, Kazemi 등(2023)과 Allen-Zhu & Li(2023)는 파인튜닝이 사전학습에서 관찰된 사실을 QA 형식으로 재구성하여 모델을 익숙하게 만든다고 설명한다. 이는 테스트 시 나타날 수 있는 다양한 질문 형식을 파인튜닝 예제에서 다룰 필요가 있음을 의미한다. 마지막으로 Schulman(2023)과 Yang 등(2023)은 파인튜닝에 사용되는 예제가 반드시 모델이 사전학습 중에 관찰한 사실로부터 만들어져야 한다고 주장한다.
본 연구에서는 파인튜닝 예제들의 영향이 단지 사실적 여부나 사전학습 데이터에서 근거를 찾을 수 있는지 여부를 넘어, 모델이 얼마나 잘 저장하고 있는가(well-stored)에 따라 달라진다는 것을 발견하였다.
- 구체적으로, 사전학습 모델이 이미 잘 알고 있는 사실에 대한 QA 예제로 파인튜닝을 수행할 경우, 사실적 성능이 상당히 향상되었다.
- 반면에 덜 잘 기억된 사실(less well-encoded facts)에 대한 QA 예제로 파인튜닝하면, 이후의 사실적 성능이 오히려 악화되어 모델이 정답을 알고 있는 질문에 대해서도 잘못된 답을 생성하는 경향을 보였다.
- 우리는 모든 QA 예제들이 사실적으로 정확하고, 이후의 작업과 관련 있으며, 사전학습 과정에서 이미 관찰된 합성적(synthetic) 환경에서도 이러한 결과를 관찰하였다.
그렇다면 왜 파인튜닝에서 사용되는 사실의 저장 정도(encoding)가 이후의 사실적 성능에 영향을 미칠까? 우리는 직관적으로 다음과 같은 메커니즘을 제안한다. 언어 모델이 사실 기반 질문을 받으면, 관련된 기억된 지식을 사용하여 답변할 수도 있지만, 더 일반적인 "지름길(shortcut)"을 사용하여 그럴듯하지만 부정확한 답변을 제공할 수도 있다. 예를 들어 특정 인물의 직업을 질문받았을 때, 모델이 흔히 직업과 관련된 단어(예: 배우)를 임의로 선택해 답변할 수도 있다. 파인튜닝 과정에서 이러한 지름길의 사용이 강화될 경우, 기억된 지식의 영향이 약해지고 테스트 데이터에 대해 모델의 사실적 성능이 낮아지게 된다. 우리의 관찰은 파인튜닝 데이터의 구성에 따라 이 두 가지 메커니즘 중 어느 것이 더 강화될지 결정됨을 나타낸다. 덜 알려진 사실이 지름길 사용을 더 강하게 유도할 수 있다는 것이다. 본 논문의 그림 1에서 이러한 가설을 개념적으로 설명하고 있다.
주요 발견 사항 (Additional Findings)
-
Attention Imbalance (어텐션 불균형)
-
파인튜닝 과정에서 덜 잘 기억된(less salient) 사실로 학습할 경우, 모델의 어텐션(attention)이 일반적인 토큰에만 집중되는 불균형 현상이 발생할 수 있다. 즉, 특정 주제(subject entity)보다 질문 유형 같은 더 일반적이고 범용적인 정보에 집중하여 오류를 유발하게 된다.
-
-
Fact Salience (사실의 현저성) 개념 제안
-
저자들은 특정 사실이 얼마나 잘 학습되고 저장되었는지를 나타내는 "Fact Salience"라는 개념을 정의하고 이론적으로 분석하였다. 이 현저성이 높을수록, 사실은 더 견고하게 기억되어 있으며 파인튜닝 과정에서의 성능 악화 가능성이 적다.
-
-
Synthetic Simulation (합성 시뮬레이션)의 검증
-
합성된 환경에서의 실험을 통해, 덜 인기 있는 사실을 파인튜닝할 경우 테스트 시 사실적 성능이 낮아지는 경향을 명확히 확인하였다. 이는 실제 대규모 언어 모델에서도 동일한 패턴으로 나타났다.
-
-
Popular Facts의 전이 효과
-
잘 알려진(popular) 사실들에 대해서만 파인튜닝을 하는 경우, 덜 알려진 사실에 대해서도 오히려 성능 향상이 나타났다. 이는 인기 있는 데이터로 학습할 경우 일반화된 지름길(shortcuts)을 사용하는 현상이 줄어들어, 결과적으로 전반적인 성능 향상을 가져오기 때문이다.
-
중요한 시사점 (Important Implications)
-
데이터 선택 전략
-
언어 모델의 QA 파인튜닝 데이터 선정 시, 사전학습에서 모델이 이미 잘 저장하고 있는 사실에 집중하는 것이 성능 향상에 효과적이다. 특히, 무조건 많은 데이터를 사용하는 것보다는 잘 기억된 소수의 데이터를 중심으로 파인튜닝을 하는 것이 효율적일 수 있다.
-
-
Curriculum Learning 가능성
-
더 잘 알려진 사실을 먼저 학습시키고, 점진적으로 덜 알려진 사실로 학습 범위를 확장시키는 커리큘럼 학습(curriculum learning) 전략을 적용할 가능성을 제안한다. 이를 통해 어텐션 불균형을 완화하면서 점진적인 성능 개선을 이룰 수 있다.
-
-
Attention Regularization (어텐션 정규화) 기법 개발 필요성
-
파인튜닝 과정에서 어텐션의 불균형이 발생하지 않도록 규제할 수 있는 새로운 정규화 기법(attention regularization)의 필요성을 강조한다. 이는 파인튜닝의 품질을 근본적으로 향상시킬 수 있는 접근법이다.
-
-
파인튜닝 데이터의 품질 vs. 양
-
파인튜닝 과정에서 데이터의 "양"보다 "품질(quality)"이 더 중요할 수 있으며, 이는 비용 효율적이면서도 성능 면에서 뛰어난 방법이 될 수 있다.
-
이러한 발견과 시사점들은 모델의 효율적인 파인튜닝 및 향후 더 정확한 언어 모델 구축을 위한 실무적 전략을 제시하는 데 있어 중요한 통찰을 제공합니다.
7. 논의
본 연구에서는 QA 데이터셋의 구성(composition)이 모델의 사실적 성능(factuality)에 미치는 영향을 조사하였다. 우리는 파인튜닝할 때, 잘 알려진(well-known) 사실에 대한 질문만으로 학습하는 것이, 덜 알려진(less-known) 사실에 대한 질문을 포함한 데이터로 학습하는 것보다 일관되게 우수한 사실적 성능을 보인다는 주목할 만한 결과를 발견하였다. 우리는 합성된(synthetic) 환경 및 현실적 환경(real-world setting)의 다양한 실험을 통해 일관된 경향을 관찰하였으며, 이를 단순화된 1-계층(one-layer) 트랜스포머 모델을 통해 개념적으로 분석하였다.
우리의 결과는 QA 파인튜닝 데이터셋 설계에 대한 직관적 전략과는 배치된다. 특히 QA 파인튜닝 데이터에 유명한 사실들을 과대표(over-representing) 하는 것이 오히려 성능 향상에 유익할 수 있음을 시사한다. 따라서 우리의 결과는 언어 모델의 사실적 성능을 실질적으로 향상시키기 위한 원칙적(principled) 접근 방법을 제시하는 데 도움을 줄 수 있다.
우리의 이론에 기반하여, 향후 연구에서 고려할 가치 있는 분야는 파인튜닝 과정 중 발생하는 어텐션 불균형(attention imbalance)을 완화하는 정규화 기법(regularization techniques)을 개발하는 것이다. 또 다른 유망한 접근법은 커리큘럼 학습(curriculum learning)이다. 이는 인기 있는 지식(popular knowledge)으로 먼저 학습하고, 이후 덜 알려진(obscure) 사실들로 점진적으로 학습함으로써 어텐션 불균형을 완화할 수 있게 한다. 마지막으로, 우리의 개념적 모델(conceptual model)이 합성 데이터를 생성하여 지식 추출 가능성(knowledge extractability)을 효율적으로 향상시키는 데 도움을 줄 수 있다고 가정한다.
Reference
댓글
댓글 쓰기