NL-340, Does your data spark joy? Performance gains from domain upsampling at the end of training, CoLM 2024
Abstract 대규모 언어 모델(LLM)을 위한 사전학습 데이터셋은 수조 개의 토큰 규모로 성장했으며, 대량의 CommonCrawl(CC) 웹 스크랩 데이터와 더불어 소규모의 도메인 특화 데이터셋들로 구성된다. 이러한 도메인 특화 데이터셋이 모델 성능에 미치는 영향을 이해하는 것은 비용이 많이 든다. 이는 난이도가 높고 emergent한 벤치마크에서 의미 있는 변화를 드러내기 위해 대규모 FLOP 수준의 학습이 필요하기 때문이다. 사전학습 데이터 실험 비용이 점점 증가하는 상황에서, 일반 웹 스크랩 데이터의 다양성과 도메인 특화 데이터의 정보 밀도 사이의 최적 균형은 어떻게 결정할 수 있을까? 본 연구에서는 학습 마지막 단계에서 도메인 특화 데이터셋을 CC 대비 업샘플링함으로써, 이러한 소규모 도메인 데이터셋을 활용해 어려운 벤치마크 성능을 향상시키는 방법을 제시한다. 이 단순한 기법을 통해, 1조(1T) 토큰으로 학습된 7B 모델에서 기본 데이터 혼합(base data mix) 대비 MMLU는 최대 6.90 percentage point(pp), GSM8K는 8.26 pp, HumanEval은 6.17 pp 향상시킬 수 있었으며, 이는 두 배 더 긴 학습을 수행한 Llama-2 (7B) 모델에 필적하는 성능이다. 또한 우리는 도메인 업샘플링 기간을 전체 학습의 5%에서 30%까지 변화시키는 실험을 수행하였고, 일반 언어 모델링 능력과 특정 벤치마크 성능 간의 trade-off를 조절하는 데에는 10%~20% 구간이 최적임을 발견했다. 더 나아가, 학습 마지막 단계에서 특정 데이터셋을 제거하는 방식의 도메인 업샘플링을 사용하여, 개별 데이터셋이 다양한 벤치마크 성능 향상에 얼마나 기여하는지를 대규모 환경에서 분석하였다. 이 방법은 전체 사전학습을 반복 수행하는 것에 비해 한 자릿수 이상 낮은 비용으로, 서로 다른 사전학습 데이터셋의 영향을 대규모로 실험할 수 있는 가능성을 제공한다. 1. Introduction 대규모 언어 모델(LLM)을 위한 사전학습 ...