◼ Comment

어쩌다 읽게 된 논문인데 나쁘지 않은 결론이다.
LLM을 학습할때 데이터 시드별 비율을 적당히 정해서 처음부터 끝까지 학습하는게 보통인데

여기서는 그 비율을 후반부에서 바꿔보니 성능이 꽤 올랐다는 것이다

학습방식

베이스)

테이블 1의 학습 방식으로 7B 모델을 1T토큰 학습하는 세팅인데
기본 pretraining 데이터셋 비율을 테이블 2처럼 구성한다.
테이블2의 구성은 휴리스틱하게 정한것이고, 이게 Llama2보다 더 좋은 가성비?(FLOPS대비 성능)이 좋다는 것을 그림 1로 보인다

베이스 모델의 중간 체크포인트인 0.8T에 이어서, 0.2T는 다른 데이터세트 비율로(테이블 4) 학습을 이어서 하는 것이다
그랬더니 기본 성능은 유지되고, DU 비율에서 강화시킨 코드/MMLU에 대한 성능이 향상되는 것을 보여준다.
MMLU가 여러 도메인을 포함하기 때문에 도메인 데이터가 MMLU 타겟 데이터라 보는 듯?

베이스 vs DU

그럼 그냥 DU의 데이터 비율이 좋은거 아니냐라고 의문가질 수 있는데, 테이블 6이 DS 비율을 언제부터 학습하는게 좋은지 ablation 해본 것
결론은, DS 비율로만 학습하게 됐을때 일반적인 성능이 떨어지는 것을 보여준다
즉 적절한 데이터 비율의 변환 시점을 찾는 실험을 한 것이고 그게 20%라는 것

활용 방식

이 findings을 활용할 수 있는 것으로, 학습 데이터가 여러 시드로 구성됐을 때, 어떤 데이터가 성능 향상에 기여하는 것이냐? 라는 것을 확인할 수 있다는 것
기존에는 처음부터 데이터를 하나씩 빼가는 식의 ablation은 비용이 너무 컸었음
이 발견을 통해, 80%까지는 동일하게 학습하고 후반 학습시, 데이터 세트의 비율만을 바꿔서 관측하면 된다라는 것.

Abstract

대규모 언어 모델(LLM)을 위한 사전학습 데이터셋은 수조 개의 토큰 규모로 성장했으며, 대량의 CommonCrawl(CC) 웹 스크랩 데이터와 더불어 소규모의 도메인 특화 데이터셋들로 구성된다. 이러한 도메인 특화 데이터셋이 모델 성능에 미치는 영향을 이해하는 것은 비용이 많이 든다. 이는 난이도가 높고 emergent한 벤치마크에서 의미 있는 변화를 드러내기 위해 대규모 FLOP 수준의 학습이 필요하기 때문이다. 사전학습 데이터 실험 비용이 점점 증가하는 상황에서, 일반 웹 스크랩 데이터의 다양성과 도메인 특화 데이터의 정보 밀도 사이의 최적 균형은 어떻게 결정할 수 있을까? 본 연구에서는 학습 마지막 단계에서 도메인 특화 데이터셋을 CC 대비 업샘플링함으로써, 이러한 소규모 도메인 데이터셋을 활용해 어려운 벤치마크 성능을 향상시키는 방법을 제시한다. 이 단순한 기법을 통해, 1조(1T) 토큰으로 학습된 7B 모델에서 기본 데이터 혼합(base data mix) 대비 MMLU는 최대 6.90 percentage point(pp), GSM8K는 8.26 pp, HumanEval은 6.17 pp 향상시킬 수 있었으며, 이는 두 배 더 긴 학습을 수행한 Llama-2 (7B) 모델에 필적하는 성능이다. 또한 우리는 도메인 업샘플링 기간을 전체 학습의 5%에서 30%까지 변화시키는 실험을 수행하였고, 일반 언어 모델링 능력과 특정 벤치마크 성능 간의 trade-off를 조절하는 데에는 10%~20% 구간이 최적임을 발견했다. 더 나아가, 학습 마지막 단계에서 특정 데이터셋을 제거하는 방식의 도메인 업샘플링을 사용하여, 개별 데이터셋이 다양한 벤치마크 성능 향상에 얼마나 기여하는지를 대규모 환경에서 분석하였다. 이 방법은 전체 사전학습을 반복 수행하는 것에 비해 한 자릿수 이상 낮은 비용으로, 서로 다른 사전학습 데이터셋의 영향을 대규모로 실험할 수 있는 가능성을 제공한다.

1. Introduction

대규모 언어 모델(LLM)을 위한 사전학습 데이터셋은 Dolma(Soldaini et al., 2023)와 같이 수조 개의 토큰 규모로 성장해왔다. 이러한 대규모를 수용하기 위해, 데이터셋은 일반적으로 두 가지 유형의 데이터 소스로 구성된다. 첫째, CommonCrawl(CC) 덤프에서 처리된 대규모 웹 스크랩 데이터를 포함한다. 이러한 데이터는 보통 수천억에서 수조 개 토큰 규모이며, 매우 다양한 정보 분포를 담고 있다. 그러나 규모가 매우 크기 때문에 정보 밀도가 낮고 필터링도 상대적으로 덜 되어 있다. 둘째, 특정 도메인을 대상으로 하거나 단일 고품질 출처에서 수집된 데이터셋들도 포함된다. 이러한 데이터셋은 훨씬 작으며(대개 수백억 토큰 이하), 보다 정교하게 처리되어 있고 LLM이 잘 수행하길 원하는 도메인의 정보가 고밀도로 포함되어 있다. 하지만 데이터 출처가 제한적이기 때문에 다양성은 상대적으로 부족한 경우가 많다(Computer, 2023).

관련 연구(Related Works).
LLM 사전학습에서 가장 큰 과제 중 하나는 CC 기반 데이터와 소규모 도메인 특화 데이터 간의 최적 혼합 전략을 결정하는 것이다.

일부 선행 연구는 강하게 정제된 CC 데이터만으로 사전학습을 수행했다(Penedo et al., 2023).
또 다른 연구들은 CC 데이터와 보다 도메인 특화된 데이터셋 사이의 균형을 맞추기 위해 다양한 휴리스틱을 사용하였다(Computer, 2023).

그러나 최근 대규모로 학습된 대부분의 언어 모델들은 사전학습 데이터 구성에 대한 정보를 제한적으로만 공개하고 있다(Touvron et al., 2023; Jiang et al., 2023; 2024; Team et al., 2024). 소규모 실험 환경에서는 데이터 혼합 비율을 알고리즘적으로 최적화하려는 시도들이 있었지만, 이러한 방법들이 현대 언어 모델 학습 규모에서 공개적으로 검증된 적은 거의 없다(Xie et al., 2024). 이처럼 대규모 환경에서 데이터 혼합 전략을 검증하는 비용이 막대하기 때문에, LLM 사전학습 데이터에 대한 공개 연구는 매우 부족한 상황이다.

이상적으로는 더 작은 규모에서 데이터 혼합 실험을 수행하여 좋은 데이터 조합을 찾아야 한다. 그러나 이는 종종 효과적이지 않다. 왜냐하면 난이도가 높고 emergent한 벤치마크에서 의미 있는 변화를 관찰하려면 대규모 FLOP 수준의 학습이 필요하기 때문이다. 실제로 작은 규모로 학습된 대부분의 LLM은 MMLU(Wei et al., 2022)와 같은 중요한 벤치마크에서 무작위 수준의 정확도만 보이는 경우가 많다. 따라서 작은 규모에서의 실험은 오해를 불러일으킬 수 있다. 이 규모에서는 중요한 벤치마크에서 데이터 혼합 간의 성능 차이가 데이터셋 품질이 아니라 노이즈 때문인 경우가 많기 때문이다. 반면, 이러한 벤치마크에서 무작위 수준 이상의 성능을 측정할 수 있는 충분한 규모로 여러 학습 실험을 반복 수행하는 것은 비용적으로나 현실적으로 매우 어렵다.

본 연구의 목표는, 합리적인 규모에서 사전학습 데이터 실험을 수행하기 위한 대안적 접근법의 효용을 분석하는 것이다. 우리의 전략은 어려운 벤치마크에서 의미 있는 신호를 측정할 수 있을 정도로 충분한 FLOPs를 사용해 학습을 진행한 뒤, 학습 마지막 단계에서 데이터 혼합 비율을 수정하는 것이다. 우리는 이러한 전략이 전체 학습을 반복 수행하는 것보다 한 자릿수 이상 저렴한 비용으로도 LLM 사전학습 데이터 혼합을 효과적으로 개선할 수 있음을 보인다.

Contributions

공개적으로 사용 가능한 데이터셋들로 구성된 기본 데이터 혼합(base mix)을 구축하였으며, 이를 통해 1조 토큰으로 학습된 7B 모델에서 Llama-2 모델 계열과 동일한 FLOP 대비 성능 스케일링을 달성하였다.
우리는 domain upsampling을 제안한다. 이는 학습 마지막 단계에서 Common Crawl 대비 도메인 특화 데이터셋의 비중을 증가시키는 데이터 개입 기법이며, 이를 통해 어려운 벤치마크 성능을 향상시킬 수 있음을 보였다. 구체적으로, 우리의 학습 설정에서 기본 데이터 혼합 대비 MMLU는 최대 6.90 pp, GSM8K는 8.26 pp, HumanEval은 6.17 pp 향상되었다. 이로써 전체 학습 FLOPs는 절반 수준이지만 성능은 Llama-2 (7B)에 근접하였다.
전체 학습 중 domain upsampling을 적용하는 비율을 변화시키는 실험을 수행하였으며, 일반 언어 모델링 능력과 특정 벤치마크 성능 간의 trade-off를 조절하는 데에는 10%~20% 구간이 최적임을 보였다.
또한 domain upsampling을 이용해 개별 데이터셋이 모델 성능에 어떤 영향을 미치는지를 FLOP 효율적으로 분석할 수 있음을 보였다. 학습 마지막 단계에서 업샘플링되는 데이터 중 수학 중심 데이터셋 일부를 제거함으로써, 해당 데이터셋들이 특정 벤치마크에 미치는 영향을 정량화하였다.

2. Training Details

우리는 1조(1T) 토큰으로 학습된 70억(7B) 파라미터 모델에서 domain upsampling을 연구하였다. 이러한 FLOP 규모를 선택한 이유는, 모델이 MMLU와 같은 핵심 벤치마크에서 노이즈 수준을 넘어서는 성능을 보이게 하여, 데이터 개입(data intervention)이 모델에 미치는 영향을 관찰할 수 있도록 하기 위함이다.

본 연구에서 사용한 7B 모델은 LLM Foundry(MosaicML et al., 2023)의 MPT 아키텍처를 사용하는 decoder-only Transformer이다. 모델 평가에는 최신 버전인 Eval Gauntlet v0.3(MosaicML et al., 2023)을 사용하였다. 이는 LLM base model 평가를 위해 널리 사용되는 35개의 in-context learning 평가 태스크로 구성된 프레임워크이다. Gauntlet v0.3은 6개의 카테고리에 걸친 벤치마크 점수를 집계하며, 자세한 내용은 Appendix A에 설명되어 있다. 또한 우리는 (Zhai et al., 2022)와 유사한 inverse square root learning schedule을 사용하였다.

3. Results

여기서는 domain upsampling을 통해 얻어진 성능 향상과, 데이터셋이 난이도가 높고 emergent한 지표에 어떤 영향을 미치는지를 분석하는 데 있어 이 기법이 얼마나 유용한지를 보여주는 실험 결과를 제시한다.

3.1 Baseline data mix achieves Llama-2 scaling

기본 데이터 혼합(baseline data mix)을 구성하기 위해, 우리는 공개적으로 이용 가능한 데이터셋들을 다음과 같은 네 가지 범주로 그룹화하였다.

Large-Scale Common Crawl:
규모를 중시하는 Common Crawl 기반 데이터셋들이다. 이러한 데이터셋은 엄격한 품질 필터링보다는, 크고 다양한 토큰 집합을 구성하는 데 초점을 둔다.
Small-Scale Common Crawl:
보다 광범위한 필터링을 거친 Common Crawl 기반 데이터셋이지만, large-scale Common Crawl보다 규모는 작다.
Domain Specific data:
특정 도메인을 대상으로 하거나 개별 출처에서 수집된 소규모 고품질 데이터셋들이다(예: Wikipedia).
Code:
다양한 프로그래밍 언어로 구성된 코드 데이터.

우리는 이러한 데이터셋 그룹들이 1조 토큰 학습 동안 몇 epoch 정도 반복될지를 기준으로 하는 대략적인 휴리스틱에 따라 혼합 비율을 설정하였다. 구체적으로는 Small-Scale Common Crawl과 Domain Specific 데이터는 각각 0.5 epoch, Code 데이터는 1 epoch가 되도록 설정하였다. 이후 남은 토큰은 Large-Scale Common Crawl 데이터로 채웠다. 정확한 비율은 Table 2에 제시되어 있다.

이러한 비율을 선택한 이유는 다음과 같다. Small-Scale Common Crawl과 Domain Specific 데이터는 품질이 높다고 예상되므로, 1조 토큰 예산 내에서 충분히 반영되기를 원했다. 또한 코딩 능력을 강조하고자 했기 때문에 코드 데이터를 높은 비율로 샘플링하였다. 초기 실험에서는 약 20% 수준의 높은 코드 데이터 비율이 언어 능력을 저해하지 않으면서 프로그래밍 및 추론 능력을 향상시킨다는 결과를 얻었다. 이후 Large-Scale CC 데이터는 데이터셋의 다양성을 높이고 전체 토큰 예산을 채우는 용도로 사용하였다.

중요한 점은, 본 실험 설정의 목적이 학습 마지막 단계에서의 domain upsampling(Section 3.2에서 논의)을 보여주는 데 있기 때문에, 초기 데이터 혼합 비율을 지나치게 최적화하기보다는 합리적인 휴리스틱을 사용하는 데 초점을 두었다는 것이다.

Table 3과 Figure 1은 이러한 초기 데이터 혼합으로 각각 0.5T 및 1T 토큰 동안 학습한 두 개의 7B 모델 성능을 보여준다.

여기서 Us가 여기서 제안한 모델임

Error 대 FLOPs 관계를 그려보면, 우리의 모델들은 Gauntlet v0.3 Core Average, MMLU, GSM8K, HumanEval에서 Llama-2 scaling line 위 또는 아래에 위치한다. 이는 이러한 휴리스틱이 실제로 효과적이었음을 보여준다.

저자들이 만든 데이터 믹스로 학습한 7B 모델이, FLOPs 대비 성능 측면에서 Llama-2 계열과 동등하거나 더 좋은 scaling behavior를 보인다.
그림을 보면 Llama-2의 사이즈에 따른 FLOPS을 계산하고 벤치마크 error을 y축으로 해서 그림을 그린다.
여기서 가정은 선형으로 FLOPS와 err가 비례한다는것? (log-log 공간에서)
어쨌든 그 가정보다 제안한 모델(Us)가 같은 FLOPS에 비해 error가 낮을것으로 예측되는 그래프가 그려진다.
따라서 이렇게 데이터 혼합해서 학습하는게 효율적이라는 것을 보여줌 (pretraining stage1 이라 보면 될 듯)

흥미롭게도, 전체 성능 스케일링(Gauntlet v0.3 Core Average 기준)은 매우 유사하지만, 데이터 선택과 혼합 계수의 차이로 인해 서로 다른 trade-off가 나타났다. 1T 토큰으로 학습한 모델은 2T 토큰으로 학습된 Llama-2 7B 모델보다 GSM8K와 HumanEval에서 더 높은 성능을 보였다. 이는 우리의 모델이 절반 수준의 토큰만 사용하고도 더 뛰어난 수학 및 프로그래밍 능력을 갖추었음을 의미한다. 또한 우리는 데이터 혼합 비율 일부를 공개한 7B 모델인 OpenLlama 7Bv2(Geng & Liu, 2023)와의 비교도 제공한다.

3.2 Domain upsampling significantly boosts performance on challenging metrics

다음으로, 우리는 1T 토큰 학습 run의 마지막 20% 동안 domain upsampling을 도입한다.

이를 위해 학습 0.8T 토큰 시점의 체크포인트에서 시작하여 사전학습 데이터 혼합 비율을 변경한 뒤, 남은 0.2T 토큰에 대해 계속 학습한다.
domain upsampled pretraining mix의 정확한 혼합 비율은 Table 4에 제시되어 있다.

여기서 말하는 DU는 뒷 부분 학습에서 데이터 비율을 바꾼다는것이다. (도메인 비율을 높인다는 개념인듯)
따라서 테이블2의 분포를 테이블4로 바꾸는데, Large을 빼고, small은 조금 빼고, domain, code 비율을 높이겠다는 것
그랬을때 밑의 그림 2처럼, 성능이 좋아지는 것을 보여준다.
테이블4의 비율은 아래 설명으론 휴리스틱하게 정해졌다고 함

이 비율은 다음 휴리스틱에 따라 정해졌다.

Large-Scale CC는 사전학습 데이터 혼합에 다양성을 크게 더해주지만, 우리가 관심 있는 도메인에서 정보 밀도가 높은 token distribution 쪽으로 모델을 유도하기 위해서는 학습 마지막 단계에서 Domain Specific data를 더 강조하는 것이 유리하다고 가정했다.
따라서 우리는 Large-Scale CC를 제거하고 Domain Specific 및 Code subset을 업샘플링하였다.
또한 사전학습 데이터 분포가 너무 크게 바뀌는 것을 막기 위해 Small-Scale CC는 높은 비율로 유지하였다.

이 end-of-training 데이터 개입의 결과는 Table 5와 Figure 2에 제시되어 있다.

Domain upsampling은 초기 사전학습 데이터 혼합 대비 모든 어려운 벤치마크에서 모델 성능을 크게 향상시켰다. domain upsampled 데이터 혼합에 code와 math 관련 데이터가 많이 포함되어 있다는 점을 고려하면, 이 개입이 GSM8K와 HumanEval 점수를 Llama-2 (7B)보다 약 10pp 높인 것은 그리 놀랍지 않다.

게다가 이 성능 향상은 일반 언어 모델링 능력의 저하를 수반하지 않았으며, Gauntlet v0.3 Core Average로 측정한 전체 성능도 향상되었다. 실제로 MMLU와 Gauntlet v0.3 subset으로 측정되는 world knowledge도 base data mix 대비 개선되어, 이들 지표에서 Llama-2 (7B)에 더 가까워졌다. 다만 Language Understanding subset에서는 약 1pp 정도의 작은 trade-off만 있었다.

전반적으로, 어려운 벤치마크 전반에서 관찰된 이러한 향상은 domain upsampling이 모델 성능을 개선하기 위한 사전학습 데이터 개입으로서 효과적임을 보여준다. 중요한 점은, 단순한 휴리스틱으로 새 데이터 혼합 비율을 정했음에도 강한 긍정적 효과가 나타났다는 점이며, 더 정교하게 조정된 혼합 비율을 사용하면 추가 개선의 여지도 있음을 시사한다.

3.3 특정 도메인과 범용 언어 모델 사이의 trade-off를 조절할 수 있게 해주는 domain upsampling 기간 변화

학습 마지막 20% 동안 domain upsampling을 적용했을 때의 성공은 다음 질문을 제기한다.

이 향상은 학습 종료 시점의 데이터 개입(end-of-training data intervention)에서 비롯된 것일까, 아니면 애초에 더 좋은 데이터 mix 비율 때문일까?
다시 말해, Table 4의 데이터 mix 비율이 우리의 초기 데이터 mix보다 더 좋은 것이라면, 이 mix로 1T 토큰 전체를 학습했을 때 더 나은 성능을 얻을 수 있을까?
이 섹션에서는 그것이 아니라는 증거를 제시한다.
즉, domain upsampling을 학습 종료 단계의 데이터 개입으로 다루는 것이 특정 도메인 성능 향상과 일반 언어 모델링 능력 사이의 trade-off를 더 잘 조절하게 해준다.
마지막에 학습 데이터 비율을 바꾸는게 효과적인거지, 처음부터 DU 분포로 학습한다고해서 더 좋은 것은 아니다.

어느 시점에 이 개입을 적용해야 하는지 알아보기 위해, 우리는 이전 실험을 변형하여 학습 마지막 5%, 10%, 20%, 30% 동안 domain upsampling을 수행했다. 이 실험 결과는 Figure 3과 Table 6에 나타나 있다.

HumanEval, GSM8K, 그리고 관련 Gauntlet v0.3 하위 점수처럼 수학 및 프로그래밍 관련 벤치마크는 domain upsampling 비율이 증가할수록 계속 좋아지지만, 다른 벤치마크들은 20% 이하에서 최적 성능에 도달한다. 예를 들어 MMLU는 10%에서 최고, Gauntlet v0.3 Core Average는 20%에서 최고를 기록한다. 따라서 domain upsampling 비율을 20% 이상으로 늘리면, 수학 및 코딩 벤치마크의 향상은 일반 언어 모델링 능력의 저하를 동반하게 된다.

이러한 겉보기 trade-off는, domain upsampling의 데이터 mix 비율이 초기 데이터 mix보다 무조건 더 낫다고 볼 수 없으며, 이를 1T 토큰 전체 기간 동안 학습하는 것이 더 나은 범용 언어 모델로 이어지지 않는다는 점을 시사한다. 물론 전체 학습 기간 동안 사용했을 때 20% domain upsampling 실험과 비슷한 성능을 내는 다른 mix가 존재할 가능성은 배제하지 않는다. 그러나 그런 mix를 찾는 것은 전체 학습 run에서 반복 실험하기에는 비용이 매우 크다. 따라서 domain upsampling의 강점은, 특정 도메인 성능과 일반 언어 모델링 능력 사이의 trade-off를 훨씬 저렴한 실험으로 조절할 수 있게 해준다는 점이다.

3.4 개별 데이터셋이 모델 능력에 미치는 영향을 FLOP 효율적으로 파악하는 도구로서의 domain upsampling

우리는 소량의 학습 구간에서 code와 domain-specific 데이터를 업샘플링했을 때 어려운 emergent 태스크에서 큰 성능 향상이 나타나는 것을 확인한 뒤, 이제 다음 질문을 던진다. 이 향상은 데이터의 어떤 부분 때문에 생기는가?

특히 Figure 3과 Table 5에서 볼 수 있듯이, 수학과 추론 능력을 측정하는 GSM8K 점수는 domain upsampling 기간이 길어질수록 단조롭게 증가한다. 우리는 high-quality dataset 안에 수학 관련 데이터가 상당량 포함되어 있으므로, 이 데이터들이 이 향상의 일부 또는 전부를 담당했을 가능성이 있다고 가정한다. 이 데이터들의 영향을 정량화하기 위해, 우리는 domain upsampling을 학습 마지막 10% 동안 적용하는 실험을 다시 수행하되, Table 4와 같은 데이터 비율은 유지한 채 수학 관련 subset을 제거했다. 결과는 Table 7에 제시되어 있다.

우리는 수학 지식과 추론 능력이 MMLU(내부에 STEM 하위집합 포함)와 GSM8K에서 보듯이, 해당 데이터셋을 포함한 domain upsampling 모델과 같은 수준에 도달하지 못했을 뿐 아니라, 오히려 domain upsampling을 전혀 하지 않은 baseline 모델보다도 더 나쁜 성능을 보인다는 점을 관찰했다. 더 나아가, 프로그래밍을 제외한 domain upsampling sans-math의 모든 Gauntlet v0.3 하위 범주 점수는 baseline보다 낮았다. 여기서 우리는 이 특정 데이터셋들이 base model과 domain upsampled variant 양쪽에서 수학적 지식과 추론 능력의 대부분을 담당한다는 결론을 내릴 수 있다.

이 관찰 덕분에 우리는 보통 훨씬 더 많은 비용이 드는 일을 성공적으로 해냈다. 즉, 어려운 emergent 태스크를 신뢰할 수 있는 수준에서 측정할 수 있는 규모에서, 그러나 전체 학습 대비 한 자릿수 이상 적은 training FLOPs로 사전학습 데이터셋의 영향을 측정한 것이다. 우리는 domain upsampling이 연구자들이 사전학습 데이터셋을 더 tractable한 방식으로 실험할 수 있게 해주는 도구라고 본다.

주장하는 것

여기서 DS로 데이터 비율을 후반부에 바꾸면 기존 성능 향상은 유지하되, 특정 도메인에 대한 성능을 끌어올릴 수 있다는거.
따라서 학습 끝부분에 특정 데이터셋을 “살려두거나” “빼보는” 방식으로 실험하면, 어떤 데이터가 MMLU/GSM8K 같은 능력에 기여했는지 훨씬 싸게 확인할 수 있다는 것.
특히 이 논문에서는 수학 관련 데이터가 성능 향상에 큰 역할을 했다고 결론낸다.

4. Discussion

LLM 사전학습은 각 실험에 필요한 계산 자원 규모가 매우 커지면서 점점 더 비용이 많이 들고, 외부에 잘 드러나지 않는(clandestine) 작업이 되어가고 있다. 이 문제는 특히 사전학습 데이터 선택처럼 실무자가 마주하는 다면적인 의사결정 공간 때문에 더 심각해진다. 많은 중요한 모델 능력은 스케일이 커질수록 emergent하게 나타나므로, 작은 계산 예산에서 이러한 설계 공간을 탐색하는 것은 종종 효과적이지 않다. 작은 규모에서 관찰한 사전학습 데이터 혼합의 효과는 대개 더 큰 모델이나 더 큰 학습 예산으로는 잘 일반화되지 않기 때문이다.

본 연구에서는, 핵심 벤치마크에서 의미 있는 신호를 얻을 수 있을 만큼 충분한 FLOPs를 사용하는 조건에서 성립하는 공개 데이터셋 기반의 baseline data mix를 먼저 구성하였다. 이 mix는 Llama-2 계열 모델의 스케일링을 핵심 벤치마크에서 달성하거나 그 이상을 보였다. 그 다음, 사전학습 데이터 실험을 더 저렴하게 만드는 데 있어 중요한 첫걸음을 제시했다. 우리는 학습 마지막 단계에서 데이터 혼합을 표적화된 방식으로 바꾸어 모델 성능에 큰 영향을 줄 수 있는 domain upsampling을 도입했다. 이를 통해 Llama-2 (7B) 수준의 성능을 얻으면서도 학습 예산은 절반 수준으로 줄일 수 있었다. 또한 domain upsampling의 적용 기간을 변화시킴으로써, 특정 도메인을 겨냥하는 것과 범용 언어 모델을 만드는 것 사이의 trade-off를 어떻게 조절할 수 있는지도 보였다.

마지막으로, data mix를 domain upsampling 기간에만 변경하는 방식으로 여러 수학 중심 데이터셋의 영향을 저렴하게 특성화할 수 있음을 보였다. 우리는 이 방법이 FLOP 효율적인 방식으로 사전학습 데이터를 연구하기 위한 일반적인 도구로 활용될 수 있는 다양한 가능성을 확인했다. 또한 이 방법은 scale에서 data intervention을 시험하는 플랫폼을 제공한다. 즉, 작은 규모에서 가능한 데이터셋 최적화 알고리즘을 시험하고 그것이 큰 규모에서도 일반화되기를 기대하는 대신, 학습 마지막 단계에서 이를 시험함으로써 실제 규모에서 그 영향을 효과적으로 측정할 수 있다. 실험 비용을 낮춤으로써 우리는 사전학습 데이터 실험을 더 많은 연구자에게 접근 가능하게 만들었고, 더 많은 통찰을 이끌어내기 위한 연구 자원으로서 모델과 중간 체크포인트를 커뮤니티에 공개할 예정이다.

Reference

https://arxiv.org/pdf/2406.03476

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-340, Does your data spark joy? Performance gains from domain upsampling at the end of training, CoLM 2024