◼ Comment

생각보다 Domain-specific continual pretraining 연구가 많지 않나보다
사실 이 연구도 노벨티가 막 많이 있는건 아닌거 같고.. 실험도 뭔가 부실하다

시도 자체는 좋으나, 리뷰어였으면 리젝줬을거 같음

여기서의 컨트리뷰션은 다음과 같다

general llm에서 금융 도메인 llm으로 만들기 위한 continual pretraining 제안
금융도메인 데이터 일부 긁어서 공개
금융도메인 데이터를 그냥 단순히 pretraining 하지말고 data selection하여 pretraining하자
1) 금융 llm에서 사용할 task가 정해져있으면, task에 맞는 data selection
2) 테스크가 딱히 안정해져있으면 general data selection

데이터 선택 방법

Task가 정해져있으면 테스크 데이터와 문장 유사도를 계산하여 데이터를 골랐다고함

자세한건 안나와있음. 이걸 왜 안말하지? 핵심인거 같은데

Task가 안정해져있으면 정보성 높은 데이터를 골라야하는데

1) small model의 PPL이 높은 데이터를 선별 (학습이 잘안된 데이터 분포라 정보성이 많다고 가정)

여기서 small model은 학습할 모델의 작은버전으로 ppl 분포가 비슷하기 때문에 대체해서 사용했다고함

2) entropy가 높은 데이터 선택

문서에서 pos 품사 태깅의 엔트로피 측정했다고함
즉 pos 품사의 발생빈도 * 생성 확률을 다 더했다고 보면 될듯
엔트로피가 정보량이므로 높은 데이터 선택

결과적으론 그냥 도메인 모든 데이터 학습하는것보다 테스크 별 비교에서는 Task data selection한 ETS-DACP가 좋았다고함
테스크가 딱히 안정해져있으면 ppl보단 엔트로피로 데이터 선택해서 학습하는게 낫다고함

학습자체는 특별한거 없이 그냥 돌린듯. 매우 간단하게 언급됨

데이터를 선택해서 학습하기 때문에 학습을 위한 코스트가 준다고 말하기도함

그리고 이걸로 인해 오픈 도메인에서의 성능 하락은 약간 있으나 큰 차이 없다고 주장함

근데 그냥 학습을 조금해서 그런게 아닌가?

우리는 **대형 언어 모델(LLM)**을 대상으로 연속 사전학습에서의 데이터 선택 문제를 탐구한 최초의 연구이다.

이걸보면, 이런 연구가 별로 없었나봄..

Abstract

대형 언어 모델(LLM)은 다양한 도메인에서 놀라운 성능을 보여주고 있습니다. 특정 도메인에 특화된 LLM은 일반적으로 해당 도메인의 코퍼스만을 사용해 완전히 훈련되어 도메인 특화 작업을 탁월하게 처리합니다. 본 연구에서는 기존의 오픈 도메인 LLM을 기반으로 도메인 특화 LLM을 개발하기 위한 대안으로 지속적 사전 훈련(continual pre-training) 전략을 탐구합니다.

우리는 금융 도메인에 특화된 FinPythia-6.9B 모델을 도메인 적응적 지속적 사전 훈련을 통해 개발했습니다. 지속적 사전 훈련을 거친 FinPythia는 원래의 기초 모델에 비해 금융 관련 작업에서 일관된 성능 향상을 보여줍니다.

또한, 우리는 지속적 사전 훈련을 위한 간단하면서도 효과적인 데이터 선택 전략을 탐구했습니다. 우리의 데이터 선택 전략은 전체 코퍼스의 10%만 사용하고 비용도 그만큼 줄이면서도, 기존의 일반적인 지속적 사전 훈련의 성능을 초과했습니다. 게다가 오픈 도메인의 표준 작업에서 성능 저하 없이 이러한 결과를 달성했습니다.

본 연구는 비용 효율적으로 도메인 특화 LLM을 구축하기 위한 대안적 솔루션을 제안합니다.

1 Introduction

대형 언어 모델(LLM)은 자연어를 깊이 이해하며 다양한 작업에서 성능을 향상시켜 왔습니다(Brown et al., 2020). 오픈 웹 데이터를 활용해 범용 LLM을 생성하면 광범위한 능력을 갖춘 모델을 만들 수 있습니다. 하지만 범용 LLM은 "전문가"가 아닙니다. 예를 들어, LLM은 좋은 뉴스 기사를 작성할 수 있지만, 전문적인 법률 문서를 작성하는 데는 어려움을 겪습니다.

도메인 특화 LLM을 만들기 위해서는 해당 도메인의 데이터를 사용해 훈련해야 합니다. 도메인 특화 LLM을 구축하는 접근법은 두 가지로 나뉩니다:

1) 도메인 특화 LLM을 처음부터 훈련하거나,
2) 기존 LLM을 도메인 데이터로 지속적 사전 훈련(continual pre-training)하는 방법입니다.

대부분의 연구는 처음부터 도메인 특화 LLM을 구축하는 첫 번째 접근법을 취해왔습니다.

예를 들어, 의료 도메인에서는 Med-PaLM 시리즈(Singhal et al., 2022, 2023), 금융 도메인에서는 BloombergGPT(Wu et al., 2023b)가 이에 해당합니다.
이러한 연구를 하면 좋은 비교대상이 될듯

반면, 훨씬 저렴한 대안임에도 불구하고 도메인 적응적 지속적 사전 훈련에는 상대적으로 적은 관심이 쏠렸습니다. 주목할 만한 예로, 의료 LLM인 PMC-LLaMA(Wu et al., 2023a)는 LLaMA(Touvron et al., 2023)를 의료 논문 데이터로 지속적 사전 훈련하여 개발되었습니다. 지속적 사전 훈련은 또한 변화하는 환경에서 LLM을 최신 지식으로 업데이트하는 데 사용될 수 있습니다.

본 연구에서는 다음 세 가지 질문에 답하고자 합니다:

1) 도메인 적응적 지속적 사전 훈련이 도메인 특화 LLM 구축에 유용한가?
2) 보다 효과적인 도메인 적응적 지속적 사전 훈련을 위해 데이터 선택 전략을 활용할 수 있는가?
3) 도메인 적응적 지속적 사전 훈련이 LLM의 오픈 도메인 능력을 손상시키는가?

이 질문들은 금융 도메인을 중심으로, Pythia(Biderman et al., 2023)를 기반으로 지속적 사전 훈련을 통해 개발한 FinPythia 모델을 통해 답변됩니다.

첫 번째 질문에 답하기 위해, 우리는 Pythia가 훈련된 데이터의 8%에 해당하는 도메인 데이터를 사용해 지속적 사전 훈련을 진행한 후, 금융 벤치마크(Xie et al., 2023a)에서 성능 향상을 확인했습니다.

질적 분석을 통해 FinPythia가 최신 금융 도메인 지식을 습득했다는 증거를 발견했습니다.

두 번째 질문에 답하기 위해, 우리는 두 가지 간단한 데이터 선택 기법을 제안합니다:

- **작업 인지 효율적 작업 유사 도메인 적응적 지속적 사전 훈련(Efficient Task-Similar Domain-Adaptive Continual Pre-training, ETS-DACP)**
- **작업 비인지 효율적 도메인 적응적 지속적 사전 훈련(Efficient Task-Agnostic Domain-Adaptive Continual Pre-training, ETA-DACP)**

이 방법들은 선택된 도메인 데이터의 10% 또는 Pythia 훈련 코퍼스의 0.8%만으로도 일반적인 도메인 적응적 지속적 사전 훈련을 능가하는 성능을 보였습니다. 데이터 선택을 위해 세 가지 메트릭(유사도, 퍼플렉시티(perplexity), 토큰 유형 엔트로피(token type entropy))을 사용했습니다. 유사도는 작업 데이터를 시드 데이터로 필요로 하지만, 후자의 두 메트릭은 작업 비인지 메트릭입니다.

세 번째 질문에 답하기 위해, 우리는 네 가지 오픈 도메인 표준 작업에서 벤치마킹을 수행했고, 지속적 사전 훈련된 LLM이 도메인에 적응하면서도 일반적인 능력을 유지한다는 것을 관찰했습니다.

본 논문의 주요 기여는 다음과 같습니다:

- 금융 데이터셋에서 추출한 **240억 토큰** 규모의 대규모 금융 코퍼스를 구축했습니다.
- 우리의 실험은 지속적 사전 훈련을 통해 도메인 특화 LLM을 구축하는 가능성을 보여주며, 이는 고비용의 처음부터 훈련하는 방식에 대한 대안으로, 소규모 언어 모델(Gururangan et al., 2020; Xie et al., 2023b)에서 얻은 결과를 더욱 확장합니다.
- 우리는 **효율적 도메인 적응적 지속적 사전 훈련** 방법 두 가지를 제안하며, 이는 일반적인 지속적 사전 훈련보다 효율적인 접근법입니다. 우리의 새로운 접근법은 데이터 선택 전략을 활용해 도메인 적응적 지속적 사전 훈련 비용의 일부만으로 더 나은 성능을 달성하며, 소규모 언어 모델의 기준선을 초과합니다.

2. 방법론

이 절에서는 연속 사전학습(continual pre-training)에 사용된 금융 말뭉치(financial corpus)의 구축 과정, 관련 배경 개념들, 그리고 우리가 제안하는 작업 인식형(task-aware) 도메인 적응 연속 사전학습에 대해 설명합니다.

2.1 금융 말뭉치 구축

우리는 데이터 소스를 평가할 때 공개 가능성, 라이선스 조건, 데이터 규모 세 가지 측면을 고려했습니다. 금융 말뭉치는 다음 두 가지 출처로부터 데이터를 수집했습니다:

Financial News CommonCrawl: 공개 CommonCrawl 데이터 중에서 금융 뉴스만을 필터링하여 구성한 데이터입니다.
SEC 보고서(미국 증권거래위원회 보고서)

우리는 중복된 학습 데이터를 제거하기 위해 Pythia suite (Biderman et al., 2023)의 중복 제거 방식을 따랐습니다. 이 두 가지 출처를 활용하여 총 239억 토큰(165억 단어) 규모의 금융 데이터셋을 구성했습니다.

세부 사항은 부록 G에 나와 있습니다.

2.2 배경

도메인 적응 연속 사전학습 (DACP: Domain-Adaptive Continual Pre-training)

일반적으로 도메인 특화 LLM은 특정 도메인 데이터를 대량으로 사용하여 처음부터 새롭게 학습(training from scratch) 하여 구축됩니다. 그러나 이 방식은 다음과 같은 두 가지 문제점이 있습니다:

비용이 매우 높다.
도메인 데이터가 부족하거나 민감할 경우 학습이 어려워진다.
(예: 금융 도메인은 전문적이고 기밀성이 높은 데이터가 많아 대량 수집이 어렵다)

DACP는 이러한 문제를 피하기 위해 범용 LLM에 대해 도메인 특화된 비지도 데이터로 연속 사전학습을 수행하는 방법입니다.

이전 연구들(Gururangan et al., 2020; Jin et al., 2022 등)은 DACP가 LLM을 도메인 분포에 더 잘 적응시키는 데 효과적임을 보여주었습니다.
또한, DACP는 새로운 데이터가 등장할 때마다 모델이 지식을 축적해나가는 데도 유용합니다.
본 연구에서는 DACP의 효과를 벤치마크합니다.

작업 적응 연속 사전학습 (TACP: Task-Adaptive Continual Pre-training)

TACP는 특정 작업(task)의 성능 향상을 목표로 하는 연속 사전학습 방식입니다. 이는 특히 BERT와 같은 작은 규모의 언어모델에서 많이 연구되었으며, 작업과 관련된 레이블이 없는(unlabeled) 데이터나 레이블된(labeled) 데이터를 활용해 모델을 사전학습합니다(Gururangan et al., 2020 등).

보통은 MLM(Masked Language Modeling)과 같은 손실 함수를 이용하여 다운스트림 작업의 학습 데이터에 대해 사전학습을 수행합니다.

작업 데이터는 일반적으로 양이 적지만, TACP는 BERT와 같은 작은 LMs에서 상당한 성능 향상을 보여주었습니다. 본 논문에서는 레이블 없이 작업 관련 데이터로 LLM을 연속 사전학습하여, TACP가 금융 도메인 내 4개 작업에서 어떤 효과를 내는지 벤치마크합니다.
※ 참고로, TACP는 감독 학습(supervised learning) 과는 전혀 다릅니다. 레이블을 사용하지 않기 때문입니다.

TACP는 테스크에 맞는 데이터로 pretraining 하는것

2.3 효율적인 도메인 적응 연속 사전학습을 위하여

TACP의 주요 한계는 비지도 task 데이터만 사용하여 학습하기 때문에, 범용적인 LLM(foundation LLM)이 아닌 **작업 전용 LLM(task-specific LLM)**을 구성하게 된다는 점이다. 반면 DACP는 훨씬 더 큰 규모의 코퍼스를 활용하지만, 계산 비용이 매우 크다는 단점이 있다. 이 두 가지 한계를 절충하기 위해, 다음 두 가지 접근 방식을 제안한다.

ETS-DACP (Efficient Task-Similar Domain-Adaptive Continual Pre-training)
ETA-DACP (Efficient Task-Agnostic Domain-Adaptive Continual Pre-training)

ETS-DACP는 DACP를 특정 작업 집합에 맞게 조정하여 해당 작업들의 중요도를 강조하며 foundation LLM을 구축하는 것을 목표로 한다. 반면 ETA-DACP는 task 데이터를 필요로 하지 않으며, 도메인 코퍼스에서 가장 유익한 샘플을 선택하는 보다 일반적인 방법이다.

ETS-DACP: Efficient Task-Similar DACP

ETS-DACP는 도메인 데이터 중에서 task 데이터와 유사한 부분만을 선택하여 최적의 데이터 집합 $D^*$ 을 구성하는 방식이다. 이는 task 데이터를 포함하는 파란 영역과 가장 가까운 빨간 영역을 직관적으로 선택하여 구성된다.

일반적인 fine-tuning은 많은 양의 지시문(instruction)을 필요로 하며, 이는 비용이 크다.

ETS-DACP는 상대적으로 적은 양의 비지도 task 데이터를 사용하여, 대규모 도메인 데이터로부터 유사한 샘플을 샘플링함으로써 이 문제를 해결한다. 기존 연구에 따르면, 목표 task나 도메인에 가까운 토큰에 대해 비지도 학습을 수행하면 성능이 향상된다는 결과가 있다.

이러한 동기에서, 우리는 LLM을 task 데이터에 대해 연속적으로 사전학습하면 해당 task 성능이 향상될 것이라 가정한다.

이를 위해, task 데이터와 도메인 코퍼스 샘플 간 임베딩 유사도를 기반으로 데이터 샘플을 선택한다.
문서 수준에서의 task 유사도를 측정하기 위해 Spacy 모델을 이용한 문서 임베딩 간 코사인 유사도를 사용한다.
이 방법은 금융 코퍼스와 task 정보 간의 정렬 정도를 비용 효율적으로 측정할 수 있게 해준다.

예를 들면, 금융 코퍼스에서 원하는 테스크(아마 QA?)에 관한 데이터를 선별해서 pretraining하겠다는 것이다

그냥 금융도메인 모든 데이터를 학습하기에는 양이 많으니.. 쓰려고 하는 테스크에 맞는 데이터 (그림 1의 파란색)만 사용한다는 건데
이거를 테스크 데이터와 문장 유사도를 통해 추출한다고 한다
어떤 테스크를 사용하는지? 어떤 테스크 데이터를 기준으로 임베딩 유사도를 구하는지? 등은 왜 없지;;

ETA-DACP: Efficient Task-Agnostic DACP

ETA-DACP는 task 데이터가 주어지지 않은 경우를 다룬다. 또한, ETS-DACP가 task 데이터에 너무 특화되는 문제를 보완한다. 우리는 도메인 데이터 하위 집합으로부터 도메인 정보를 얻기 위해 두 가지 차원이 중요하다고 본다: **새로움(novelty)**과 다양성(diversity).

새로움(novelty): 모델이 이전에 보지 못한 정보
문서의 perplexity를 기반으로 측정하며, perplexity가 높은 문서는 기존 학습 데이터에 덜 나타난 것으로 간주된다. 이는 새로운 지식을 제공할 가능성이 높으며 학습 난이도 또한 높은 샘플로 간주된다.

다만, LLM 자체로 perplexity를 계산하는 것은 학습 연산량의 약 25%에 해당하는 비용이 든다. 이를 줄이기 위해, 우리는 Pythia-70m 모델을 대체 모델로 사용한다. 사전 실험 결과, Pythia-1B와 Pythia-70m 간 perplexity의 상관계수는 0.97로 매우 높아, 소형 모델을 신뢰할 수 있는 대체 모델로 사용하는 것이 정당화된다.
다양성(diversity): 도메인 코퍼스 내 토큰 유형의 분포 다양성
POS(품사) 태깅을 통해 토큰 유형을 수집하고, entropy를 다양성 지표로 사용한다. entropy는 다양성을 측정하는 데 가장 효과적인 지표 중 하나로 알려져 있다.
문서내에서 POS 품사 태깅의 토큰이 얼마나 존재하고, 그 품사들이 생성될 확률을 곱해서 엔트로피 계산한다. 엔트로피가 높으면 정보성이 많을 것이기 때문에 학습 데이터로 사용되는 형태일듯

여기서도, 도메인 데이터를 다 사용하는건 아니고

새로움과 다양성을 기반으로 데이터의 유익한 데이터를 사용한다고 하는것

2.3.1 데이터 샘플링 전략

ETS-DACP와 ETA-DACP는 DACP를 개선하기 위해 데이터를 선별적으로 선택하여 사전학습에 사용하는 방식이다. 데이터 선택 방식에는 다음 두 가지가 있다.

Hard Sampling: 각 샘플을 메트릭(percentile 기준)으로 정렬하고, 특정 토큰 수 예산에 도달할 때까지 top-k 샘플을 선택한다.
Soft Sampling: top-k 이하를 버리지 않고, 거리 기반 soft weight를 부여하여 선택 확률을 결정한다. 예를 들어 유사도가 0.9인 샘플은 정규화되어 확률로 간주된다. 이 방법은 task 데이터와 직접적인 관련이 없는 샘플도 학습에 포함시켜 다양성을 높일 수 있다.

샘플 선택 시 고려하는 메트릭은 다음 세 가지다.

task 데이터와의 유사도 (ETS-DACP)
perplexity를 통한 새로움 지표 (ETA-DACP)
token 분포 entropy 기반 다양성 지표 (ETA-DACP)

각 메트릭 값을 샘플링 확률로 변환하기 위해 분위수(quantile) 기반 방법을 사용한다. 각 메트릭에 대해 0~100 분위수를 계산하고, 각 문서가 해당하는 분위수를 확률로 변환하여 사용한다. 이 방식은 다양한 메트릭들을 정규화하며 결합할 수 있게 해준다.

표 1에는 본 논문에서 제안한 모든 방법과 기존의 도메인 적응 방식들이 정리되어 있으며, 각 방법에 필요한 조건들도 함께 제시되어 있다.

3. 실험 설정

3.1 평가 작업 (Evaluation Tasks)

금융 도메인 작업 (Finance Domain Tasks)

우리의 도메인 적응 연속 사전학습의 효과를 평가하기 위해 금융 도메인 작업에서 모델 성능을 평가한다. 우리는 FLARE 프레임워크(Xie et al., 2023a)를 채택하여 모델을 평가한다. FLARE는 LLM 평가 프레임워크인 lm-evaluation-harness를 확장하여 다양한 금융 작업을 포함한다. 공정한 비교를 위해 FLARE에서 정의한 프롬프트 형식, 데이터 분할 방식, 평가 지표 계산 방식을 그대로 따른다.

우리가 사용하는 금융 작업은 다음 네 가지이며, 이는 Wu et al. (2023b) 및 Xie et al. (2023a)에서 사용한 것과 동일하다.

Financial Phrase Bank (FPB)
금융 뉴스 문장에 대해 긍정/중립/부정 감정을 분류하는 작업이다 (Malo et al., 2014). 감정은 투자자의 관점에서 판단된다.
FiQA SA
금융 뉴스와 헤드라인을 기반으로 하는 측면 기반 감성 분류 작업이다 (Maia et al., 2018).
Headline
금융 엔티티와 관련된 헤드라인이 특정 정보를 포함하는지 여부를 이진 분류하는 작업이다 (Sinha and Khandait, 2020). 각 뉴스 기사에는 “가격 관련 여부”, “가격 상승”, “가격 하락”, “가격 유지”, “과거 가격”, “자산 관련” 등 9개의 태그가 존재한다.
NER (Named Entity Recognition)
미국 SEC 보고서의 신용 위험 평가 섹션을 기반으로 하는 금융 개체명 인식 작업이다. 어휘는 PER(인물), LOC(장소), ORG(조직), MISC(기타)로 주석 처리된다.

일반 도메인 작업 (General Domain Tasks)

도메인 사전학습이 일반적인 능력에 미치는 영향을 확인하기 위해 다음과 같은 **범용 작업(open-domain tasks)**에도 평가를 수행한다.

ARC (Boratko et al., 2018):
하나의 예시를 바탕으로 과제를 처음 수행할 때 **출력 격자(grid)**를 예측하는 능력을 평가
MMLU (Hendrycks et al., 2020):
초등 수학, 역사, 법학 등 57개 과목에 대한 상식을 테스트하는 작업
TruthfulQA (Lin et al., 2021):
38개 카테고리의 817개 질문에 대해 정직한 답변을 생성하는 능력을 평가
HellaSwag (Zellers et al., 2019):
주어진 사건 설명에 대해 상식적인 후속 문장을 생성하는 능력을 평가

즉 특정 도메인에서 특정 테스크에서 잘 작동하는 LLM 만드는 방법이군

물론 일반 도메인에서도 성능평가는 이뤄지긴함

3.2 비교 대상(Baselines)

우리의 효율적인 연속 사전학습 기법과 비교하기 위해 여러 기존 방식들을 기준선으로 사용한다. (※ 자세한 baseline 목록은 본문에 생략되어 있으나, 앞선 DACP 및 TACP 방식이 포함된 것으로 보인다.)

3.3 학습 설정 및 인프라

벤치마크용 사전학습 LLM으로 Pythia 모델군(Biderman et al., 2023) 중 파라미터 수가 1B 및 6.9B인 모델을 선택한다. Pythia는 70M에서 12B까지 다양한 크기의 모델을 포함한다.

연속 사전학습 설정은 Biderman et al. (2023)에서 보고된 Pythia의 원래 학습 설정을 따르며, 구체적으로 다음과 같다.

FinPythia-6.9B: 학습률 1.2e-5
FinPythia-1B: 학습률 3e-5
(Pythia의 원래 스케줄 중 가장 작은 학습률로 설정)

Catastrophic forgetting(망각 문제)를 완화하기 위해 작은 학습률을 사용하며, 전체 사전학습 동안 고정된 학습률을 유지한다. 수치 표현은 fp16 대신 bf16을 사용한다. 배치 크기는 원래의 절반인 512로 설정한다.

모델 크기가 중간 정도이므로, AWS의 P4d.24xlarge 인스턴스 하나에서 학습을 진행한다. 분산 학습은 DeepSpeed ZeRO Stage 2를 사용하며, activation checkpointing을 활성화한다.

FinPythia-6.9B 모델의 사전학습 소요 시간: 18일
FinPythia-1B 모델의 사전학습 소요 시간: 3일
학습 데이터 크기: 총 240억 토큰

학습은 거의 뭐 아무런 노벨티도 없는데? 그냥 학습했다 이거군

4. 결과 및 분석

4.1 도메인 적응 연속 사전학습

금융 도메인 작업에 대한 평가를 위해, 우리는 FinPythia 모델을 Pythia 및 유사한 크기의 다른 공개 모델들과 비교한다. 비교 대상에는 OPT-7B(Zhang et al., 2022), BLOOM-7B(Scao et al., 2022), GPT-J-6B(Wang and Komatsuzaki, 2021)가 포함된다.

이들 공개 모델의 결과도 함께 보고하지만, 주요 분석은 Pythia와 FinPythia 간의 비교를 통해 이루어진다. 이 둘의 차이는 도메인 적응 연속 사전학습이 성능에 미치는 직접적인 영향을 반영하기 때문이다.

모든 작업은 5-shot 설정으로 평가되며, 각 테스트 인스턴스마다 작업의 학습 데이터셋에서 샘플을 무작위로 선택하여 프롬프트에 사용한다. 이는 FLARE 벤치마크(Xie et al., 2023a)를 따른다.

결과는 표 2에 보고되어 있다.

FinPythia-6.9B와 FinPythia-1B는 대부분의 작업에서 Pythia 대비 우수한 성능을 보였다.
단, FiQA SA 작업에서는 예외적으로 성능이 낮았다.
도메인 적응 연속 사전학습(DACP)은 다음과 같은 평균 성능 향상을 가져왔다:
- 1B 모델: 2.8% 향상
- 6.9B 모델: 8.3% 향상

이러한 결과는 도메인 적응 연속 사전학습이 금융 도메인 작업의 성능 향상에 실질적인 효과를 준다는 점을 명확히 입증한다.

또한, Pythia-6.9B는 OPT-7B, BLOOM-7B, GPT-J-6B보다도 더 나은 성능을 기록하였다.
BloombergGPT와의 비교 결과는 부록 A(Appendix A)를 참고하라.

OPT같은 다른 모델이랑 비교하는게 무슨 의미지? 그냥 Pythia vs FinPythia 비교만 의미있는거 아닌가

+ BloombergGPT는 처음부터 학습된 금융모델이니, 비교해볼만함. 근데 private 모델이라 정확한 비교는 어려운가보군

여기서 FinPythia는 어떤 방법론으로 학습한거지? (DACP라고 말하는 방법이겠지? 표3 보니까 맞는듯)

다음은 4.2절 **효율적인 도메인 적응 연속 사전학습(Efficient Domain-adaptive Continual Pre-training)**에 대한 충실한 한글 번역입니다.

4.2 효율적인 도메인 적응 연속 사전학습

FLARE에서는 5-shot in-context 평가 시 전체 학습 데이터로부터 샘플을 무작위로 선택하여 사용한다. 즉, 각 테스트 샘플에 대해 모델마다 완전히 다른 5개의 학습 예시를 참조하게 되어, 모델 간 공정한 비교가 어렵다.

실제 상황에서는 대량의 라벨된 학습 데이터를 확보하기 어렵기 때문에, 이 방식은 현실적이지 않다. 우리는 이러한 샘플링의 무작위성으로 인해 성능의 표준편차가 크게 나타남을 관찰했다.

이를 보완하고 모델 간 비교를 공정하게 만들기 위해, 우리는 각 작업별로 학습 데이터에서 라벨이 있는 50개 샘플을 별도 풀(shot pool)로 떼어내어 고정하였다. 나머지 학습 데이터는 라벨을 제거하고 비지도 task 데이터로 사용하여, 우리 방식의 데이터 선택 전략에 활용되었다. 이 구성은 원래 비지도 task 데이터에 접근할 수 없는 환경을 가정한 것이다. 이렇게 얻어진 비지도 task 데이터는 매우 소규모이며, 4개 작업에서 총 24만 토큰에 불과하다.

우리는 각 효율적 DACP 방식마다 도메인 코퍼스의 10% 하위 집합을 선택하여 사용했다. 또한 ETS-DACP-com이라는 변형 버전도 함께 평가했는데, 이는 세 가지 메트릭(유사도, perplexity, entropy)을 평균하여 순위를 정하는 방식이다.

모든 TACP 및 효율적 DACP 방식은 1 epoch만 학습되었으며, DACP와 동일한 사전학습 설정을 사용하여 공정한 비교를 보장하였다.

이 실험은 계산 자원 제한으로 인해 Pythia-1B 모델에서 수행되었으며, 10개의 서로 다른 랜덤 시드를 사용해 10회 반복 실험 후 평균 성능을 보고하였다.

평가 결과는 표 3에 제시되어 있다.

TACP는 Pythia-1B보다 확연한 성능 향상을 보였으며,
ETS-DACP는 DACP, TACP, 효율적 DACP 방법들 중 평균 성능이 가장 우수한 방식으로 나타났다.
이 성능 향상은 단순히 토큰 수 증가 때문이 아니며, 같은 수의 토큰으로 학습한 DACP보다도 성능이 높다.

이러한 결과는 비지도 task 데이터에 대해 수행된 task-adaptive 및 domain-adaptive 사전학습이 효과적임을 보여주며, 이는 작은 언어 모델에 대해 기존 연구(Aharoni and Goldberg, 2020)에서도 관찰된 결과와 일치한다.

근데 ETS-DACP는 평가 테스크마다, 모델이 다 다른거 아닌가?
특정 테스크에 맞는 llm을 학습하는데는 효과적이라 볼 수 있는듯

다음과 같은 핵심 결과를 관찰할 수 있다:

10% 데이터로 학습한 ETS-DACP는 전체(100%) 데이터로 학습한 DACP보다도 성능이 높다.
ETS-DACP는 모든 방식 중 최고의 성능을 보이며, 세 가지 메트릭을 결합한 ETS-DACP-com과 비슷한 수준이다.
task 데이터에 접근하지 않고도 학습한 ETA-DACP-ent(10%)는 성능이 DACP를 능가하며, 2위의 성능을 보인다.
Efficient DACP 방식에서는 hard sampling이 soft sampling보다 전반적으로 더 좋은 성능을 보인다.

이 결과는 연속 사전학습에 사용되는 데이터가 모두 같은 품질이 아님을 명확히 보여준다.

DACP에서 사용된 전체 데이터의 하위 집합만을 사용한 efficient DACP가 오히려 더 높은 성능을 내며, 비슷하거나 중요한(high-entropy 또는 task-relevant) 데이터 위에 불필요한 데이터를 추가하면 오히려 성능이 떨어질 수 있다는 점을 나타낸다.
이거는 나름 유의미한 findings인듯

hard sampling과 soft sampling 간의 성능 차이도 이를 뒷받침한다. 작업에 따라 다소 차이는 있으나, 평균적으로 덜 관련된 예시를 추가하는 것이 성능 저하로 이어진다. 단, ETS-DACP-com은 예외적으로 안정적인 성능을 유지한다.

따라서 도메인 연속 사전학습에서는 데이터를 신중하게 선별하는 것이 매우 중요하다.

참고로, 전체 도메인 데이터의 10%인 23.9억 토큰은, Pythia가 처음 학습된 3000억 토큰에 비하면 1%도 되지 않는 양이다. 그럼에도 정교한 데이터 선택을 통해 도메인 성능을 크게 향상시킬 수 있음을 보여준다.

마지막으로, 이러한 연속 사전학습으로 인해 모델이 범용성(generality)을 잃고 지나치게 특화(specialist)된 것 아닌가? 라는 질문이 생긴다.

이 질문에 답하기 위해, 우리는 도메인 특화 연속 사전학습 모델들의 비도메인 작업(out-of-domain tasks) 성능을 측정했다.

표 4는 4개의 비금융 작업에 대한 성능을 보여주며, 성능 변화는 유의미하지 않음을 확인했다.

크게 망각이나, 그런게 일어나지 않는다고 주장하고 싶은듯
그러기에 학습방법이 너무 노벨티가 없는데;;
단지 학습을 조금해서 그런거 아닌가?

4.3 사전학습 데이터 선택 비율에 대한 어블레이션

그림 2는 사전학습 데이터 선택 비율에 따른 성능 변화(어블레이션)를 보여준다.

ETS-DACP와 ETA-DACP-ent 방식은 전체 사전학습 데이터의 약 5% 수준에서 평균 F1 점수 59%로 성능이 포화되며, 그 이후 10%를 초과하면 성능이 하락하기 시작한다. 이는 정보성이 낮은 샘플이 추가되면 LLM이 덜 유용한 예제에 맞춰 분포를 조정하게 되어 오히려 성능이 떨어질 수 있음을 시사한다.

한편, DACP는 데이터 비율이 늘어남에 따라 꾸준한 성능 증가를 보인다.

Perplexity 기반 선택 방식에서는 흥미로운 경향이 나타났다. 1%의 고 perplexity 데이터만 사용했을 때는 DACP보다 높은 성능을 기록했지만, 그 이후 성능이 급격히 하락하여 5% 지점에서 최저점에 도달했다가 이후에 다시 회복된다. 1~5% 구간의 perplexity 기반 샘플을 무작위로 확인한 결과, 자연어 텍스트가 거의 없는 긴 테이블 형태의 예시들이 다수 포함되어 있었다. 이는 전체 사전학습 코퍼스나 평가 작업의 분포와는 다르게 구성된 데이터 분포로 인해 성능 저하가 발생했을 가능성을 보여준다.

데이터 선택 메트릭 비교

표 1과 그림 2의 결과로부터 다음과 같은 사실을 관찰할 수 있다:

가장 효과적인 방식은 task 유사도 기반 선택이다.
사전학습 시 task 데이터와 유사한 학습 데이터를 사용하는 것이 가장 유리하다.
Entropy(엔트로피)는 두 번째로 효과적인 task-agnostic 데이터 선택 기준이다.
엔트로피가 높은 샘플은 주로 **다양한 도메인 특화 엔티티(예: 이름, 조직 등)**를 포함하고 있어, 낮은 엔트로피 샘플보다 모델에 더 많은 도메인 지식을 제공할 가능성이 높다.
Perplexity는 특이한 현상을 보인다.
상위 1% 수준의 perplexity 샘플은 초기에는 도움이 되지만, 그 이상부터는 효과가 급격히 떨어진다. 높은 perplexity 샘플은 모델에게 새롭지만, 새로움은 분포 밖(out-of-distribution) 또는 낮은 품질에서 비롯될 수 있다.
실제로, perplexity 상위 1% 샘플은 고품질 금융 기사인 경우가 많았으나, 상위 1~5% 구간에서는 긴 표와 같은 노이즈성 샘플이 다수 포함되어 있었다. 따라서, perplexity는 노이즈에 민감하며, 엔트로피 기준보다 데이터 품질 저하 가능성이 크다.

또한 perplexity와 다른 두 메트릭 간의 상관계수는 낮았다:

task 유사도와의 상관관계: 0.21
엔트로피와의 상관관계: 0.14

이 결과는 유사도 기반 및 엔트로피 기반 선택 방식은 noisy 데이터를 피할 수 있는 반면, perplexity는 그렇지 못함을 보여준다.

결론

대부분의 대규모 데이터셋에는 노이즈가 포함되어 있기 때문에, perplexity 기반 데이터 선택은 좋은 선택이 아니다.
도메인 LLM이 보지 못한 새로운 task에 대해서도 잘 작동하길 원한다면, task-agnostic 방식의 사전학습이 더 바람직하다.
실험 결과를 종합하면, 엔트로피 기반 메트릭은 task-agnostic 설정에서도, 다운스트림 작업에서도 우수한 성능을 보였다.

5. 관련 연구

도메인 특화 대형 언어 모델 (Domain-specific Large Language Models)

현재 공개된 대부분의 대형 언어 모델(LLM)은 범용 목적으로 설계되어 있지만, 최근에는 도메인 특화 LLM도 가치 있는 대안으로 주목받고 있다.
예를 들어, MedPaLM은 의료 말뭉치로 학습되어 의료 벤치마크에서 최신 성능을 달성했으며(Singhal et al., 2022, 2023),
Bloomberg는 금융 데이터를 기반으로 처음부터 학습한 금융 특화 LLM을 개발하였다(Wu et al., 2023b).

이와 달리, **연속 사전학습(continual pre-training)**은 도메인 특화 LLM을 처음부터 새로 학습하지 않고 만드는 대안적인 접근법이다.
Wu et al. (2023a)은 LLaMA 모델(Touvron et al., 2023)에 의료 논문을 이용한 기본적인 연속 사전학습만으로도 의료 특화 LLM을 구축하였다.

언어 모델의 연속 사전학습 (Continual Pre-training of Language Models)

특정 작업에 대해 비지도 데이터로 연속 사전학습을 수행하는 것은 해당 작업의 성능 향상에 유의미한 효과가 있음이 입증되었다
(Aharoni and Goldberg, 2020; Gururangan et al., 2020).
예를 들어, Aharoni and Goldberg (2020)는 유사한 도메인의 데이터로 연속 사전학습을 수행하면 작업 성능이 향상됨을 보고하였다.

이와 가장 유사한 기존 연구는 **Xie et al. (2023b)**이며, 이들은 target task 분포와의 관련성에 따라 샘플에 가중치를 부여하는 중요도 기반 샘플링 기법을 사용하였다.
하지만 이 연구들 대부분은 task 데이터에만 의존하고 있으며,
우리는 이에 더해 task 유사도 정보 없이도 적용 가능한 방법인 ETA-DACP를 제안한다.
이는 task 유사도를 계산할 수 없는 경우에도 적용할 수 있다는 장점이 있다.

또 다른 접근인 **DAS(Ke et al., 2023)**는 학습 중 실시간으로 중요도를 샘플링하며,
별도의 사전 데이터 선택 없이 연속 사전학습을 수행한다.
그러나 이 방식은 기본 방식보다 약 3배 더 많은 계산 비용이 필요하며,
두 개의 모델 사본을 이용한 contrastive learning을 수행하므로 메모리 요구량도 매우 크다.

기존 연구 대부분은 BERT나 RoBERTa 같은 소형 언어 모델을 대상으로 수행되었으며,
우리는 **대형 언어 모델(LLM)**을 대상으로 연속 사전학습에서의 데이터 선택 문제를 탐구한 최초의 연구이다. (그래?)

데이터 선택 (Data Selection)

연속 사전학습에서의 데이터 선택은 훈련 과정에서 가장 유의미한 샘플을 고르는 핵심 단계이다.
특정 도메인이나 작업과 무관한 언어학적 특징이 데이터 선택과 학습 커리큘럼 구성에 효과적이라는 것은 이전 연구들(Ruder and Plank, 2017; Tsvetkov et al., 2016)에서도 밝혀졌다.

하지만 LLM의 사전학습, 특히 연속 사전학습에서 어떤 데이터를 선택하고 구성해야 하는지에 대한 이해는 매우 제한적이다.
현재까지 알려진 바에 따르면, LLM을 대상으로 연속 사전학습에서의 데이터 선택을 시도한 연구는 본 논문이 처음이다.

6. 결론

본 논문에서는 **도메인 적응 연속 사전학습(Domain-Adaptive Continual Pre-training)**이 도메인 특화 LLM을 개발하는 데 효과적임을 입증하였다.
실험 결과, 이 방식은 금융 작업에서 LLM의 성능을 향상시키며, 저비용으로 도메인 지식을 습득할 수 있게 함을 보여주었다.

또한 우리는 ETS-DACP와 ETA-DACP라는 효율적인 도메인 적응 연속 사전학습 기법을 제안하여 성능을 더욱 향상시켰다.
학습 데이터 선택 단계에서 선별적으로 데이터를 고르는 전략을 통해, 전체 데이터를 사용하는 기존 방식(vanilla continual pre-training)의 10% 비용만으로도 더 나은 결과를 달성할 수 있었다.

엔트로피 기반의 task-agnostic 데이터 선택은 task-aware 방식에 거의 필적하는 성능을 보였으며,
이는 특정 작업 정보가 없더라도 연속 사전학습을 위한 데이터 선택에 효과적으로 활용될 수 있음을 시사한다.

또한, 도메인 사전학습을 거친 LLM이 범용(open-domain) 작업에서 성능 저하를 보이지 않음도 확인하였다.
이는 도메인 특화 학습이 범용 능력에 해를 끼치지 않음을 의미한다.

결론적으로, 우리는 도메인 특화 LLM을 처음부터 새로 학습하는 방식에 대한 강력한 대안으로서 도메인 연속 사전학습을 제시하였다.
데이터를 스마트하게 선택하면, 기존 방식보다 훨씬 적은 비용으로 더 나은 성능을 얻을 수 있다.
‘데이터를 많이 넣을수록 좋다’는 일반적인 통념과는 달리, 데이터의 양뿐만 아니라 질도 중요하다는 점을 실험을 통해 보여주었다.

이전까지는 소형 언어 모델에 국한되어 연구되었던 도메인 연속 사전학습에 대해,
우리는 LLM 수준에서의 비용과 스케일을 고려한 새로운 통찰을 제공하였으며,
이를 통해 다양한 도메인 특화 LLM의 비용 효율적 개발에 기여할 수 있는 길을 열었다.

7. 한계

1. 막대한 계산 자원 요구

본 연구는 AWS의 p4d.24xlarge 인스턴스에서 실험을 수행하였으며, 하루 기준 800~1000달러에 해당하는 비용이 소요되었다.
이러한 실험은 고비용이며, 대부분의 연구자들이 접근하기 어려운 수준이다.

다만, 본 연구는 이러한 비용 문제를 해결하고자 하는 방법론 자체를 제안한 것이므로,
향후 LLM의 민주화에 기여할 수 있을 것으로 기대된다.
그러나 여전히 비용 장벽이 존재함은 부정할 수 없다.

2. 도메인 일반화 한계

모든 실험은 금융 도메인에만 국한되어 수행되었다.
따라서 본 연구 결과가 **다른 도메인(예: 의료, 법률 등)**에도 일반화될 수 있을지는 확실치 않다.
이는 도메인별 사전학습의 막대한 비용으로 인해 다른 도메인까지 확장하지 못했기 때문이다.

3. 모델 크기 일반화 한계

본 논문에서 제안한 데이터 선택 전략들은 Pythia 1B 모델에 한정되어 평가되었다.
이 전략이 더 큰 모델(예: 7B, 12B)에 동일하게 적용될 수 있는지는 확인되지 않았다.

특히, 논문에서 제시한 4가지 데이터 선택 전략을 모두 대형 모델에 적용하는 데에는 높은 계산 비용이 들기 때문에,
이러한 대규모 확장은 실험되지 못했다.

그러나 표 2에 따르면, 7B 모델에서의 연속 사전학습 성능 향상 폭(+8.27%)이 1B 모델(+2.82%)보다 훨씬 컸기 때문에,
대형 모델에서도 유사하거나 더 큰 이점이 있을 가능성이 있다.

4. 도메인 LLM 학습 전략 비교의 미비

본 연구는 처음부터 도메인 LLM을 학습하는 방식보다 훨씬 저렴한 대안을 제시하지만,
어떤 방식이 더 나은 전략인지에 대한 확실한 결론은 없다.

즉, 처음부터 도메인 LLM을 학습하는 것과 연속 사전학습 방식 중 어떤 것이 더 효과적인가에 대한 명확한 비교는 이루어지지 않았다.

Reference

https://aclanthology.org/2024.findings-acl.606.pdf

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-268, Efficient continual pre-training for building domain specific large language models, Findings of ACL 2024