◼ Comment

야놀자에서 continual pretraining으로 한국어 모델을 만든 과정을 담은 테크니컬 레포트 같은 개념이며, 나름 신선했다
토크나이저를 만드는데 일단 힘썻다

한국어 데이터를 추가하여 vocab expansion하는 과정을 소개함
토크나이저 초기화는 랜덤으로 하는게 아니고 기존 토큰 임베딩을 평균내는 것으로 함

그 다음 모델 학습할때, 한꺼번에 전체 학습하는게 아니라, 단계적으로 모듈을 학습해나간다

사실 이렇게 하는게 왜 좋은지는 입증되지 않았다
근데 GPU 부족때문에 이렇게 했을 수도 있다고 생각됨
어쨌거나 과정이 너무 세분화 되어있어서, 이렇게 하는게 최적인지 입증하기도 어려울거 같고
상황에 따라 다를 것 같은 느낌임
하지만 처음부터 Full-pretraining 안해도 괜찮을거 같은 느낌을 주긴함
단지 이렇게 간단히 했을때 성능이 꽤 괜찮다라고 주장하는 느낌임
또 부분별로 학습하다보니 1번째 학습단계에서(multi-stage training) 토큰의 첫번째를 타겟으로 학습해야 하게 되는 것도 괜찮은 전략인듯

왜냐하면 타겟쪽은 freeze되서 토크나이저가 똑같지 않아서 그런거 같음?

한국어 데이터는 오픈 데이터를 가져와서 전처리 해서 사용했다고함

불과 20억 토큰 규모의 학습만으로도 한국어 성능을 크게 끌어올릴 수 있음을 보여줌
또한 영어 성능이 거의 감소가 없었다는것도 의의가 있는 듯

Abstract

이 보고서는 EEVE-Korean-v1.0을 소개합니다. 이는 영어와 한국어 모두에서 뛰어난 이해 능력을 보여주는 대규모 언어 모델(LLM)을 한국어에 맞게 적응시킨 모델입니다. 기존의 강력하지만 영어 중심적인 LLM들(예: SOLAR-10.7B, Phi-2)은 영어 중심의 토크나이저를 사용해 비영어 텍스트를 비효율적으로 처리한다는 한계를 가지고 있었습니다. 이에 우리는 **효율적이고 효과적인 어휘 확장 방법(EEVE)**을 제안합니다. 이 방법은 파라미터 고정(parameter freezing)과 서브워드 초기화(subword initialization)를 포함합니다.

기존 연구들은 새로운 임베딩 학습에 수 조 개의 학습 토큰이 필요하다고 믿어왔지만, 우리는 20억 토큰만으로도 비영어(한국어) 성능을 크게 향상시킬 수 있음을 보여줍니다. 그 결과, 2024년 1월 기준 Open Ko-LLM 리더보드에서 대부분의 instruction-tuned LLM들을 능가했으며, EEVE-Korean-10.8B-v1.0 모델은 Hugging Face 리더보드 기준 오픈소스 커뮤니티 내에서 가장 성능이 뛰어난 한국어 사전학습 모델로 평가받고 있습니다.

우리는 이 모델을 Huggingface에 오픈소스로 공개하여 다양한 언어의 오픈 리서치 커뮤니티에 힘을 실어주고자 합니다.

1 Introduction

최근 GPT-4(OpenAI, 2023), Gemini(Team et al., 2023a), **Claude(Anthropic, 2023)**와 같은 대규모 언어 모델(LLM)의 발전은 다국어 처리 및 이해 능력에서 놀라운 성과를 보여주고 있습니다. 반면, LLaMA(Touvron et al., 2023a,b), MPT(Team et al., 2023b), Falcon(Almazrouei et al., 2023), Mistral(Jiang et al., 2023), Mixtral(Jiang et al., 2024), SOLAR(Kim et al., 2023), Phi-1.5(Li et al., 2023b) 등의 오픈소스 기반 LLM들은 영어 작업에서는 기준점을 세웠으나, 대부분 영어에 치우친 발전이 이루어져 비영어 언어에 대한 성능 격차가 여전히 존재합니다.

이 격차는 단지 언어 이해 능력뿐 아니라 계산 효율성에서도 드러납니다. 예를 들어, 한국어와 같은 비영어권 언어는 동일한 의미를 전달하기 위해 영어보다 훨씬 많은 토큰이 필요하며(도식 참조), 이로 인해 응답 시간 증가, 문맥 길이 제한, API 비용 상승 등 사용자 경험에도 부정적인 영향을 미칩니다(Petrov et al., 2023).

이를 해결하기 위해서는 자주 쓰이지만 긴 단어들을 새로운 토큰으로 추가하는 방식의 토크나이저 어휘 확장이 필수적입니다. 그러나 기존 연구에서는 새로운 임베딩 학습에 수 조 개의 토큰이 필요하다고 알려져 있어, 어휘 확장은 매우 도전적인 과제였습니다(Zhao et al., 2024).

이에 본 기술 보고서는 효율적이고 효과적인 어휘 확장 방법인 EEVE를 제안합니다. EEVE는 새로 추가된 토큰의 임베딩을 더 잘 학습할 수 있게 돕는 접근으로, 서브워드 기반 임베딩 초기화와 파라미터 고정을 포함한 7단계 학습 전략을 설계했습니다.

초기에는 입력 임베딩만을 학습하고, 점차적으로 전체 파라미터로 확장해가며, 기존 영어 중심 모델의 고급 능력을 한국어로 세밀하게 전이시킵니다.

이 방법을 기반으로 우리는 EEVE-Korean-10.8B-v1.0과 EEVE-Korean-2.8B-v1.0이라는 한국어 LLM 시리즈를 공식적으로 공개합니다. 이 모델들은 각각 SOLAR-10.7B와 Phi-2라는 영어 중심 모델을 기반으로 추가적인 한국어 중심 사전학습을 통해 구축되었습니다.

우리는 이 모델들을 영어 및 한국어 평가 작업에 대해 lm-evaluation-harness(Gao et al., 2023)를 통해 평가했습니다. 평가 항목에는 BoolQ(사실 여부 질의응답), COPA(상식적 인과 추론), WiC(문맥에 따른 단어 이해), HellaSwag(상식 추론), SentiNeg(감성 부정 인식) 등이 포함됩니다.

그 결과, OPEN-SOLAR-KO-10.7B(L. Junbum, 2024), Polyglot-Ko(Ko et al., 2023), KoGPT(Kim et al., 2021) 등 기존 한국어 사전학습 모델들을 능가하는 성능을 보였고, 기반이 되는 영어 모델의 강력한 영어 처리 능력 역시 그대로 유지함을 확인했습니다. 이로써 EEVE-Korean 모델은 Open Ko-LLM Leaderboard(Park et al., 2023) 기준, 현재 오픈소스에서 가장 우수한 한국어 사전학습 LLM으로 평가받고 있습니다.

2 Efficient and Effective Vocabulary Expansion

영어 중심의 언어 모델(LLM)을 비영어 언어로 효율적으로 확장하는 과제를 해결하기 위해, 우리는 어휘 확장을 위한 새로운 방법론을 제안합니다.

이 방법은 **파라미터 고정(parameter freezing)**과 **서브워드 기반 임베딩 초기화(subword-based embedding initialization)**를 결합하여, 기존 학습 범위를 넘어선 새로운 언어의 토큰들을 효과적으로 통합하고 적응할 수 있게 합니다.
이를 통해 다양한 언어 환경에서도 모델의 활용성을 크게 향상시킬 수 있습니다.

우리가 제시하는 접근법은 총 7단계의 구조화된 학습 과정을 포함하며, 이는 Figure 1에 나타나 있습니다.

이 단계들은 신규 토큰을 모델 어휘에 정교하게 통합할 수 있도록 설계되었습니다. 프리트레이닝 과정에서의 주요 목표는 **인과적 언어 모델링(causal language modeling)**입니다.

우리의 핵심 가정은, 기초 모델이 영어 데이터를 통해 이미 상당 수준의 이해와 추론 능력을 학습했기 때문에, 이러한 능력을 한국어와 같은 다른 언어로 **전이(transfer)**하는 것이 처음부터 한국어 전용 모델을 학습하는 것보다 훨씬 효율적일 수 있다는 점입니다.

2.1 사전 작업 1: 토크나이저 학습

우리는 한국어 말뭉치에 기반하여 새로운 토크나이저를 학습했습니다. 우리의 목표는 기반 모델의 성능을 최대한 활용하는 것이므로, 기존 모델의 어휘를 그대로 유지하면서, 말뭉치에서 최소 6,000회 이상 등장한 단어 중 가장 빈도가 높은 8,960개 토큰을 추가했습니다. 그 결과, EEVE-Korean-10.8B-v1.0의 토크나이저 어휘 크기는 총 40,960개로 확장되었습니다.

이 과정은 여러 차례의 토크나이저 학습과 수작업 기반의 토큰 선별을 포함하였으며, 토큰 빈도 분석을 통해 모델에 필요한 핵심 어휘가 포함되도록 정교하게 조정했습니다.

표 1에서 보여지듯이, 이 작업을 통해 한국어 텍스트의 전체 토큰 소비량이 약 3배 가까이 개선되었으며, 이는 전체 학습 과정에서의 계산 비용 절감에도 크게 기여하였습니다.

2.2 사전 작업 2: 서브워드 기반 임베딩 초기화

본격적인 학습에 앞서, 우리는 새로운 **입력 임베딩(embed_tokens)**과 **출력 임베딩(lm_head)**을 모델의 파라미터에 추가합니다. 이 단계는 이후 정교한 학습 과정을 위한 사전 준비 단계로 매우 중요합니다.

새롭게 추가된 토큰들의 입력 임베딩은 해당 토큰을 구성하는 서브워드(subword)들의 평균 임베딩으로 초기화합니다(Hewitt, 2021; Welch et al., 2020 참조).

이 방식은 기존 모델이 학습한 서브워드 임베딩의 의미 정보를 효과적으로 활용하여, 새로운 토큰이 의미 있는 표현을 가질 수 있도록 출발점을 제공합니다.
완전 랜덤 초기화는 아니구나

반면, 새로운 토큰의 출력 임베딩은 해당 토큰을 구성하는 첫 번째 서브워드의 임베딩 값으로 초기화됩니다.

이 전략은 출력 예측 시 새로운 토큰의 의미적 특성이 기존 서브워드와 잘 연결되도록 조정하는 데 목적이 있으며, 모델의 예측 프레임워크에 원활히 통합되도록 돕습니다.

이러한 초기화 전략의 중요성은 이후의 섹션에서 더 자세히 다룰 예정입니다.

2.3 다단계 학습(Multi-stage Training)

이 절에서는 영어 중심의 기존 훈련 범위를 넘어선 다른 언어에서 도입된 신규 토큰들을 효과적으로 통합하기 위한, 총 7단계의 정교한 학습 방법론을 설명합니다. 이 접근법은 효율적인 어휘 확장을 위한 핵심 절차로 설계되었습니다.

1단계: 신규 입력 임베딩 학습 (new input embeddings)

초기 단계에서는 신규로 추가된 토큰들의 입력 임베딩만 학습하고, 나머지 모델 파라미터는 모두 고정합니다.

이 단계는 매우 중요하며, 모델이 처음부터 새로운 토큰을 인식하고 처리하는 방식에 적응할 수 있도록 기반을 마련합니다.
앞서 설정한 초기 임베딩 값(2.2절 참고)은 새로운 토큰들이 기존 모델 구조에서 잘 활용될 수 있도록 가이드 역할을 합니다.

이 단계에서의 주요 가설은 다음과 같습니다:

입력 시퀀스와 출력 시퀀스를 서로 다르게 설정할 수 있다면(예: 입력은 새로운 토크나이저 사용, 출력은 기존 토크나이저 사용), 모델은 기존 토큰 임베딩 공간의 지식을 활용하여 새로운 어휘 임베딩을 더 효율적으로 학습할 수 있다.

그러나, 입력과 출력을 서로 다른 토크나이저로 처리하면 시퀀스 불일치로 인해 teacher forcing 적용이 어렵다는 구현상의 한계가 존재합니다.

이에 대한 해결책으로, 우리는 기존 토크나이저 기반의 서브워드 임베딩 초기화 방법을 사용합니다.
이 방법은, 모델이 새로운 전체 단어 토큰을 입력받고, 그에 해당하는 첫 번째 서브워드 토큰을 출력하도록 학습되며, 결과적으로 새 토큰과 기존 서브워드 간 표현 정렬을 유도할 수 있습니다.

이렇게만 해도 제대로된 align이 되려나?
이해하기론, "안녕하세요"가 원래는 "안", "녕", "하", "세", "요"로 쪼개지는데
새로운 토크나이저는 "안", "녕", "하세요"라고 쪼개진다고하자
그러면 녕"에 대한 출력은 "하"가 되도록 학습한다는거 같음 ("하세요"가 아닌)

즉, 입력 임베딩만 학습하면서도 입력과 출력 시퀀스를 변경하지 않고도 새 토큰과 기존 서브워드 간 의미 연결을 학습할 수 있는 방법입니다 (Figure 2 참조).

다만, 이 시점에서는 같은 hidden state를 공유하는 여러 토큰들을 모델이 구분하지 못하는 한계가 존재합니다.

"하세요"와 "하지마" 이런 거가 같은 "하"로 학습되니까 문제가 된다는듯

2단계: 신규 출력 임베딩 학습 (new output embeddings)

이 단계에서는 출력 임베딩(lm_head)만 조정하여, 모델이 새로운 토큰을 다양한 문맥에서 정확하게 생성할 수 있는 능력을 향상시키는 것을 목표로 합니다. 이때에도 다른 모든 파라미터는 동결(freeze) 상태로 유지됩니다.

이러한 설계는 초기 모델 상태가 아직 불안정하기 때문입니다. 만약 입력 임베딩과 출력 임베딩을 동시에 학습하면 수렴(convergence)이 어려워지고, 모델의 최적 성능 달성에도 방해가 될 수 있습니다. 따라서 입출력 임베딩을 순차적으로 학습함으로써 안정적인 학습 수렴을 유도합니다.

또한, 이 방식은 다른 층들에 대해 역전파(backpropagation)를 수행할 필요가 없으므로 학습 시간 또한 상당히 절약됩니다.

Stage 3 (신규 입력 및 출력 임베딩):
이 단계에서는 입력 임베딩(embed_tokens)이 여전히 출력 임베딩의 초기 값에 기반해 최적화된 상태입니다. 이제 새로 추가된 토큰들의 입력 및 출력 임베딩을 동시에 업데이트할 수 있게 되어, 입력과 출력 임베딩 간의 정렬을 맞추는 학습이 진행됩니다. 이를 통해 모델은 새 토큰들을 이해하고 예측하는 데 모두 사용할 수 있도록 학습합니다.

Stage 4 (기존 출력 임베딩 전체):
이전 단계까지는 기본 모델의 기존 파라미터들이 모두 고정되어 있었기 때문에, 기존 토크나이저와 새로운 토크나이저 간의 로짓(logit) 스케일이 달라졌거나 전체 어휘로 사용되기엔 최적화가 부족하다고 판단했습니다. 이 단계에서는 기존 토큰들의 출력 임베딩도 업데이트할 수 있게 하여, 새 토큰의 생성 능력을 향상시키고자 합니다. 초기 실험에서는 이 단계가 모델의 생성 성능을 높이는 데 중요한 역할을 한다는 것을 확인했습니다.

Stage 5 (신규 입력 + 전체 출력 임베딩):
이 단계에서는 전체 어휘에 대한 출력 임베딩을 미세 조정(fine-tuning)하면서, 새롭게 추가된 토큰들의 입력 임베딩 또한 계속해서 정교화합니다. 목표는 확장된 어휘 내 어떤 토큰도 정확히 예측할 수 있도록 모델을 조정하는 것입니다. 이 단계는 새로운 토큰들이 모델의 언어적 이해에 잘 통합되도록 하는 데 중점을 두며, 입력과 출력에서 모두 효과적으로 반영되도록 돕습니다. 이를 통해 전체 언어 생성 성능이 자연스럽게 확장된 어휘와 함께 향상됩니다.

Stage 6 (모든 레이어):
이 단계는 최종 단계라기보다는 확장된 어휘 통합을 위한 고도화 단계입니다. 이 시점부터는 새로 도입된 파라미터뿐만 아니라 기존 모델의 모든 파라미터도 함께 업데이트됩니다. 이 과정에서는 QLoRA와 같은 기술을 활용하여 학습 효율을 높이는 동시에 기존 모델의 뛰어난 성능을 최대한 보존하면서 확장된 어휘를 효과적으로 통합합니다.

Stage 7 (내부 레이어):
모든 통합과 최적화 과정 이후 이 단계는 일종의 "정리 단계"로, 입력 및 출력 임베딩을 제외한 내부 레이어들의 업데이트에 집중합니다. 이 과정을 통해 확장된 어휘 학습으로 강화된 기능이 모델의 핵심 처리 구조 속에 깊이 반영됩니다. 결과적으로 모델은 새로운 토큰을 인식하고 생성할 수 있을 뿐 아니라, 다양한 언어적 맥락에서 이들을 정교하게 활용할 수 있도록 준비됩니다.

다음은 "3. Implementation Details"의 전체 내용을 자연스러운 한국어로 번역한 것입니다:

3 구현 세부사항

3.1 데이터셋

프리트레이닝을 위해, 다양한 공개 한국어 말뭉치(예: 한국 웹 콘텐츠, 영어 어휘, AI Hub의 한-영 병렬 코퍼스 등)를 선별하여 수집하였습니다. 고품질 프리트레이닝 코퍼스를 구성하기 위해 아래와 같은 전처리 규칙들을 적용했습니다:

PPL(perplexity)-기반 필터링,
n-그램 반복(Li et al., 2023a)-기반 필터링,
불용어(stopword)-기반 필터링

또한 새로 추가된 한국어 토큰 학습을 보다 효과적으로 수행하기 위해, 이들 토큰이 충분히 포함되지 않은 문서들은 의도적으로 제거하였습니다. 최종적으로 약 320만 개의 문서(또는 6.7GB) 분량의 프리트레이닝 코퍼스를 구성했습니다.

Table 2에 나타난 바와 같이, 전체 코퍼스를 처리하는 데 SOLAR 토크나이저는 약 31억 개의 토큰을 필요로 했던 반면, EEVE-Korean 모델은 16억 개의 토큰만으로 이를 처리할 수 있었습니다.

이 차이는 Phi-2와 EEVE-Korean-2.8B 모델에서 더욱 두드러지며, 각각 56억 개와 16억 개의 토큰이 요구되었습니다.

트랜스포머 모델의 계산 복잡도가 토큰 길이에 대해 제곱적으로 증가한다는 점을 고려했을 때, 이 차이는 두 가지 관점에서 해석할 수 있습니다:

동일한 GPU에서 4배 이상 긴 시퀀스를 처리할 수 있다.
동일한 데이터셋으로 모델을 약 4배 더 효율적으로 학습시킬 수 있다.

이는 특히 Phi-2와 EEVE-Korean-2.8B 토크나이저의 경우에서 더욱 두드러집니다.

EEVE-Korean 모델의 파인튜닝은 LLaMA-Factory 구현체 기반의 DPO(Direct Preference Optimization; Rafailov et al., 2023) 방식으로 수행했습니다.
모델의 한국어 명령어 이해 능력을 더욱 강화하기 위해, 공개된 인스트럭션 데이터셋인 Orca(Mukherjee et al., 2023; Lian et al., 2023)와 UltraFeedback(Cui et al., 2023)을 한국어로 번역하여 활용했습니다.

이 데이터셋 번역 과정에서 프로그래밍 코드 형식 유지 및 번역 오류 수정(예: 원문과 번역문이 모두 한국어로 변환되는 오류 등)은 모델 품질과 효과를 유지하는 데 매우 중요했습니다.

우리는 이 파인튜닝 모델들을 EEVE-Korean-Instruct라고 명명했습니다.

3.2 트레이닝

기반 아키텍처로는 SOLAR-10.7B(Kim et al., 2023)와 Phi-2(Li et al., 2023b)를 채택했습니다.
이 두 모델은 유사한 크기의 LLM 중에서도 우수한 성능을 보여주었고, 우리의 전략적 훈련 목표에도 잘 부합하여 한국어에서의 언어 이해와 추론 성능을 확보하고자 이들을 기반으로 삼았습니다.

모델 버전별 트레이닝은 다음 두 코드베이스를 사용하여 수행했습니다:

Axolotl: 초기 프리트레이닝 단계
LLaMA-Factory: 이후 파인튜닝 단계

이 두 코드베이스는 전체 트레이닝 과정에 신뢰성 있는 기반을 제공했습니다.

트레이닝 환경은 다음과 같습니다:

8개의 NVIDIA H100 (각 80GB 메모리) GPU
64개 CPU 코어

모델별 설정은 다음과 같습니다:

EEVE-Korean-10.8B-v1.0:
- bf16 정밀도
- 시퀀스 길이: 4096
- gradient accumulation: 4
- micro-batch size: 8
- 학습률: 4e-5
EEVE-Korean-2.8B-v1.0:
- 시퀀스 길이: 2048
- gradient accumulation: 16
- micro-batch size: 16
- 학습률: 2e-4

두 모델 모두 AdamW(Loshchilov and Hutter, 2018) 옵티마이저와 cosine learning rate scheduler(warmup step 10 포함)를 사용했습니다.

각 스테이지마다 loss 수렴까지 훈련을 지속했으며, 대부분 400 global step 이전에 loss가 수렴하는 양상을 보였습니다. 이는 우리 훈련 전략의 효율성을 시사합니다.
총 7단계로 구성된 훈련 전략임에도 불구하고, 2.8B 모델은 전체 프리트레이닝을 2일 이내에 완료할 수 있었습니다. 이는 출력 임베딩만을 최적화하는 단계에서는 계산 비용이 적기 때문입니다.

4. 평가

우리는 한국어와 영어 LLM 벤치마크 모두에서 모델을 평가하여, 기반 파운데이션 모델의 강력한 다국어 능력을 효율적으로 활용할 수 있는 우리의 어휘 확장 기법의 장점을 강조한다. 바람직하게는, 모델이 한국어 작업에서는 성능이 향상되고 영어 작업에서는 기존과 유사한 성능을 보이기를 기대한다.

4.1 벤치마크

한국어 작업의 경우, 우리는 언어 이해와 추론의 다양한 측면을 평가하도록 설계된 KoBEST 벤치마크(Jang et al., 2022)를 채택한다. 이 벤치마크는 다음과 같은 언어 이해 과제의 한국어 번역 버전을 제공한다: 불리언 질문 응답(BoolQ; Clark et al., 2019), 상식적 인과 추론(COPA; Roemmele et al., 2011), 문맥 기반 단어 이해(WiC; Pilehvar and Camacho-Collados, 2019), 상식 추론(HellaSwag; Zellers et al., 2019), 그리고 감정 부정 인식(SentiNeg).

영어 작업의 경우, 우리는 KoBEST의 원본 영어 태스크인 BoolQ, COPA, HellaSwag를 사용한다. 이는 영어와 한국어 간 LLM의 능력 정렬(alignment)을 더 잘 부각시킬 수 있다. 일관된 비교를 보장하기 위해, 우리는 오픈소스 LLM 평가 프레임워크인 lm-evaluation-harness(Gao et al., 2023)를 사용한다.

4.2 결과

표 3에서는 EEVE-Korean과 EEVE-Korean-Instruct 두 변형 모델의 평가 결과를 다른 최고 성능 모델들과 비교하여 제시한다.

EEVE-Korean-10.8B-v1.0은 평균 성능 기준으로 유사한 크기의 다른 사전학습(pretrained) 모델들을 능가한다. 주목할 점은, EEVE-Korean만이 영어 성능을 저해하지 않으면서 한국어 성능을 향상시킨 유일한 사례라는 것이다.

예를 들어, 동일한 베이스 모델 위에서 구축된 OPENSOLAR-KO-10.7B는 EEVE-Korean-Instruct-10.8B-v1.0보다 약간 더 나은 성능을 보이지만, 영어 과제에서는 베이스 모델인 SOLAR-10.7B-v1.0보다 낮은 성능을 보여 영어 능력을 유지하지 못한다. 이와 유사한 경향은 소형 모델에서도 관찰된다. 예컨대, Phi-2를 베이스로 공유하는 phi-2-ko-v0.1 모델과 비교했을 때 EEVE-Korean-2.8B-v1.0 역시 우수한 성능을 보인다.

이는 경쟁 모델들보다 더 적은 학습 토큰을 사용했음에도 불구하고 EEVE의 학습 전략이 효과적임을 입증한다.

흥미롭지만 놀랍지 않게도, 영어 데이터셋으로의 preference tuning(선호도 기반 튜닝)은 한국어 작업에서 모델 성능을 오히려 저하시킨다.

예를 들어, LLaMA-2의 preference-tuned 버전인 LLaMA-2-chat 계열은 영어 BoolQ 과제에서 성능이 향상되었다(LLaMA-2-7B: 0.7774 → LLaMA-2-7B-chat: 0.7976).
반면, 같은 모델이 한국어 BoolQ 과제에서는 성능이 하락한다(LLaMA-2-7B: 0.5242 → LLaMA-2-7B-chat: 0.5157). 이는 LLM의 한국어 특화 학습의 중요성을 보여준다.

반면, EEVE 모델에 대해 한국어 인스트럭션 데이터셋으로 preference tuning을 적용했을 때는 영어 성능이 손상되지 않았고 오히려 향상되었다.

우리는 그 이유를, 이미 한국어와 영어 토큰 간 임베딩 공간이 잘 정렬되어 있기 때문에 특정 언어로의 미세 조정(fine-tuning)이 모델 파라미터에 큰 영향을 미치지 않기 때문이라고 본다.
원래 한국어 데이터로 추가 instruction tuning하면 영어 성능이 떨어지는게 정상일거 같은데.. EEVE는 안그렇다는 것

5. 결론 및 향후 연구

이 보고서는 한국어 대형 언어 모델의 확장 버전인 EEVE-Korean-v1.0을 소개하며, 한국어 텍스트 처리 능력을 획기적으로 향상시키기 위한 효율적이고 효과적인 어휘 확장(Efficient and Effective Vocabulary Expansion, EEVE) 기법을 도입하였다. 이 기법은 파라미터 고정(parameter freezing)과 서브워드 초기화(subword initialization)에 기반하여, EEVE-Korean-10.8B-v1.0 모델이 한국어 과제에서 뛰어난 성능을 보이는 동시에 영어 능력도 유지할 수 있도록 한다.

불과 20억 토큰 규모의 말뭉치만을 사용하여 이러한 성과를 달성했다는 점에서, 이 접근 방식은 언어 모델 학습의 효율성과 효과성을 크게 향상시킨 중요한 진전을 나타낸다.
또한, 이 모델들을 연구 커뮤니티에 공개함으로써, 더 포괄적이고 효율적인 언어 처리 기술의 발전에 기여하고자 한다.

향후 연구 방향으로는 EEVE 어휘 확장 기법을 다른 언어에도 적용하여 그 범용성과 효과성을 검증할 계획이다. EEVE-Korean 모델의 언어적 범위를 확장하는 것뿐만 아니라, 복잡한 수리 추론 과제(GSM8K; Cobbe et al., 2021) 및 챗봇과 같은 상호작용 환경에서의 인간 평가(Zheng et al., 2023) 등을 통해 추론 및 생성 능력을 더 깊이 있게 평가할 것이다.

또한, 프리트레이닝 데이터 품질 향상, 코드 스위칭(code-switching) 시나리오에 대한 성능 분석(Zhang et al., 2023) 등도 병행하여 모델의 견고함과 다양성을 더욱 강화할 계획이다. 이러한 일련의 연구는 모델의 적용 가능성과 성능을 넓히고, 고급 언어 모델이 도달할 수 있는 한계를 확장하는 데 기여할 것이다.

Reference

https://arxiv.org/abs/2402.14714

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-260, Efficient and Effective Vocabulary Expansion Towards Multilingual Large Language Models, Preprint 2024