◼ Comment

24년 10월 엔비디아 논문으로 LLM의 continual pretraining에 대한 것이다
이쪽 분야는 찾아봐도 막 대세 방법? 이런건 없고 짜잘자잘하게 조금씩 논문이 있는 느낌이다

이 논문을 읽어봐도 사실 큰 novelty가 있는건 아니고, 우리 힌디어에 대해 해봤어! 이런느낌이다
아무래도 연구적인것보다는 실무적으로 접근하는게 많아서 그런가?

일단 Nemotron-mini 4b을 시작점으로 잡는다

참고로 이 모델은 Nemotron 15B을 p&d을 통해 만든것이다
(그리고 힌디어 데이터도 소량있다고 한다 (전체 8조 학습토큰중 200억토큰)

이제 힌디어 코퍼스를 가져와서 학습하는건데..

힌디어 코퍼스는 부족하기 때문에 수동으로 만든다
1) 고품질 영어 데이터 -> 번역기로 힌디어 코퍼스 구축

MuRIL 토큰화(Khanuja et al., 2021)를 기반으로 훈련된 n-gram 언어 모델을 사용해 저품질 샘플을 걸러냅니다.
번역된 힌디어 데이터는 약 600억 토큰으로 구성됩니다.

2) 여기에 웹 스크래핑을 통해 수집한 약 400억 개의 실제 토큰을 결합하여 총 1000억 개의 힌디어 토큰 데이터셋을 만듭니다.
3) 또한, 이 힌디어 텍스트 전체를 로마자 스크립트로 음역하여 데이터셋을 2200억 토큰으로 확장합니다.

전체 텍스트에는 NeMo-Curator를 사용해 유사 문서를 제거하는 퍼지 중복 제거(fuzzy deduplication)가 수행됩니다.

pretraining 학습

데이터셋은 힌디어와 영어가 균등하게 혼합된 4000억 토큰으로 구성됩니다.
배치 샘플링 중에는 합성 데이터보다 실제 데이터에 더 큰 가중치를 부여합니다.

post-training 학습

고품질 힌디어 SFT 코퍼스가 부족하기 때문에, 우리는 영어 전용 데이터를 SFT에 활용했습니다.

이것도 나름 findings인 듯, 영어 SFT을 했는데 힌디어 instruction-following 능력이 향상?

DPO 단계에서는 약 20만 개의 영어 샘플과 6만 개의 합성 힌디어 샘플을 사용했습니다.

합성 힌디어 샘플은 영어 샘플을 번역한 후 역번역 방법을 사용하여 필터링하여 생성되었습니다.

이랬을때 전체적으로 성능이 괜찮다고 한다

물론 영어 성능이 다소 감소되긴하나 그래도 괜찮다고 주장
힌디어 성능이야 올라갔다고 주장하나 Gemma9b 모델보다는 안좋아보임 (모델 크기차이 때문인가?)

사실 분석이 조금 부족하다고 느낀다

예를 들어, 베이스라인으로 scratch에서부터 학습해보는것은?
학습데이터의 ablation이라든지..
엄밀하게 실험을 하지 않았을거고 그래서 논문에서 리포트 안했겠지만
어쨌거나 저쨌거나 언어간의 continual pretraining할때 뭔가 큰 메트릭 같은건 아직 없는게 아닐까?

Abstract

다국어 대규모 언어 모델(LLM)은 다양한 언어를 지원하지만, 저자원 언어(데이터가 부족한 언어)에서는 성능이 떨어집니다. 이 연구에서는 다국어 LLM의 지속적인 사전 훈련과 번역 기반 합성 사전 훈련 코퍼스를 활용하여 저자원 언어에서 LLM 성능을 향상시키는 중요성을 강조합니다. 우리는 저자원 인도 언어인 힌디어를 대상으로 연구를 진행했습니다. 우리는 힌디어와 영어를 모두 지원하는 이중 언어 소규모 언어 모델(SLM)인 Nemotron-Mini-Hindi 4B를 소개합니다. 이 모델은 Nemotron-Mini 4B를 기반으로 하며, 실제 및 합성 힌디어와 영어 토큰을 혼합하여 4000억 토큰으로 지속적인 사전 훈련을 수행했습니다. 우리는 기본 모델과 지시 모델 모두 힌디어 벤치마크에서 최첨단 결과를 달성하며, 영어 작업에서도 경쟁력을 유지한다는 것을 입증했습니다. 또한, 지속적인 사전 훈련 접근법이 모델의 전반적인 사실 정확도를 향상시킨다는 것을 관찰했습니다.

1 Introduction

대규모 언어 모델(LLM)의 정확도와 유용성은 시간이 지남에 따라 지속적으로 향상되어 왔습니다. 비공개 및 오픈소스 LLM 모두 영어와 여러 다른 언어에서 강력한 성능을 보여주었습니다. Nemotron(Adler et al., 2024), Gemma(Team et al., 2024), Llama(Dubey et al., 2024)와 같은 오픈 모델은 본질적으로 다국어를 지원합니다.

예를 들어, Nemotron-4 15B 모델은 8조 토큰으로 사전 훈련되었으며, 이 중 15%가 다국어 데이터였습니다(Parmar et al., 2024).

하지만 다국어 데이터의 비율이 제한적이기 때문에 비영어 언어에서의 모델 정확도가 영향을 받습니다.
Nemotron이 다국어 모델이긴 한데, 영어에서만 성능이 좋은 편인가봄

모델의 성능은 고자원 언어에서 저자원 언어로 갈수록 더욱 저하됩니다. 이 연구에서는 저자원 인도 언어인 힌디어를 대상으로 삼았습니다.

Nemotron-4 모델을 훈련시키는 데 사용된 8조 토큰 중 힌디어 토큰은 단지 200억 개에 불과합니다.
그 결과, 이 모델은 힌디어 콘텐츠를 어느 정도 이해하고 생성할 수 있지만, 특정 저자원 언어에 대한 다국어 LLM의 실용성은 의문입니다.
데바나가리 문자로 작성된 순수 힌디어 쿼리에 응답할 때 잦은 환각(hallucination), 의미 없는 문장, 영어 콘텐츠 혼합 등이 발생합니다.
따라서 다국어 LLM을 대상 언어에 적응시켜 실용성을 높일 필요가 있습니다.
힌디어를 모르는 것은 아니나 환각이 심하고 의미가 없는 문장들을 많이 생성하는 문제

최근 인도 언어의 맥락에서, 특정 언어에 LLM을 적응시키기 위해 대상 언어 지도 미세 조정(SFT)이 일반적인 관행이 되었습니다(Gala et al., 2024).

그러나 언어별 조정이 지역적 맥락에 대한 LLM의 이해를 향상시키는지 여부는 아직 연구가 필요합니다.
일부 연구는 SFT가 LLM에 새로운 도메인 지식을 도입할 수 있다고 제안하지만, 주로 모델의 지시 따르기(instruction-following) 능력을 향상시키는 데 사용됩니다(Mecklenburg et al., 2024).
번역된 영어 지시 튜닝 데이터를 사용한 SFT는 인도 언어용 지역 LLM 개발에 널리 사용됩니다. 이는 대상 언어의 지시 따르기를 개선할 수 있지만, 지역적 맥락에 대한 LLM의 이해를 향상시키지 않을 수 있습니다(Balachandran, 2023).
LLM 지식을 업데이트하는 또 다른 방법은 지속적인 사전 훈련이지만, 저자원 언어의 토큰 가용성이 제한적이어서 이는 실행이 어렵고 과적합(overfitting)에 취약합니다.
새로운 언어에 대한 지식 주입은 SFT 같은걸로도 할 수 있으나.. regional contexts?에 대한 이해가 향상되는지는 아직 밝혀진바 없나봄
따라서 그냥 영어 지시 튜닝 데이터를 SFT하면 안될건 없지만, 부족하다고 함
그래서 pretraining으로 지식 주입을 제안하는데 적은 데이터가 문제인 점

이 연구에서는 실제 코퍼스와 합성 코퍼스를 혼합한 지속적인 사전 훈련 접근법에 초점을 맞췄습니다. 우리는 견고한 기본 모델이 소규모 지속적인 사전 훈련 코퍼스로 대상 언어에 적응할 수 있음을 보여줍니다.

이 접근법은 훈련 데이터가 제한적인 저자원 언어에 특히 적합합니다. 합성 사전 훈련 데이터셋은 고품질의 일반 영어 코퍼스를 대상 언어로 번역하여 생성됩니다.
대상 언어의 로마자 스크립트 쿼리를 지원하기 위해 텍스트를 로마자로 변환하여 코퍼스를 확장하고 사전 훈련에 사용했습니다.
이후 기본 모델은 지도 미세 조정(SFT)과 직접 선호 최적화(DPO)를 통한 선호도 조정으로 정렬됩니다.
우리는 지속적인 사전 훈련 접근법이 환각을 줄이고, LLM의 지역 지식을 향상시키며, 대상 언어의 응답 능력을 개선하는 데 특히 유용하다는 것을 관찰했습니다.
이 과정의 개요는 그림 1에 설명되어 있습니다.
고품질 영어 데이터를 번역해서 사용했다라.. 번역기 성능에 의존성이 생길 수 밖에 없긴함. 이 번역기는 어떻게 학습할건데?
텍스트를 로마자로 변환해서 코퍼스 확장했다고함
SFT, DPO 데이터는 영어 데이터에 대해서만 한거 같음 -> 뒷부분에서 더 자세히

이 접근법을 기반으로, 우리는 힌디어 언어를 위한 최첨단 SLM인 Nemotron-Mini-Hindi-4B-Base와 Nemotron-Mini-Hindi-4B-Instruct를 제시합니다. 이 SLM들은 힌디어, 영어, 힝글리시(Hinglish)를 지원합니다. 힌디어 모델은 다국어 Nemotron-Mini-4B(일명 Minitron-4B)를 기반으로 하며, 4000억 개의 힌디어와 영어 토큰으로 지속적인 사전 훈련을 통해 적응되었습니다.

데이터는 두 언어가 균등한 비율로 혼합되었습니다.

지시 모델은 SFT와 DPO 기법을 사용해 개발되었습니다. 이 모델은 IndicXTREME, IndicNLG 벤치마크 작업 및 MMLU, Hellaswag, ARC-C, ARC-E와 같은 인기 있는 번역된 영어 벤치마크에서 유사한 크기의 모든 모델을 능가합니다(Gala et al., 2024). 또한, IndicQuest(Rohera et al., 2024)와 내부 SubjectiveEval 벤치마크 데이터를 사용한 LLM 기반 평가를 수행했으며, GPT-4를 평가 LLM으로 사용했습니다. 이는 이러한 이중 언어 모델을 제시하고 평가한 최초의 연구입니다. 우리는 두 언어에 대한 모델을 철저히 연구했습니다.

2 Related Work

이 섹션에서는 LLM을 다양한 언어에 적응시키는 여러 접근 방식을 검토합니다. 여러 노력들이 LLaMA 모델을 인도어에 적응시키는 데 초점을 맞추었습니다. 일반적인 방법은 어휘를 확장한 다음, 번역된 자료와 인도어로 사용 가능한 SFT 코퍼스를 사용하여 SFT 또는 PEFT(LoRA)를 수행하는 것입니다. 이러한 연구의 예로는 OpenHathi, Airavata(Gala 외, 2024), TamilLLaMA(Balachandran, 2023), Navarasa, Ambari, MalayaLLM, Marathi-Gemma(Joshi, 2022) 등이 있습니다. 특히, 이러한 노력들 중 일부는 사전 훈련 코퍼스에서 영어와 대상 언어를 번갈아가며 이중 언어 다음 단어 예측을 사용합니다. Airavata는 또한 인도어 LLM을 위한 평가 프레임워크를 도입했으며, 우리는 이를 활용하여 Nemotron-Mini-Hindi 4B와 다른 다국어 모델을 평가합니다.

인도어 외에도, 중국어 LLaMA(Cui 외, 2023), LLaMATurk(Toraman, 2024), FinGPT(Luukkonen 외, 2023), RedWhale(Vo 외, 2024)과 같이 각각 중국어, 터키어, 핀란드어, 한국어를 위한 유사한 노력이 있었습니다. 이러한 LLM들은 토크나이저 확장, 2차 사전 훈련, 지도 학습 미세 조정과 같은 기술 중 하나 이상을 사용합니다.

우리 연구의 핵심적인 차이점은 이중 언어 LLM 개발에 중점을 둔다는 점이며, 앞서 언급한 노력들은 단일 언어 LLM 개발에 집중했습니다.

Cahyawijaya 외(2024)는 대규모 언어 모델이 맥락 내 학습과 몇 가지 예시를 사용하여 저자원 언어를 효과적으로 학습할 수 있음을 보여주었습니다. 이는 광범위한 조정 없이도 교차 언어적 맥락을 통해 성능을 향상시킵니다. Gurgurov 외(2024)는 ConceptNet의 데이터를 사용하는 어댑터를 활용하여 저자원 언어를 위한 다국어 LLM을 향상시켰으며, 감정 분석과 개체명 인식에서 성능을 향상시켰습니다.

3 Methodology

이 섹션에서는 다국어 대규모 언어 모델(LLM)을 특정 언어에 적응시켜 해당 언어에서의 성능을 향상시키는 방법론을 설명합니다. 구체적으로, 우리는 힌디어와 영어를 모두 지원하는 이중 언어 소형 언어 모델(SLM)을 개발합니다.

적응 실험은 다국어 Nemotron-Mini4B 모델(일명 Minitron-4B)을 사용하여 수행됩니다.

이 모델은 힌디어와 영어 데이터가 각각 2000억 토큰씩 균등하게 혼합된 데이터로 연속 사전 훈련을 거칩니다.

원래 Nemotron-4B 모델은 주로 영어 토큰으로 훈련되었으며, 힌디어 토큰은 200억 개만 접했습니다.
힌디어 데이터가 제한적이기 때문에, 처음부터 모델을 훈련시키는 대신 기존 다국어 모델을 적응시키는 것이 효과적인 전략입니다.

이를 통해 사전 훈련된 모델에서 학습된 지식을 활용할 수 있습니다. 또한, Nemotron-4B는 256k 크기의 대규모 토크나이저를 사용하므로 토크나이저를 확장할 필요가 없었습니다. 힌디어 텍스트의 fertility ratio(토큰 생성 비율)는 1.7로, Llama나 Gemma 모델보다 우수합니다.

애초에 Nemotron-4B의 토크나이저는 대규모 토크나이저라 확장할 필요는 없고, 일정부분의 다국어로 학습되긴 함.
새롭게 학습되는 것은 영어,힌디어 각각 2000억 토큰의 데이터로 학습됨

3.1 Synthetic Data Curation

우리 연구의 핵심 요소 중 하나는 합성 힌디어 사전 훈련 데이터셋을 만드는 것입니다. 이 합성 데이터는 기계 번역과 음역(transliteration)을 통해 생성됩니다.

음역은 단어 치환 이런거 인듯. 아마도 위에서 말한 로마자 관련된 내용임

먼저, 고품질 영어 데이터 소스를 선택한 후, 맞춤형 문서 번역 파이프라인을 사용하여 힌디어로 번역합니다.

이 파이프라인은 글머리 기호나 표와 같은 문서 구조를 유지하며, IndicTrans2 모델(Gala et al.)을 활용해 문장 단위 번역을 수행합니다.
하지만 번역된 데이터에는 노이즈가 포함될 수 있으므로, MuRIL 토큰화(Khanuja et al., 2021)를 기반으로 훈련된 n-gram 언어 모델을 사용해 저품질 샘플을 걸러냅니다.
이 모델은 퍼플렉서티(perplexity) 점수를 적용해 노이즈가 있는 번역을 식별하고 제외하며, 약 2%의 문서가 필터링 후 폐기되었습니다.
n-gram 모델이 얼마나 좋은것일까? 간단히 필터링하는것만으로도 효과가 있긴 하겠지?

번역된 힌디어 데이터는 약 600억 토큰으로 구성됩니다.

여기에 웹 스크래핑을 통해 수집한 약 400억 개의 실제 토큰을 결합하여 총 1000억 개의 힌디어 토큰 데이터셋을 만듭니다.
또한, 이 힌디어 텍스트 전체를 로마자 스크립트로 음역하여 데이터셋을 2200억 토큰으로 확장합니다.
"Oppa" (오빠), "Unnie" (언니)이런게 음역인듯 ㅋㅋ

음역된 토큰은 Hinglish(힌디어와 영어가 섞인 언어) 쿼리를 지원하기 위해 포함됩니다.

이 힌디어 데이터는 2000억 영어 토큰과 결합되어 연속 사전 훈련에 사용됩니다.
영어 데이터셋을 포함하면 영어 능력의 급격한 망각(catastrophic forgetting)을 방지하고 훈련 안정성에 기여합니다.
영어 데이터를 포함해서 망각을 방지한다라..

전체 텍스트에는 NeMo-Curator를 사용해 유사 문서를 제거하는 퍼지 중복 제거(fuzzy deduplication)가 수행됩니다.

학습 데이터 중복제거 프로세스도 들어감
실제 힌디어 데이터 소스에는 내부 웹 기반 데이터셋과 Sangraha Corpus(Singh et al., 2024)가 포함됩니다.
영어 데이터셋은 Nemotron-15B 모델의 사전 훈련 코퍼스의 하위 집합입니다.
본 연구에 사용된 모든 데이터셋은 상업적으로 친화적입니다.[](https://blogs.nvidia.co.kr/blog/llms-indian-languages/)

3.2 Continued Pre-training

Nemotron-Mini-4B 기본 모델은 지속적인 사전 훈련에 사용되며, 그 아키텍처 세부 사항은 표 1에 제시되어 있습니다.

Nemotron-Mini-4B 모델은 Nemotron-15B 모델에서 가지치기(pruning)와 증류(distillation)와 같은 압축 기술을 적용하여 파생되었으며, 26억 개의 학습 가능한 매개변수로 구성됩니다(Muralidharan et al., 2024).

재훈련은 표준 인과 모델링 목표를 사용하여 수행됩니다.
데이터셋은 힌디어와 영어가 균등하게 혼합된 4000억 토큰으로 구성됩니다.
배치 샘플링 중에는 합성 데이터보다 실제 데이터에 더 큰 가중치를 부여합니다.
우리는 (Parmar et al., 2024)와 동일한 옵티마이저 설정과 데이터 분할을 사용하며, 코사인 학습률 감쇠 스케줄을 적용하여 학습률을 2e-4에서 4.5e-7까지 감소시킵니다.
실제 데이터에 더 큰 가중치를 부여한 약간의 트릭?

전체 그림으로 보면

Nemotron 15B --> Nemotron Mini 4B 로 distillation&pruning --> continual pretraining하여 힌디어 모델 만듬

이 모델은 힌디어가 주요 언어인 기본 모델로, Nemotron-Mini-Hindi-4B라고 불립니다. 재훈련은 Megatron-LM 라이브러리(Shoeybi et al., 2020)를 사용하고 128개의 Nvidia A100 GPU를 활용하여 수행되었습니다.

3.3 Model Alignment

첫 번째 정렬 단계는 **지도 미세 조정(Supervised Fine-Tuning, SFT)**입니다.

우리는 약 20만 개의 예제로 구성된 일반 SFT 코퍼스를 사용하며, 이는 (Adler et al., 2024)에 명시된 다양한 작업을 포함합니다.
모델은 1 에포크 동안 전역 배치 크기 1024, 학습률 범위 [5e-6, 9e-7]로 훈련되며, 코사인 어닐링(cosine annealing)을 사용합니다.

고품질 힌디어 SFT 코퍼스가 부족하기 때문에, 우리는 영어 전용 데이터를 SFT에 활용했습니다.

또한, 역번역 기반 방법을 사용하여 필터링한 번역된 영어 데이터를 SFT에 사용해 실험했으나, 이를 추가했을 때 성능 향상은 관찰되지 않았습니다.
back-translation을 통해 품질 좋은 데이터로 간주되는 것을 데이터에 추가했어도 성능 향상은 딱히 없었다 --> 그냥 SFT 데이터 필터링없이 사용한듯
영어 전용 SFT 코퍼스를 사용하면 힌디어에서의 지시 따르기(instruction-following) 능력이 향상된다는 것을 발견했으며, 이는 이러한 기술의 언어 간 전이 가능성(cross-lingual transferability)을 보여줍니다.
이것도 나름 findings인 듯, 영어 SFT을 했는데 힌디어 instruction-following 능력이 향상?

SFT 단계 이후, 모델은 **선호도 조정(preference-tuning)** 단계를 거칩니다.

이 단계에서는 프롬프트, 선호 응답(preferred response), 거부 응답(rejected response)으로 구성된 트리플 데이터를 학습합니다.
이 단계에서는 Direct Preference Optimization(DPO) 알고리즘(Rafailov et al., 2024)을 적용하여 정책 네트워크가 선호 응답과 거부 응답 간의 보상 차이를 최대화하도록 훈련시킵니다.
모델은 1 에포크 동안 전역 배치 크기 512, 학습률 범위 [9e-6, 9e-7]로 훈련되며, 코사인 어닐링을 사용합니다.

DPO 단계에서는 약 20만 개의 영어 샘플과 6만 개의 합성 힌디어 샘플을 사용했습니다.

합성 힌디어 샘플은 영어 샘플을 번역한 후 역번역 방법을 사용하여 필터링하여 생성되었습니다.
이 단계에서 합성 힌디어 샘플을 포함시키면 모델의 전반적인 성능이 향상된다는 것을 관찰했습니다.
정렬된 모델은 Nemotron-Mini-Hindi-4B-Instruct라고 불립니다.
DPO는 힌디어에 대해서도 진행됐네?
이건 back-translation으로 품질 좋은 데이터에 대해 번역된 힌디어 데이터를 사용했다는 듯

SFT와 DPO 단계는 모두 Nemo Aligner(Shen et al., 2024)를 사용하며 64개의 Nvidia A100 GPU를 활용하여 수행되었습니다.

3.4 Evaluation Datasets

우리는 Nemotron-Mini-Hindi-4B와 다른 다국어 대규모 언어 모델(LLM)을 네이티브 힌디어 벤치마크와 번역된 영어 벤치마크를 사용하여 평가했습니다. 네이티브 벤치마크에는 IndicXTREME, IndicNLG, IndicQuest의 작업이 포함되며, 번역된 영어 벤치마크에는 MMLU, Hellaswag와 같은 널리 사용되는 데이터셋이 포함됩니다.

또한, 힌디어 생성 능력을 평가하기 위해 SubjectiveEval이라는 오픈 엔디드 QnA 데이터셋을 자체적으로 구성했습니다. 인간 평가는 번역된 MT-Bench 데이터셋을 사용하여 수행되었습니다.

IndicXTREME:

이 벤치마크는 인도 언어로 된 다양한 자연어 이해(NLU) 작업으로 구성됩니다(Doddapaneni et al., 2023). 우리는 IndicSentiment, IndicCopa, IndicXNLI, IndicXParaphrase와 같은 작업을 고려했습니다.

IndicNLG:

IndicNLG 벤치마크(Kumar et al., 2022)는 모델의 생성 능력을 평가하기 위한 다양한 작업으로 구성됩니다. 우리는 텍스트 요약 및 질문 답변 작업을 다루는 IndicHeadline, IndicWikiBio, IndicQA를 고려했습니다.

IndicQuest:

IndicQuest(Rohera et al., 2024)는 다국어 언어 모델의 지역 지식 포착 능력을 평가하기 위해 설계된 금본위제 사실 기반 질문 답변 벤치마크입니다. 이는 문학, 역사, 지리, 정치, 경제 등 인도와 관련된 사실적 질문에 초점을 맞춥니다. 데이터셋은 영어뿐만 아니라 힌디어를 포함한 여러 인도 언어로 제공되어 언어별 평가가 가능합니다. LLM-as-a-judge 평가에서는 정답 사실이 참조(reference)로 평가자 LLM에 제공됩니다.

SubjectiveEval:

이 자체 제작 힌디어 평가 데이터셋은 역사, 지리, 농업, 음식, 문화, 종교, 과학 기술, 수학, 사고 능력 등 다양한 인도 관련 주제에 걸친 오픈 엔디드 질문을 포함합니다. 이는 IndicQuest의 사실 기반 질문에 비해 더 넓은 범위를 다룹니다. 모델의 이해도, 생성 능력, 일관성, 통찰력을 평가합니다. 질문은 '무엇', '어떻게', '왜' 유형으로, 간단한 한 단어 답변부터 상세한 설명까지 다양합니다. 데이터셋은 가상 시나리오를 통해 분석 및 문제 해결 능력도 테스트합니다. 모델 응답은 LLM-as-a-judge 방식으로 평가됩니다.

번역된 영어 벤치마크:

우리는 모델을 철저히 평가하기 위해 널리 사용되는 벤치마크의 번역 버전을 사용했습니다. 벤치마크에는 MMLU, Hella Swag, BoolQ, Arc-Easy, Arc-Challenge가 포함됩니다.

인간 평가:

인간 평가를 위해 다중 턴 MT-Bench 데이터셋(Zheng et al., 2023)의 번역 버전을 사용했습니다. 프롬프트는 먼저 Google Translate API를 사용하여 힌디어로 번역된 후, 문제가 있거나 영어 특유의 의미에 의존하는 프롬프트를 제거하기 위해 수동으로 필터링되었습니다. 평가 중에는 인간 평가자들이 A/B 테스트를 수행했으며, 무작위로 쌍으로 제시된 모델 응답을 비교했습니다.

4 Results and Discussion

기본 모델에 대한 결과는 표 2와 표 4에 제시되어 있습니다.

Nemotron-Mini-Hindi-4B 기본 모델은 비슷한 크기의 모델들과 비교했을 때 거의 모든 벤치마크에서 최첨단 성능을 제공합니다.

또한, Gemma-2-9B 및 Llama-3.1-8B와 같은 더 큰 모델들을 절반 이상의 벤치마크에서 능가합니다.
Llama3.1-8B보다는 좋은거 같긴한데 Gemma2-9B보다는 안좋은거 같음. 물론 모델 크기 차이도 있겠으나, 음 그렇다면 공개된 멀티모달도 은근히 잘되는거 아닌가?

힌디어 특화 지속 사전 훈련은 기본 Nemotron-Mini-4B 모델에 비해 힌디어 작업에서의 성능을 크게 향상시켰습니다. 영어 벤치마크에서는 약간의 성능 저하가 있었지만, 결과는 여전히 경쟁력 있었습니다. 이는 이중 언어 지속 사전 훈련의 중요성을 강조합니다.

기존 언어에 대한 성능하락은 어쩔수 없는 부분인거 같기도...

지시 모델에 대해서도 IndicXTREME, IndicNLG, 그리고 번역된 영어 벤치마크에서 유사한 결과가 관찰되었습니다. 결과는 표 3에 제시되어 있습니다.

지시 모델은 또한 IndicQuest와 SubjectiveEval에서 LLM-as-a-judge 방식으로 평가되었습니다. 이 벤치마크들에서 Nemotron-Mini-4B-Instruct 모델에 비해 영어와 힌디어 모두에서 개선이 나타났습니다. 모델은 Gemma-2-9B를 제외한 모든 기준 모델들을 능가했습니다. 특히, 모델의 사실성(factuality)과 언어 일관성(language consistency)에서 개선이 관찰되었습니다.

이러한 결과는 그림 2, 3, 4에 나타나 있습니다.

또한, 인간 평가에서 Nemotron-Mini-Hindi-4B의 응답은 다른 모델들의 응답보다 지속적으로 선호되었으며, 이는 그림 5에 나타나 있습니다.

5 Conclusion

우리는 힌디어에 주로 특화된 최첨단 소형 언어 모델(SLM)인 Nemotron-Mini-Hindi-4B-Base와 Nemotron-Mini-Hindi-4B-Instruct를 제시합니다. 이 모델들은 힌디어와 영어 데이터를 조합하여 지속적으로 사전 훈련되고 정렬되었습니다. 힌디어 코퍼스는 실제 데이터와 합성 데이터를 모두 포함하며, 합성 데이터는 번역을 통해 생성되었습니다. 이 모델들은 참조 기반 평가와 LLM-as-a-judge 평가를 통해 다양한 힌디어 벤치마크에서 비슷한 크기의 모델들을 능가합니다. 또한 영어 벤치마크에서도 경쟁력 있는 성능을 보입니다. 우리는 모델의 환각(hallucination)을 줄이고 사실성(factuality)을 향상시키기 위한 사전 훈련의 중요성을 강조합니다.

6 Limitations

이 모델은 유해한 언어와 편향이 포함된 인터넷 데이터로 훈련되었기 때문에, 이러한 편향을 재현하거나 특히 유해한 콘텐츠로 프롬프트가 제공될 경우 유해한 응답을 생성할 가능성이 있습니다. 또한 부정확하거나 불완전하거나 관련 없는 정보를 생성하여 사회적으로 바람직하지 않은 출력을 초래할 수 있습니다. 제안된 프롬프트 템플릿을 사용하지 않을 경우 이러한 문제가 악화될 수 있습니다.

이러한 문제를 어느 정도 완화하기 위해, 우리는 DPO 단계에서 안전 정렬(safety alignment)을 구현하여 모델이 유해하거나 해로운 콘텐츠에 응답하지 않도록 유도했습니다. 또한, Aegis7, Garak8, Human Content 레드 티밍과 같은 벤치마크를 사용해 안전성 평가를 수행했으며, 우리의 결과는 모델의 응답이 허용 가능한 범위 내에 있음을 보여줍니다.

Reference

https://arxiv.org/pdf/2410.14815

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-267, Adapting Multilingual LLMs to Low-Resource Languages using Continued Pre-training and Synthetic Corpus, NVIDIA 2024