◼ Comment

에스토니아어 LLM을 만드는 연구이다.
LLaMA을 시작으로 continual pretraining 하고 instruction data로 학습(번역데이터 등 포함)하여 모델을 만드는 실험을 한 것이다
뭐 크게 novelty가 있다기보다는 이렇게 llm을 만들 수 있음을 보여주는 것이고..
몇가지 findings을 정리하면 다음과 같다

새로운 언어에 대한 추가적인 pretraining 데이터가 없으면, 번역하라는 instruction 데이터를 학습하는게 성능 향상에 좋으나, 새로운 언어에 대해 추가적인 pretraining을 하면 번역작업 지시는 큰 효과 X
continual pretraining 데이터에 학습할 타겟 언어가 포함되면 전반적인 성능 향상
하지만 pretraining을 타겟 언어에 대해 하면, 번역작업을 넣는게 오히려 성능 상승에 꼭 효과적이지 않다. 평가 데이터에 따라 다른것으로 보여짐
번역 데이터를 넣어서 학습하면, 번역 테스크 성능 자체는 올라가기는 하는 듯
최종 모델은 영어 성능이 다소 하락하기는 함

에스토니아어 LLM은 만드는 과정에 번역데이터가 하는 역할에 대해 좀 자세히 분석한 거 같은데

번역 데이터의 비율에 따라 성능향상의 효과가 다른데 이거를 학습전에 알 수는 없다
따라서 좀 비효율적으로 비율을 조절해가면서 테스트를 해봐야하는거 같고 데이터세트에 따라서도 효과가 다르게 나타난다
pretraining에 타겟언어를 섞으면 번역데이터의 효과가 떨어지기도하고..
전부다 실험적인 것이라 사실 그대로 다른곳에서도 적용했을때 같은 양상을 보일지는 미지수!

여기서 언급한 reference들은 한번 보면 좋긴할듯

Abstract

이 논문은 사전 학습된 대형 언어 모델(LLM)을 새로운 저자원 언어에 적응시키는 비용 효율적인 방법을 탐구하며, 특히 에스토니아어에 초점을 맞추고 있습니다. Llama 2 모델을 활용하여, 교차 언어 지시 조정(cross-lingual instruction-tuning)과 추가적인 단일 언어 사전 학습(monolingual pretraining)을 결합한 효과를 조사합니다. 연구 결과에 따르면, 비교적 소량의 추가적인 단일 언어 사전 학습 후 교차 언어 지시 조정을 수행하는 것만으로도 에스토니아어 성능이 크게 향상되는 것으로 나타났습니다. 또한, 고품질 영어 지시로부터 에스토니아어로의 교차 언어 지식 전이가 가능함을 보여주며, 이를 통해 상식적 추론 및 다중 턴 대화 능력이 개선되었습니다. 본 연구의 최적 모델인 LLAMMAS는 에스토니아어를 위한 최초의 오픈소스 지시-따르기 언어 모델을 대표합니다. 더불어, 에스토니아를 위한 최초의 일반 작업 지시 데이터셋인 Alpaca-est를 공개합니다. 이러한 기여는 에스토니아어를 위한 오픈소스 LLM 개발 방향에서 초기 진전을 이루는 중요한 성과를 보여줍니다.

1 Introduction

Instruction-tuning은 대형 언어 모델(LLM)을 인간의 선호도에 맞게 정렬하는 방법입니다(Ouyang et al., 2022; Mishra et al., 2022; Wei et al., 2021). 그러나 대부분의 instruction-tuning 데이터셋과 연구는 영어에 초점을 맞추고 있습니다. 또한, instruction-tuning의 혜택을 누리기 위해서는 강력한 기반 모델이 필요하지만, 이러한 모델은 광범위한 학습 데이터가 요구되기 때문에 소수의 언어에서만 사용할 수 있습니다.

목표 언어에서 강력한 기반 모델의 부재를 극복하기 위해, 영어 중심의 LLM에서 비영어 능력을 이끌어내기 위해 교차 언어 instruction-tuning을 시도할 수 있습니다. 이 접근법에서는 지시문이 영어와 목표 언어 모두로 제공되며, 종종 번역 작업을 포함하여 직접적으로 정렬을 유도합니다(Ranaldi et al., 2023; Ranaldi and Pucci, 2023; Zhu et al., 2023). 경험적 증거에 따르면, 번역 작업 예제를 훈련 데이터셋에 포함시키는 것이 유익하다는 결과가 있지만, 최적의 훈련 전략과 단일 언어 사전 학습과의 효과적인 결합 방법은 여전히 명확하지 않습니다.

본 논문에서는 에스토니아어 instruction-following 모델을 구축하는 맥락에서 이러한 측면을 조사합니다. 우리는 비교적 소량의 단일 언어 데이터만 사용할 수 있는 저자원 시나리오에 초점을 맞춥니다. 새로운 일반 작업 지시 데이터셋인 Alpaca-est를 활용하여 단일 언어 사전 학습과 일반 작업 및 번역 작업 지시를 활용한 교차 언어 instruction-tuning을 결합한 효과를 살펴봅니다. Llama 2(Touvron et al., 2023b)를 사용한 실험 결과, 추가적인 단일 언어 데이터를 사용할 수 없는 경우 번역 작업 지시가 유익함을 보여주었습니다. 그러나 단일 언어 사전 학습이 이루어지면 번역 작업의 중요성이 크게 감소합니다.

새로운 언어에 대한 추가적인 pretraining 데이터가 없으면, 번역하라는 instruction 데이터를 학습하는게 성능 향상에 좋으나, 새로운 언어에 대해 추가적인 pretraining을 하면 번역작업 지시는 큰 효과 X

또한, Alpaca(Taori et al., 2023)와 Alpaca-est로 구성된 우리의 instruction-tuning 데이터셋에 고품질 영어 지시문 및 영어 대화를 보완함으로써 교차 언어 지식 전이를 통해 에스토니아어 성능이 더욱 향상됨을 입증했습니다. 이는 에스토니아어 대화 데이터를 훈련에 사용하지 않았음에도 불구하고 상식적 추론 및 다중 턴 대화 능력의 개선으로 나타났습니다. 결과적으로, 우리는 에스토니아어를 위한 instruction-following conversational LLM인 LLAMMAS를 소개합니다. 이 모델은 여러 작업에서 경쟁력 있는 제로샷(zero-shot) 성능을 달성했습니다.

2 Related Work

2.1 Instruction Tuning

Instruction-tuning은 사전 학습된 대규모 언어 모델(LLM)이 자연어 명령을 따르도록 유도하는 방법입니다 (Ouyang et al., 2022; Mishra et al., 2022; Wei et al., 2021; Sanh et al., 2021; Chung et al., 2022; Wang et al., 2022b).

이를 위해, 인간이 작성한 명령과 LLM을 활용하여 생성된 합성 명령 모두가 매우 우수한 성능을 보이는 것으로 나타났습니다 (Wang et al., 2022b, 2023b). Instruction-tuning의 전제 조건 중 하나는 강력한 사전 학습 언어 모델의 확보인데, 이는 높은 훈련 비용으로 인해 많은 연구자들이 LLM 개발에 기여하는 데 주요 제약 요인으로 작용합니다. 다행히도 지난 1년 동안 몇몇 기초 모델들(Workshop et al., 2022; Touvron et al., 2023a,b; Jiang et al., 2023)이 공개되어 이러한 문제를 다소 완화시켰습니다. 그러나, 이들 모델은 대부분 영어로 훈련되어 다른 언어에서는 성능이 미흡한 편입니다.

Instruction 데이터를 획득하는 일반적인 방법으로는 GPT4와 같은 강력한 독점 모델을 사용해 명령을 생성하는 방식이 있는데 (Taori et al., 2023; Chiang et al., 2023; Wang et al., 2022a), Gudibande et al. (2023)은 이러한 생성 데이터셋으로 훈련된 모델들이 강력한 LLM의 스타일을 모방할 뿐, 반드시 사실성을 보장하지는 않는다는 점을 보여주었습니다.

단순히 GPT4로 생성된 데이터로 모델 학습하는게 능사는 아니다? 사실성을 보장하지 않기 때문이라고 하는데.. 어쨌거나 데이터 생성에 GPT4를 쓰고 후처리하는 방식이 가장 괜찮을거 같긴함 (data resource가 부족할때)

2.2 Cross-lingual Instruction Tuning

Cross-lingual instruction tuning는 여러 언어의 명령을 동시에 학습시키는 훈련 방법입니다. 이 방법의 목표는 LLM이 특정 목표 언어에서 텍스트를 이해하고 생성할 수 있도록 교차언어적 의미 정렬(cross-lingual semantic alignment) 을 강화하는 것입니다. 실질적으로, 이는 방대한 데이터가 필요한 사전 학습이 어려운 언어에서도 비용 효율적으로 명령을 따르는 모델을 만드는 방법 중 하나입니다.

이 접근 방식은 Zhu et al. (2023)과 Ranaldi et al. (2023)에 의해 연구되었습니다. 이들은 모두 Alpaca(Taori et al., 2023) 데이터셋의 원본과 번역된 버전을 활용하였습니다. 또한, 일반적인 작업(task) 명령 데이터셋에 번역 작업 명령 데이터셋을 추가하면 추가적인 이점이 발생한다고 보고했습니다.

그러나 두 연구는 번역 데이터셋의 크기에서 차이를 보입니다.

Zhu et al. (2023) 은 번역 작업 명령이 일반 작업 명령보다 약 10배 많은 데이터셋을 사용했습니다.
Ranaldi et al. (2023) 은 20K 개의 번역 작업 명령을 포함하는 데이터셋을 사용했습니다.

추가적으로, Zhu et al. (2023) 은 영어에서 목표 언어로 번역하는 것이 효과적이라고 보고했지만,
Ranaldi et al. (2023) 은 양방향 번역(목표 언어 → 영어도 포함)이 단일 방향 번역보다 더 우수하다고 밝혔습니다.

또한, Zhang et al. (2023a) 는 교차언어 의미 정렬과 명령 튜닝을 강화하기 위해 다중턴(multi-turn) 번역 작업을 결합할 것을 제안하였습니다.
Zhang et al. (2023b) 는 자원이 풍부한 언어(high-resource language)를 피벗(pivot) 언어로 사용하여 목표 언어 응답을 생성하는 방법을 제안하며, LLM이 높은 리소스를 가진 언어의 명령을 이해하고 실행하는 능력을 활용하는 방식을 연구하였습니다.

이전의 cross lingual insturction tuning은 번역을 통해서 이뤄진 듯 하다? 번역 지시형 데이터를 학습함으로써 교차언어 의미 정렬을 달성하려고 한 듯? 번역 데이터는 Alpaca 지시형 데이터를 사용한거 같음

2.3 Monolingual Continued Pretraining

영어 중심으로 사전 학습된 LLM이 특정 목표 언어에서 콘텐츠를 이해하고 생성하는 능력을 향상시키는 또 다른 방법은 목표 언어 데이터를 활용한 지속적인 사전 학습(continued pretraining) 입니다.

예를 들어, Cui et al. (2023) 은 LLaMA 계열 모델을 대규모 중국어 단일언어 코퍼스로 지속적으로 사전 학습한 후 명령 튜닝을 수행했습니다.
또한, Xu et al. (2023) 은 비교적 적은 양의 단일언어 데이터셋으로도 지속적인 사전 학습을 하면 번역 명령 작업의 성능이 크게 향상될 수 있음을 보여주었습니다.

추가적으로, 이들은 지속적인 사전 학습 이후에는 소량의 고품질 병렬 데이터만으로도 뛰어난 번역 성능을 달성할 수 있다는 점을 입증했습니다.

소량의 continual pretraining 하는 방법도 있다. 나름 나쁘지는 않을거 같은데 기존 영어성능이 떨어지지 않는지 검증이 확실해야할듯?

2.4 Multilingual Models

다양한 언어에서 명령을 따를 수 있는 모델을 만들기 위해, 다국어 사전 학습(multilingual pretraining)과 다국어 명령 튜닝(multilingual instruction tuning)을 결합할 수 있습니다.

예를 들어, Wei et al. (2023) 은 다국어 언어 모델을 사전 학습한 후, self-instruct 방식(Wang et al., 2022a)을 활용하여 생성된 다국어 일반 작업 명령 데이터셋을 사용하여 명령 튜닝을 수행하였습니다.

또한, Yong et al. (2023) 은 자원이 제한된 환경에서 다국어 언어 모델 BLOOM을 새로운 언어에 적응시키는 전략을 연구했습니다.
그 결과, 어댑터(adapter)-기반 미세 조정(fine-tuning)이 지속적인 사전 학습보다 더 효과적이라는 점을 발견했습니다.
추가적으로, 이들은 목표 언어만을 학습하는 것보다 다국어 명령 튜닝이 더 우수한 성능을 보인다는 점을 입증하였습니다.

Lin et al. (2024) 는 Llama-2-7B 모델을 low-rank adaptation (Hu et al., 2022) 방식으로 지속적인 사전 학습을 수행하여, 에스토니아어를 포함한 총 534개 언어를 포괄할 수 있는 다국어 언어 모델을 개발하였습니다.

다국어 pretraining 및 다국어 instruction tuning을 통해 다국어 언어모델 만드는 연구들도 있음. fine-tuning시 전체 파라미터가 아닌 adapter 기반?(LoRA 같은걸 말하는 것이겠지?) 학습을 하는것이 효과적이라는 연구도 있다는 듯

3 Training Data

3.1 General Task Instructions

3.1.1 Alpacas

우리는 원래의 Stanford Alpaca 데이터셋(Taori et al., 2023)과 우리가 직접 생성한 에스토니아어 버전을 결합합니다. 이 두 데이터셋의 조합을 Alpacas라고 부릅니다.

Stanford Alpaca (Taori et al., 2023)
자기 지시(Self-Instruct) 프레임워크(Wang et al., 2023b)를 사용하여 생성된 일반적인 작업 지시 데이터셋입니다. 실험에서는 정제된 버전¹을 사용하며, 이는 필터링된 Alpaca(Taori et al., 2023) 지시와 GPT-4-LLM(Peng et al., 2023)으로 구성됩니다.

Alpaca-est
에스토니아어로 된 일반 작업 지시 데이터가 부족하기 때문에, 우리는 Alpaca의 에스토니아어 버전을 생성했습니다. Taori et al.(2023)의 방법을 따르며, 먼저 에스토니아어 시드 지시어 집합에서 무작위로 샘플링한 후, LLM을 사용하여 새로운 지시어를 생성했습니다.
GPT-3.5-turbo-0613을 사용하여 총 52,006개의 에스토니아어 지시어를 생성했습니다. 시드 지시어 집합은 원래 Alpaca 시드 집합에서 번역한 90개의 예제와 저자들이 새롭게 작성한 17개의 지시어로 구성됩니다. 우리는 Alpaca-est를 공개적으로 배포합니다.

기존 alpaca 데이터 + 에스토니아 버전 alpaca을 주 데이터로 사용. 에스토니아 버전은 GPT3.5을 이용하여 기존 alpaca 데이터(영어)에 variation을 줘서 만든 듯

3.1.2 High-Quality General Task Instructions

우리는 Alpacas 데이터셋을 보완하기 위해, OpenAI 모델을 사용한 합성 데이터 생성 없이 얻어진 고품질 영어 지시어를 추가합니다. 데이터셋 생성 과정에서는 Wang et al. (2023a), Ivison et al. (2023)의 연구에서 영감을 얻었습니다.

우리는 Open Assistant 1(Köpf et al., 2023)의 다중 턴 대화 데이터를 활용하며, 각 대화 트리에서 최고 점수를 받은 영어 전용 경로를 선택합니다. 또한, **Ivison et al. (2023)**에서 사용된 Chain-of-Thought 및 FLAN-2 혼합 데이터(Chung et al., 2022; Longpre et al., 2023) 중 10,000개의 예제를 포함합니다.

이러한 고품질 데이터의 혼합을 **HQI(High-Quality Instructions)**라고 부릅니다.

3.2 Translation Task Instructions

우리는 비교적 낮은 품질의 번역 병렬 텍스트를 활용하여 **번역 작업 지시어(Translation Task Instructions)**를 생성합니다. 사용된 데이터셋은 CCMatrix(Schwenk et al., 2021b), WikiMatrix(Schwenk et al., 2021a), OpenSubtitles(Lison & Tiedemann, 2016), 그리고 Europarl(Tiedemann, 2012)입니다.

데이터 필터링에는 OpusFilter(Aulamo et al., 2020)를 사용하며, 필터링 기준은 긴 단어, 문장 길이, 원문-번역문 길이 비율, 문자 점수, 언어 ID, 문장부호, 숫자 포함 여부 등입니다.

번역 지시어 구성은 다음과 같습니다.

**75%**는 영어 → 에스토니아어 번역을 요청하는 지시어
**25%**는 에스토니아어 → 영어 번역을 요청하는 지시어

에스토니아어-영어 번역 지시어를 일부 포함한 이유는 영어 생성 품질을 유지하기 위함입니다. 이 번역 작업 지시어 데이터셋을 TRTASK라고 부릅니다.

우리는 상대적으로 품질이 낮은 TRTASK를 보완하기 위해, WMT18 개발 세트(Bojar et al., 2018)와 MTee 검증 데이터셋(Tättar et al., 2022)에서 고품질 병렬 데이터를 추가합니다. 이를 HQTRTASK라고 부릅니다.

HQTRTASK의 WMT18 개발 세트는 문서 단위 형식으로 제공되며, 900개 이상의 토큰을 포함하는 문서는 여러 부분으로 분할됩니다.

번역 예제를 지시어 형식으로 변환하기 위해, 32개의 영어 프롬프트 템플릿과 13개의 에스토니아어 프롬프트 템플릿을 활용합니다. 이는 다양한 프롬프트를 사용하는 것이 중요하다는 **Sanh et al. (2021)**의 연구 결과를 반영한 것입니다.

다양한 병렬 번역 데이터세트를 활용했다는 것

3.3 Pretraining Data

사전 학습을 위해, 우리는 CulturaX(Nguyen et al., 2023)에서 에스토니아어 및 영어 데이터의 일부 하위 집합을 사용하여, 기본 모델이 에스토니아어에 더 익숙해지도록 하면서도 영어를 잊지 않도록 합니다.

CulturaX 데이터는 이미 광범위한 정제 과정을 거쳤지만, 우리는 추가적인 필터링을 적용하여 .ee, .org, .net 도메인을 가진 웹사이트에서 제공되는 에스토니아어 데이터만 허용하도록 확장하였습니다.

사전 학습은 최대 50억(5B) 토큰을 사용하여 진행됩니다.
데이터 샘플링 비율은 다음과 같습니다.

75%: CulturaX 학습 문서 중 에스토니아어 데이터
25%: 영어 데이터

이를 통해 모델이 에스토니아어에 대한 이해를 높이면서도, 영어 지식을 잃지 않도록 조정하였습니다.

pretraining 데이터에도 에스토니아어 데이터를 넣었다는 것.

4 Experimental Setup

4.1 Base Model

기본 모델을 얻기 위해, 우리는 Llama-2-7B(Touvron et al., 2023b)에 대해 섹션 3.3에서 설명한 추가적인 50억(5B) 토큰의 사전 학습 데이터를 사용하여 **추가 사전 학습(continued pretraining)**을 진행합니다. 이 기본 모델을 LLAMMAS-BASE라고 부릅니다.

사전 학습에는 패킹(packing) 기법을 사용하며, 이는 훈련 예제들을 모델의 컨텍스트 크기를 최대로 활용할 수 있도록 연결하는 방식입니다.

훈련 설정 및 하이퍼파라미터는 **부록 A(Appendix A)**에 자세히 설명되어 있습니다.
우리는 훈련 코드도 공개합니다.

4.2 Instruction-tuned Models

Alpacas 또는 **번역 작업 지시어(TRTASK)**만으로 지시 조정된(instruction-tuned) 모델들은 Alpaca 프롬프트 형식(Taori et al., 2023)을 사용합니다.

반면, 고품질 지시어(HQI) 또는 **고품질 번역 지시어(HQTRTASK)**를 사용하는 모델들은 대화형 모델로 학습되며, 대화 형식은 Wang et al. (2023a)의 방식(Table 5 참조)을 따릅니다.

훈련 중에는 사용자 입력(멀티턴 포함)과 지시어를 무시하고, 오직 모델의 응답 부분에 대해서만 손실(loss)을 계산합니다.
모델은 총 3 에포크(epoch) 동안 학습되며, 검증 손실(validation loss)에 따라 가장 성능이 좋은 체크포인트(checkpoint)를 선택했습니다. 실험 결과, 항상 **첫 번째 체크포인트(1 에포크 학습된 모델)**가 가장 좋은 성능을 보였습니다.

기타 훈련 세부 사항은 **부록 A(Appendix A)**에서 확인할 수 있습니다.

4.3 Evaluation Datasets

Ranaldi et al. (2023), Zhu et al. (2023)의 연구를 따라, 우리는 평가 데이터셋 중 하나로 EstQA(Käver, 2021)를 사용합니다. EstQA는 SQuAD(Rajpurkar et al., 2016)의 에스토니아어 버전입니다. 원본 EstQA에는 검증(validation) 데이터가 없기 때문에, 훈련 데이터의 일부를 분리하여 자체적으로 검증 세트를 생성하였습니다.

또한, 우리는 에스토니아어 상식 추론(CommonSense Reasoning, CSR) 및 문법 오류 수정(Grammatical Error Correction, GEC) 작업에서도 모델을 평가합니다.

상식 추론(CSR): EstCOPA(Kuulmets et al., 2022)를 사용하며, 이는 COPA(Roemmele et al., 2011)의 에스토니아어 버전입니다. EstCOPA는 기계 번역된 데이터와 수동으로 후편집된 데이터를 포함하고 있으며, 우리는 후편집된 데이터를 평가에 사용합니다.
문법 오류 수정(GEC): EstGEC-L2 데이터셋을 사용하여 평가를 진행합니다.

마지막으로, 영어-에스토니아어 및 에스토니아어-영어 기계 번역(MT) 작업의 결과는 FLORES-200 devtest(NLLB Team, 2022)를 사용하여 보고합니다.

중요한 점은, 모델에 따라 번역 작업(MT)이 학습 과정에 포함될 수도 있지만, 다른 평가 작업(CSR, GEC 등)은 학습 과정에서 절대 노출되지 않았다는 점입니다.

4.4 Perfomance on English

이상적으로, 우리의 모델은 에스토니아어뿐만 아니라 영어에서도 일정 수준의 성능을 유지해야 합니다. 만약 그렇지 않다면, 이는 모델이 기존의 영어 지식을 잃어버렸을 가능성을 의미합니다. 예를 들어, 특정 작업(task-specific) 데이터셋에 대해 **과도한 훈련(overly extensive training)**이 이루어졌을 경우, 이러한 문제가 발생할 수 있습니다.

이는 모델이 영어 지식을 활용하여 에스토니아어 답변을 생성하지 않고 있을 가능성을 시사할 수 있습니다.

따라서, 모델이 여전히 영어를 이해할 수 있는지 검증하기 위해, 우리는 최고 성능을 보인 모델을 다음의 영어 평가 데이터셋에서 테스트합니다.

COPA: 상식 추론 평가를 위한 영어 데이터셋
XQuAD 영어 하위 집합(Artetxe et al., 2020): 영어 독해 능력을 평가
W&I+LOCNESS 테스트 세트(Bryant et al., 2019): 영어 문법 오류 수정(Grammatical Error Correction, GEC) 평가

이를 통해, 모델이 에스토니아어 학습을 강화하면서도 영어에 대한 기존 지식을 잃지 않았는지 확인합니다.

나름 중요한 부분일 지도

4.5 Evaluation Metrics

상식 추론(Commonsense Reasoning) 및 질의응답(Question Answering) 평가를 위해, 우리는 GPT-4 Turbo를 활용한 자동 평가 방식을 사용합니다. 보다 정확히는, LLM-as-a-Judge(Zheng et al., 2023) 방법을 적용하며, 참조 기반(reference-guided) 평가를 수행합니다. 여기서 모델이 예측한 답변의 정확성을 참조 정답(reference answer) 및 해당 작업(task)과 비교하여 평가하도록 합니다.

우리는 **Zheng et al. (2023)**의 평가 프롬프트를 우리의 작업(task)에 맞도록 수정하여 사용합니다.
평가 모델로 ChatGPT 대신 GPT-4 Turbo를 선택한 이유는, 사전 실험에서 평가 품질이 더 뛰어나고(특히 거짓 긍정(false positives) 비율이 감소) 신뢰도가 높았기 때문입니다.

또한, API 사용 비용을 절감하기 위해, 각 데이터셋 및 데이터 분할(split)에서 100개의 샘플을 무작위로 선택하여 QA 정확도를 평가합니다.
상식 추론(Commonsense Reasoning) 작업을 평가할 때는 단순한 문자열 비교로 분류할 수 없는 답변만을 GPT-4 Turbo에 입력하여 추가 평가를 수행합니다.

기타 평가 지표(Standard Metrics)

우리는 대부분의 작업에서 **표준 성능 지표(standard metrics)**도 함께 보고합니다.

질의응답(QA) 및 문법 오류 수정(GEC):
- F1 점수(F1 Score)
- M2 Scorer(Dahlmeier & Ng, 2012) 또는 ERRANT F0.5(Bryant et al., 2017)
번역(Translation) 작업:
- BLEU 점수(Papineni et al., 2002)
- chrF++ 점수(Popović, 2017) → sacreBLEU(Post, 2018) 사용
- COMET 점수(Rei et al., 2020) → unbabel-wmt22-comet-da 모델(Rei et al., 2022) 사용

이를 통해 모델의 성능을 더욱 객관적으로 평가합니다.

4.6 Evaluation Prompts

개발 과정에서, EstCOPA, EstQA, 그리고 이들의 영어 버전에 대한 성능을 평가할 때, 8개의 서로 다른 프롬프트(prompt)를 사용하여 측정합니다.

영어 평가용 프롬프트: **Wei et al. (2021)**에서 가져옴
에스토니아어 평가용 프롬프트: 저자들이 직접 작성

**개발 데이터셋(development datasets)**에서는 8개 프롬프트 중 최고의 성능(best score)을 보고하며,
**테스트 데이터셋(test datasets)**에서는 개발 데이터에서 가장 성능이 좋았던 프롬프트를 사용하여 얻은 점수만을 보고합니다.

반면, 기계 번역(MT) 및 문법 오류 수정(GEC) 작업에서는
개발 및 테스트 과정에서 동일한 단일 프롬프트(single prompt)를 사용합니다(표 7 참조).

5 Experiments and Results

5 실험 및 결과

우리의 실험은 두 가지 주요 섹션으로 나뉩니다.
첫 번째 섹션에서는 Llama-2-7B를 다양한 양의 사전 학습 데이터로 사전 학습한 후, 번역 작업 및 일반적인 작업 지침(Alpacas)을 사용한 다국어 지시 학습에 미치는 영향을 조사합니다.
두 번째 섹션에서는 Alpacas 데이터셋에 고품질 영어 지침, 번역 데이터 및 대화 데이터를 추가하는 것이 에스토니아어 성능에 미치는 영향을 연구합니다.

5.1 Continued Pretraining of Llama 2

우리는 세 가지 기본 모델을 비교합니다.
첫 번째는 추가적인 사전 학습 없이 Llama-2-7B입니다.
두 번째는 10억(1B) 개의 토큰으로 사전 학습된 LLAMMAS-BASE의 체크포인트입니다.
세 번째는 50억(5B) 개의 토큰으로 전체 사전 학습을 완료한 LLAMMAS-BASE입니다.
이 세 가지 모델을 에스토니아어 및 영어 일반 작업 지침(Alpacas)으로 지시 학습하여 비교하였으며, 결과는 그림 1에 나타나 있습니다.

사전 학습 데이터 크기가 증가할수록 모든 에스토니아어 작업에서 성능 향상이 관찰되었습니다.

역시 pretraining 데이터에 학습할 언어가 포함된 경우가 의미있긴 한듯

사전 실험(섹션 6.1의 소거 연구 포함)에서는 Llama-2-7B에 10억 개의 토큰을 추가적으로 사전 학습한 후, 미세 조정 시 번역 작업의 효과가 감소하는 경향이 나타났습니다.
이러한 경향이 더 큰 사전 학습에서도 지속되는지 평가하기 위해, 우리는 번역 작업(TRTASK)과 일반 작업 지침(Alpacas)으로 구성된 데이터셋을 사용하여 기본 모델들을 지시 학습했습니다.
이전 실험(섹션 6.1)에서 나타난 바와 같이, 순차적 학습 방식이 제로샷(Zero-shot) 작업에서 성능에 미치는 부정적인 영향을 완화하기 때문에 이를 적용하였습니다.

그림 2는 번역 작업을 지시 학습의 첫 번째 단계로 사용할 때 각 작업 및 기본 모델의 성능 변화를 보여줍니다.

추가적인 사전 학습 없이 번역 작업을 포함하면 QA, 기계 번역, 문법 오류 교정(GEC)에서 성능이 크게 향상되었습니다.
그러나 사전 학습이 진행될수록 이러한 이점이 크게 감소하는 것을 확인할 수 있었습니다.
특히 QA 및 상식 추론 작업에서는, 사전 학습 이후 번역 작업을 생략하는 것이 번역 작업을 포함하는 것보다 더 나은 성능을 보이는 경향이 있었습니다.

빨간색이 pretraining이 없는 경우인데, 이 때는 번역작업을 첫번째 instruction 데이터로 활용하면 성능이 대부분 상승하는 것을 볼 수가 있다.

하지만 pretraining을 타겟 언어에 대해 하면, 번역작업을 넣는게 오히려 성능 상승에 꼭 효과적이지 않다. 평가 데이터에 따라 다른것으로 보여짐

5.2 Beyond Alpacas: Knowledge Transfer via High-Quality English Instructions

Self-Instruct(Wang et al., 2023b)로 생성된 지시 학습 데이터셋은 다양한 문제로 인해 품질이 낮을 수 있습니다.
한편, Zhou et al.(2023)에 따르면 1,000개의 고품질 학습 예제만으로도 매우 강력한 성능을 달성할 수 있음이 입증되었습니다.
이에 따라, 우리는 Alpacas 데이터셋에 고품질 지침을 추가하면 모델 성능이 향상될 것이라고 가정했습니다.
그러나 에스토니아어에 대한 고품질 지침 데이터셋이 존재하지 않으므로, 고품질 영어 지침(HQI)만을 사용하였습니다.
비교를 위해, 고품질 영어 지침에 고품질 번역 작업 지침(HQTRTASK)을 추가한 모델도 학습했습니다.

결과는 표 1에 정리되어 있습니다.

Alpacas만으로 학습된 모델(모델 (1))과 비교했을 때, Alpacas에 고품질 영어 지침을 추가한 모델(모델 (3))에서 모든 점수가 상승하는 놀라운 결과를 확인할 수 있었습니다.
이는 추가된 고품질 영어 지침이 에스토니아어에서도 긍정적인 다국어 지식 전달 효과를 가짐을 시사합니다.
또한, 고품질 영어 지침과 고품질 번역 작업을 결합하면(모델 (4)), 지식 전달이 더욱 향상되었습니다.
우리는 이 모델을 LLAMMAS라고 부릅니다.
하지만 EN→ET, ET→EN, GEC 작업에서는 HQTRTASK를 첫 번째 미세 조정 단계로 사용한 모델(모델 (5))이 가장 우수한 성능을 보였습니다.
이 모델을 LLAMMAS-MT라고 명명하였습니다. (첫번째 학습 단계를 번역 데이터로 한 경우)

모델 (3)~(5)는 챗(Chat) 형식의 데이터로 학습되었습니다(표 5 참고).

이는 HQI 데이터셋이 Open Assistant 1에서 가져온 영어 대화 데이터를 포함하고 있기 때문입니다.
5개의 대화를(최대 6턴) 수동 평가한 결과, 모델 (4)(LLAMMAS)는 다중 턴 대화를 적절하게 수행할 수 있음을 확인하였습니다.
이 모델은 이전 턴의 내용을 기억하고 사용자 요청에 적절히 응답할 수 있었습니다.
그러나 때때로 문법적 오류를 범하거나, 원어민이 일반적으로 사용하지 않는 번역체 표현을 사용하는 경향이 있었습니다.
이러한 표현 중 상당수는 영어의 직역으로 보였습니다.
예제 대화는 표 12에서 확인할 수 있습니다.

이 모델의 대화 능력은 다국어 지식 전달을 통해 에스토니아어 다중 턴 대화를 학습했음을 시사하지만, 이를 확정하기 위해서는 추가적인 실험이 필요합니다.

5.3 Results on Translation Task

기존의 신경망 기계 번역(NMT) 모델은 수천만 개의 병렬 문장과 단일 언어 코퍼스를 활용합니다.

반면, LLAMMAS-MT는 상대적으로 낮은 품질의 병렬 데이터 소스에서 100만 개의 문장 쌍과 일부 고품질 문장만을 사용합니다.
그러나 일반 작업 지침을 결합하여 경쟁력 있는 번역 모델을 구축할 수 있었으며, 그 결과는 표 2에 제시되어 있습니다.

LLAMMAS-MT는 LLAMMAS보다 더 나은 성능을 보였지만, 인간 평가와 높은 상관관계를 가지는 COMET 지표(Freitag et al., 2022)에서는 LLAMMAS도 여전히 경쟁력이 있음을 확인할 수 있었습니다.

오픈소스 인코더-디코더 모델인 MTee 및 NLLB-MoE와 비교했을 때, LLAMMAS-TRANSLATE는 COMET에서 더 높은 점수를 기록했으며, BLEU 및 chrF++ 점수에서는 비슷한 성능을 보였습니다.
ET→EN(에스토니아어→영어) 번역 성능에서는 NLLB-MoE가 LLAMMAS-MT보다 높은 점수를 기록했지만, LLAMMAS-MT는 MTee보다 높은 COMET 점수를 기록했으며 **chrF++**에서는 유사한 성능을 보였습니다.
또한, LLAMMAS-MT는 GPT-3.5-turbo와 경쟁할 만한 성능을 보였지만, GPT-4-turbo보다는 낮은 성능을 기록했습니다(사용된 프롬프트는 그림 6 참조).

번역 데이터를 넣어서 학습하면, 번역 테스크 성능 자체는 올라가기는 하는 듯

5.4 Results on Grammatical Error Correction

대형 언어 모델(LLM)은 텍스트 수정에 강하지만, 기존의 GEC 평가 지표와 다른 방식으로 수정하는 경향이 있습니다.
특히, 전통적인 GEC 모델은 최소한의 수정(minimal edits)을 선호하는 반면, LLM은 과도한 편집을 수행하는 경향이 있습니다(Coyne et al., 2023).

영어에서는 재현율(Recall)이 정밀도(Precision)보다 높은 반면, 에스토니아어에서는 정밀도가 높고 재현율이 낮은 결과를 보였습니다(표 3 참고).

이는 에스토니아어에서 LLM이 영어와는 다른 방식으로 문법 오류를 수정한다는 것을 의미하며, 이에 대한 추가적인 연구가 필요합니다.

마지막으로, 번역 작업 지침(TRTASK, LLAMMAS-MT의 훈련에 사용됨)이 에스토니아어 GEC 성능을 향상시킨다는 것을 확인했으며, 이는 이전 실험과도 일치하는 결과입니다.

5.5 Results on XQUAD and COPA

영어 QA 및 상식 추론(commonsense reasoning) 작업의 결과는 표 5에 제시되어 있습니다.

QA(질문 응답) 작업에서는 LLAMMAS가 영어(83%)와 에스토니아어(84%)에서 유사한 정확도를 보였습니다.
그러나 영어에서는 더 장황한 응답을 생성하는 경향이 있어, 에스토니아어보다 F1 점수가 낮았습니다.
상식 추론(COPA) 작업에서는 영어(80.6%)에서 에스토니아어(66.4%)보다 훨씬 높은 성능을 기록하였습니다.

이 결과는 LLAMMAS가 영어에서 학습한 추론 능력을 에스토니아어 입력에 대해 완전히 활용하지 못하고 있음을 시사합니다.

음? 비교를 영어 llama vs llammas 이렇게 해야하는거 아닌가?

5.6 Robustness on Diverse Prompts

우리는 다양한 입력 프롬프트를 처리할 때 모델의 성능 분포를 평가하기 위해 **8개의 개발 프롬프트(Table 1 참고)**를 사용하여 모델의 강건성을 분석했습니다.

EstCOPA(에스토니아어 상식 추론):
- 고품질 영어 지침(HQI)을 추가하면 평균 점수와 강건성이 모두 향상됨을 확인하였습니다(그림 3 참고).
- 고품질 번역 지침(HQTRTASK)을 추가하면 강건성이 더욱 증가하였습니다.
- 번역 단계를 포함하지 않은 모델보다 점수는 낮지만, LLAMMAS-MT도 여전히 강건성을 유지하였습니다.
EstQA(에스토니아어 QA 작업):
- 평균 성능(F1 점수의 중앙값)은 증가했지만, 강건성의 향상은 관찰되지 않았습니다.
- Alpacas로 미세 조정된 모델과 비교했을 때, HQI를 포함한 모델에서는 최저 점수를 기록한 프롬프트에서도 더 높은 F1 점수를 달성하였습니다.

이러한 결과는 고품질 데이터가 포함될수록 평균 성능이 향상되지만, 특정 프롬프트에서의 변동성(강건성) 개선은 반드시 보장되지 않는다는 점을 시사합니다.

5.7 Extended Evaluation on English

에스토니아어가 포함된 데이터로 지속적인 사전 학습을 진행할 경우 영어 성능에 미치는 영향을 보다 명확하게 이해하기 위해,

우리는 에스토니아어와 동일한 평가 데이터를 가진 영어 데이터셋을 넘어 추가적인 영어 벤치마크 평가를 수행하였습니다.

평가에 사용된 5개의 영어 벤치마크는 다음과 같습니다.

MMLU (Hendrycks et al., 2021) - 인문학, 사회과학 등을 포함한 57개 다양한 난이도의 과제
TruthfulQA (Lin et al., 2022) - 거짓 정보를 유도하는 질문을 통해 모델의 진실성(truthfulness) 평가
WinoGrande (Sakaguchi et al., 2021) - 대명사 해석(pronoun resolution) 문제
TriviaQA (Joshi et al., 2017) - 질문 응답(Question Answering) 데이터셋
HellaSwag (Zellers et al., 2019) - 상식 추론(commonsense reasoning) 문제

우리는 lm-evaluation-harness(Gao et al., 2023)를 사용하여 Llama-2-7B와 LLAMMAS-BASE를 비교하였으며,
MMLU에서는 5-shot 학습, 그 외 벤치마크에서는 0-shot 평가를 수행하였습니다.

결과(표 4 참고)에 따르면 LLAMMAS-BASE의 성능 하락은 크지 않으며, 평균적으로 1.2% 감소하는 수준입니다.

가장 큰 성능 저하가 발생한 벤치마크는 MMLU였으며, 특히 인문학 및 사회과학 과제에서 Llama-2-7B 대비 성능이 낮았습니다(표 6 참고).

성능이 하락하긴 하네..
반면, 상식 추론(Winogrande, HellaSwag) 벤치마크에서는 성능 저하가 상대적으로 적었습니다.
TruthfulQA는 지속적인 사전 학습의 영향을 거의 받지 않은 것으로 나타났습니다.

6 Ablation Study

6.1 Instruction-Tuning: Sequentially or with a Combined Dataset?

이전 연구(Ranaldi & Pucci, 2023; Ranaldi et al., 2023; Zhu et al., 2023)에서는 번역 작업 데이터와 일반 작업 지침 데이터를 결합하여 미세 조정하는 접근 방식을 제안하였습니다.

그러나 우리는 이러한 방식이 특히 대규모 번역 작업 데이터가 포함될 경우 일반 작업 지침의 기여도를 감소시키고, 새로운 작업에 대한 일반화 능력을 저하시킬 수 있다고 가정하였습니다.

이를 검증하기 위해 우리는 Llama-2-7B를 통합 데이터셋으로 미세 조정하는 방식과, 순차적으로 미세 조정하는 방식(번역 작업 → 일반 작업 지침)을 비교하였습니다.
또한, 1B 토큰으로 추가 사전 학습된 Llama-2-7B에서도 같은 실험을 수행하여, 사전 학습의 영향을 확인하였습니다.
실험에서는 맥락 크기(context size) 224를 사용하였으며, Zhu et al.(2023)을 따라 영어에서 타겟 언어로의 번역(TRTASKEN→ET)만 포함하였습니다.
결과를 비교하기 위해 번역 작업 데이터를 전혀 포함하지 않은 모델도 평가하였습니다.

✅ 실험 결과(표 9)

Llama-2-7B를 번역 작업 데이터로 미세 조정하면 대부분의 작업에서 성능이 향상되었으며,
특히 EN→ET 번역 및 문법 오류 교정(GEC) 작업에서 큰 이점을 보였습니다.
- 이 결과는 기계 번역(MT)과 문법 오류 교정(GEC)이 유사한 방식으로 접근될 수 있기 때문입니다(Junczys-Dowmunt et al., 2018).
QA 및 ET→EN(에스토니아어→영어) 번역 작업에서는 순차적 학습이 더 효과적이었습니다.
- 특히 ET→EN 번역에서는 일반 작업 지침이 포함될 때 초기 성능 저하가 회복되는 효과가 나타났습니다.
1B 토큰으로 추가 사전 학습된 Llama-2-7B의 경우, 번역 작업 데이터를 사용하면 대부분의 작업에서 성능이 저하되는 경향을 보였습니다.
- 하지만, 영어-에스토니아어 번역(EN→ET)과 문법 오류 교정(GEC)에서는 여전히 긍정적인 효과가 있었습니다.
EN→ET 번역은 Alpacas만으로 미세 조정된 모델에서 성능이 낮았지만, 번역 작업을 추가하면 성능이 크게 향상되었습니다.
- 그러나 ET→EN 번역에서는 번역 작업이 오히려 성능을 저하시켰습니다.

🔍 결론

EN→ET 번역 및 GEC 작업에서는 번역 작업을 포함하는 것이 성능 향상에 기여하지만,
ET→EN 번역에서는 번역 작업이 성능을 저하시킬 수 있음
QA 및 일반 작업에서는 번역 작업을 순차적으로 적용하는 것이 더 효과적
추가적인 사전 학습(1B 토큰)이 번역 작업을 포함할 때 전반적인 성능 저하를 초래할 가능성이 있음

이러한 결과는 다국어 모델 학습 시 번역 작업을 어떻게 활용할 것인지에 대한 전략적인 접근이 필요함을 시사합니다.

6.2 Translation Data: The Impact of Quality and Quantity

섹션 6.1에서 우리는 Llama-2-7B를 에스토니아어 중심으로 사전 학습한 후, Alpacas로만 미세 조정했을 때 성능이 번역 및 일반 작업 지침(Alpacas + TRTASKEN→ET)으로 미세 조정한 모델보다 더 우수함을 확인했습니다.

특히, 번역 작업(TRTASKEN→ET)과 일반 작업 지침(Alpacas)을 함께 사용했을 때 성능이 낮아지는 원인 중 하나는 데이터 불균형, 즉 번역 작업 데이터가 일반 작업 지침보다 약 10배 더 많았기 때문일 가능성이 제기되었습니다.

이를 해결하기 위해, 번역 작업 데이터를 일반 작업 지침(Alpacas)과 비슷한 크기(10만 개)로 균형 조정한 데이터셋을 사용하여 미세 조정을 진행했습니다(섹션 3.2에서 설명한 데이터 구성).
그러나 표 10의 결과를 보면, 이러한 균형 조정이 Alpacas 기준 모델보다 성능을 향상시키지 못함을 확인하였습니다.

또한, MTee 검증 데이터셋(Tättar et al., 2022)과 WMT18 개발 데이터셋(Bojar et al., 2018)의 고품질 번역 작업 지침을 일반 작업 지침과 결합하여 학습한 모델도 평가하였지만, 이 모델 역시 Alpacas 기준 모델보다 전반적으로 높은 성능을 기록하지 못했습니다.
예외적으로, 문법 오류 교정(GEC)에서는 고품질 번역 작업이 성능을 향상시키는 효과가 관찰되었습니다.

6.3 Translation Data: Single Translation Direction or Both?

우리는 영어→에스토니아어(EN→ET)와 에스토니아어→영어(ET→EN) 데이터 비율이 모델 성능에 미치는 영향을 조사하였습니다.
표 11에 나타난 결과를 보면, 모든 작업에서 EN→ET만 사용하는 것은 최적의 설정이 아니었습니다.

ET→EN 및 문법 오류 교정(GEC) 작업에서는 번역 데이터의 25%를 ET→EN으로 설정했을 때 가장 높은 성능을 보였습니다.
기타 대부분의 작업에서는 EN→ET와 ET→EN을 50:50으로 설정하는 것이 가장 좋은 성능을 기록했습니다.
상식 추론(CSR) 작업에서는 번역 데이터를 전혀 사용하지 않을 때 가장 높은 정확도를 달성했습니다.

이 결과는 양방향 번역 데이터를 균형 있게 포함하는 것이 전반적인 성능을 향상시키는 데 중요함을 시사합니다.

번역 데이터의 비율에 따라 성능 향상이 달라지는데.. 이거를 학습전에 어떻게 아나? 모를것이고 언어마다 다 다를 것이기 때문에.. 큰 발견이라고 보기는 어려울듯

7 Conclusion

우리는 Llama-2를 에스토니아어에 적응시키는 데 성공하였으며, LLAMMAS라는 에스토니아어 지시 학습 모델을 개발하였습니다.
또한, 에스토니아어 일반 작업 지침 데이터셋인 Alpaca-est를 공개하였습니다.

본 연구를 통해,

질문 응답(QA), 기계 번역(MT), 문법 오류 교정(GEC) 작업에서 경쟁력 있는 성능을 달성하였으며,
영어 성능도 안정적으로 유지할 수 있음을 확인하였습니다.
영어에서 에스토니아어로의 교차 언어 지식 전이가 발생한다는 증거를 발견하였으며,
번역 데이터(bitexts)를 미세 조정 과정에서 어떻게 활용해야 하는지에 대한 분석을 수행하였습니다.

이 연구는 에스토니아어를 위한 오픈소스 LLM 개발의 첫걸음으로 평가될 수 있습니다.

한계점(Limitations)

OpenAI의 독점 LLM을 이용하여 생성한 데이터에 의존
- Gudibande et al.(2023)의 연구에 따르면, 이러한 데이터는 OpenAI LLM의 스타일을 모방하는 경향이 있지만, 사실성을 보장하지는 않습니다.
에스토니아어 평가 벤치마크 부족
- NLP 작업에 대한 에스토니아어 벤치마크가 제한적이므로, 평가는 소수의 작업에 국한되었습니다.
안전성과 모델 역량에 대한 연구 부족
- 이 연구는 초기 연구 단계에 해당하며, 모델의 역량(capabilities)과 안전성(harmlessness)에 대한 추가적인 검토가 필요합니다.
- 따라서, 본 모델은 연구 목적으로만 사용이 제한됩니다.

Reference

https://aclanthology.org/2024.findings-naacl.210.pdf

NL-247, Teaching Llama a New Language Through Cross-Lingual Knowledge Transfer, Findings of NAACL 2024