◼ Comment

multilingual llm 만드는데 번역 데이터를 활용했다.
모델 구조는 mT5를 따르는 인코더-디코더 구조를 사용했고

번역데이터에서 source 텍스트 앞에 special token (어떤 타겟언어를 하는지 가리키는 것)을 앞에 붙여서 인코더 입력으로 사용하고
target 텍스트는 디코더 입출력으로 사용해서 학습한거 같다
이걸로 multilingual llm 성능을 향상시켰다는 것?
(학습 부분은 자세히 안봤음)

기억할 점은

번역 데이터를 단순히 concat해서 하나의 텍스트로 간주하여 학습하면 성능에 도움이 안되고
번역이라는 것을 명시적으로 알려주는 식 (위에서 말한대로)으로 학습해야 성능향상에 의미있다고함
근데 이러면 gpt같은 디코더구조에서는 special token말고 딱히 추가로 해줄게 없는데 효과가 있으려나? --> 논문에서 limitation으로 언급하기도함

평가 테스크에서 또 보면 좋을게

QA에서 2가지 타입을 말하는데

폐쇄형: TyDiQA (Clark et al., 2020)
개방형: XTyDiQA (TyDiQA의 비영어 데이터셋을 Google Translate API를 사용하여 문맥을 영어로 변환한 버전)

폐쇄형 생성: 하나의 언어 내에서 작업 수행 (예: 독일어 문맥 → 독일어 질문 → 독일어 답변)
개방형 생성: 두 개의 언어 간 작업 수행 (예: 영어 문맥 → 독일어 질문 → 독일어 답변)
개방형 부분을 기억하면 좋을거 같다
이거에 대한 성능이 높다는 것은 다국어 성능을 측정하는거에 적합하다는 것이니까...
이러한 데이터를 학습데이터로 쓴다면?? 이라는 생각을 해볼 수 있을거 같음

Abstract

대형 언어 모델(LLM)의 사전 학습에서 최근 급격한 발전은 다음 토큰 예측 또는 스팬 손상(span corruption)과 같은 자기 지도 학습 언어 모델링 목표를 사용하는 데 의존해 왔습니다. 반면, 기계 번역 시스템은 주로 원본 언어와 대상 언어 간의 정렬된 데이터를 필요로 하는 교차 언어(supervised) 학습을 통해 훈련됩니다.

우리는 자기 지도 언어 모델링 목표와 지도 학습 기계 번역 목표를 혼합하여 사전 학습을 수행하면, 즉 사전 학습 과정에서 교차 언어 평행 데이터를 포함하면 모델의 **맥락 내 학습 능력(in-context learning abilities)**이 향상된다는 것을 입증합니다.

그러나 사전 학습은 매우 많은 자원을 소모하는 과정이며, 두 가지 목표 간 최적의 비율을 찾기 위한 그리드 탐색(grid search)은 비용이 지나치게 큽니다. 따라서 우리는 사전 학습 과정에서 이러한 비율을 효과적으로 학습할 수 있는 단순하지만 효율적인 전략을 제안합니다.

1 Introduction

대규모 사전 학습의 발전(GPT(Brown et al., 2020), XGLM(Lin et al., 2021), PaLM(Chowdhery et al., 2022))은 맥락 내 학습(in-context learning, aka. few-shot learning) 패러다임을 통해 다양한 작업을 수행할 수 있는 모델을 탄생시켰습니다(Brown et al., 2020). 이는 모델이 특정 작업에 대한 몇 가지 예시를 주어진 문맥에서 학습하고, 새로운 데이터에 대해서도 이를 따라 수행할 수 있도록 합니다. 따라서 더 이상 다양한 다운스트림(downstream) 작업에 대해 모델을 개별적으로 미세 조정(fine-tuning)할 필요가 없습니다.

이러한 대형 언어 모델(LLM)의 사전 학습은 **자기 지도 학습(self-supervision)**을 기반으로 하며, 즉, 데이터에 대한 주석(annotation)이 필요하지 않습니다. 대표적인 자기 지도 학습 목표에는 **다음 토큰 예측(next token prediction)**과 **스팬 손상(span corruption)**이 있습니다. 전자는 이전 토큰을 기반으로 다음 토큰을 예측하는 것이며, 후자는 주어진 문맥을 기반으로 누락된 텍스트 부분을 채우는 것입니다.

한편, **기계 번역 모델(Machine Translation Models, MTMs)**은 여전히 **교차 언어 지도 학습(cross-lingual supervision)**을 활용하여 훈련되며, 원본 문장과 대상 문장이 정렬된 평행 데이터가 필요합니다. 기계 번역의 목표는 원본 문장을 입력으로 받아 대상 문장을 예측하는 것이므로, 필연적으로 원본과 대상 언어 간의 평행 텍스트 쌍을 수집해야 합니다.

LLM과 MTM 간 성능 격차

기계 번역 작업에서 사전 학습된 LLM은 오랫동안 대규모 지도 학습 데이터로 훈련된 MTM보다 성능이 낮았습니다. 이는 LLM을 **맥락 내 학습(in-context learning)**을 통해 평가하든, 평행 데이터로 추가 미세 조정을 하든 마찬가지였습니다. 그러나 최근 들어 LLM과 MTM 간 성능 격차가 점차 줄어들고 있습니다.

예를 들어, PaLM(Chowdhery et al., 2022)은 오직 자기 지도 학습만을 사용하여 사전 학습된 언어 모델이지만, 기존의 기계 번역 모델들을 구식 번역 벤치마크에서 능가했습니다. 물론 최신 벤치마크에서는 여전히 지도 학습된 MTM보다 성능이 낮았지만, 이러한 추세는 다음과 같은 질문을 자연스럽게 제기합니다:

Q: 교차 언어 지도 학습 데이터가 여전히 필요한가, 또는 유용한가?

교차 언어 지도 학습 데이터를 LLM 사전 학습에 포함하는 이유

우리는 LLM의 사전 학습에 교차 언어 평행 데이터를 포함하는 것이 가장 유망한 방향이라고 생각합니다. 그 근거는 다음과 같습니다:

MT 벤치마크에서 LLM과 MTM 간 성능 격차가 줄어들고 있음
- 가까운 미래에는 LLM이 MTM을 따라잡을 가능성이 높습니다.
- 동시에 LLM은 MTM보다 훨씬 더 다양한 작업을 수행할 수 있습니다.
사전 학습 데이터셋이 여전히 영어에 편향됨

예를 들어, PaLM의 사전 학습 데이터셋을 보면, 저자원 언어(low-resource languages)를 포함한 많은 언어들이 과소대표되고 있습니다.
교차 언어 데이터가 포함되면, 영어 외 다른 언어에 대한 성능이 향상될 가능성이 큽니다.

pretraining에서 교차 언어 평행 데이터를 어떻게 학습에 포함하는지? pretraining단에서 mono-linugal 데이터를 그냥 섞는다는건가?

다국어 능력 평가: 폐쇄형 vs. 개방형 생성

LLM의 다국어 능력을 평가할 때, 폐쇄형(closed generation)과 개방형(open generation) 생성 설정을 구분해야 합니다.

폐쇄형 생성: 하나의 언어 내에서 작업 수행 (예: 독일어 문맥 → 독일어 질문 → 독일어 답변)
개방형 생성: 두 개의 언어 간 작업 수행 (예: 영어 문맥 → 독일어 질문 → 독일어 답변)

우리는 교차 언어 데이터를 사전 학습에 포함하면 단순히 기계 번역 성능이 향상될 뿐만 아니라, 언어 간의 연결을 형성하는 데 도움이 될 것이라 예상합니다.

폐쇄형 생성에서는 저자원 언어의 성능이 향상될 것으로 기대됩니다.
개방형 생성에서도 개선이 예상됩니다.
개방형 생성 데이터를 학습하는건 아니고, 평가로 활용한다는 것

따라서, 우리는 위 질문을 보다 구체적으로 다듬어야 합니다:

Q: LLM의 사전 학습에서 교차 언어 지도 학습 데이터는 유용한가?
특히, 맥락 내 학습 패러다임에서 폐쇄형 및 개방형 생성 모두에 이점이 있는가?

본 연구의 차별점

우리는 기존 연구들과 차별화되는 다음과 같은 요소를 포함하여 연구를 수행합니다:

사전 학습 단계에서 교차 언어 지도 학습을 포함
표준 지도 학습 기계 번역 목표를 활용
맥락 내 학습을 통해 폐쇄형 및 개방형 생성 모두 평가
훈련 중 자동으로 사용할 평행 데이터 양을 학습

최적의 교차 언어 지도 학습 비율 학습 전략

우리는 LLM 사전 학습 시 일정량의 교차 언어 지도 학습이 유용하다는 것을 먼저 입증합니다. 이후, 최적의 교차 언어 지도 학습 비율을 학습하는 과정에서 Automated Curriculum Learning, Graves et al., 2017이 효과적인 전략임을 보입니다.

사전 학습에서 사용할 **평행 데이터와 언어 모델링 데이터 간의 혼합 비율(λ)**을 단순한 하이퍼파라미터로 취급하는 것은 비효율적입니다.

LLM을 충분한 토큰으로 사전 학습하는 것은 매우 비용이 많이 드는 작업입니다.
- 예를 들어, 3.8B 파라미터 모델 실험에서는 256 TPUv4 코어를 5일 동안 사용해야 합니다.
λ를 하이퍼파라미터로 간주하면 추가적인 하이퍼파라미터 탐색이 필요하지만, 이는 그리드 탐색(grid search)이 불가능할 정도로 비싸집니다.
- 예를 들어, Kale et al.(2021)은 mT5 모델을 10만 스텝 동안 MT와 LM 데이터를 혼합하여 미세 조정하는 덜 비용이 드는 실험을 수행했지만, 단 두 개의 λ 값만 비교할 수 있었습니다.
또한, λ를 고정된 값으로 유지하는 정적(static) 정책보다 동적(dynamic) 정책, 즉 훈련 중 λ를 조정하는 전략이 더 우수할 가능성이 높습니다.

2 Related work

우리는 대형 언어 모델(LLM)에서 교차 언어 평행 데이터를 활용하는 연구를 최초로 수행한 것이 아닙니다.

Reid & Artetxe(2022)는 3가지 목표로 구성된 손실(loss) 함수를 설계하여 평행 데이터를 활용하는 방법을 제안하였습니다. 그러나 이 기법은 다국어 잡음 추가(multilingual noising) 절차를 개발해야 하므로 비교적 복잡합니다. 반면, 우리는 표준 기계 번역(MT) 목표를 사용하여 교차 언어 데이터를 포함하는 보다 단순한 방법을 채택합니다.

Chi et al.(2021)은 Xue et al.(2021)의 연구를 기반으로 하여 더 간단한 접근 방식을 제안했습니다. 그들은 mT5 모델을 학습할 때 사용된 잡음 제거(denoising) 과정에 지도 학습된 MT 데이터를 직접 추가하는 방식을 사용하여, 교차 언어 생성에서 mT5보다 우수한 성능을 보이는 모델을 만들었습니다. 그러나 이 연구는 교차 언어 지도 학습을 사전 학습에 포함하기는 했지만, 결과 모델이 맥락 내 학습(in-context learning) 능력을 보이지 못했다는 한계점이 있습니다. 평가 역시 다운스트림 작업에서 미세 조정(fine-tuning)을 수행한 후 진행되었습니다.

또한, Kale et al.(2021)은 mT5 모델을 평행 데이터로 미세 조정했을 때 어떤 일이 발생하는지를 탐구하였습니다. 즉, 평행 데이터가 사전 학습과 다운스트림 작업을 위한 미세 조정 사이의 중간 단계에서 사용되었습니다.

이전 연구에서, 먼저 pretraining하고 다운스트림에 맞는 fine-tuning하기전에 평행 번역 데이터를 위해 학습했다
multilingual을 위한 further pretraining 느낌임

기존 연구의 한계점

위의 연구들은 공통적으로 미세 조정(fine-tuning)에 중점을 두고 있으며, 이는 맥락 내 학습(few-shot in-context learning)과는 상당히 다른 접근 방식입니다.

따라서, 특정 작업에서의 지도 학습 데이터가 다른 작업에서의 few-shot 학습을 향상시킬 수 있는지 여부는 아직 탐구되지 않은 문제로 남아 있습니다.

3 Basic Setup

3.1 Training Data

우리의 언어 모델링(Language Modeling) 데이터는 Chowdhery et al.(2022)의 데이터셋을 기반으로 하지만, 일부 하위 카테고리 간의 비율을 조정하였습니다(자세한 내용은 Table 1 참고).

우리는 공개된 언어 모델링 데이터셋(예: MC4 (Raffel et al., 2019))을 사용하지 않았습니다. 초기 실험에서 **Chowdhery et al.(2022)**의 고품질 데이터가 맥락 내 학습(in-context learning) 능력을 더욱 향상시키는 것으로 나타났기 때문입니다.

언어 모델링 목표로는 최근 발표된 "UL2"(Tay et al., 2022)를 채택하였습니다. UL2는 few-shot 설정에서 더 나은 성능을 보인다는 것이 입증되었기 때문입니다.

UL2가 뭐지?

기계 번역(MT) 데이터는 사내에서 구축한 평행 코퍼스를 사용하였으며, Table 2에 포함된 언어들을 다룹니다.

Table 2에서는 각 언어의 샘플링 비율과 해당 언어가 고자원(High-resource) 또는 저자원(Low-resource) 언어로 분류되는지 여부도 표시하였습니다.

우리의 학습 데이터에서 원본(source) 또는 대상(target) 문장은 항상 영어로 구성됩니다. 다중 언어 지도 학습 모델을 훈련할 때 사용하는 표준 접근 방식을 적용하였습니다:

입력 문장(source sentence)에 special target language token <2xx>을 추가하여 Encoder에 공급
<2xx> + source → encoder
대상 문장(target sentence)을 Decoder에 공급
$target\to$ decoder

예시로 이런거 같음

인코더입력: <2ko> Hello, how are you?
디코더입력: 안녕하세요, 어떻게 지내세요?
이런식으로 쌍을 지어서 학습한다는 의미 같음

번역 학습데이터는 일반적인 pretraining과 섞여서 pretraining 학습 데이터로 쓰이는 듯

이에 대한 비율은 섹션 4에서 다룸

3.2 Model architecture

일반적으로 사용되는 대형 언어 모델(LLM) 아키텍처에는 크게 두 가지가 있습니다:

인코더-디코더(Encoder-Decoder) 모델 (예: T5 (Raffel et al., 2019))
디코더 전용(Decoder-only) 모델 (예: Brown et al.(2020), Chowdhery et al.(2022))

대부분의 **지도 학습 기반 기계 번역 모델(MTMs)**은 인코더-디코더 아키텍처를 사용합니다.

우리는 사전 학습을 처음부터 진행해야 하므로, 많은 연산 자원이 필요한 실험을 감안하여 하나의 아키텍처만 고려하였습니다. 선택한 모델은 인코더-디코더 구조이며, mT5(Xue et al., 2021) 아키텍처를 채택하였습니다.

실험 모델 크기 및 학습 설정

mT5 "large" (1.2B 파라미터) 모델 → 25만(250k) 스텝 학습
mT5 "xl" (3.8B 파라미터) 모델 → 50만(500k) 스텝 학습
T5X 라이브러리(Roberts et al., 2022)의 기본 설정 사용
배치 내 최대 시퀀스 길이: 1024
비-패딩(non-padding) 토큰 수: 약 50만(500k)

우리는 mT5 아키텍처만을 사용할 뿐, mT5의 사전 학습 체크포인트나 mT5 학습 데이터는 절대 사용하지 않음을 강조합니다.

3.3 Evaluation

우리는 **맥락 내 학습(in-context learning)**을 활용하여 one-shot 설정에서 모델을 평가합니다.

(구체적인 예시는 부록(Appendix) 참고)

📌 평가 방식

각 테스트 입력(test input) 앞에는 **하나의 예제(one-shot example)**를 추가하여, 모델이 원하는 입력-출력 패턴을 학습하도록 유도합니다.

이 과정을 통해 얻어진 시퀀스(sequence)를 Encoder에 입력하고,
Decoder가 목표 출력(target)을 생성하도록 합니다.

📌 평가 대상 과제 (Tasks)

우리는 세 가지 과제(Task)를 고려하여 평가합니다.

질문 답변(Question Answering)
- 폐쇄형(closed generation): 문맥(Context), 질문(Question), 답변(Answer)이 같은 언어로 주어짐
- 개방형(open generation): 문맥(Context)은 한 언어, 질문(Question)과 답변(Answer)은 다른 언어
- 데이터셋:
  - 폐쇄형: TyDiQA (Clark et al., 2020)
  - 개방형: XTyDiQA (TyDiQA의 비영어 데이터셋을 Google Translate API를 사용하여 문맥을 영어로 변환한 버전)
  - XTyDiQA가 공개된거 같지는 않음
기계 번역(Machine Translation)
- 데이터셋: Flores (Guzmán et al., 2019)
요약(Summarization)
- 데이터셋: Wikilingua (Ladhak et al., 2020)
- 데이터 전처리 및 분할: GEM 벤치마크(Gehrmann et al., 2022) 사용

🔹 요약

모델 평가 시 one-shot in-context learning을 사용
입력 앞에 예제를 추가하여 맥락 내 학습 유도
**세 가지 과제(QA, 번역, 요약)**를 평가
질문 답변(QA)은 폐쇄형과 개방형 두 가지 설정
XTyDiQA는 TyDiQA의 문맥을 영어로 변환한 개방형 QA 데이터셋
번역(Flores), 요약(Wikilingua)는 GEM 벤치마크 설정 사용

이 방식을 통해 모델이 사전 학습된 지식을 활용하여 다양한 작업에서 좋은 성능을 보이는지 평가할 수 있습니다.

4 Learning to schedule the two tasks

그리드 탐색(grid search)을 통한 λ(기계 번역(MT) 작업의 비율) 조정은 현실적으로 불가능합니다.
언어 모델링(Language Modeling, LM)과 기계 번역(Machine Translation, MT) 두 가지 작업을 다루는 경우, λ를 조정할 하이퍼파라미터로 간주할 수 있습니다. 하지만, 사전 학습은 매우 많은 연산 자원을 필요로 하므로 λ에 대한 그리드 탐색은 실현 불가능합니다. 예를 들어, Kale et al.(2021)의 연산 비용이 적은 실험(mT5 체크포인트에서 사전 학습을 계속하는 방식)에서도 단 두 개의 λ 값만 비교할 수 있었습니다. 따라서, 훈련 중에 λ를 학습하는 것이 바람직하며, 추가적인 이점으로 시간에 따라 λ를 변화시키는 정책이 고정된 λ보다 더 나은 성능을 낼 가능성이 있습니다.

**자동 커리큘럼 학습(Automated Curriculum Learning)**은 자연스러운 해결책이 될 수 있습니다.
여러 데이터 소스를 활용하여 모델을 훈련할 때, **자동 커리큘럼 학습(Graves et al., 2017)**을 사용하면 훈련 중에 데이터 샘플링 일정을 학습할 수 있습니다. 이를 통해 우리는 시간 t에 따른 동적 λ(λₜ)를 학습할 수 있습니다.

구체적으로, λₜ는 기계 번역(MT) 작업을 샘플링할 확률이며,
1 - λₜ는 언어 모델링(LM) 작업을 샘플링할 확률을 의미합니다.
최근 연구(Kreutzer et al., 2021)에 따르면, 자동 커리큘럼 학습을 다국어 기계 번역 시스템에 적용했을 때 유망한 결과를 얻었으며,
특히 멀티 암드 밴디트(multi-armed bandits) 기반의 자동 커리큘럼 학습이 여러 최신 휴리스틱 기법(SOTA heuristics)과 경쟁력 있는 성능을 보였다고 보고되었습니다.

우리는 적절한 보상 함수(reward function)를 찾아야 합니다.
MT와 LM 작업을 동적으로 스케줄링하려면, 각 작업을 수행하는 것에 대한 보상을 설정해야 합니다.

특정 작업 τ(MT 또는 LM)를 샘플링하여 배치 Bτ를 얻고,
이를 기반으로 모델의 가중치 Θ를 업데이트(Θ → Θ′) 합니다.
이때, 선택한 작업 τ가 모델 성능 향상에 얼마나 기여했는지 측정해야 합니다.

Kreutzer et al.(2021)의 연구에서는 여러 유틸리티 함수(utility function)를 벤치마킹한 결과,
검증 데이터셋(validation set)에서 손실 감소량 L(Θ) - L(Θ′)을 보상으로 사용하는 것이 가장 적절하다고 추천되었습니다.
그러나, Kreutzer et al.(2021)의 연구에서는 명확한 검증 데이터셋을 설정할 수 있었던 반면, 우리의 연구는 맥락 내 학습(in-context learning) 패러다임에서 다양한 다운스트림 작업을 수행하는 LLM을 사전 학습하는 것이 목적이므로,
모든 가능성 있는 few-shot 작업을 대표하는 검증 데이터셋을 구축하는 것이 쉽지 않다는 한계가 있습니다.
특정 작업에 과적합(overfitting)되는 것을 방지하기 위한 **완화 전략(mitigation strategies)**이 필요합니다.

우리는 내재적 보상 함수(intrinsic reward function)를 사용합니다.
초기 실험에서, 다운스트림 작업(예: 질문 답변)에서 얻은 보상 신호는 훈련 작업(MT 및 LM)에서 얻은 보상 신호보다 크기가 작고 변동성이 높음을 발견하였습니다.
따라서, 우리는 (사전) 훈련 데이터 자체에서 보상을 측정하는 내재적(intrinsic) 보상 방식을 채택하였습니다.

구체적으로, 특정 작업 τ(MT 또는 LM)에서 한 번의 그래디언트 업데이트를 수행한 후,
새로운 작업 ρ(MT 또는 LM 중 하나)를 균등 확률(50%)로 샘플링하여 새로운 배치 Bρ에서 손실 감소량을 측정합니다.
MT와 LM 작업을 동일한 확률로 샘플링하는 이유는, 특정 작업에 대한 선호도를 고정시키지 않기 위해서입니다.

이러한 내재적 보상 함수를 사용할 경우, 검증 데이터셋을 별도로 구축할 필요가 없다는 장점이 있습니다.
Graves et al.(2017) 및 Kreutzer et al.(2021)에서도 훈련 데이터 자체를 활용하는 방식을 고려하였지만,
그들은 같은 배치 Bτ에서 보상을 측정한 반면, 우리는 독립적으로 샘플링한 배치 Bρ에서 보상을 측정한다는 점에서 차이가 있습니다.

ρ가 50% 확률로 τ와 같거나, 50% 확률로 다른 작업일 경우,
- **작업별 학습(task-specific learning)**뿐만 아니라
- **작업 간 전이 학습(cross-task transfer learning)**도 측정할 수 있습니다.

요약하면, 우리는 내재적 보상 방식을 통해 동적으로 λ를 학습하고, 이를 통해 MT와 LM 작업의 샘플링 비율을 최적화합니다.

손실 감소(loss reduction)는 재조정(rescale)해야 합니다.
훈련 중에 언어 모델링(LM)과 기계 번역(MT)의 손실(loss) 척도는 서로 다를 수 있으며, 따라서 절대적인 손실 감소량 $L(\Theta) - L(\Theta')$ 은 어떤 작업에서 손실을 계산하는지에 따라 영향을 받을 수 있습니다.
특히, 기계 번역의 경우 모든 정보가 소스 문장에 주어지므로, 일반적으로 번역 작업의 **혼란도(perplexity)**는 언어 모델링 작업보다 낮습니다.
이 문제를 해결하기 위해, 보상(reward)을 상대적인 손실 감소율(relative loss reduction)로 계산합니다:

이 방식은 Kreutzer et al.(2021)에서 **"pgnorm"**이라고 불렸습니다.

전통적인 밴디트(bandit) 알고리즘은 단일 작업을 편향적으로 선택하는 경향이 있습니다.
두 작업(LM과 MT)에서 샘플링하는 정책(policy)은 **멀티 암드 밴디트(Multi-Armed Bandits, Lattimore & Szepesvári, 2020)**를 통해 학습됩니다.
우리는 초기 실험에서 EXP3(Graves et al., 2017; Kreutzer et al., 2021) 알고리즘을 사용했으나, LM 작업이 항상 MT 작업보다 약간 더 높은 보상을 생성한다는 것을 발견했습니다.
EXP3는 "사후적으로 가장 좋은 선택(single best arm)"을 찾도록 설계되었기 때문에, 훈련이 진행될수록 LM 작업만을 중심으로 정책이 수렴하는 문제가 발생했습니다.

이를 해결하기 위해, 우리는 "FAIR" 알고리즘을 제안합니다.
이 알고리즘은 각 작업(arm)의 이동 평균 보상(moving average rewards)에 비례하여 샘플링을 수행하도록 설계되었습니다.
자세한 내용은 Algorithm 1에서 확인할 수 있으며, 커리큘럼 학습 설정에 대한 전체 세부 정보는 부록(Appendix)에 제공합니다.

5 Experimental results

5.1 Baselines

5.2 Question Answering

5.3 Summarization

5.4 Machine Translation

5.5 Are the gains due to using more multilingual data?

Chowdhery et al.(2022)의 데이터 중 약 77%가 영어로 구성되어 있으므로,
자연스럽게 떠오르는 가설은 평행 데이터를 추가하면 영어가 아닌 데이터의 비율이 증가하기 때문에 유리할 것이라는 점입니다.

이 가설을 검증하기 위해, 기계 번역(MT) 데이터에서 비영어(non-English) 부분만 추출하여, 이를 언어 모델링(LM) 목표로 학습하는 새로운 데이터셋을 구축하였습니다.
여전히 자동 커리큘럼 학습(automated curriculum learning)을 사용하여 LM 데이터 내 두 부분(영어 vs. 비영어)의 균형을 조정하였습니다.

Table 8에서 두 가지 접근 방식을 비교한 결과, MT 데이터를 LM 목표로 사용했을 때 질문 답변(Question Answering)과 기계 번역(Machine Translation) 모두에서 성능이 크게 저하되는 현상을 관찰하였습니다.

우리는 이러한 결과가 발생한 이유로, 우리의 MT 데이터가 일반적인 언어를 모델링하는 데에는 Chowdhery et al.(2022)의 보다 풍부한 언어 데이터보다 덜 유용할 가능성이 높다는 점을 추측합니다.

번역데이터를 단순히 하나의 입력으로 간주하는 방법은 유용하지 않다는 것을 의미

즉 번역이라는 것을 명시적으로 모델에게 알려줘야한다는 것. 스페셜 토큰을 붙이고 인코더/디코더 입력을 따로 넣는식

그러면 gpt같은 모델링에서는 스페셜토큰을 사용한다치고, 다르게 할게 있나?

6 Conclusions

우리는 인코더-디코더(Encoder-Decoder) 구조의 대형 언어 모델을 사전 학습할 때, 학습 목표에 교차 언어 지도 학습(cross-lingual supervision)을 포함하는 것이 유리하다는 것을 입증하였습니다.

특히, 기계 번역(Machine Translation)과 질문 답변(Question Answering) 평가에서 상당한 성능 향상이 나타났습니다.

그러나, 평행 데이터(parallel data)를 포함할 경우 새로운 하이퍼파라미터가 추가된다는 단점이 있습니다.
이 하이퍼파라미터는 번역 데이터가 전체 학습 데이터에서 차지하는 비율을 의미합니다.
일정량의 교차 언어 지도 학습을 포함하는 것이 유익하지만, 그 비율을 최적화하기 위해 그리드 탐색(grid search)을 수행하는 것은 현실적으로 불가능합니다.

이에 대해, 우리는 멀티 암드 밴디트(multi-armed bandits)를 활용한 자동 커리큘럼 학습(Automated Curriculum Learning, Graves et al., 2017)을 적용하면 효과적인 결과를 얻을 수 있음을 입증하였습니다.
또한, 우리가 제안한 방법에서는 훈련 중에 번역 데이터 비율이 동적으로 조정될 수 있어, Kale et al.(2021)의 정적(static) 데이터 샘플링 방식보다 우수한 성능을 보였습니다.

7 Limitations

계산(컴퓨팅) 자원의 제한으로 인해, 본 연구에서는 인코더-디코더 모델만을 실험 대상으로 삼았습니다.
향후 연구에서는 디코더 전용(Decoder-only) 모델에도 이러한 결과가 적용될 수 있는지 추가적인 검증이 필요합니다.

또한, 요약(Summarization) 평가에서는 모델의 파라미터 수가 증가할수록 성능이 향상되는 경향이 관찰되었습니다.
따라서, 보다 대규모 모델(예: 80억 개 이상의 파라미터)을 사용한 추가 실험이 필요할 가능성이 있습니다.
이를 통해, 사전 학습 시 평행 데이터를 포함하는 것이 정확히 어느 정도의 성능 향상을 가져오는지 더욱 정량적으로 분석할 수 있을 것입니다.

마지막으로, 자동 커리큘럼 학습이 정적인 데이터 샘플링 방식보다 우수한 성능을 보였지만, 더욱 정교한 데이터 샘플링 기법이 존재할 가능성이 있습니다.
향후 연구에서는 보다 발전된 샘플링 접근 방식(sophisticated sampling approaches)이 더 나은 결과를 도출할 수 있는지 탐구할 필요가 있습니다.

Reference

https://arxiv.org/pdf/2305.11778

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-250, Cross-Lingual Supervision improves Large Language Models Pre-training, Preprint 2023