◼ Comment

다국어 LLM을 만들때, 기존 모델(영어 모델 혹은 다국어모델)에다가 AFP 방법론으로 학습하면 성능이 좋아진다고 주장한다
AFP란? 2가지 학습방법을 제시하는데

Multilingual Contrastive Learning, MCL

번역으로 생긴 병렬 데이터로 contrastive learning 하는 개념

Cross-lingual Instruction Tuning, CIT

영어 질문 및 한국어로 답변 지시 -> 한국어 답변 이런식으로 모델을 학습시킴

consistency을 평가하는 것은 아니고, 그냥 다국어 벤치마크에서 성능이 좋아졌다고 주장
그리고 latent space가 언어별로 원래 분리됐었는데, 이것이 일치하게 된다고 시각적으로 보여줌
학습 데이터는 다국어 LLM pretraining 에 사용되는 거에 비해 극히 소량이라고 함

그럼에도 불구하고 성능이 괜찮아진다고 주장

그리고 모든 언어를 쌍으로 지어서 학습하는 것보다

영어를 끼고, 나머지 언어만 선택해서 학습하는 방식이 낫다고함
이를 영어를 bridge 언어로 사용했다고 표현하는데, 영어 성능은 기본적으로 좋다보니까
영어가 다른 언어간의 의사소통을 해주는 느낌임
이 부분은 나름 신기했음

내가 리뷰어였으면 억셉줬을거 같긴한데, 마지막에 오픈리뷰 o1으로 정리해둔거보면 부족한 점이 뭔지 알 수 있을거 같음

ABSTRACT

다국어 생성 모델은 대규모 코퍼스를 기반으로 사전 학습을 수행함으로써 뛰어난 다국어 능력을 얻습니다. 하지만 여전히 고자원(high-resource) 언어에 편향된 성능을 보이며, 언어 간 문장 표현의 분포가 단절되는 문제가 존재합니다. 이러한 격차를 해소하기 위해 우리는 번역된 문장 쌍을 활용한 간단하지만 효과적인 정렬(framework)을 제안합니다.

이 방법은 다국어 대비 학습(multilingual contrastive learning)을 통해 내부 문장 표현을 정렬하고, 서로 다른 언어로 주어진 프롬프트에 대한 응답을 맞추어 모델 출력을 정렬합니다. 실험 결과, 사전 학습 토큰의 0.1‰ 미만만 사용하더라도 우리의 정렬 프레임워크가 생성 모델의 다국어 능력을 크게 향상시키고 성능 격차를 줄이는 것으로 나타났습니다. 추가적인 분석을 통해 본 접근법이 다국어 모델의 내부 표현 분포를 더욱 개선하는 데 기여한다는 점을 확인할 수 있었습니다.

1 INTRODUCTION

다국어 생성 언어 모델은 대규모 비지도 다국어 코퍼스에서 사전 학습을 수행함으로써 여러 언어에 걸쳐 인상적인 범용성을 달성합니다 (Liu et al., 2020; Xue et al., 2021; Lin et al., 2022; Scao et al., 2022; Soltan et al., 2022; OpenAI, 2022).

그러나 최신 다국어 생성 모델인 GPT-4조차도 여전히 고자원(high-resource) 언어에 강한 편향을 보이며, 예를 들어 MMLU 벤치마크에서 영어와 텔루구어 간의 상대적 성능 격차가 27.5%에 달합니다 (Asai et al., 2023; OpenAI, 2023).

이러한 문제는 주로 언어 간 자원 불균형에서 비롯되며, 단순히 코퍼스를 확장하거나 균형을 맞추는 것으로 해결하기 어렵습니다.
그렇다면, 언어 편향을 가진 기존 모델을 재학습하는 데 막대한 비용이 드는 상황에서, 제한된 데이터를 활용하여 다국어 능력을 향상시키고 언어 편향을 완화할 방법은 무엇일까요?

우리는 다국어 생성 모델의 문장 표현을 평균 풀링(mean pooling) 방식으로 시각화하여 분석한 결과, 언어별 문장 표현 분포에 명확한 차이가 존재함을 발견했습니다 (그림 1(a), 추가 다국어 결과는 부록 B.3 참조).

다른언어면 latent space가 다르게 매핑된다고 보여주는 듯

이는 마치 모델이 각 언어를 개별적으로 학습한 것과 유사하여, 다국어 모델이 한 언어에서 학습한 지식을 다른 언어로 전이하는 데 어려움을 겪게 만듭니다. 그렇다면, 보다 잘 정렬된 표현 분포를 학습함으로써 다국어 생성 모델의 언어 간 전이 능력을 향상시킬 수 있을까요?

이 문제를 해결하기 위해, 우리는 **사전 학습 후 정렬(Align aFter Pre-train, AFP)**이라는 다국어 정렬 프레임워크를 제안합니다.
이는 번역된 문장 쌍을 활용하여 다국어 생성 모델에서 언어 간 격차를 좁히는 것을 목표로 합니다.
다른 space에 매핑되니까, 이를 align 하는 프레임워크를 제안하는듯

구체적으로, AFP는 다음 두 가지 모듈로 구성됩니다.

다국어 대비 학습(Multilingual Contrastive Learning, MCL) 기반 내부 표현 정렬:
- 두 언어 간 번역된 문장 쌍을 대조 학습의 긍정 예시(positive example)로 설정하여, 모델 내부에서 두 언어의 문장 표현이 더 가깝게 정렬되도록 학습합니다.
- 이를 통해 모델 내부 표현에서 언어 간 차이를 줄이는 것을 목표로 합니다.
출력 정렬을 위한 교차 언어 인스트럭션 튜닝(Cross-lingual Instruction Tuning, CIT):
- 한 언어로 주어진 프롬프트에 대해 목표 언어로 답변하도록 모델을 학습시킵니다.
- 이를 통해 모델이 보다 우수한 언어 간 이해력과 생성 능력을 갖추도록 합니다.

광범위한 실험과 평가 결과, AFP는 XGLM과 BLOOM을 포함한 여러 다국어 생성 모델의 성능을 크게 향상시키는 것으로 나타났습니다. AFP는 100만 개 미만의 병렬 샘플만을 사용하여 다국어 자연어 추론(XNLI), 다국어 추론(multilingual reasoning) 등 다양한 작업에서 성능을 개선했습니다.

특히, 언어 간 성능 격차가 현저히 줄어들었으며, 예를 들어 XNLI 0-shot 성능에서 영어와 중국어 간 상대적 성능 차이가 6.53% 감소했습니다(그림 1(c)).

또한, AFP는 새로운 언어에 대한 성능도 향상시켰으며, 예를 들어 주로 영어 코퍼스로 사전 학습된 LLaMA 모델의 중국어 성능을 개선했습니다(Touvron et al., 2023a;b). 추가 분석 결과, AFP 적용 후 모델 내에서 언어 간 정렬이 개선되었음을 그림 1(b)에서 확인할 수 있었습니다. 또한, 동일한 병렬 샘플을 사용할 경우 다국어 인스트럭션 튜닝보다 교차 언어 인스트럭션 튜닝이 모델의 다국어 능력을 더욱 향상시키는 것으로 나타났습니다.

AFP(제안한) 프레임워크로 인해, 기존 LLM(LLaMA)이 다른 언어에 대한 성능이 전체적으로 올랐다고 주장.

결론적으로, 본 연구의 기여는 다음 두 가지로 요약됩니다.

AFP라는 간단하면서도 효과적인 다국어 정렬 프레임워크를 제안
- 내부 표현 정렬(MCL)과 출력 정렬(CIT)을 포함하여 병렬 코퍼스를 효과적으로 활용함.
- 정량적 분석 결과, AFP 적용 후 모델의 다국어 표현 분포가 개선됨을 확인.
AFP를 적용한 실험 결과, 다국어 생성 모델뿐만 아니라 주로 영어로 사전 학습된 모델에서도 다국어 능력이 크게 향상됨
- 100만 개 미만의 병렬 샘플만으로도 성능이 향상되며, 정렬 후에는 다른 방법과 결합하여 추가적인 성능 향상도 가능.

2 ALIGNING MULTILINGUAL REPRESENTATIONS AND OUTPUTS OF GENERATIVE MODELS

그림 2에서 볼 수 있듯이, 우리가 제안하는 AFP(Align aFter Pre-train) 프레임워크는 다음 두 가지 모듈로 구성됩니다.

다국어 대비 학습(Multilingual Contrastive Learning, MCL) (섹션 2.1): 서로 다른 언어 간 모델의 내부 표현을 정렬하는 것을 목표로 합니다.
교차 언어 인스트럭션 튜닝(Cross-lingual Instruction Tuning, CIT) (섹션 2.2): 서로 다른 언어 간의 출력 정렬을 요구합니다.

2.1 다국어 대비 학습(Multilingual Contrastive Learning)

모델의 내부 다국어 표현을 정렬하기 위해, 우리는 일반적으로 서로 다른 모달리티의 표현 정렬에 효과적인 것으로 알려진 대조 학습(contrastive learning) 기법을 활용합니다(Radford et al., 2021; Xu et al., 2021; Liang et al., 2022).

이에 따라, 번역된 문장 쌍을 의미적으로 가까운 긍정(positive) 사례로 간주하고, 그 내부 표현이 더욱 가까워지도록 학습을 진행합니다.
반면, 같은 배치 내의 다른 문장들은 해당 번역 쌍의 부정(negative) 사례로 설정됩니다.

2.1.1 공식적인 정의

모델 $f(\theta)$ 의 $l$ -번째 레이어를 정렬하기 위해, 문장 표현 $(h_i, h_i^+)$ 를 다음과 같이 계산합니다:

여기서:

$f_l(\cdot)$ 는 $l$ -번째 레이어의 출력을 나타냅니다.
$g(\cdot)$ 는 디코더 모델에서 문장 표현을 얻기 위한 풀링(pooling) 방식으로, 평균 풀링(mean pooling) 또는 최대 풀링(max pooling) 방법이 사용될 수 있습니다.
$(s_i, s_i^+)$ 는 병렬 데이터셋 $D = \{(s_1, s_1^+), ..., (s_n, s_n^+)\}$ 의 한 샘플입니다.

우리는 개발 세트(dev set)에서 모델 성능을 평가하여 어느 레이어를 정렬할지 결정하며, 실험 결과 임베딩 이후 첫 번째 레이어를 정렬하는 것이 가장 효과적인 것으로 나타났습니다(세부 사항은 섹션 3.2.2 참조).

특정 layer의 출력 vector을 mean-pooling같은걸 해서 contrastive learning 한듯

2.1.2 학습 목표

다국어 대비 학습(MCL)의 훈련 목표는 다음과 같이 정의됩니다:

여기서:

$\text{sim}(\cdot)$ 은 표현 간 유사도를 측정하는 함수이며, 본 연구에서는 코사인 유사도(cosine similarity) 를 사용합니다.
$h_j$ 는 같은 미니배치 내에서 $s_i$ 와 함께 포함된 문장 $s_j$ 의 표현입니다.
$\tau$ 는 온도(temperature) 하이퍼파라미터로, 학습의 민감도를 조절하는 역할을 합니다.

이 방법을 통해, 모델은 번역된 문장 쌍을 더 가깝게 정렬하는 동시에, 같은 배치 내의 다른 문장들과는 거리를 두도록 학습하게 됩니다.

2.2 CROSS-LINGUAL INSTRUCTION TUNING

다국어 생성 모델의 출력을 더욱 정렬하기 위해, 우리는 교차 언어 인스트럭션 튜닝(Cross-lingual Instruction Tuning, CIT) 방법을 도입합니다. 이 방법은 주어진 언어로 된 프롬프트를 기반으로 목표 언어로 응답하도록 모델을 학습시키는 방식입니다.

CIT는 같은 언어로 질문과 응답을 구성하는 기존 다국어 인스트럭션 튜닝(multilingual instruction tuning)보다 더 어려운 문제로, 모델이 보다 뛰어난 언어 간 이해 및 생성 능력을 갖추도록 요구합니다.

학습 샘플 구성 방법

구체적으로, 동일한 언어 ** $a$ **에서 제공되는 문맥-응답(context-response) 쌍 $(c^a_i, r^a_i)$ 을 포함하는 데이터셋 $D^a$ (예: FLAN, Alpaca와 같은 영어 인스트럭션 튜닝 데이터셋)에서 시작합니다(Wei et al., 2022; Wang et al., 2023; Taori et al., 2023).

먼저, 응답 $r^a_i$ 을 **번역기 $t^{a \to b}(\cdot)$ **를 이용해 목표 언어 $b$ 로 변환합니다.
이후, 문맥 $c^a_i$ 의 끝에 목표 언어를 지정하는 **프롬프트 $p^b$ **를 추가합니다. 예를 들어, 그림 2에서는 **"독일어로 답변하세요(Answer in German)"**라는 프롬프트를 추가합니다.
최종적으로 새로운 학습 샘플이 다음과 같이 생성됩니다.

$c^{a \to b}_i = c^a_i + p^b, \quad r^b_i = t^{a \to b}(r^a_i)$

이를 통해, 모델은 특정 언어로 된 입력을 받고, 다른 목표 언어로 응답하는 능력을 학습하게 됩니다.

즉, 기존 질문 뒷부분에 "독일어로 대답하세요"라는 프롬프트를 concat하고 기존 응답을 독일어로 번역한 것을 매핑한다는 것
그러면 질문은 영어, 답변은 독일어 이렇게 되는 식인듯

손실 함수 (Loss Function)

다국어 생성 모델 $f(\theta)$ 의 교차 언어 인스트럭션 튜닝 손실 함수는 다음과 같이 정의됩니다.

여기서:

$P(r^b_{i,j} | c^{a \to b}_i, r^b_{i, <j} ; \theta)$ 는 이전 토큰들을 고려한 상태에서 목표 언어 $b$ 의 다음 토큰 $r^b_{i,j}$ 이 생성될 확률입니다.
$p_{src} \in [0,1]$ 은 목표 언어가 원본 언어와 같을 확률을 나타내는 하이퍼파라미터입니다(섹션 3.2.3 참조).
- 만약 ** $p_{src} = 1$ **이면, 목표 언어가 항상 원본 언어가 되므로, 일반적인 다국어 인스트럭션 튜닝 방식으로 퇴화(degenerate)됩니다.

최종 손실 함수

앞서 설명한 **다국어 대비 학습(MCL)**과 교차 언어 인스트럭션 튜닝(CIT) 두 가지 정렬 기법을 결합하여, AFP(Align aFter Pre-train) 프레임워크의 최종 손실 함수는 다음과 같이 정의됩니다.

여기서:

** $\alpha \in \mathbb{R}^{+}_{0}$ **는 두 가지 정렬 기법 간 균형을 조절하는 하이퍼파라미터입니다.

이 손실 함수를 통해, 모델은 내부 표현 정렬(MCL)과 출력 정렬(CIT)을 동시에 수행하며, 결과적으로 다국어 생성 모델의 언어 간 성능 격차를 줄이는 효과를 얻을 수 있습니다.

즉, contrastive learning으로 두 언어간의 latent space을 가깝게 해주고, CIT로 출력단으로부터 loss을 계산하여 출력을 align 해주는 느낌이다.

아이디어는 심플하고 괜찮은거 같은데?

3 EXPERIMENTS

3.1 실험 설정 (Experiment Settings)

병렬 코퍼스 (Parallel Corpus)

다양한 도메인과 언어에서 더 많은 병렬 데이터를 확보하기 위해, 우리는 다음 두 가지 다국어 데이터셋을 활용합니다.

Bactrian-X (Li et al., 2023):
- Alpaca (Taori et al., 2023) 및 Dolly (Conover et al., 2023)의 데이터를 기반으로 Google 번역기를 통해 52개 언어로 번역된 다국어 인스트럭션 튜닝 데이터셋입니다.
- 각 언어당 67,000개 샘플을 포함합니다.
- 번역으로 만든 병렬 데이터
OPUS-100 (Zhang et al., 2020):
- 다국어 기계 번역 데이터셋으로, 우리는 실험에서 100,000개의 병렬 샘플만 선별하여 사용했습니다.

실험에서 사용된 전체 토큰 수는 약 **2,000만 개(20M)**로, 이는 BLOOM 모델(Scao et al., 2022)의 사전 학습에 사용된 전체 토큰의 0.05‰에 해당하는 매우 적은 양입니다.

언어 모델 (Language Models)

우리는 AFP를 다음 다국어 생성 모델 구조에 적용하여 실험을 수행했습니다.

XGLM (Lin et al., 2022)
BLOOM (Scao et al., 2022)
- 두 모델은 다국어 코퍼스를 사용하여 균형 잡힌 방식으로 사전 학습된 모델입니다.
LLaMA (Touvron et al., 2023a)
- 주로 영어 코퍼스로 사전 학습된 모델이지만, AFP의 효과를 검증하기 위해 포함되었습니다.
다국어 LLM에선 이것들이 표준느낌인가?

훈련 설정과 하이퍼파라미터 정보는 부록 A에 상세히 기술되어 있습니다.

다국어 평가 태스크 (Multilingual Tasks)

모델 성능은 다음 벤치마크 데이터셋을 활용하여 평가했습니다.

자연어 추론(NLI): XNLI (Conneau et al., 2018)
패러프레이징(Paraphrase Detection): PAWS-X (Yang et al., 2019)
추론(Reasoning): XCOPA (Ponti et al., 2020), XStoryCloze (Lin et al., 2022), XWinograd (Tikhonov & Ryabinin, 2021)
기계 번역(Machine Translation): FLORES-101 (Goyal et al., 2022)

각 평가 과정에서 모든 다국어 생성 모델에 동일한 프롬프트 형식을 유지하여 공정한 비교를 진행했습니다(부록 C 참고).

3.2 이중언어(EN-ZH) 실험 결과 및 분석 (Bilingual Results and Analyses)

우리는 모델의 성능 및 표현 변화에 대한 포괄적인 분석을 위해 영어(EN)와 중국어(ZH) 간 정렬 실험을 먼저 수행한 후, 이를 다국어 정렬 조건으로 확장하였습니다(섹션 3.3).

EN-ZH 정렬 실험 결과

표 1은 EN-ZH 병렬 샘플을 사용한 정렬 실험 결과를 보여줍니다.

AFP 적용 후, 모든 모델(세 가지 구조, 다양한 파라미터 크기 포함)의 성능이 전반적으로 향상되었습니다.
167,000개의 병렬 샘플만 사용하여 평균 성능이 3.31% 향상되었습니다.
7B 파라미터 모델은 정렬 후, GPT-3(유사한 파라미터 수)와 비교 가능한 성능을 달성했습니다.

태스크 유형	성능 향상률
자연어 이해 (XNLI, PAWS-X)	4.28%
추론 (XCOPA, XStoryCloze, XWinograd)	2.67%

특히, AFP를 적용한 BLOOM 모델은 BLOOMZ 모델(78M 다국어 인스트럭션 튜닝된 모델)보다 더 높은 성능을 보였습니다(Scao et al., 2022).

다양한 테스크에서 성능이 향상된다

LLaMA 모델에서도 성능 향상 확인

흥미로운 점은, 주로 영어 코퍼스로만 사전 학습된 LLaMA 모델도 AFP 적용 후 중국어 성능이 향상되었다는 것입니다.

중국어 학습 데이터 없이도 성능이 향상되었으며,
추가적인 20GB 중국어 코퍼스로 사전 학습한 모델과 비슷한 성능을 달성했습니다(Cui et al., 2023).

이 결과는 AFP가 모델 내부의 다국어 표현 정렬을 개선하여, 한 언어에서 학습된 지식을 다른 언어로 효과적으로 전이할 수 있도록 돕는다는 점을 입증합니다.

중국어 pretraining이 안되어있어도 효과가 있다는건데.. pretraining 되면 효과가 더 클 것인가?

다국어 생성 능력 향상

AFP는 단순한 이해 및 추론 능력뿐만 아니라, 다국어 생성 능력도 향상시켰습니다.

표 2에서 XGLM 모델의 이중언어(EN-ZH) 번역 성능이 개선됨을 확인할 수 있습니다.
모델은 단순히 더 높은 번역 성능을 보이는 것뿐만 아니라, 양방향 번역(EN → ZH, ZH → EN)에서도 보다 균형 잡힌 성능을 나타냈습니다.

특히, 0-shot 조건에서 평균 성능이 0.1%에서 4.2%로 대폭 향상되었습니다.

이는 AFP가 새로운 언어에서도 더 나은 일반화 능력을 갖도록 모델을 개선한다는 점을 시사합니다.

번역 테스크 성능이 향상된다

3.2.1 AFP가 더 나은 이중언어 표현을 제공

문장 표현 시각화

1,000개의 EN-ZH 병렬 샘플을 활용하여, XGLM564M 및 BLOOM560M 모델의 문장 표현을 시각화하였습니다.

**기본 모델(vanilla models)**에서는 영어와 중국어 문장 표현이 명확하게 분리되어 있습니다(그림 1(a), 3(a)).
그러나 AFP를 적용한 모델에서는 표현이 더 잘 정렬되고 균일한 형태를 보입니다(그림 1(b), 3(b)).
이는 AFP가 다국어 표현을 더 정렬된(distributed) 형태로 개선한다는 것을 시각적으로 보여줍니다.

AFP을 하고나니까, latent space가 겹치게 된다는 것을 보여줌

정렬성(Alignment) 및 균일성(Uniformity) 분석

다국어 표현 분포를 정량적으로 분석하기 위해, Wang & Isola (2020)의 두 가지 지표를 사용했습니다.

정렬성(Alignment):
- 양성 샘플(번역된 병렬 문장 쌍) 간의 표현 거리를 측정하는 척도입니다.
- 수식 정의:
- 값이 작을수록 더 나은 정렬을 의미합니다.
균일성(Uniformity):
- 전체 표현이 균일하게 분포하는 정도를 반영합니다.
- 수식 정의:
$L_{\text{uniform}} = \log \mathbb{E}_{x, y \sim D} e^{-2\| f(x) - f(y) \|^2}$
- 값이 작을수록 더 나은 표현 분포를 의미합니다.

실험 결과 (그림 3(c)):

AFP 적용 시, L_align 및 L_uniform이 모두 감소하며, 모델의 다국어 표현이 더 정렬되고 균일해짐을 확인할 수 있었습니다.
반면, 이중언어 사전 학습(bilingual pre-training)은 균일성만 개선할 뿐, 정렬성에는 영향을 주지 않았습니다.
이는 AFP가 단순한 다국어 사전 학습보다 효과적으로 다국어 표현을 정렬한다는 점을 입증합니다.

나쁘지 않은 결론인데

3.2.2 하위 레이어에서의 다국어 대비 학습이 더 효과적

**그림 4(a)**는 다국어 대비 학습을 적용하는 레이어 위치에 따른 성능 변화를 보여줍니다.

XNLI, PAWS-X, XCOPA, XStoryCloze, XWinograd 등 5개 다국어 태스크에서의 평균 성능을 분석했습니다.
성능이 처음에는 감소했다가 특정 레이어에서 다시 증가하는 경향을 보였습니다.
- XGLM564M 모델에서는 10번째 레이어에서 변화가 발생했습니다.
- BLOOM560M 모델에서는 17번째 레이어에서 변화가 발생했습니다.
임베딩 레이어 바로 다음의 첫 번째 Transformer 레이어에서 가장 높은 성능 향상을 보였습니다.

결론:

다국어 대비 학습은 임베딩 레이어 직후 첫 번째 레이어에서 수행하는 것이 가장 효과적이므로, 기본 설정(default)으로 첫 번째 Transformer 레이어에서 적용되었습니다.

3.2.3 교차 언어 인스트럭션 튜닝 vs 단일 언어 인스트럭션 튜닝

**그림 4(b)**는 교차 언어 인스트럭션 튜닝(CIT)과 단일 언어 인스트럭션 튜닝(MIT) 간의 성능 비교를 나타냅니다.

단일 언어 인스트럭션 튜닝(psrc = 1)
- 모든 언어에서 입력과 출력을 동일한 언어로 유지하는 방식
- 교차 언어 인스트럭션 튜닝보다 성능이 낮음
완전한 교차 언어 인스트럭션 튜닝(psrc = 0)
- 모든 샘플을 무조건 교차 언어 형태로 변환하는 방식
- 성능이 최적 수준에서 벗어나는 비효율적인 결과 발생
최적의 하이퍼파라미터 설정(psrc = 0.5)
- 일부 샘플은 동일 언어 인스트럭션 튜닝, 일부는 교차 언어 인스트럭션 튜닝을 수행
- 가장 높은 성능 향상을 달성

결론:

완전한 단일 언어 또는 완전한 교차 언어 방식보다, 두 가지 방식을 혼합한 설정(psrc = 0.5)이 가장 효과적
따라서, AFP에서는 기본적으로 psrc = 0.5로 설정하여 훈련을 진행했습니다.

다양하게 멀티링구얼 데이터(입,출력 다른 언어)로 학습해본 결과, 반반씩 섞어서 하는게 제일 좋다?

3.3 다국어 결과

이중언어 정렬 외에도, AFP는 다국어 환경에서도 모델을 정렬하는 데 적용될 수 있다. 다국어 생성 모델에서 영어가 지배적인 성능을 보이기 때문에, 정렬의 중심 언어로 영어를 선택하였다. 즉, AFP의 입력 병렬 샘플을 EN-XX 코퍼스(예: EN-ZH 및 EN-TH)에서 선택하여, 다른 언어에서의 모델 표현과 출력을 영어에 더 가깝게 정렬하였다.

또한, 3.3.1절에서 논의하는 쌍 정렬(pairwise alignment) 방식과 같은 다른 정렬 방법도 조사했으나, 성능이 더 낮게 나타났다.

표 3은 서로 다른 언어 계열에서 선택된 5개 언어 간 정렬 결과를 보여준다(세부 사항은 부록 D 참고).

자연어 추론(NLI) 및 추론 태스크에서의 모델 성능이 고자원 언어에서 저자원 언어(스와힐리)까지 일관되게 향상되었다.
또한, AFP를 적용한 모델은 보다 균형 잡힌 성능 분포를 보였다.
- XGLM 모델의 경우, 5개 언어 간 성능 분산이 3.32%에서 2.83%로 감소하였다.
- BLOOM 모델의 경우, 새로운 언어(태국어 +3.9%, 터키어 +3.92%)에서 성능이 향상되었다.

다국어 생성 모델은 정렬 후 다국어 기계 번역 태스크에서도 BLEU 점수 +0.75 향상(표 4)이라는 성능 향상을 보였다.

또한, 언어 간 성능 분포가 더 균형적으로 조정되었으며, 평균 성능 분산이 0.4 감소하였다.

3.3.1 영어를 다리로 사용할 것인가, 쌍 정렬을 사용할 것인가?

우리는 다국어 표현을 정렬하는 방법으로 **영어(EN)를 중심으로 한 다리 정렬(bridge alignment)**과 **쌍 정렬(pairwise alignment)**을 비교 실험하였다.

다리 정렬(Bridge Alignment): 영어(EN)를 기준으로 각 언어와 정렬하는 방식
- 예: EN-ZH, EN-TH를 사용하여 정렬
쌍 정렬(Pairwise Alignment): 모든 언어 간 직접 정렬을 수행하는 방식
- 예: EN-ZH, EN-TH뿐만 아니라 ZH-TH도 포함하여 정렬
- 이게 더 많은 학습이 이뤄지니까 더 좋아야할거 같은데? 아니라는 것
- 모든쌍 대신, 영어를 bridge로 사용한 쌍에 대한 학습이 더 좋다?

실험 결과, 영어를 다리로 사용하는 정렬 방법이 더 높은 성능을 보였다.
쌍 정렬 방식은 데이터 샘플 수가 증가함에 따라 성능이 불안정해지고, 계산 비용이 증가하는 경향을 보였다.
따라서, AFP에서는 영어(EN)를 다리 언어로 사용하여 다국어 표현을 정렬하는 방식을 기본 설정으로 채택하였다.

3.3.2 다른 교차 언어 방법과의 결합

AFP 적용 후, 다른 교차 언어 방법과 결합하여 성능을 추가적으로 향상할 수 있는지 조사하였다.

우리는 **예제 기반 의미 정렬(Semantic Alignment using demos, Tanwar et al., 2023)**을 적용하여 실험을 수행하였다.
표 6에서 확인할 수 있듯이,

다국어 자연어 추론(NLI) 및 추론(reasoning) 태스크에서 추가적으로 평균 0.4%의 성능 향상을 달성하였다.

이 실험 결과는 AFP가 다른 교차 언어 방법과 결합될 수 있으며, 추가적인 성능 향상을 가져올 수 있음을 보여준다.

3.4 52개 언어로의 정렬 확장

위 분석을 기반으로, Bactrian-X 데이터셋의 52개 언어 전체에 대해 정렬을 확장하였다(사용된 모든 언어에 대한 정보는 부록 D 참고).

영어를 **다리 언어(bridge language)**로 사용하여 정렬을 수행하였다.
표 7에 따르면, 5개의 다국어 태스크에서 모델 성능이 평균 2.6% 향상되었으며, 언어 간 성능 편차(variance)도 감소하였다.
특히, BLOOM 7.1B 모델의 경우, 5개의 데이터셋에서 새로운 언어(unseen languages) 성능이 2.8% 향상되었다.
- 이는 AFP를 통한 다른 언어에서 학습된 지식이 전이(transfer)된 결과일 가능성이 높음을 시사한다.

3.5 제거 실험(Ablation Study)

AFP가 모델 성능 향상에 기여하는 요소를 보다 깊이 분석하기 위해, **XGLM564M 및 BLOOM560M 모델을 사용하여 5개 이중언어 태스크에서 제거 실험(아블레이션 스터디, ablation study)**을 수행하였다(표 8 참고).

MCL(다국어 대비 학습)만 적용한 경우,
- 모델의 문맥 내 학습(in-context learning) 능력이 감소하는 현상이 발생하였다.
- 이는 하위 레이어(bottom layer)에서 적용된 MCL이 상위 레이어(top layer)의 다음 단어 예측 능력(next-word prediction)에 영향을 미친 결과일 가능성이 높음.
동일한 데이터를 사용하여 다음 방법을 비교한 결과:
- **일반적인 언어 모델링(CLM, +1.1%)**과 **교차 언어 인스트럭션 튜닝(CIT, +2.0%)**은 모두 다국어 생성 모델 성능을 향상시켰으나,
- 교차 언어 인스트럭션 튜닝(CIT)이 더 큰 성능 향상 효과를 보임.
MCL과 CIT를 결합한 AFP를 적용한 경우,
- 모델 성능이 더욱 향상되었으며,
- AFP가 최적의 정렬 프레임워크임을 입증하였다.

4 관련 연구

4.1 다국어 생성 언어 모델

대규모 다국어 코퍼스에서 비지도 학습을 수행함으로써, 생성 언어 모델은 다국어 기계 번역(Liu et al., 2020), 교차 언어 자연어 이해(Xue et al., 2021), 교차 언어 문맥 내 학습(Lin et al., 2022; Scao et al., 2022; Anil et al., 2023) 등의 뛰어난 다국어 능력을 갖추게 되었다.

대부분의 모델은 단일 언어 코퍼스를 위한 사전 학습 방법(Lewis et al., 2020; Raffel et al., 2020)을 확장하였으며, 언어 간 균형 잡힌 샘플링 방법을 적용하여 학습되었다.

그러나, 고자원 언어와 저자원 언어 간의 성능 격차는 여전히 존재한다(Asai et al., 2023).

본 연구는 다국어 코퍼스에서의 비지도 사전 학습 방식과 달리, 병렬 데이터를 활용한 교차 언어 정렬(cross-lingual alignment)을 통해 언어 간 성능 격차를 완화하는 새로운 접근법을 제안한다.

4.2 자연어 처리에서의 대비 학습(Contrastive Learning)

자연어 처리 분야에서는 대비 학습(contrastive learning)이 언어 모델의 문장 표현을 향상시키는 데 널리 사용되었다.

대표적인 연구로는 SentenceBERT (Reimers & Gurevych, 2019) 및 SimCSE (Gao et al., 2021)가 있다.

구체적으로, 대비 학습은 주로 인코더 기반 모델의 문장 표현을 개선하는 데 적용되었다(Pan et al., 2021).

하지만, 디코더 기반 모델의 표현을 개선하는 연구는 상대적으로 적었다.

본 연구에서는, Transformer 인코더(Vaswani et al., 2017)의 표현을 향상시키는 기존 접근법과 달리,

다국어 대비 학습(multilingual contrastive learning)을 활용하여 Transformer 디코더의 내부 다국어 표현을 개선하는 방법을 제안한다.

5 결론 및 향후 연구 방향

본 논문에서는 간단하지만 효과적인 다국어 정렬 프레임워크를 제안하였으며, 이는 내부 다국어 표현 정렬 및 교차 언어 출력 정렬 방법을 포함한다.

실험 결과, 본 프레임워크가 다양한 규모의 생성 모델에서 내부 표현과 교차 언어 능력을 모두 향상시킴을 확인하였다.

본 연구에서 제안한 정렬 프레임워크는 언어 간 정렬뿐만 아니라, 멀티모달 생성 모델에서 다른 모달리티 간 내부 표현 및 출력을 정렬하는 방식으로 확장될 수 있다.

이를 위해, 기존의 병렬 샘플을 멀티모달 병렬 데이터로 대체하는 방식을 적용할 수 있다.

그러나, 현재 프레임워크는 정렬을 위해 라벨이 지정된(병렬) 학습 데이터에 의존한다는 한계를 가진다.
따라서, 향후 연구에서는 비지도 학습 기반 다국어 정렬 방법(unsupervised multilingual alignment)으로 확장하는 방향이 가능할 것이다.

Openreivew 코멘트

아래 정리는 OpenReview에 게시된 리뷰들을 기반으로, 논문
“Align after Pre-train: Improving Multilingual Generative Models with Cross-lingual Alignment”에 대한 평가(장점, 단점, 기여도)와 논의 사항을 종합한 것입니다.

논문의 주요 기여 (Contribution)

멀티링귤(multilingual) 생성 모델의 성능 향상
- 기존에 영어 등 고자원 언어 중심으로 성능 편향이 발생하는 문제점을 해결하기 위해, 번역 병렬 코퍼스를 활용한 교차언어 정렬(cross-lingual alignment) 프레임워크를 제안함.
- 특히 Multilingual Contrastive Learning (MCL) 로 내부 표현을 정렬하고, Cross-lingual Instruction Tuning (CIT) 으로 모델 출력까지 정렬함으로써 다양한 언어에서의 zero/few-shot 성능이 개선되었음을 보임.
제안 방식의 범용성
- XGLM, BLOOM, LLaMA와 같이 이미 사전 학습된 모델들에 적용 가능함을 실험적으로 제시.
- 최대 52개 언어까지 확장하여도, 매우 적은 양(약 1M 미만)의 병렬 데이터만으로도 유의미한 성능 향상을 얻을 수 있음을 보임.
이론적·실험적 분석
- 단순한 자연어 이해(NLU) 과제뿐 아니라 기계 번역, 요약 등 생성이 필요한 테스트에서도 성능을 확인함.
- 내부 임베딩 분포 분석(embedding distance, uniformity) 및 소스언어(hallucination) 잔존 문제 분석 등, 모델 내부 표현과 실제 생성 양상 변화를 함께 제시.

장점 (Strengths)

아래는 주어진 코멘트들을 종합하여 핵심 내용을 정리한 요약본입니다.

다언어 능력 개선 효과
- AFT(AFP) 기법은 XGLM, BLOOM, LLaMA 등 다양한 다언어 LLM에 적용되었으며, 네 가지 유형의 멀티링귀얼 태스크에서 일관적인 성능 개선을 보임.
- 단순 2개 언어(영-중) 조합을 넘어 최대 52개 언어에 대해 실험을 확장함으로써 방법의 범용성과 확장성을 입증.
실험 및 분석의 풍부함
- 여러 모델과 태스크에서 대규모 실험을 수행하고, 다양한 파인튜닝 목표(멀티링퀄 대조 학습 + 교차언어 인스트럭션 튜닝)에 대한 앱레이션 스터디를 제시해, 두 기법이 함께 쓰일 때 효과가 극대화됨을 보임.
- 임베딩 시각화 및 분포(embedding distance, uniformity) 측정을 통해, AFT(AFP)가 실제로 내부 표현의 언어 간 정렬을 이룬다는 사실을 확인.
기법의 단순성과 재현성
- 교차언어 능력을 높이기 위해 기존 대규모 모델(영어 중심 포함)을 소량의 번역 병렬 데이터로 후처리한다는 아이디어 자체가 직관적이고 구현이 간단함.
- 부록(Appendix) 에 상세 설정과 예제가 수록되어 있어 다른 연구자들이 쉽게 재현 가능할 것으로 보임.
기존 연구의 확장
- 이전에도 영어 전용 모델을 이중언어 모델로 만들거나, 멀티링귤 모델을 개선하려는 시도가 있었으나, AFT(AFP)는 다양한 모델·언어에 적용 가능한 통합적 프레임워크라는 점에서 의미가 있음.
- 다만, 교차언어 대조 학습(MCL)과 교차언어 인스트럭션 튜닝(CIT) 모두 이미 알려진 개념이지만, 이 둘을 효과적으로 결합해 간편하면서도 성능 향상을 보여준다는 데 의의가 있음.

단점 (Weaknesses) 및 한계점

아래는 주어진 코멘트들을 항목별로 정리한 요약본입니다.

1. 기존 연구 및 평가 범위 관련 지적

영어 중심의 LLM 문제 vs. 다국어 모델 자체 학습(PolyLM) 비교 필요성
- 제안 기법인 AFP(Align after Pre-train)는 이미 영어 중심으로 학습된 모델을 다언어적으로 개선하고자 하는 것인데,
- 이에 비해 원천적으로 다언어에 최적화해 학습된 모델(예: PolyLM) 과의 성능 차이 및 효과를 평가해야 가치가 더 명확해질 것이라는 지적.
평가 데이터셋의 단순성 및 최신성 부족
- XNLI, PAW-S, XCOPA, XStoryCloze, XWinograd 등은 대부분 단답형 예측에 가까워, 모델의 실제 ‘다국어 생성 능력’을 충분히 보여주지 못한다는 비판.
- 번역(기계 번역) 정도를 제외하면, 다국어 요약이나 오픈도메인 질의응답(QA)과 같은 복잡한 생성 태스크 평가가 부족.
- 기존의 cross-lingual 벤치마크가 LLM 시대에 부합하지 않는 **‘구식’**일 가능성도 제기.
- 궁극적으로는 더 적합한 멀티링귤 LLM 벤치마크가 필요하다는 의견.

2. 데이터 품질 이슈

교차언어 파인튜닝(cross-lingual finetuning)에 쓰이는 병렬 코퍼스가 기계번역에 의존함에 따라,
- 번역 오타·오역이 전이될 가능성이 있음.
- LLM의 환각(hallucination) 문제가 비영어 언어에서 더 심해질 수도 있음.
- AFP가 이러한 환각을 더 유발하는지, 혹은 완화 방법이 있는지 정량적으로 측정하거나 대책을 논의할 필요가 있음.

3. 기존 기법과의 유사성 및 제한적 기여도

새로움(Novelty) 부족
- 교차언어 대조 학습(contrastive learning)과 교차언어 인스트럭션 튜닝(instruction tuning) 자체는 여러 관련 연구에서 이미 제안된 개념.
- 예) InfoXLM: 번역쌍에 대한 cross-lingual contrastive learning으로 멀티링귤 자질 전이 개선
- 예) BLOOMZ: 다국어 멀티태스크 파인튜닝(즉, 멀티링귤 인스트럭션 튜닝)
CIT(Cross-lingual Instruction Tuning)의 효과성 실증 부족
- 다국어 인스트럭션 튜닝과 비교해 CIT가 실제로 더 어려운(또는 더 높은) 성능 향상을 주는지에 대한 구체적 결과·분석 부족 지적.
- “그냥 인스트럭션 튜닝 그 자체 효과가 크지, 꼭 cross-lingual alignment가 필요하다고 단언할 수 있을까?” 라는 의문.

4. 실험 설정의 공정성 문제

Machine Translation 실험
- AFP에서는 병렬 데이터를 활용하는데, 동일 병렬 데이터를 baseline 모델에도 동일하게 파인튜닝하거나 prompt에 활용하여 비교해야 공정함.
- 논문에서 BLEU 점수가 소폭 오르는 것을 제시했지만, 그 차이가 크지 않아 설득력이 떨어진다고 보는 시각도 있음.
- 또한 3.3절에 ‘BLUE’ 오타 → ‘BLEU’로 수정 필요.

종합 요약

AFP의 가치 비교
- 다국어에 특화되어 처음부터 학습된 모델(PolyLM 등)과의 비교가 필요하다는 제안.
평가 태스크 다양화
- 단순 분류(단답형 예측) 중심 → 생성형 태스크(요약, QA 등)까지 고려해야 실질적 다국어 생성력을 검증 가능.
데이터 및 환각 문제
- 기계번역을 통한 병렬 데이터 품질, LLM 환각이 악화되지 않는지 확인·분석 필요.
기존 문헌과의 차별성
- InfoXLM, BLOOMZ 등 비슷한 기법과 비교 부족, CIT만의 독창성·성능 우위를 더 입증해야 함.
실험 세부 설정의 공정성
- MT 실험 등에서 병렬 데이터 사용 여부를 baseline과 동일하게 맞춰야 비교가 정확해짐.
- BLEU 향상이 약소해 보일 수 있으므로 추가 설명·실험으로 설득력 보강 필요.

종합 평가

리뷰어들은 전반적으로 “멀티링귤 생성 모델에서 교차언어 정렬을 달성하는 실증적 접근” 으로서, 실험 결과와 분석이 잘 정리되어 있다고 평가함.
다만, “핵심 아이디어는 기존 개념을 조합·확장한 것”이라는 점에서 논문의 ‘근본적인 혁신성’ 에 대해서는 다소 비판이 있었음.
그럼에도, “생성 태스크에 대조 학습을 적용했을 때 나타날 수 있는 문제와, 이를 인스트럭션 튜닝으로 보완하는 점” 등이 의미 있는 결론으로 여겨짐.
병렬 데이터만으로도 여러 언어에서 성능 및 표현 정렬(embedding alignment) 개선 효과를 일관적으로 시현했다는 점이 주요 공헌으로 인정됨.

요약하자면, AFP(Align after Pre-train) 기법은 기존 대규모 다언어/영어 기반 사전 학습 모델에 대해 소량의 번역 병렬 코퍼스를 활용해 언어 간 내부 표현 및 출력 정렬을 달성하고, 결과적으로 저자원 언어를 포함한 다양한 언어에서 성능 상승을 가져온다는 점을 보여줍니다. 아이디어 자체는 비교적 단순하거나 기존 기법의 조합에 가깝다는 지적이 있으나, 실험적으로 높은 범용성과 의미 있는 성능 향상을 입증했다는 평가가 대체적입니다.

Reference

https://openreview.net/forum?id=3PaVCdeEmW

NL-256, Align after Pre-train: Improving Multilingual Generative Models with Cross-Lingual Alignment, Preprint

◼ Comment

ABSTRACT

1 INTRODUCTION

결론적으로, 본 연구의 기여는 다음 두 가지로 요약됩니다.

2 ALIGNING MULTILINGUAL REPRESENTATIONS AND OUTPUTS OF GENERATIVE MODELS

2.1 다국어 대비 학습(Multilingual Contrastive Learning)

2.1.1 공식적인 정의

2.1.2 학습 목표

2.2 CROSS-LINGUAL INSTRUCTION TUNING

학습 샘플 구성 방법

손실 함수 (Loss Function)

최종 손실 함수

3 EXPERIMENTS

3.1 실험 설정 (Experiment Settings)

병렬 코퍼스 (Parallel Corpus)

언어 모델 (Language Models)

다국어 평가 태스크 (Multilingual Tasks)

3.2 이중언어(EN-ZH) 실험 결과 및 분석 (Bilingual Results and Analyses)

EN-ZH 정렬 실험 결과

LLaMA 모델에서도 성능 향상 확인

다국어 생성 능력 향상

3.2.1 AFP가 더 나은 이중언어 표현을 제공

문장 표현 시각화

정렬성(Alignment) 및 균일성(Uniformity) 분석

3.2.2 하위 레이어에서의 다국어 대비 학습이 더 효과적

3.2.3 교차 언어 인스트럭션 튜닝 vs 단일 언어 인스트럭션 튜닝

3.3 다국어 결과

3.3.1 영어를 다리로 사용할 것인가, 쌍 정렬을 사용할 것인가?

3.3.2 다른 교차 언어 방법과의 결합

3.4 52개 언어로의 정렬 확장

3.5 제거 실험(Ablation Study)

4 관련 연구

4.1 다국어 생성 언어 모델

4.2 자연어 처리에서의 대비 학습(Contrastive Learning)

5 결론 및 향후 연구 방향

Openreivew 코멘트

논문의 주요 기여 (Contribution)

장점 (Strengths)

단점 (Weaknesses) 및 한계점

1. 기존 연구 및 평가 범위 관련 지적

2. 데이터 품질 이슈

3. 기존 기법과의 유사성 및 제한적 기여도

4. 실험 설정의 공정성 문제

종합 요약

종합 평가

댓글

댓글 쓰기