◼ Comment

consistency을 향상시키는 연구를 처음본다
여기서도 비교연구를 언급안하는걸봐서 아마 첫 시도 아닐까? 싶기도 한데..
일단 pretrained LLM 가져와서 여기서 제안한 데이터로 학습한다
제안한 데이터

Base

수학 및 코딩과 같은 다양한 태스크를 포함하는 Open-Platypus(Lee et al., 2023)를 활용하여 기본 학습을 수행한다.

CrossIn

명령문(Instruction)과 출력(Output)이 서로 다른 두 개의 언어로 제공되는 데이터셋이다.
이러한 데이터를 LUD라고 여기서 부르는거 같고, alpaca 데이터를 번역을 통해 만든듯

Trans

alpaca 명령문의 번역 쌍(translation pairs for instructions)으로 구성된 데이터셋이다.

Table 2을 보면 예시가 나와있음

테이블 3을 보면 전체적으로 CrossIn 데이터로 학습했을 때, consistency가 향상되는 경향임을 볼 수 있다
평가 데이터셋은 테이블 1을 보면 잘 보여주는데

기존의 Cross-MMLU, Cross-LogiQA 데이터가 있긴한데, 샘플수가 엄청적다
따라서 Cross-XQuAD을 만들어서 (XQuAD 기반에 chatgpt 사용한듯) 평가셋으로 사용
데이터를 살펴봐야겠지만, 기본적으로 보기 선택형 문제이다. (수능문제 같은)
이 데이터가 여러 언어로 병렬로 구성되는 데이터들이라고 보면 되는듯

평가 방법

consistency는 직관적으로 언어간의 동시에 답변인 문제 개수를 카운트 하는 걸 기반으로 계산한다
추가적으로 accuracy을 계산하여 조화평균을 최종 메트릭으로 사용한다
예) 영어 성능 & (영어, 중국어, 독일어)가 동시에 정답맞춘 consistency의 평균

여기서 영어는 고정인거 같음?
그리고 동시에 틀린거는 고려안하는거 같음 WHY?

Abstract

대형 언어 모델(LLM)의 다국어 처리 능력은 훈련 데이터의 불균형한 분포와 영어 중심의 인스트럭션 튜닝(instruction tuning)으로 인해 상당한 도전 과제가 된다. 이러한 문제를 해결하기 위해 우리는 **CrossIn(교차 언어 인스트럭션 튜닝)**을 도입하였다. CrossIn은 두 가지 유형의 인스트럭션 튜닝 데이터셋을 활용한다.

첫 번째는 **복잡한 작업 데이터셋(CTD, Complex Task Dataset)**으로, 수학 및 코딩과 같은 다양한 고품질 논리적 작업을 포함한다.
두 번째는 **언어적 균일성 데이터셋(LUD, Linguistic Uniformity Dataset)**으로, 번역이 용이하고 언어적으로 균일한 작업들로 구성된다.

CrossIn은 CTD에서 가져온 교차 언어 인스트럭션 데이터를 LUD의 기계 번역 데이터를 활용하여 지식 정렬을 강화하는 방식으로 인스트럭션 튜닝을 수행한다.

이를 통해 모델의 추론 능력을 향상시키면서도 언어 전반에 걸친 지식 일관성을 유지할 수 있다. 또한, 우리는 CrossIn을 평가하기 위한 **다중 작업 벤치마크(multi-task benchmark)**를 제시하며, 실험 결과 다양한 언어와 작업에서 성능이 크게 향상됨을 확인하였다. 이는 교차 언어 데이터와 번역을 결합하는 전략이 다국어 모델의 일관성과 정확성을 강화하는 데 효과적임을 입증한다.

1 Introduction

대형 언어 모델(LLM)의 발전, 예를 들어 ChatGPT(Achiam et al., 2023) 및 Gemma(Team et al., 2023)와 같은 모델은 자연어 처리(NLP) 분야에서 혁신을 일으키며, 언어 생성 및 상식적 추론과 같은 작업을 획기적으로 변화시켰다(Naveed et al., 2024).

그러나 대부분의 최신 LLM은 영어 중심으로 설계되어 있으며, 비영어권 언어에 대한 성능은 일반적으로 최적보다 낮으며, 특히 영어와 구조적으로 상이한 언어에서 그 성능 저하가 두드러진다(Blevins and Zettlemoyer, 2022; Mehrabi et al., 2022; Gao et al., 2024).

이러한 문제는 주로 다국어 데이터를 학습 및 튜닝 단계에서 불균형적으로 활용하는 데서 기인한다.
데이터가 풍부한 주요 언어에서 모델이 우수한 성능을 보이는 반면, 저자원 언어에서는 성능이 저하되는 경향이 있으며(Dac Lai et al., 2023; Feng et al., 2023), 이는 모델의 전반적인 균형 잡힌 언어 능력 확보를 저해하는 요소가 된다(Zhu et al., 2023a).

영어 중심 LLM의 다국어 성능을 향상시키기 위한 연구에서는 특정 언어의 대규모 데이터셋을 활용한 추가 학습(continued pre-training)이 중요한 전략으로 활용되었다.

그러나 이 방법은 막대한 데이터와 연산 자원이 필요하다는 한계를 지닌다(Workshop et al., 2022).
반면, 비록 사전 학습 과정에서 비영어 데이터의 비율이 상대적으로 적더라도, 그 절대적인 데이터 양은 다양한 언어에 대한 견고한 지식 기반을 형성하는 데 기여한다.
LLM은 학습 과정에서 여러 언어의 샘플을 동시에 접하게 되며, 이로 인해 모델 내부에서 언어적 특성이 공유되고 일반화되는 경향이 있다(Workshop et al., 2022).
그러나 이러한 능력은 후속 튜닝 과정에서 영어 데이터만 사용될 경우 제대로 유지되지 않는다.

본 논문에서는 두 가지 상이한 데이터셋을 활용한 인스트럭션 튜닝 방법을 탐구한다.

첫 번째는 복잡한 수학 및 코딩과 같은 번역이 어려운 고품질 과제가 포함된 **Complex Task Dataset (CTD)**이며,
두 번째는 비교적 번역이 용이하고 언어적 일관성이 높은 과제로 구성된 **Linguistic Uniformity Dataset (LUD)**이다.
CTD를 활용한 튜닝은 모델 망각(model forgetting) 현상으로 인해 일관성이 낮아지는 문제를 야기할 수 있으며(Luo et al., 2024), 반면 LUD를 활용한 튜닝은 데이터가 동질적이기 때문에 모델의 추론 능력이 제한될 가능성이 있다.

이러한 문제를 해결하기 위해 우리는 교차 언어 인스트럭션 튜닝의 일관성과 태스크 수행 정확도를 동시에 향상시키는 방법을 제안한다. 우리의 접근 방식은 과제 내 논리적 구조를 활용하는 고급 튜닝 기법을 통해 논리적 추론 및 다국어 환경에서의 모델 성능을 개선하는 것이다. 이를 통해 언어별 특수성을 균형 있게 반영함과 동시에 모델의 전반적인 성능을 강화할 수 있다. 실험 결과, 우리의 방법이 다국어 역량과 태스크 정확도를 상당히 향상시키며, 모델의 언어적 일관성을 증진시킨다는 점을 확인하였다.

교차 언어 지식 정렬을 종합적으로 평가하기 위해(Qi et al., 2023; Wang et al., 2023), 우리는 독해, 상식적 질문 응답, 논리적 추론이라는 세 가지 과제를 포함하는 벤치마크를 구축하였다.

모델의 일관성(consistency)은 동일한 질문을 여러 언어로 제시했을 때의 응답을 분석하여 측정하며, 해당 벤치마크는 다양한 능력 측면과 난이도를 포함한다.
또한, 생성 기반 평가에서 정확한 일치(exact match) 및 F1 점수만으로 모델 출력을 정밀하게 평가하는 것은 어렵기 때문에, 모든 태스크를 객관적이고 재현 가능한 평가가 가능한 객관식(multiple-choice) 형식으로 통일하였다.
실험 결과, 우리의 교차 언어 튜닝 방식이 모든 평가 항목에서 성능을 크게 향상시킴을 확인하였으며, 최대 40%의 상대적 성능 향상을 달성하였다. --> 어떤 방법일까?
또한, 데이터 양이 언어적 일관성과 지식 정확성에 미치는 영향을 분석하였다.

우리 연구의 주요 기여는 다음과 같다:

다층적 벤치마크 구축
우리는 언어 모델의 교차 언어 지식 일관성을 평가하기 위한 다국어, 다능력 벤치마크를 제시한다. 특히, 기계 독해 평가를 위해 **XQuAD 데이터셋(Artetxe et al., 2019)**을 기반으로 한 **객관식 변형 데이터셋(Cross-XQuAD)**을 구축하고, 이를 상식 QA 및 논리적 추론과 결합하였다.
혼합 교차 언어 인스트럭션 튜닝
우리는 CrossIn이라는 새로운 교차 언어 인스트럭션 튜닝 기법을 도입하여, 사전 학습 이후 모델이 다국어 역량을 효과적으로 활성화할 수 있도록 했다. 이는 모델의 역량을 향상시키는 동시에 언어적 일관성을 유지하는 보다 신뢰할 수 있는 방법을 제공한다.
CrossIn 데이터 분석
대표적인 LLM을 대상으로 세 가지 태스크에서 광범위한 실험을 수행하였으며, 제안한 접근 방식의 효과성을 입증하였다. 또한, 최적의 교차 언어 데이터 비율 및 샘플 번역이 모델의 교차 언어 일관성 향상에 미치는 영향을 정량적으로 분석하였다.

이 연구를 통해 우리는 LLM이 다국어 환경에서 보다 일관되고 정확한 결과를 생성할 수 있도록 개선할 수 있으며, 이는 글로벌 사용자들에게 보다 공정하고 포괄적인 AI 시스템을 제공하는 데 기여할 것이다.

2 Related Work

2.1 다국어 대형 언어 모델

다국어 대형 언어 모델(Multilingual Large Language Models, MLLMs)은 최근 몇 년간 상당한 발전을 이루었다. 최근 Qin et al. (2024)은 포괄적인 리뷰를 통해 MLLM을 훈련하는 다양한 방법론을 정리하였다. 대표적인 모델로는 BLOOM(Workshop et al., 2022), Jais(Sengupta et al., 2023), 그리고 Sailor(Dou et al., 2024)가 있으며, 이들은 사전 학습 단계에서 다국어 성능을 개선하는 것을 목표로 한다.

미세 조정(fine-tuning) 측면에서는 ChatGLM이 다국어 환경에서 훈련된 보상 모델을 활용하며(Zeng et al., 2022), x-LLM은 Alpaca 데이터셋의 번역본과 감독 학습된 번역 데이터 및 인스트럭션 튜닝을 결합하여 모델의 다국어 능력을 향상시킨다(Zhu et al., 2023b).

영어 데이터셋을 활용한 인스트럭션 튜닝은 제로샷(zero-shot) 학습 능력을 여러 언어로 확장할 가능성을 보여주었으나(Wei et al., 2022; Chung et al., 2022), 몇 가지 한계가 있으며, 이에 대한 논의는 5.2절에서 다룬다. 기존 연구들은 다양한 언어로 구성된 학습 데이터를 활용하면 **교차 언어 일반화(cross-lingual generalization)**가 크게 향상될 수 있음을 입증하였다(Muennighoff et al., 2023; Kew et al., 2023; Shaham et al., 2024).

본 연구는 이러한 통찰을 바탕으로 **인스트럭션 미세 조정(instruction fine-tuning)**을 최적화하여 **다국어 일관성(multilingual consistency)**을 향상시키는 데 초점을 맞춘다. 우리는 인스트럭션 처리 메커니즘을 최적화하여, 인스트럭션 튜닝 과정에서 다양한 언어 간의 정렬을 보다 효과적으로 보장하고자 한다.

2.2 다국어 평가 벤치마크

대형 언어 모델의 다국어 성능을 평가하는 것은 모델의 글로벌 적용 가능성을 보장하는 데 필수적이며, 이는 모델이 다양한 언어에서 텍스트를 이해하고 생성할 수 있는지를 확인하는 중요한 과정이다.

MMLU(Hendrycks et al., 2021) 및 TruthfulQA(Lin et al., 2021)와 같은 벤치마크는 LLM의 일반적인 능력을 평가하는 데 사용되지만, 이는 주로 영어 중심의 평가를 수행한다.

XQuAD(Artetxe et al., 2019) 및 MLQA(Lewis et al., 2019)는 대표적인 추출형 질의응답(extractive question-answering) 데이터셋으로, 모델의 다국어 성능을 평가하는 데 널리 활용된다. 그러나 이들은 개별 언어에 대한 성능 평가에 집중할 뿐, **언어 간 지식 공유(knowledge-sharing capability)**를 고려하지 않는다는 한계가 있다.

최근에는 Cross-MMLU 및 Cross-LogiQA(Wang et al., 2023)와 같은 벤치마크가 제안되었으며, 이들은 **교차 언어 일관성(cross-lingual consistency)**을 중점적으로 평가하는 다국어 LLM 평가 체계를 구축하고자 한다. 그러나 이러한 벤치마크는 샘플 수(sample size)가 제한적이어서 평가 결과의 안정성이 낮을 가능성이 있다. 따라서 보다 신뢰할 수 있는 다국어 모델 성능 평가를 위해서는 보다 확장된 데이터셋과 정교한 평가 체계가 필요하다.

3 Cross-Lingual Consistency Benchmark

기존의 다국어 평가 방법은 대형 언어 모델(LLM)의 특성을 충분히 반영하지 못하거나, 다국어 환경에서 교차 언어 일관성(cross-lingual consistency) 평가를 간과하는 경우가 많다. 따라서 본 절에서는 **교차 언어 지식 정렬(cross-lingual knowledge alignment)**을 보다 정밀하게 평가할 수 있는 다국어 평가 벤치마크를 제안한다.

3.1 Datasets and Metrics

다국어 평가를 위한 병렬 샘플을 포함한 데이터셋으로는 MLQA(Lewis et al., 2019) 및 XQuAD(Artetxe et al., 2019)와 같은 데이터셋이 존재한다. 그러나 이들은 주로 지도 학습 기반의 추출형 질의응답(supervised extractive question-answering) 태스크에 최적화되어 있어, LLM이 생성하는 비구조적(unstructured) 출력을 평가하는 데 적절하지 않다(Schuster et al., 2023).

이에 따라 최근에는 교차 언어 일관성 평가를 위한 데이터셋이 개발되었다(Wang et al., 2023). 특히, Cross-MMLU와 Cross-LogiQA는 객관식(multiple-choice) 형식을 사용하여 병렬 샘플을 제공함으로써, LLM의 **지식 정렬 능력(knowledge alignment capability)**을 평가하도록 설계되었다. 이러한 데이터셋은 상식적 질문 응답(commonsense question answering) 및 **논리적 추론(logical reasoning)**에 초점을 맞추고 있다.

https://aclanthology.org/2024.naacl-long.22.pdf
언어별로 매칭된 병렬 벤치마크 셋인듯. 한국어는 없는듯?

그러나 해당 데이터셋들은 인간이 직접 제작하는 방식으로 구성되었기 때문에, 병렬 샘플의 수가 제한적이며, 이는 평가의 신뢰도를 저하시킬 수 있는 요인이 된다. 인간 노동력이 많이 요구되는 이러한 데이터 제작 방식은 **확장성(scalability)**이 낮아, 보다 정밀하고 강건한 평가 결과를 얻는 데 어려움이 따를 수 있다. 따라서 보다 많은 병렬 샘플을 포함하는 확장된 데이터셋이 필요하며, 이러한 한계를 극복할 수 있는 새로운 평가 체계가 요구된다.

이를 바탕으로, 본 연구에서는 독해(reading comprehension) 과제를 추가하여 교차 언어 일관성 평가 벤치마크를 더욱 강화한다. 또한, 기존의 고품질 병렬 데이터셋을 활용하여 LLM 평가에 최적화된 새로운 데이터셋을 자동 생성하는 방식을 도입하였다. 표 1에서는 본 연구에서 구축한 완전한 벤치마크를 요약하여 제시한다.

평가 지표는 Wang et al. (2023)의 접근 방식을 기반으로 한다. 각 언어의 **전체 정확도(overall accuracy)**를 평가하는 것뿐만 아니라, **교차 언어 일관성 지표(cross-lingual consistency metrics)**도 통합하여 평가를 수행한다. 이를 위해 두 가지 주요 지표인 "일관성(Consistency)" 및 "AC3"를 활용한다.

일관성(Consistency) 점수는 모델이 다른 언어로 표현된 동일한 질문에 대해 일관된 응답을 제공하는지를 측정한다.
높은 일관성 점수는 LLM이 언어에 관계없이 공통된 지식을 적용하고 균일한 응답을 생성할 수 있음을 의미한다.

특히, Cross-XQuAD 데이터셋은 4개 언어로 구성되며, **다국어 일관성 지표(multilingual consistency metric)**는 다음과 같이 정의된다:

특정 s개 언어에 대해서 동시에 정답인 개수

여기서, $a_{ls,i}$ 는 샘플 인덱스 $i$ 에 대한 특정 언어 $s$ 의 정답을 의미한다.

이를 바탕으로, 최종적인 일관성(Consistency) 점수는 다음과 같이 계산된다:

s개 언어 조합에 대해서 동시에 정답인 개수의 평균?

여기서 기본 설정으로 $s = 3$ 을 사용하여 3개 언어 간의 일관성을 측정한다(Wang et al., 2023).

AC3 지표는 기존의 정확도(Accuracy) 지표에 일관성(Consistency) 요소를 결합하여 보다 포괄적인 평가를 제공한다. 단순히 정확도 또는 일관성만을 기준으로 평가하면 모델의 성능을 완전하게 반영하기 어렵기 때문이다. 따라서, AC3는 다음과 같이 정의된다:
consistency와 accuracy의 조화평균
여기서 정확도는 어떤 언어에 대한 정확도를 의미하는거지?
근데 의미를 추정하자면, AC3_ko = 한국어 정확도와 한국어를 포함한 consistency_3의 조화평균을 의미하는듯

본 연구에서는 모든 데이터셋을 객관식(MCQ, Multiple Choice Question) 형식으로 변환하여 평가를 수행한다. 이를 통해 모델이 주어진 선택지 중에서 정확한 답을 선택할 수 있는 능력을 보다 명확하게 정량화할 수 있으며, 모델의 **이해력(comprehension)과 추론 능력(reasoning capabilities)**을 보다 신뢰성 있게 평가할 수 있다.

3.2 Cross-XQuAD Construction

그림 1은 원본 XQuAD 데이터셋을 기반으로 Cross-XQuAD 데이터셋을 구축하는 과정을 나타낸다. 이 과정은 다음 세 단계로 구성된다:

영어 객관식(MCQ) 문제 생성 및 오답 선택지 추가
병렬 객관식(MCQ) 문제 구축
후처리 및 품질 검토

그림보면, 그냥 chatgpt한테 시켜서 멀티링귀얼 & 선택하는 데이터로 바꾸고 --> 이를 사람이 검수하는 방식

1단계: 영어 MCQ 문제 생성 및 오답 선택지 추가

XQuAD 데이터셋은 원래 추출형 질의응답(extractive question-answering) 태스크를 위한 것이므로, 기존의 정답을 그대로 객관식 문제의 정답 선택지로 활용할 수 있다.

하지만, 단순한 단어 매칭 기법을 사용하면 문제의 난이도가 지나치게 낮아질 가능성이 있다. 이를 방지하기 위해, 오답 선택지(distractors)를 원본 문맥(context corpus)에서 추출하여 최대한 자연스러운 오답을 구성한다.

오답 선택지가 부족할 경우, ChatGPT-3.5를 활용하여 추가적인 오답 선택지를 생성한다(그림 1b 참고). 이를 통해 정답과 혼동될 수 있는 고품질의 객관식 문제를 구성할 수 있다.

2단계: 병렬 MCQ 문제 구축

준비된 영어 객관식 문제를 기반으로, 다른 언어에서도 동등한 의미를 가지는 병렬 문제를 생성한다.

이 과정에서 단순 번역만 수행할 경우, 다의성(polysemy) 문제로 인해 문맥과 다른 해석이 발생할 위험이 있다. 이러한 오류가 평가 결과에 편향을 초래할 수 있다.

이를 해결하기 위해, 단순 번역 대신 영어 원본과 해당 언어의 문맥(contextual counterpart)을 함께 제공하여 문제를 생성하는 방식으로 모델을 프롬프트(prompting)한다. 이러한 접근법을 통해, 다국어 간 높은 일관성을 유지하는 문제를 생성할 수 있었다.

3단계: 후처리 및 품질 검토

LLM을 활용한 병렬 샘플 생성은 자동화된 병렬 데이터 구축 방법으로 효과적이지만(Li et al., 2023), 높은 정확도를 보장하기 위해서는 **인간 검토(human review)**가 필수적이다.

따라서, 생성된 모든 샘플은 한 차례의 인간 검토 과정을 거쳐 최종적으로 정제된다. 이를 통해 문제의 무결성(integrity)을 확인하고, 오류를 수정하여 데이터 품질을 보장한다.

최종 데이터셋 규모

위의 과정을 거쳐, 총 1,190개의 병렬 샘플을 구축하였으며, 4개 언어에서 총 4,760개의 문제로 구성된 Cross-XQuAD 데이터셋을 완성하였다.

이 데이터셋은 현재까지 개발된 가장 큰 다국어 평가 데이터셋 중 하나이며, 특히 교차 언어 일관성(cross-lingual consistency) 평가가 가능한 최초의 대규모 데이터셋이다.

4 CrossIn Method

교차 언어 인스트럭션 튜닝(Cross-Lingual Instruction Tuning)

영어 중심의 LLM 사전 학습 및 미세 조정 과정에서 발생하는 언어 불균형(language imbalance) 문제를 해결하기 위해, 본 연구에서는 **교차 언어 인스트럭션 튜닝(cross-lingual instruction tuning)**을 탐구한다.

기존의 단일 언어(주로 영어) 샘플을 활용하는 전통적인 방법은 다국어 지원 범위를 제한하는 경향이 있다(Zhu et al., 2023b). 이에 따라, 본 연구에서 제안하는 CrossIn 기법은 샘플 수준에서 혼합 언어(mixed language composition)를 통합하여 태스크 해결(task-solving) 능력과 다국어 학습 효율(multilingual proficiency)을 동시에 향상시키는 것을 목표로 한다.

이 전략은 여러 언어 간에 공유되는 **압축 표현 공간(shared compressed representation space)**을 활용하여, Alpaca와 같은 언어학적 데이터셋의 단순성에 Platypus와 같은 복잡하고 번역이 어려운 태스크를 결합한다. 이를 통해, **언어 간 일반화(language-level generalization)**를 촉진하고 모델의 문제 해결 능력을 강화할 수 있다.

훈련 데이터 구성

훈련 데이터는 세 가지 주요 측면으로 나눌 수 있다:

Base (기본 데이터셋)
CrossIn (교차 언어 인스트럭션 튜닝 데이터셋)
Trans (번역 데이터셋)

1. Base (기본 데이터셋)

모델이 기본적인 능력을 습득하기 위해 사용하는 기본 인스트럭션 튜닝 데이터셋이다.
영어 데이터셋은 가장 자원이 풍부하고 고품질이므로, 이를 **복잡한 태스크 데이터셋(Complex Task Dataset, CTD)**으로 분류한다.
수학 및 코딩과 같은 다양한 태스크를 포함하는 Open-Platypus(Lee et al., 2023)를 활용하여 기본 학습을 수행한다.

2. CrossIn (교차 언어 인스트럭션 튜닝 데이터셋)

명령문(Instruction)과 출력(Output)이 서로 다른 두 개의 언어로 제공되는 데이터셋이다.
**순수 언어적 콘텐츠(pure linguistic content)**만 포함하는 데이터셋에서 추출되며, 번역이 용이하도록 구성된다.
이를 **언어적 일관성 데이터셋(Linguistic Uniformity Dataset, LUD)**으로 분류한다.

3. Trans (번역 데이터셋)

명령문의 번역 쌍(translation pairs for instructions)으로 구성된 데이터셋이다.
모델이 이러한 번역 태스크를 함께 학습할 경우, 언어 간 지식 전이(knowledge transfer)가 촉진될 것이라는 가설을 세운다.

CrossIn 및 Trans 데이터셋 구축

기본 데이터셋(Base)은 Open-Platypus(Lee et al., 2023)에서 가져오며,
CrossIn과 Trans 데이터셋은 Alpaca(Taori et al., 2023) 데이터셋을 기반으로 생성한다.

번역을 통해 alpaca 데이터로부터 (영어질문, 중국어답변) 식의 CrossIn 데이터를 만든거 같은데?
Trans 데이터는 그냥 alpaca의 question을 번역해서 매핑한 데이터인듯

예제 데이터는 표 2에 제시됨.

CrossIn 데이터셋의 세 가지 변형(Variants)

CrossIn 데이터셋은 다음 세 가지 방식으로 생성된다:

CrossInen2x (영어 → 다른 언어)
- 명령문은 영어(English)로 제공되며, 출력 언어는 **무작위(randomly chosen)**로 선택된다.
- 영어에 존재하는 **풍부한 사전 지식(prior knowledge)**을 다른 언어로 **전이(transfer)**하는 것을 목표로 한다.
CrossInx2en (다국어 → 영어)
- 명령문은 무작위 언어(randomly chosen language)로 제공되며, 출력은 영어(English)로 고정된다.
- 다국어 인스트럭션을 영어 중심의 응답으로 통합하여, 모델이 영어를 기준으로 다양한 언어적 지식을 정렬하도록 유도한다.
CrossInx2x (다국어 ↔ 다국어)
- 명령문과 출력의 언어를 모두 무작위로 선택하여 구성된다.
- 모델이 모든 언어 간 양방향 정렬(bi-directional alignment)을 학습할 수 있도록 설계되었다.

결론

본 연구에서 제안하는 CrossIn 기법은 기존의 영어 중심적 인스트럭션 튜닝의 한계를 극복하고, 모델이 다국어 환경에서 보다 자연스럽게 작동할 수 있도록 지원하는 접근법이다.

이를 통해 LLM이 언어 간 지식을 효과적으로 전이하고, 다국어 태스크 해결 능력을 향상시킬 수 있을 것으로 기대된다.

이전 연구에 따르면, 샘플 번역(sample translation)을 포함하는 것이 영어를 다른 언어로 매핑하는 데 도움이 되며, 이를 통해 모델이 영어 지식을 보다 넓은 공간에서 일반화할 수 있음을 보여준다(Zhu et al., 2023b).

번역 데이터가 도움이 된다..?

이를 보다 확장된 비교 실험으로 검증하기 위해, 우리는 **교차 언어 인스트럭션 튜닝(CrossIn)**만을 사용하는 방식과 별도의 번역 태스크(translation task)를 추가하는 방식이 다국어 LLM의 성능에 어떤 영향을 미치는지를 분석한다.

구체적으로, CrossIn 데이터 외에도 영어 명령문을 다른 언어로 직접 번역하는 태스크를 추가하여 실험을 진행한다. 추가적인 명령문 번역(instruction translation)이 모델 성능에 미치는 영향은 섹션 5.3에서 논의된다.

알고리즘 1은 번역 데이터셋을 포함하여 CrossInx2x를 생성하는 전체 알고리즘을 나타낸다. 여기서,

$S$ : 기본 데이터셋(Base)에 추가할 샘플 개수
$C$ : CrossIn 데이터셋
$T$ : 번역 데이터셋(Trans)
$lin$ : 샘플링된 언어

아마? alpaca 데이터를 기반으로 데이터 만드는 과정 (번역 포함)

위 요소들을 사용하여 교차 언어 인스트럭션 튜닝과 번역 데이터셋을 함께 활용하는 방법을 상세히 설명한다.

5 Experiments

5.1 Experimental Setting

본 실험에서는 **영어(English), 중국어(Chinese), 베트남어(Vietnamese), 스페인어(Spanish)**의 4개 언어를 대상으로 세 가지 데이터셋을 활용하여 모델을 평가하였다.

1. 실험에 사용된 LLMs (Language Models)

다음 세 가지 대표적인 공개 LLM을 **기본 모델(base model)**로 사용하였다:

Mistral-7B-v0.1 (Jiang et al., 2023)
Gemma-2B (Team et al., 2024)
LLaMA-3-8B (Team, 2024)

2. 인스트럭션 튜닝 데이터 (Instruction Tuning Datasets)

기본 모델의 인스트럭션 튜닝을 위해 Platypus(Lee et al., 2023) 코퍼스를 Base 데이터셋으로 활용하였다.

기존 연구에 따르면, Platypus 데이터셋은 Alpaca 데이터셋보다 더 다양하고 강력한 일반화 능력을 제공한다.
따라서, Base 데이터셋으로 Platypus를 사용하여 모델의 복잡한 태스크 해결 능력을 극대화하였다.

교차 언어 인스트럭션 튜닝(CrossIn)을 위해서는 Alpaca(Taori et al., 2023) 데이터셋을 시드(seed) 데이터셋으로 활용하였다.

Alpaca 데이터셋을 **기계 번역 엔진(off-the-shelf translation engine)**을 이용해 4개 언어로 확장, 총 52,000 × 4 = 208,000개 샘플을 생성하였다.
이 확장된 데이터셋을 활용하여 CrossIn 및 Trans 데이터셋을 다양한 샘플 수로 구성하였다.

3. 데이터셋의 특징 비교

Platypus (Base 데이터셋)
- 수학, 코딩 등 복잡한 문제 해결 문제 포함
- 높은 문제 해결 능력을 요구
Alpaca (CrossIn & Trans)
- 상대적으로 단순한 영어 기반 인스트럭션 포함
- 코딩, 수학 등의 복잡한 요소 없이 번역 품질이 높음
- 단순한 인스트럭션을 활용해 언어 간 지식 정렬(knowledge alignment)이 충분히 가능한지 실험

4. 모델 학습 방법 (Model Training)

모델 학습에는 LoRA (Hu et al., 2022) 기법을 적용, rank = 64 설정을 사용하여 **파라미터 효율적인(parameter-efficient) 미세 조정(fine-tuning)**을 수행하였다.

공정한 비교(Fair Comparison)를 위해
- 모든 기본 모델(Base Models)은 동일한 하이퍼파라미터를 사용하여 미세 조정
- Platypus 또는 Alpaca 데이터셋을 이용하여 동일한 방식으로 학습

5. 추가 비교 모델 (Comparison with Other LLMs)

표준 벤치마크와 비교하기 위해, **일반적인 범용 LLM(general-purpose LLMs)**과도 비교하였다. 비교 대상 모델은 다음과 같다:

ChatGPT-3.5
LLaMA-2-7B-Chat
Mistral-7B-Instruct-v0.2
m-LLaMA-7B 및 기본 모델 LLaMA-7B (Zhu et al., 2023b)

이를 통해, 기존 연구에서 사용된 모델들과의 성능 차이를 정량적으로 분석하였다.

5.2 Main Results and Analysis

표 3는 현재 사용되는 일반 LLM 및 Alpaca, Platypus, 그리고 다양한 CrossIn 변형으로 튜닝된 모델들의 벤치마크 결과를 보여준다. 본 연구의 주요 결과는 다음과 같이 요약할 수 있다.

기본적인 성능은 영어 기준으로 accuracy, consistency 말하는듯

1. 영어 중심 인스트럭션 튜닝의 한계

우리는 LUD(Alpaca)와 CTD(Platypus) 각각으로 미세 조정된(base model fine-tuned) 모델들의 성능을 비교 분석하였다.

Platypus(CTD)로 미세 조정된 모델은 데이터셋의 태스크 다양성(task diversity) 덕분에 **더 높은 정확도(higher accuracy)**를 보였다.
Alpaca(LUD)로 미세 조정된 모델은 **전반적으로 더 높은 일관성(consistency)**을 나타냈으나, 특히 논리적 추론(Logical Reasoning)이 중요한 Cross-LogiQA 태스크에서 정확도가 다소 낮음을 확인하였다.
즉, Alpaca는 Platypus보다 태스크 해결 능력(task-solving)과 논리적 추론(reasoning)을 강화하는 데 덜 효과적일 가능성이 있다.

또한, 영어 데이터만을 중심으로 다양한 지식을 학습할 경우, 다른 언어에서의 정보가 망각(forgetting)될 가능성이 있으며, 이는 언어 간 일관성(consistency) 저하로 이어질 수 있다.
이 결과는 **정확도(accuracy)와 일관성(consistency) 간의 트레이드오프(trade-off)**가 존재함을 시사하며, 본 연구에서는 이를 해결하여 두 가지 성능을 모두 향상시키는 방법을 제안하고자 한다.

2. 단일 언어 데이터 혼합(Monolingual Mixture)은 충분히 효과적이지 않음

m-LLaMA-7B는 여러 단일 언어 데이터(monolingual data)를 번역 데이터와 함께 사용하여 학습한 모델이다.
Cross-XQuAD 벤치마크에서 LLaMA-7B보다 개선된 성능을 보였으나,
Cross-MMLU 및 Cross-LogiQA 벤치마크에서는 LLaMA-7B와 비슷한 성능을 기록하였다.

이 결과는 단순히 여러 단일 언어 데이터를 혼합하는 것만으로는 다국어 모델의 복잡한 태스크 해결 능력을 충분히 향상시키기 어렵다는 점을 시사한다.
즉, 단순 번역 데이터를 활용하는 것이 아니라, 보다 정교한 교차 언어 학습 기법이 필요하다는 점을 강조한다.

3. CrossIn: 간단하지만 효과적인 방법

CrossIn 인스트럭션 튜닝 방식의 결과를 분석한 결과, 영어 중심의 Platypus 데이터셋과 다국어 Alpaca 데이터셋의 강점을 모두 활용하여 성능을 크게 향상시킬 수 있음을 확인하였다.

Cross-XQuAD 벤치마크에서 AC3 점수가 30% 증가
Cross-MMLU 및 Cross-LogiQA에서도 각각 약 12% 증가

이 성능 향상은 Mistral-7B-v0.1 모델을 기반으로 CrossInx2x 접근 방식을 적용하여 달성되었다.
CrossIn 방식은 모델의 정확도(accuracy)와 일관성(consistency)를 개선함으로써, AC3 점수를 높이는 데 기여하였다.

특히, Cross-LogiQA 데이터셋에서 정확도, 일관성, AC3 점수 모두 최고 성능을 기록하여,
CrossIn이 다국어 논리적 추론(multilingual logical reasoning) 능력을 향상시키는 데 매우 효과적임을 보여주었다.

4. 언어 간 차이가 일관성(consistency)에 미치는 영향

Figure 2를 통해, 언어 쌍(Language pairs) 간의 일관성 점수를 분석하였다.

스페인어(Spanish)와 영어(English) 간 일관성이 가장 높음
- 두 언어가 언어적 유사성(linguistic similarities)을 공유하기 때문일 가능성이 높음.
중국어(Chinese)와 베트남어(Vietnamese) 간 일관성이 가장 낮음
- 문자(character sets)의 차이 및 사전 학습(pre-training) 과정에서의 언어적 편향(language bias) 때문일 가능성이 있음.
베트남어는 영어와의 일관성이 가장 낮은 언어로 나타남

이는 베트남어가 사전 학습에서 저자원 언어(low-resource language)로 간주되기 때문이며,
이는 다국어 모델 학습 시 저자원 언어에 대한 훈련 데이터를 더 다양화할 필요성을 강조하는 결과이다.

이 논문에서도, 언어적 유사성이 높은 언어간에서는 knowledge alignment 등이 잘 일어난다는 것을 말하는거 같음

결론

영어 중심(English-centric) 튜닝은 태스크 해결 능력을 높일 수 있지만, 언어 간 일관성이 저하될 수 있음.
단순한 단일 언어 혼합(monolingual mixture)은 다국어 태스크 해결 능력 향상에 충분하지 않음.
CrossIn 방식은 다국어 태스크 해결 능력과 일관성을 동시에 향상시키며, 특히 논리적 추론 능력을 크게 개선.
언어 간 차이는 모델의 다국어 일관성에 영향을 미치며, 특히 저자원 언어(low-resource languages)의 경우 추가적인 데이터 보강이 필요.

본 연구의 목표는 정확도(accuracy)와 일관성(consistency) 간의 균형을 맞추면서, 다국어 모델이 더욱 강력한 성능을 발휘하도록 개선하는 것이다.

5.3 Ablation Study

본 연구에서는 모델의 성능에 영향을 미치는 주요 요소를 식별하기 위해 **세 가지 포괄적인 절제 실험(Ablation Studies)**을 수행하였다.

이 실험을 통해 데이터 구성 방식, 번역 데이터 통합, 교차 언어 정렬 데이터의 양이 모델 성능에 미치는 영향을 체계적으로 평가하였다.

1. 데이터 구성 방식 비교 (Data Formulation Comparison)

그림 3은 Mistral-7B-v0.1을 언어 백본(language backbone)으로 사용한 AC3 점수를 보여준다.

실험 결과, 교차 언어 인스트럭션 튜닝이 적용된 방식이 단순한 영어 중심(English-centric) 인스트럭션 튜닝보다 더 우수한 성능을 보임을 확인하였다.

특히, CrossInx2x 방식이 CrossInen2x 및 CrossInx2en 방식보다 훨씬 뛰어난 성능을 나타냄을 확인하였다.

CrossInx2x: 명령문과 출력이 무작위로 다양한 언어로 설정됨
CrossInen2x: 명령문이 영어, 출력은 무작위 언어
CrossInx2en: 명령문이 무작위 언어, 출력은 영어
기본적인 성능은 영어 기준으로 말하는듯

이 결과는 완전한 다국어 혼합(CrossInx2x)이 Mistral-7B-v0.1 모델이 제공하는 기능을 가장 효과적으로 활용할 수 있도록 함을 시사한다.
즉, 훈련 샘플 내에서 다양한 언어를 섞어 제공하는 것이, 모델이 한 언어에서 학습한 지식을 다른 언어에 적용할 수 있도록 도와줌으로써 더 높은 정확도와 일관성을 이끌어낼 수 있음을 보여준다.

2. 번역 데이터의 효과 (Efficacy of Translation Data)

그림 4는 CrossInx2x 방식과 CrossInx2x T 전략의 성능을 비교한 결과를 나타낸다.

CrossInx2x: 기존 교차 언어 인스트럭션 튜닝 방식
CrossInx2x T: Alpaca 데이터에 추가 번역 데이터(Translation Pairs)를 포함한 방식

실험 결과, 추가적인 번역 데이터는 성능 향상에 기여하지 않음을 확인하였다.

이는 본 연구의 벤치마크가 이해력(understanding)과 추론(reasoning)에 초점을 맞춘 태스크들로 구성되어 있기 때문일 가능성이 크다.
교차 언어 인스트럭션 튜닝 자체가 이미 다국어 환경에서 이해력과 추론을 자극하는 역할을 수행하므로, 단순한 번역 데이터를 추가하는 것은 큰 이점을 제공하지 못할 수 있다.

또한, 사용된 번역 데이터는 WikiMatrix와 같은 대규모 다국어 데이터셋과 비교했을 때 다소 단순할 수 있다.
따라서, 단순한 번역 데이터를 추가하는 것보다는 샘플 수준에서 다양한 언어를 혼합하는 방식이 다국어 지식 정렬을 개선하는 데 더 효과적임을 시사한다.

3. 필수적인 교차 언어 데이터 양 (Essential Cross-Lingual Data Quantities)

그림 5는 교차 언어 정렬 데이터(cross-lingual alignment data)의 양에 따른 LLM의 AC3 점수 변화를 보여준다.

실험 결과, 5,000개의 정렬 데이터를 추가하는 것만으로도 다국어 일관성을 충분히 확보할 수 있음을 확인하였다.
추가적인 데이터를 더 많이 투입해도 성능 향상은 미미함을 보여주며, 일정량 이상의 데이터는 모델의 성능에 크게 기여하지 않음을 시사한다.

이러한 관찰 결과는 LLM의 효율적인 학습 메커니즘(efficient learning mechanism) 덕분으로 해석될 수 있다.

LLM은 소량의 데이터만으로도 빠르게 패턴을 학습하고 일반화할 수 있음을 보여준다.
특히, 사전 학습(pre-training) 단계에서 이미 다양한 언어의 코퍼스를 학습한 경험이 있기 때문에, 추가적인 정렬 데이터 없이도 기본적인 다국어 이해 능력을 보유하고 있을 가능성이 높다.

이 결과는 다음과 같은 중요한 실용적 의미를 제공한다.

모델의 다국어 일관성을 높이기 위해 방대한 양의 추가 데이터를 사용할 필요가 없음.
소량의 고품질 정렬 데이터만으로도 충분한 성능 향상이 가능하며, 이는 데이터가 제한적인 환경에서 더욱 실용적.

결론

CrossInx2x 방식은 다국어 모델의 성능을 극대화하는 효과적인 전략임
- 다양한 언어를 섞어서 제공하는 것이 모델의 지식 전이를 촉진하며, 정확도와 일관성을 동시에 향상시킴.
단순한 번역 데이터 추가는 성능 향상에 크게 기여하지 않음
- 교차 언어 인스트럭션 튜닝 자체가 다국어 이해력과 추론 능력을 강화하는 역할을 수행하기 때문.
- 번역보다는 샘플 수준에서 다양한 언어를 혼합하는 접근 방식이 더욱 효과적임.
소량의 교차 언어 정렬 데이터(약 5,000개)만으로도 충분한 다국어 일관성을 확보 가능
- 추가적인 데이터를 많이 투입하더라도 성능 향상은 미미.
- 이는 데이터가 부족한 환경에서도 모델 성능을 효과적으로 개선할 수 있는 가능성을 열어줌.

따라서, 본 연구에서는 최소한의 데이터로 최대한의 다국어 성능을 확보하는 효율적인 방법론을 제안하며, 이를 통해 모델이 다국어 환경에서도 균형 잡힌 성능을 발휘하도록 하는 전략적 방향을 제시한다.

6 Conclusion

본 논문에서는 다국어 대형 언어 모델(MLLMs)의 교차 언어 지식 정렬(cross-lingual knowledge alignment) 개선을 위한 연구를 수행하였으며, 평가 벤치마크와 방법론 측면에서 기여하였다.

우리는 기존 데이터셋을 보완하여 교차 언어 일관성(cross-lingual consistency)을 강조하는 기계 독해(machine comprehension) 데이터셋을 구축하였으며, 이를 통해 보다 광범위한 다국어 평가를 위한 견고한 리소스를 제공하였다.

또한, 교차 언어 인스트럭션 튜닝(CrossIn) 기법을 제안하여 모델의 지식 정확도(knowledge accuracy)와 언어 간 일관성(consistency)을 크게 향상시켰다.
이 연구 결과는 효율적인 튜닝 방식이 더욱 강력한 다국어 대형 언어 모델을 구축하는 데 중요한 역할을 할 수 있음을 강조한다.

Limitations

우리의 접근 방식은 고품질 번역 데이터 및 교차 언어 데이터의 가용성에 의존하며, 이는 모든 언어에서 동일하게 확보되기 어려울 수 있다. 따라서, 데이터 가용성 문제를 해결하는 것은 다국어 일관성을 향상시키기 위한 연구에서 중요한 과제이다.

또한, 본 연구에서는 교차 언어 데이터 구성 방식이 대형 언어 모델의 사전 학습(pre-training) 단계에 미치는 영향을 분석하지 않았다.
사전 학습은 모델의 기본적인 지식과 능력을 형성하는 핵심 과정이며, 미세 조정(fine-tuning)보다 훨씬 더 큰 규모로 이루어진다.
따라서, 우리의 방법이 다국어 언어 모델의 사전 학습 효율성과 효과성을 향상시킬 수 있는지 탐색하는 것은 중요한 연구 방향이 될 것이다.

그러나, 사전 학습 단계에서의 절제 실험(Ablation Study)을 수행하는 것은 매우 높은 연산 비용을 요구하며, 제한된 자원으로는 실행하기 어려울 가능성이 크다.

Reference

https://arxiv.org/pdf/2404.11932

NL-253, CrossIn: An Efficient Instruction Tuning Approach for Cross-Lingual Knowledge Alignment, Sumeval 2025