◼ Comment

llama을 일본어에서도 잘 작동하게 하는 연구이다.
일본어 위키 코퍼스에서 hyperlink가 있는 엔티티에서 영어 제목을 가져온다

그다음 해당 엔티티 뒷부분에 <translate>영어제목</translate> 이렇게 코퍼스를 확장한다
학습과 테스트 사이의 간극을 줄이기 위해, 모든 엔티티에 하지 않고 확률을 0.5로줘서 랜덤으로 50% 엔티티에 대해서만 진행한다
코퍼스 확장은 왼쪽보다 오른쪽에 하는 것이 효과적이라고 한다.
이렇게 재구성한 pretraining 코퍼스로 추가학습하는 것을 LEIA라고 한다

베이스라인 모델

기존 llama
llm에 일본어 pretraining 코퍼스를 단순히 further pretraining 한 것을 +FT 모델이라고 하고

LEIA가 기존모델과 +FT보다 모두 효과적이라고 보여준다

추가적으로 +FT는 기존모델보다도 성능이 다소 떨어지는 경우가 존재하는데, 이는 학습 코퍼스 형식에 오버피팅이 된거 같아서라고 유추한다

코드스위칭 데이터가 효과적이라는 것을 보여주는 한 논문인거 같고 괜찮은 거 같다
아쉬운점은 이렇게했을때 영어 벤치마크에서의 성능변화를 확인안한다

물론 목적이 일본어 llm이라면 중요하지 않을수도 있지만 영어 성능도 안떨어지면서 knowledge transfer가 잘되야 더욱 좋은 방법이 아닐까? 싶음

Abstract

영어 기반 대형 언어 모델(LLM)을 다른 언어로 적응시키는 것은 교차 언어 전이의 효율성과 잠재력으로 인해 점점 더 인기를 얻고 있습니다. 그러나 기존의 언어 적응 방법들은 교차 언어적 감독(cross-lingual supervision)의 이점을 간과하는 경우가 많습니다.

본 연구에서는 LEIA라는 언어 적응 튜닝 방법을 소개합니다. LEIA는 여러 언어에서 정렬된 위키백과 엔티티 이름(Wikipedia entity names)을 활용하는 방법입니다. 이 방법은 대상 언어 코퍼스에 영어 엔티티 이름을 추가로 포함시키고, 좌에서 우로 진행되는 언어 모델링(left-to-right language modeling) 방식으로 모델을 학습하는 과정을 포함합니다.

우리는 7B-파라미터 규모의 LLM을 사용하여 다양한 질의응답(question answering) 데이터셋에서 LEIA의 성능을 평가하였으며, 여러 비영어권 언어에서 상당한 성능 향상을 입증하였습니다.

1 Introduction

대형 언어 모델(LLM)은 핵심 기술로 떠오르고 있지만(Brown et al., 2020), 방대한 데이터 요구량으로 인해 자원이 풍부한 일부 언어에만 적용이 가능하며, 그중에서도 영어가 가장 지배적인 위치를 차지하고 있습니다(Joshi et al., 2020). 이러한 제약을 극복하고 LLM의 적용 범위를 넓히는 유망한 전략 중 하나는 언어 적응 튜닝(language adaptation tuning) 입니다(Müller & Laurent, 2022; Yong et al., 2023). 이 방법은 이미 사전 훈련된 LLM을 특정 언어의 코퍼스로 추가 학습시키는 방식으로, 사전 훈련 중 습득한 지식을 대상 언어로 전이할 수 있다는 점이 핵심 동기입니다.

그러나 기존의 언어 적응 방법들은 교차 언어적 감독(cross-lingual supervision) 을 활용하는 방안을 간과하는 경향이 있습니다. 비록 언어 모델이 단일 언어 코퍼스의 혼합을 통해 교차 언어적 지식을 학습할 수 있지만(Conneau et al., 2020), 언어 간의 지식 공유는 제한적이며, 영어와 비영어권 언어 간의 성능 차이는 여전히 크게 존재합니다(Ahuja et al., 2023; Etxaniz et al., 2023; Huang et al., 2023).

이에 본 연구에서는 LEIA (Lightweight Entity-based Inter-language Adaptation) 라는 새로운 언어 적응 튜닝 방법을 제안합니다. LEIA는 교차 언어적 감독을 명시적으로 활용하는 방식으로, 다양한 언어에서 고품질 텍스트 데이터를 제공하는 위키백과(Wikipedia) 를 대상 언어 코퍼스의 주요 출처로 사용합니다. 위키백과 텍스트는 하이퍼링크를 통해 특정 엔티티(예: 위키백과 문서)를 연결하며, 이러한 엔티티들은 언어 간 링크(inter-language links) 를 통해 서로 정렬되어 있습니다.

LEIA의 튜닝 과정에서는 텍스트 내 특정 엔티티 옆에 영어 엔티티 이름을 추가 삽입 한 후(예: Figure 1 참고), 좌에서 우로 진행되는 언어 모델링(left-to-right language modeling) 방식으로 모델을 학습시킵니다.

이 간단한 수정만으로도 모델은 학습 과정에서 대상 언어 내에서 영어 엔티티 정보를 활용할 수 있으며, 이를 통해 교차 언어적 지식 전이가 촉진될 것으로 예상됩니다.

이해하기론 기존에 그냥 중국어로 쭉 적혀있는 데이터에서 (위키 링크가있는 단어) 엔티티의 뒤에 <translate>영어</translate>을 뒤에 붙임으로써 지식 transfer가 되도록 하는거 같다.

LEIA의 효과를 검증하기 위해 7B-파라미터 규모의 LLM 인 LLaMA 2 (Touvron et al., 2023)와 Swallow (Fujii et al., 2024) 를 사용하여 실험을 진행하였으며, 다양한 질의응답(question answering) 데이터셋 을 활용하여 평가를 수행했습니다. 그 결과, LEIA를 적용한 모델은 영어 지식 전이의 이점을 통해 기본 모델 및 LEIA 없이 미세 조정된 모델 대비 현저한 성능 향상 을 보였습니다.

2 Method

우리의 방법은 사전 훈련된 LLM을 대상으로, 대상 언어 위키백과에서 추출한 증강된 코퍼스를 활용하여 미세 조정(fine-tuning)하는 방식이다.

구체적인 과정

위키백과 하이퍼링크 처리
- 위키백과 코퍼스 내 각 하이퍼링크가 가리키는 엔티티의 영어 이름을 해당 하이퍼링크 옆에 삽입한다.
- 영어 이름은 <translate> 및 </translate> 특수 토큰으로 감싸 모델이 그 경계를 명확히 인식할 수 있도록 한다.
영어 엔티티 이름 추출
- 영어 엔티티 이름은 해당 엔티티의 영어 위키백과 페이지 제목에서 가져온다.
- 이때, 언어 간 링크(inter-language links)를 활용하여 대상 언어와 영어 위키백과 문서를 연결한다.
- 단, 영어 위키백과에 존재하지 않는 엔티티(페이지가 없는 경우)는 제외한다.
LLM 미세 조정 및 학습 방법
- 대상 언어 코퍼스를 사용하여 LLM을 미세 조정한다.
- 동일한 언어의 데이터셋을 사용하여 모델의 성능을 평가한다.
- <translate> 및 </translate> 특수 토큰을 모델의 어휘에 추가한다.
- 그러나, 모델이 추론 과정에서 이러한 특수 토큰을 직접 생성하지 않도록 하기 위해, 학습 중 해당 토큰을 예측할 때의 손실(loss) 전파를 차단한다.
- <translate>의 특수토큰을 추가하지만, translate을 생성하도록 하는 loss는 차단. 아마 입력조건으로만 주는 형식으로 활용한다는 의미인듯

이 방식은 모델이 대상 언어를 학습하면서도 영어 엔티티 정보를 자연스럽게 참고할 수 있도록 도와주는 전략이다.

3 Experiments with LLaMA 2

우리는 LLaMA 2 7B 모델(Touvron et al., 2023) 을 사용하여 실험을 시작한다. 이 모델은 주로 영어 학습을 중심으로 사전 훈련되었기 때문에, 다른 언어로 전이될 수 있는 상당한 영어 지식 을 보유하고 있다.

또한, 이 모델의 훈련 코퍼스에는 약 380억 개(38B)의 비영어권 언어 토큰 이 포함되어 있어 다국어 처리 성능에서도 경쟁력을 갖춘 것으로 알려져 있다(Etxaniz et al., 2023).

이러한 특성을 바탕으로, LLaMA 2는 우리의 언어 적응 방법이 영어에서 다른 언어로 얼마나 효과적으로 작용하는지를 평가하는 데 적합한 후보 모델 이다.

3.1 Setup

훈련 과정

우리는 총 7개 언어(아랍어, 스페인어, 힌디어, 일본어, 러시아어, 스와힐리어, 중국어)에서 실험을 진행한다. 이 언어들은 다섯 개의 서로 다른 어족 에 속하며(자세한 내용은 부록 B 참고), 다양한 언어적 특성을 반영하기 위해 선정되었다.

모델은 최대 2억 개(200M) 토큰 으로 미세 조정(fine-tuning)되며, Yong et al. (2023)의 방법을 따른다. 또한, 배치 크기는 400만(4M) 토큰 을 사용하며(Touvron et al., 2023),

스와힐리어 는 20 스텝,
그 외의 언어 는 50 스텝 동안 학습이 진행된다.
세부적인 훈련 설정은 부록 A에서 확인할 수 있다.

데이터셋

모델의 성능은 두 가지 다중 선택 문제(multiple-choice) 질의응답 데이터셋 을 활용하여 평가한다.

X-CODAH 와 X-CSQA (Lin et al., 2021) 데이터셋을 사용하며, 이 데이터셋은 상식적 지식(commonsense knowledge) 을 요구하는 문제들로 구성되어 있다.
평가 방식은 X-CODAH는 0-shot, X-CSQA는 4-shot 설정을 따른다.
데이터셋에 대한 자세한 설명은 부록 E에서 확인할 수 있다.

베이스라인 설정

LEIA 방식과 비교하기 위해 기본 베이스라인 모델을 설정한다.
주요 베이스라인 모델은 기존 위키백과 코퍼스로 미세 조정하되, 영어 엔티티 이름을 추가하지 않은 모델 (LLaMA2+FT)이다.

그냥 타겟언어에 대해서만 further pretraining을 한 것을 의미함

이 모델과의 비교를 통해, 성능 향상이 단순한 위키백과 코퍼스 미세 조정 때문이 아니라, 영어 이름 삽입에 기인하는지 확인 한다.
추가로, 랜덤 베이스라인(random baseline)과 미세 조정 없이 그대로 사용한 LLaMA 2 모델 도 비교 대상으로 포함한다.

방법 설정

영어 엔티티 이름을 추가하는 방식은 세 가지 전략을 실험한다.

left: 하이퍼링크 앞에 영어 이름 삽입
right: 하이퍼링크 뒤에 영어 이름 삽입
replace: 원래 엔티티 텍스트를 영어 이름으로 대체

또한, 훈련과 테스트 간 차이를 줄이기 위해(p_skip) 일정 확률로 영어 이름 삽입을 생략 하도록 설정한다.

Figure 1의 예시는 "right" 전략을 사용하며, p_skip = 0.0 으로 모든 경우에 영어 이름을 삽입한다.
계산 자원이 제한적이므로, p_skip 값은 {0.0, 0.5} 만 실험 한다.

3.2 Results

우리는 먼저 다양한 방법 설정에서 전체 언어의 평균 정확도 를 Table 1에 제시한다.

실험 결과, 전략 선택이 성능에 미치는 영향은 미미한 수준 이었다. 또한, p_skip = 0.5 설정이 p_skip = 0.0보다 일관되게 더 높은 성능을 보였다.

이에 따라 추가적인 실험에서는 계산 비용을 줄이기 위해 "right" 전략과 p_skip = 0.5 설정만을 사용하며, 이를 LEIA라고 명명한다.

right가 좋고 p_skip=0.5가 효과적이다. 여기서 부르는 LEIA 세팅임

주요 결과

Table 2에 제시된 결과에 따르면, LEIA는 X-CODAH 데이터셋의 모든 언어에서, 그리고 X-CSQA 데이터셋의 7개 언어 중 5개 언어에서 모든 베이스라인 모델을 능가하는 성능을 보였다.

특히, LEIA는 모든 언어에서 LLaMA2+FT 베이스라인 모델보다 높은 성능을 기록 하며, 교차 언어적 지식 전이가 효과적으로 이루어졌음을 확인할 수 있었다.

그러나, 힌디어(Hindi)와 스와힐리어(Swahili)의 X-CSQA 결과에서는 LEIA를 포함한 모든 모델이 랜덤 베이스라인을 넘어서지 못했다.
이는 LLaMA 2의 사전 훈련 데이터에서 힌디어와 스와힐리어의 비중이 매우 적었기 때문 으로 보이며, 따라서 모델이 이러한 언어의 few-shot 학습을 효과적으로 수행하지 못하는 것으로 추정된다.

또한, LLaMA2+FT 모델은 여러 언어에서 LLaMA 2 기본 모델보다 낮은 성능을 보였다.
이는 위키백과 데이터가 균일하고 정제된(formal) 스타일을 갖고 있기 때문 으로, 이러한 특성에 과적합(overfitting)된 결과로 보인다.
즉, 모델이 위키백과 스타일의 데이터에는 강하지만, 일반적인 대화체, 비격식적인 문장, 질문 형식의 텍스트에는 약할 가능성이 있다.

추가적인 few-shot 샘플 수에 따른 결과는 부록 D에서 확인할 수 있다.

단순히 타겟언어 코퍼스를 가져와서 further pretraining하는 것은 큰 효과가 없다. 오히려 성능이 떨어지기도함. 과하게 새로운 pretraining 형식에 오버피팅되서 그런거 같다고 section 4에서 언급함

4 Experiments with Swallow

이 섹션에서는 영어뿐만 아니라 대상 언어에 대한 방대한 지식을 이미 보유한 이중언어 모델도 LEIA를 통해 추가적인 지식 전이(knowledge transfer)의 혜택을 받을 수 있는지 검증한다.

우리는 다양한 벤치마크 데이터셋이 존재하는 일본어 를 대상으로, 최신 영어-일본어 LLM인 Swallow 7B (Fujii et al., 2024) 를 실험에 활용한다.
Swallow 7B는 LLaMA 2를 기반으로 어휘 확장(vocabulary extension)과 지속적 사전 훈련(continual pretraining)을 거쳐 개발된 모델 로,

900억 개(90B) 일본어 토큰
100억 개(10B) 영어 토큰
을 포함하는 이중언어 코퍼스(bilingual corpus)로 학습되었다.

이 실험을 통해, 대규모 대상 언어 코퍼스로 이미 적응된 모델이라도 LEIA를 적용하면 추가적인 성능 향상을 얻을 수 있음을 입증한다.

이미 어느정도 작동하는 언어에 대해서도 LEIA식 학습을 하면 효과가 있다라고 주장

4.1 Setup

훈련 과정

Swallow 7B 모델을 일본어 위키백과 코퍼스를 사용하여 미세 조정 하며, 훈련 설정은 3.1절에서 설명한 방식과 동일하다.

데이터셋

기존에 사용한 X-CODAH, X-CSQA 데이터셋 외에도, 일본어 LLM 평가를 위해 사용되는 4가지 추가적인 질의응답 데이터셋 을 활용한다.
1. JEMHopQA (Ishii et al., 2023) – llm-jp-eval 프레임워크 사용
2. NIILC (Sekine, 2003) – llm-jp-eval 프레임워크 사용
3. JCommonsenseQA (Kurihara et al., 2022) – JP Language Model Evaluation Harness 사용
4. JAQKET (Suzuki et al., 2020) – JP Language Model Evaluation Harness 사용
평가 방식
- JCommonsenseQA, JAQKET → 정확도(accuracy) 측정
- JEMHopQA, NIILC → 문자 기반 F-측정(character-based F-measure) 활용
- 자세한 실험 설정은 부록 E에서 확인 가능

베이스라인 모델

일본어 위키백과 코퍼스로 미세 조정한 모델을 Swallow+FT 로 명명
미세 조정을 하지 않은 기본 Swallow 모델 도 비교 대상으로 포함

4.2 Results

Table 3에 따르면, LEIA를 적용한 모델은 모든 데이터셋에서 모든 베이스라인 모델을 능가하는 성능을 기록했다.

이는 이미 대규모 대상 언어 코퍼스로 학습된 모델일지라도, LEIA를 통해 추가적인 교차 언어적 전이가 가능함을 의미한다.

또한, LLaMA 2 실험(§3.2)과 유사하게, Swallow+FT 모델은 미세 조정하지 않은 Swallow 모델보다 성능이 떨어지는 경향을 보였다.
이러한 성능 저하는, 일본어 위키백과의 균일하고 정형화된(formal) 스타일에 과적합(overfitting)되어, 다양한 스타일의 질문과 비정형 텍스트를 다루는 능력이 감소했기 때문으로 추정된다.

5 Analysis

정성적 분석 (Qualitative Analysis)

Table 4에서는 LEIA는 정답을 맞췄지만, LLaMA2+FT는 실패한 일본어 X-CODAH 데이터셋의 5가지 무작위 예측 결과 를 제시한다.
결과를 통해, LEIA가 교차 언어적 지식 전이를 통해 상식적 지식(예: 바다는 끓일 수 없다)과 사실적 지식(예: 에펠탑은 파리에 있다)을 효과적으로 습득했음을 확인할 수 있다.

LEIA는 어떻게 지식 전이를 촉진하는가?

영어 이름이 코퍼스에 삽입되는 방식은 학습을 두 가지 측면에서 향상시킬 수 있다.

이름을 레이블(labels)로 활용: 앞에 나온 토큰을 기반으로 정답을 예측하는 역할을 할 수 있다.
이름을 문맥(contexts)으로 활용: 이후에 나오는 토큰의 의미를 보강하는 맥락적 정보로 작용할 수 있다.

이 두 가지 요소가 교차 언어적 지식 전이 를 돕는 역할을 하지만, 성능 향상에 어느 요인이 더 크게 기여하는지 확인하기 위해,

영어 엔티티 이름을 예측할 때 손실(loss) 전파를 차단 하는 실험을 진행했다.

<translate>의 loss을 사용안하듯이, 영어 엔티티이름에 대해서도 적용했지만 영향은 거의 없다고함
성능에 영향을 미치는것은 context에 영어,타겟언어가 같이 있기 때문이라는 것

Table 5의 결과에 따르면, 영어 엔티티 토큰에서 손실 전파를 막아도 성능에 미치는 영향이 거의 없었다.
이는 LEIA의 성능 향상이 주로 ‘이름을 문맥(context)으로 활용하는 것’ 때문임을 시사한다.

특수 토큰()의 효과 분석

<translate> 및 </translate> 특수 토큰이 학습에 미치는 영향을 분석하기 위해,
LLaMA 2 모델에서 영어 이름을 삽입할 때 이 특수 토큰을 사용하지 않는 방식으로 학습을 진행했다.

Table 6의 결과에 따르면,

이 특수 토큰을 사용하지 않았을 때, X-CODAH 및 X-CSQA 데이터셋 모두에서 성능이 일관되게 감소 했다.
이는 특수 토큰이 삽입된 영어 이름의 경계를 명확하게 구별하는 역할을 하며, 학습 과정에서 중요한 역할을 한다는 것을 보여준다.

6 Related Work

언어 적응(Language Adaptation)

일반적으로 언어 모델의 도메인 적응(domain adaptation)은 특정 도메인의 코퍼스를 활용하여 모델을 학습시키는 방식 으로 이루어진다(Gururangan et al., 2020).
다른 언어를 서로 다른 도메인으로 간주하면, 같은 방법을 언어 적응에도 활용할 수 있다.
이는 다양한 모델에서 효과적인 것으로 입증되었다.
- 인코더-디코더 모델 (Neubig & Hu, 2018)
- 양방향 언어 모델 (Han & Eisenstein, 2019; Wang et al., 2020; Chau et al., 2020)
- 오토레그레시브 언어 모델 (Müller & Laurent, 2022; Yong et al., 2023)

그러나 새로운 언어로 적응할 때, 표현 방식(surface forms)의 차이 때문에 언어 간 지식 전이가 충분히 이루어지지 않는 문제 가 발생할 수 있다.
이를 해결하기 위해, 본 연구에서는 교차 언어적으로 정렬된 엔티티 이름을 활용하는 방법을 제안 했다.

교차 언어적 감독(Cross-lingual Supervision) 기반 언어 모델

교차 언어적 전이를 향상시키기 위해 교차 언어적 감독(cross-lingual supervision) 을 도입하는 것이 효과적이다.
이러한 감독 정보는 이중언어 사전(bilingual dictionaries) 또는 병렬 텍스트(bitext)와 같은 다양한 출처 에서 얻을 수 있다(Conneau & Lample, 2019; Kale et al., 2021; Reid & Artetxe, 2022; Wang et al., 2022).
위키백과 하이퍼링크는 이중언어 사전과 유사한 역할을 하는 특수한 형태의 단어/구문 정렬 정보 로 활용될 수 있으며, 이는 이전 연구에서도 효과적임이 입증되었다(Jiang et al., 2022; Ri et al., 2022).

위키백과는 고품질의 정형화된(formal) 텍스트를 제공하며, 지속적으로 다양한 언어로 확장되고 있기 때문에, 이를 활용하는 방식이 매우 유망하다.
본 연구는 위키백과의 교차 언어적으로 정렬된 엔티티 이름을 활용하여 언어 모델의 지속적 학습(continual training)을 개선할 수 있음을 실증했다.

7 Conclusion

본 연구에서는 위키백과 텍스트에 영어 엔티티 이름을 삽입하여 미세 조정(fine-tuning)하는 방식으로 교차 언어적 지식 전이를 촉진하는 방법, LEIA를 제안했다.

LEIA를 영어 LLM(LLaMA 2)과 영어-일본어 LLM(Swallow)에 적용하여, 다양한 비영어권 질의응답 데이터셋에서 성능이 크게 향상됨을 입증했다.
향후 연구에서는,
1. 위키백과 외의 텍스트 코퍼스에도 적용할 수 있도록 엔티티 링크 기반의 주석(annotation)을 생성하는 방식 을 검토할 예정이다.
2. LEIA 방식을 후처리(fine-tuning) 방식이 아니라, 사전 훈련(pretraining) 단계에서 이중언어 또는 다국어 LLM에 적용하는 방법 도 연구할 계획이다.

8 Limitations

우리의 평가 실험은 질의응답(question answering) 태스크 에 초점을 맞추었으며, 이는 엔티티 이름을 통한 지식 전이가 주로 상식(commonsense)과 세계 지식(world knowledge)을 포함할 것이라는 가정 에 기반한다.

이러한 유형의 지식은 더 다양한 태스크에도 유용할 가능성이 있지만, 보다 광범위한 평가 연구는 향후 연구 과제로 남겨둔다.

본 연구에서 사용한 데이터 출처는 위키백과(Wikipedia) 로, 이는 위키백과에 포함된 언어에 한정된 적용 범위를 갖는다는 한계 가 있다.

그러나, 우리의 접근 방식은 이중언어 사전(bilingual dictionaries)과 같은 다른 형태의 교차 언어적 감독(cross-lingual supervision)을 통합할 수 있도록 확장 가능하다.

이러한 확장은 현재 위키백과에서 다루어지지 않는 추가적인 언어들에도 본 연구의 프레임워크를 적용할 수 있도록 하는 데 기여할 수 있을 것이다.

Reference

https://aclanthology.org/2024.findings-acl.419.pdf

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-248, LEIA: Facilitating Cross-Lingual Knowledge Transfer in Language Models with Entity-based Data Augmentation, Findings of ACL 2024

◼ Comment

Abstract

1 Introduction

2 Method

구체적인 과정

3 Experiments with LLaMA 2

3.1 Setup

훈련 과정

데이터셋

베이스라인 설정

방법 설정

3.2 Results

주요 결과

4 Experiments with Swallow

4.1 Setup

훈련 과정

데이터셋

베이스라인 모델

4.2 Results

5 Analysis

LEIA는 어떻게 지식 전이를 촉진하는가?

특수 토큰()의 효과 분석

6 Related Work

언어 적응(Language Adaptation)

교차 언어적 감독(Cross-lingual Supervision) 기반 언어 모델

7 Conclusion

8 Limitations

댓글

댓글 쓰기