NL-252, Beneath the Surface of Consistency: Exploring Cross-Lingual Knowledge Representation Sharing in LLMs, Preprint 2024

◼ Comment

  • 빠르게 번역돌려서 봐봤는데 LLM consistency에 대한 분석을 했다고 볼 수 있다
  • 즉 consistency을 높이려고 시도를 했다기 보다는, 기존의 LLM의 consistency을 파악하고 further pretraining하면 어떻게 되는지 살펴본 느낌?
  • 여기서 말하는 consistency에 대한 개념을 살펴보자
    • "한국의 수도는?" --> "서울"
    • "What is the capital of Korea?" --> "seoul"
    • 둘다 답을 맞췄다고해서 LLM이 해당 지식을 한글,영어에 대해 공유하고 있지 않을 수 있다.
    • 즉 LLM이 한글에서도 해당 지식을 학습하고 영어에 대해서도 해당 지식을 학습했었다면, 그냥 다른 latent space에 해당지식을 가지고 있는 느낌일 것이다
    • 따라서 지식 편집이라는 것을 제안한다
  • 지식 편집
    • "한국의 수도는?" --> "부산" 이런 데이터를 LLM에게 학습시켜서 영어로 질문했을때 "busan"이 나온다면 언어간의 지식을 공유한다고 보는 것이고
    • "seoul"이 그대로 나온다면 지식을 공유하지 않는 것이라 보는 것이다
  • 따라서 답변이 단순히 같게 나오는 metric 과 지식을 공유하는 것을 측정한는 metric 2개를 제안하여 분석을 한다
  • 데이터는 gemini, claude, 사람을 통해 구축했다고 하고..
  • 모델은 7b 사이즈의 다양한 LLM을 썻음
  • 지식 편집 방법은 일반적인 FT와 ROME, MEMIT 이라는 것을 활용했다고 함
  • 결론
    • (그림 2) 일반적으로 LLM은 언어간의 성능차가 심하다는 것을 보여줌
    • CKC(지식일관성)와 CKR(지식공유)이 꼭 비례관계에 있지 않음
    • 언어쌍별에 대해 결과가 다 다르다고 보면됨
    • tokenization에의해 발생하는 편향에 의해 CKC, CKR 성능에 영향을 끼치는것으로 추정
    • 즉 비슷한 문자 체계간에는 지식 전이가 잘 되는걸로 보임
    • 지식을 확장하여 양방향 further pretraining 하게 되도하게 되면, 기존 언어에 대한 성능이 떨어지고
      • 지식 공유가 원활하지 않음
  • 만약 모델이 모든 언어에서 지식을 완전히 공유할 수 있다면, 성능이 크게 향상될 가능성이 있음을 확인하였습니다.

Abstract

팩트(factoid)의 진실성은 그것이 작성된 언어와는 크게 무관합니다. 그러나 대규모 언어 모델(LLM)은 동일한 사실 기반 질문(factual question)에 대해 언어별로 일관되지 않은 답변을 제공하는 경우가 많습니다. 이는 LLM이 특정 사실을 다국어 환경에서 어떻게 표현하고 저장하는지에 대한 의문을 제기합니다.

우리는 **다국어 사실 지식(multilingual factual knowledge)**을 두 가지 측면에서 탐구합니다.

  1. 모델이 동일한 질의에 대해 언어에 관계없이 일관된 답변을 제공할 수 있는 능력
  2. 여러 언어에서 공유된 표현(shared representation) 형태로 답변을 "저장"할 수 있는 능력

이를 위해, 우리는 지식 편집(knowledge editing) 기법을 재구성하여 언어 간 표현 공유 정도를 측정하는 방법론을 제안합니다. 또한, 새로운 다국어 데이터셋을 활용하여 다양한 다국어 설정(multilingual configurations)을 갖춘 LLM을 분석합니다.

우리의 연구 결과, 높은 일관성(high consistency)이 반드시 공유된 표현(shared representation)을 의미하지는 않으며, 특히 서로 다른 문자를 사용하는 언어에서는 그 차이가 더욱 두드러진다는 점을 발견했습니다. 또한, 문자(script) 유사성이 표현 공유의 주요 요인임을 확인하였으며, 만약 LLM이 완전히 다국어 지식을 공유할 수 있다면, 최고 성능을 보이는 언어에서의 정확도가 평균 150%까지 향상될 수 있음을 관찰했습니다.

이러한 결과는 LLM의 다국어 지식 표현 개선이 필요하다는 점을 강조하며, 보다 견고하고 일관된 다국어 LLM 개발을 위한 방향성을 제시합니다.

1 Introduction

사전 훈련된 대규모 언어 모델(LLM)은 다양한 언어에 걸쳐 사실적 지식(factual knowledge)을 인코딩하고 검색하는 뛰어난 능력을 보여주고 있습니다(Petroni et al., 2019; Chang et al., 2024). 그러나 고자원(high-resource) 언어에 편향된 성능 차이가 크다는 점(Kassner et al., 2021; Jiang et al., 2020; Fierro & Søgaard, 2022; Jiang et al., 2022; Qi et al., 2023)은 교차언어적 지식 일관성(cross-lingual knowledge (in-)consistency) 문제를 부각시킵니다.

1. LLM의 다국어 사실 지식 표현 방식

이러한 **일관성 부족(inconsistency)**은 LLM이 사실적 지식을 언어별로 어떻게 저장하고 표현하는지에 대한 의문을 제기합니다. 가능성을 두 가지로 나눠볼 수 있습니다.

  • 하나의 모델이 각 언어별로 개별적인 지식 복사본을 저장하는 경우
  • 또는 단일한 공유 표현(shared representation)으로 지식을 저장하고, 이를 다양한 언어로 변환(decoding)하여 표현하는 경우

이론적으로, 공유 표현이 존재하면 언어 간 높은 일관성을 기대할 수 있습니다. 하지만, 일관성이 항상 공유 표현을 의미하는 것은 아닙니다.

2. 교차언어 지식 표현의 측정 방법

언어 간 지식 일관성을 측정하는 방법은 동일한 질문에 대한 답변 일치율을 평가하는 것입니다. 그러나 언어 간 지식 표현이 실제로 공유되는 정도를 정량적으로 분석하기 위해서는 단순한 출력 평가를 넘어선 접근이 필요합니다.

이를 위해, 우리는 한 언어에서 사실적 지식을 편집(editing)한 후, 다른 언어에서의 영향을 분석하는 방식을 제안합니다.
이를 수행하기 위해 **세 가지 지식 편집 기법(knowledge editing techniques)**을 사용합니다.

  1. ROME (Meng et al., 2022a)
  2. MEMIT (Meng et al., 2022b)
  3. 미세 조정 기반 방법 (Gangadhar & Stratos, 2024)

이 기법들은 모델 내에서 사실적 지식을 저장하는 특정 구성 요소만을 정밀하게 수정하도록 설계되었습니다(그림 1 참고).

  • 우리의 방법론은 쌍(pairwise) 언어 설정에서 교차언어적 일관성(cross-lingual consistency)과 표현 공유(representation sharing)를 구별하는 방식을 시각적으로 설명합니다.
  • **스포츠 관련 질문(녹색)**은 단순한 교차언어적 답변 일관성만을 보여줍니다.
  • **앨런 튜링의 출생지에 대한 질문(파란색)**은 **공유된 근본적 지식 표현(shared underlying representation)**을 나타냅니다.
  • 이 두 가지 경우를 비교하면 중요한 차이가 드러납니다.
  • 일관성(consistency)만 있는 경우, 한 언어에서 지식을 편집해도 다른 언어에는 영향을 미치지 않습니다.
  • 공유된 표현(shared representation)이 존재하는 경우, 한 언어에서 편집한 지식이 다른 언어에서도 동일하게 반영됩니다.
  • 이를 통해, 표면적인 답변 일관성과 실제 교차언어적 지식 공유 간의 핵심적인 차이를 명확하게 구별할 수 있습니다.
  • 그림에서 교차부분은 representation이 공유된 부분이고, 여기서 지식편집을 하면 두 언어에 모두 영향을 끼침
  • 그러나 교차되지 않은 부분은 같은 답변을 내는 consistency가 있더라도, 한 언어에서 지식편집이 일어나도 영향을 끼치지는 않는다

3. 실험 및 결과 분석

우리는 실험을 위해 CLIKE라는 다국어 “빈칸 채우기(fill-in-the-blank)” 형식의 사실 지식 평가 데이터셋을 구축했습니다.

  • 35,000개 샘플로 구성
  • 13개 언어, 7개 문자 체계(script) 포함
  • 패러프레이징(paraphrasing)과 편집(evaluation & editing) 기능 지원

우리는 다양한 구성의 7B-파라미터 LLM을 실험 대상으로 사용했습니다.

  • 단일언어(monolingual)
  • 이중언어(bilingual)
  • 다국어(multilingual)
  • 언어 확장(language-extended) 모델

주요 실험 결과

  1. 언어별 사실 지식 검색 성능에 큰 차이가 존재함을 확인했습니다.
  2. 모델들은 최고 성능을 보이는 언어에서보다 최소 150% 더 많은 사실적 정보를 하나 이상의 언어에서 올바르게 검색하며, 전체 13개 언어 평균보다 3배 더 많은 사실을 올바르게 회수하는 것으로 나타났습니다.
  3. 교차언어적 지식 표현 공유(cross-lingual knowledge representation sharing)의 정도를 처음으로 정량적으로 평가하였습니다.
  4. 같은 문자 체계를 공유하는 언어들 사이에서 지식 표현 공유도가 가장 높게 나타남을 확인했습니다.
    • 이는 모델의 다국어 지원 범위와 관계없이 일관된 경향을 보였습니다.
  5. 언어 간 답변 일치율이 높더라도, 반드시 내부 표현이 공유된 것은 아니며, 특히 다른 문자 체계를 가진 저자원 언어의 경우, 높은 일관성을 보이면서도 표현 공유도는 낮은 경우가 많았습니다.

4. 결론 및 전망

이번 연구는 다국어 모델이 사실적 지식을 어떻게 저장하고 공유하는지에 대한 새로운 통찰을 제공하며, 더 나은 다국어 LLM 개발을 위한 방향성을 제시합니다.

  • 보다 효율적인 지식 표현 방식을 통해 언어 간 균형 잡힌 지식 저장과 검색 성능 향상이 가능할 것입니다.
  • 이를 통해 모든 언어에서 보다 일관되고 신뢰할 수 있는 성능을 제공하는 다국어 LLM 개발이 가능할 것으로 기대됩니다.

2 Methodology

우리의 분석에서는 두 가지 주요 측면을 측정하고자 합니다.

  1. 교차언어적 지식 일관성(Cross-lingual Knowledge Consistency, CKC)

    • 모델이 다양한 언어에서 동일한 사실 기반 질문에 일관되게 답변할 수 있는 정도를 평가합니다.
  2. 교차언어적 지식 표현 공유(Cross-lingual Knowledge Representation Sharing, CKR)

    • 모델이 다양한 언어에서 동일한 사실을 공통된 내부 표현(shared inner representation)을 사용하여 저장하는 정도를 측정합니다.

2.1 Measuring CKC 

LLM이 특정 언어에서 사실(fact)을 알고 있는지 여부를 측정하기 위해, 해당 언어로 작성된 질의(query)에 대해 올바른 답변을 할 수 있는지를 확인합니다.

우리는 특정 언어에서의 모델의 **지식 기반(Knowledge Base, KB)**을 다음과 같이 정의합니다.

  • LLM M과 사실 데이터셋 D = {fi}i∈[N]이 주어졌을 때,
  • 사실 fi는 특정 언어 l에서 질문-답변 쌍 **(qᵢˡ, aᵢˡ)**로 표현됩니다.
  • 모델이 해당 언어에서 올바르게 답변할 수 있는 사실들의 집합을 KBl로 정의합니다.
    • KB = (q,a)쌍에서 제대로된 a로 이뤄진 데이터집합이라 보면됨

이제, 언어 l₁에서 알고 있는 사실이 언어 l₂에서도 알려져 있을 확률을 다음과 같이 정의합니다.

C(l1,l2)=


  • 이는 한 언어에서 알고 있는 사실이 다른 언어에서도 동일하게 알려져 있을 확률을 나타냅니다.
  • (q,a)에 대해 두 언어에 대해서 모두 제대로 답변이 나오는 경우를 의미 (precision 식으로 계산하는듯)
  • 그러면 (q,a)에서 l1언어로 질문할때랑 l2언어로 질문할때 각각 언어에 해당하는 q가 존재하는 것인가?

또한, 특정 사실 f가 **일관되게 알고 있는 언어의 수(Number of Consistent Languages, NCL)**는 다음과 같이 정의됩니다.

즉, 하나의 사실이 여러 언어에서 일관되게 인식되는지를 측정하는 것입니다.

마지막으로, 모델의 전체적인 CKC는 데이터셋 내 모든 사실에 대해 평균적으로 몇 개의 언어에서 일관되게 알고 있는지를 계산하는 값입니다.

  • 평균적으로 한 질문에 대해 얼마나 많은 언어가 동시에 제대로된 답변을 내냐를 측정하는 값이라 보면 될듯

이 값이 높을수록, 모델이 다국어 환경에서 더 높은 수준의 **교차언어적 지식 일관성(CKC)**을 갖고 있음을 의미합니다.

2.2 Measuring CKR

대규모 언어 모델(LLM)에서 언어 간 공유된 지식 표현(shared knowledge representation)의 정도를 측정하는 것은 단순히 모델의 출력만 평가해서는 불가능합니다.

같은 사실에 대한 질문에 여러 언어에서 동일한 정답을 출력한다고 해서, 모델이 반드시 언어에 구애받지 않는 통합된 표현(language-agnostic abstraction)을 사용하여 답변을 생성한다고 볼 수는 없습니다.

  • 모델이 각 언어별로 개별적인 지식 표현을 따로 저장한 뒤 동일한 정답을 제공할 수도 있기 때문입니다.
  • 따라서, 언어 간 지식 표현 공유의 정도를 평가하려면 보다 정교한 접근 방식이 필요합니다.
  • 언어별로 개별적으로 지식이 저장되고 동일한 정답을 내는 경우는, 지식이 공유됐다고 보기힘들다는 것

1) 교차언어적 표현 공유 측정 방법

우리는 이를 측정하기 위해 지식 편집(editing) 기법 E을 활용합니다.

  1. 한 언어에서 특정 사실에 대한 정답을 수정하여 틀린 답을 출력하도록 모델을 조정합니다.
  2. 이러한 변경이 다른 언어에서도 동일한 영향을 미치는지 분석합니다.

이 방법을 통해 **공유된 표현(shared representation)**과 단순한 답변 일관성(consistency)의 차이를 파악할 수 있습니다.


2) 편집된 모델의 지식 기반(KB) 정의

  • Ml₁ᵢ: 특정 언어 l에서 사실 fᵢˡ을 틀린 답 tᵢˡ로 수정한 모델을 나타냅니다.
  • 모델의 편집 후, **다른 언어에서도 동일한 영향을 받는 사실들의 집합(KB)**을 정의합니다.
    • 언어 l에서 틀린 답을 하도록 수정한 모델 = Mli
    • Ml1i가 언어 l2에서도 틀린답을 낸다면 공유된 표현이 움직였다는 것을 의미
    • 이러한 데이터들을 KBll'로 정의

즉, 언어 l₁에서 편집된 정보가 언어 l₂에서도 그대로 적용된 사실들의 집합을 의미합니다.


3) 교차언어적 표현 공유 확률(CKR) 측정

편집된 사실이 **언어 l₁에서 l₂로 얼마나 잘 전이되는지(pairwise CKR)**를 측정하기 위해, 조건부 확률을 정의합니다.

SR(l1,l2)== \frac{|KBl₂^{l₁} \cap KBl₁^{l₁}|}{|KBl₁^{l₁}|}


즉, 언어 l₁에서 변경된 사실이 다른 언어 l₂에서도 동일하게 반영될 확률을 의미합니다.

  • 이 확률이 높을수록, 모델이 두 언어에서 동일한 내부 표현(shared representation)을 활용하여 사실을 저장하고 있을 가능성이 높음을 의미합니다.

4) 편집된 사실이 영향을 미치는 언어 수(NTL)

특정 언어 l에서 편집된 사실이 전파(transferred)된 언어의 개수를 측정하는 지표인 **NTL(Number of Transferred Languages)**을 정의합니다.


즉, 한 언어에서 편집된 정보가 영향을 미친 모든 언어의 개수를 나타냅니다.

  • 이 값이 클수록, LLM이 특정 사실을 여러 언어에서 공유된 표현으로 저장하고 있을 가능성이 높음을 의미합니다.

5) 모델의 전체적인 CKR 계산

모델의 **평균적인 교차언어적 표현 공유 수준(CKR)**을 측정하기 위해, 모든 언어에서의 평균 NTL 값을 계산합니다.

즉, 모델이 사실을 저장할 때 얼마나 많은 언어에서 공유된 표현을 사용하고 있는지를 나타내는 지표입니다.

  • 이 값이 높을수록, LLM이 개별 언어별로 별도의 지식을 저장하기보다, 공통된 내부 표현(shared representation)을 사용하고 있을 가능성이 높음을 의미합니다.

결론: CKC와 CKR의 차이

  • 교차언어적 지식 일관성(CKC): 모델이 다국어에서 동일한 정답을 제공하는지 여부를 평가
  • 교차언어적 지식 표현 공유(CKR): 한 언어에서 변경된 지식이 다른 언어에도 반영되는지 평가

이러한 측정을 통해, LLM이 단순히 다국어에서 일관된 답변을 제공하는지(표면적 일관성), 혹은 **실제로 다국어에서 공유된 내부 표현을 활용하고 있는지(표현 공유성)**를 구별할 수 있습니다.

3 Experimental Setup

3.1 Data 

CLIKE 데이터셋

우리는 **CLIKE(Cross-LIngual Knowledge Editing)**라는 데이터셋을 개발하여, 사전 훈련된 언어 모델(LLM)의 다국어 사실적 지식 평가 및 편집(knowledge editing)을 수행할 수 있도록 설계했습니다.

1) 데이터셋 개요

  • CLIKE는 **약 35,000개의 사실(facts)**로 구성되어 있으며, 13개 언어를 포함합니다.
    • 언어 목록: 영어(en), 프랑스어(fr), 이탈리아어(it), 스페인어(es), 러시아어(ru), 우크라이나어(uk), 불가리아어(bg), 힌디어(hi), 벵골어(bn), 중국어(zh), 일본어(ja), 히브리어(he), 아랍어(ar).
  • 언어 독립적인 (주어, 관계, 객체) 3중 항목(triplet) 구조를 기반으로 구성되었습니다.
  • 각 관계(relation)마다 3개의 패러프레이징된 자연어 템플릿을 제공하여 다양한 표현을 평가할 수 있도록 설계되었습니다.
  • 템플릿은 빈칸 채우기(fill-in-the-blank) 형식으로 구성되며, 모델이 문장을 완성해야 합니다.

2) 예제

예시 트리플렛 (주어, 관계, 객체)

(Bach, BirthCity, Leipzig)(\text{Bach, BirthCity, Leipzig})

이는 다음과 같은 자연어 질문 템플릿으로 변환됩니다.

  1. "Bach was born in the city of ____."
  2. "The birth city of Bach is ____."
  3. "The birthplace of Bach is the city of ____."

모델은 문장을 완성하며, 정답으로 'Leipzig'을 예측해야 합니다.

  • 이 과정은 모델의 초기 사전 학습(pretraining) 지식을 활용하며, 추가적인 미세 조정(finetuning) 없이 모델의 기존 지식 평가가 가능하도록 설계되었습니다.

3) 사실(fact) 수집 방법

CLIKE 데이터셋은 기존 연구(Petroni et al., 2019; Kassner et al., 2021; Wei et al., 2024)와 유사한 접근 방식을 활용하여 구축되었습니다.

  • Wikidata Query Service를 사용하여 사실(triplet) 데이터를 자동으로 수집했습니다.
  • 14개의 SPARQL 질의(query)를 직접 설계 및 공개하여, Wikidata에서 주어진 관계에 해당하는 항목(subject-object)을 추출했습니다.
  • 모든 가능한 언어에서 레이블(label)을 포함한 데이터만 수집하였으며, 최소 8개 이상의 언어에서 해당 항목을 찾을 수 있는 트리플렛만 선택하여 언어 균형을 유지했습니다.
  • (Appendix B에서 각 언어 및 관계의 분포에 대한 세부 정보 제공)

4) 데이터셋 구축 과정

  • 관계별 자연어 템플릿 생성:

    • "Gemini Advanced"와 "Claude Opus" 모델을 활용하여 각 언어의 템플릿을 자동 생성했습니다.
    • 각 템플릿은 문법적 요소(예: 주어의 성별)에 맞게 조정되었습니다.
    • 예를 들어, 프랑스어에서는 명사 성별(gender agreement)에 따라 문장이 달라질 수 있습니다.
  • 전문 번역가 및 원어민 검토:

    • 생성된 템플릿은 **전문 번역가(professional translators) 및 원어민(native speakers)**이 직접 검토 및 수정했습니다.
    • 모든 언어에 대해 샘플된 빈칸 채우기 문장을 수동으로 점검했습니다.
    • (Appendix A에 세부 지침 제공)
  • 지식 편집(knowledge editing) 작업을 위한 가짜 정보 생성:

    • 각 사실(fact)에 대해, 틀렸지만 그럴듯한(plausible) 대안 객체(object)를 생성했습니다.
    • 이 과정에서, 같은 관계 카테고리에서 무작위로 다른 객체를 샘플링하여 일관된 오답을 생성했습니다.
    • 예를 들어, "Bach의 출생 도시(Leipzig)" 대신 "London"이나 "Vienna" 같은 도시명 중 무작위로 선택하여 모델의 편집 반응을 테스트했습니다.

5) 데이터셋의 활용

CLIKE는 다음과 같은 연구 및 실험에 활용될 수 있습니다.

  1. 다국어 지식 평가:
    • 사전 학습된 언어 모델이 여러 언어에서 동일한 사실을 얼마나 정확하게 인식하는지 테스트
  2. 지식 편집(knowledge editing) 실험:
    • 특정 언어에서 모델의 지식을 변경하면 다른 언어에서도 동일한 변경이 발생하는지 평가
  3. 모델의 다국어 일관성 검증:
    • 모델이 언어 간 일관된 지식 표현을 사용하는지, 아니면 언어별로 따로 저장하는지 분석
  4. 빈칸 채우기(fact completion) 성능 비교:
    • 다양한 LLM을 대상으로, 각 언어에서 사실적 질문을 얼마나 정확하게 완성하는지 비교

결론

CLIKE는 대규모 언어 모델이 다국어 환경에서 사실적 지식을 어떻게 저장하고 편집하는지 평가하기 위한 최초의 체계적인 데이터셋 중 하나입니다.

  • 13개 언어와 35,000개의 사실을 포함하여, LLM의 다국어 지식 일관성과 표현 공유 정도를 정밀하게 분석할 수 있도록 설계되었습니다.
  • 이를 통해 더 나은 다국어 모델 개발, 지식 편집 기법 향상, 모델의 내부 지식 구조 이해에 기여할 수 있을 것으로 기대됩니다.

3.2 Models

우리는 7B(70억) 파라미터를 가진 디코더 전용(decoder-only) 아키텍처의 다양한 LLM을 분석합니다.
본 연구에서는 추가적인 미세 조정(finetuning)이 적용되기 전, 사전 학습(pretraining) 과정에서 모델이 획득한 지식을 평가하기 위해 기본(base) 사전 학습된 언어 모델에 초점을 맞추고 있습니다.

실험 대상 모델

다양한 다국어 설정을 반영하기 위해 다음과 같은 모델들을 분석합니다.

  1. 다국어 모델 (Multilingual Model)

    • BLOOM-7B (Scao et al., 2022)
    • 다국어 처리를 위해 학습된 대표적인 모델
  2. 이중언어(bilingual) 모델

    • Qwen-7B (Bai et al., 2023)
    • 중국어-영어 모델로, 낮은 토크나이제이션 압축률(low tokenization compression rate)을 가지며 다국어 어휘(multilingual vocabulary)를 포함
  3. 단일언어(monolingual) 모델

    • Llama-2-7B (Touvron et al., 2023)
    • 영어 전용 모델
    • Mistral-7B-v0.1 (Jiang et al., 2023)
    • 기존 Llama-2 모델과 비교하여 더 최적화된 구조를 갖춘 모델
  4. 확장형 언어 모델 (Language-Extended Models)

    • Chinese-Llama-2-7B
      • Llama-2-7B 기반으로 영어 및 중국어 추가 학습
    • Hebrew-Mistral-7B
      • Mistral-7B-v0.1 기반으로 영어 및 히브리어 추가 학습
    • 두 모델 모두 확장된 언어(Expanded Language, EL)와 EL 토크나이저(Tokenizer) 어휘를 포함

이러한 모델들은 **다양한 다국어 구성(multilingual configurations)**을 포함하고 있어, 교차언어적 지식 표현(cross-lingual knowledge representation)에 대한 광범위한 분석이 가능합니다.

3.3 Knowledge Editing Methods

우리는 세 가지 지식 편집(knowledge editing) 기법을 사용합니다.

  1. 미세 조정(Finetuning, FT) (Gangadhar & Stratos, 2024)
  2. ROME (Meng et al., 2022a)
  3. MEMIT (Meng et al., 2022b)

(1) ROME & MEMIT: 인과적 매개 분석(Causal Mediation Analysis) 기반 편집

ROME과 MEMIT은 인과적 매개 분석(Causal Mediation Analysis, CMA) *(Vig et al., 2020a,b)*을 활용하여,

  • 언어 모델이 사실적 지식을 기억하는 주요 계층(layer)을 식별하고,
  • 해당 계층을 정밀하게 수정하는 방식으로 동작합니다.

이는 중간 MLP 계층이 키-값 연관 메모리(Key-Value Associative Memory) 역할을 한다는 개념을 기반으로 합니다.

  • ROME:

    • 특정 계층의 가중치(weights)를 닫힌 형태(closed-form)로 랭크-원(rank-one) 업데이트하여,
    • 기존 지식의 왜곡을 최소화하면서 새로운 사실을 삽입합니다.
  • MEMIT:

    • 모델의 여러 MLP 계층이 동시에 사실 기억을 담당한다는 점을 고려하여,
    • 여러 MLP 계층을 반복적으로 업데이트하여(weight update), 변화가 여러 계층에 균등하게 분산되도록 조정합니다.

두 방법 모두 모델이 사실을 저장하는 특정 구성 요소만을 정밀하게 찾아 수정하는 해석 가능성 기법(interpretability techniques)을 활용합니다.
이를 통해, 모델의 전체적인 성능을 유지하면서 특정 사실만을 편집할 수 있습니다.


(2) 미세 조정(Finetuning, FT)

**기본 비교 방식(baseline approach)**으로, 모델의 중간 계층 전체를 업데이트하는 방식입니다.

  • ROME 및 MEMIT과 달리 특정 MLP 계층에 대한 제한 없이 모델 전체를 업데이트합니다.
  • 편집할 사실(fact)마다 새로운 정답을 포함한 단일 예제(single example)로 모델을 미세 조정합니다.
  • 이는 기존 LLM 학습 방식과 유사하게 새로운 사실을 학습하는 방식입니다.

(3) 지식 편집을 위한 코드 라이브러리

  • 우리는 EasyEdit(Wang et al., 2023b) 라이브러리를 사용하여 모든 모델에서 지식 편집을 수행합니다.
  • BLOOM 모델은 사전 구현이 없어, 최적화된 하이퍼파라미터(hyperparameters)를 새롭게 설계하여 공개하였습니다.

3.4 Metrics and Evaluation

(1) 실험 설정

  • 우리는 모든 질문에 대해 정확 일치(Exact Match, EM) 평가 기준을 사용하여 모델의 응답을 평가합니다.
  • 모델 평가 및 편집 실험에서 3개의 예제(demonstrations)를 포함한 few-shot prompting 방식을 적용하였으며,
  • 모든 답변 생성은 그리디 디코딩(greedy decoding)을 사용하여 일관된 출력을 보장하였습니다.

(2) 모델 성능 및 교차언어적 지식 일관성(CKC) 평가

  • 모델의 언어별 정확도(Accuracy per Language)

    • 특정 언어에서 모델이 최소 하나의 패러프레이징된 표현(paraphrased form)에서 정답을 맞출 확률을 계산합니다.
  • 교차언어적 지식 일관성(CKC) 측정

    • C(l₁, l₂):
      • 한 언어 l₁에서 알고 있는 사실이 다른 언어 l₂에서도 정확히 재현되는 정도를 평가
      • 언어 l₁에서 학습된 사실에 대해, l₂에서 모든 패러프레이즈(paraphrases)에서의 평균 점수를 계산
    • C(l, l):
      • 한 언어 내에서 패러프레이징된 질문 간 일관성을 측정

(3) 지식 편집 실험(Knowledge Editing Experiments)

각 언어에서 500개의 사실을 무작위로 선택하여 편집하였으며,
편집의 효과를 평가하기 위해 세 가지 주요 지표를 사용했습니다.

  1. 신뢰도(Reliability)

    • 편집된 질문에 대해 모델이 수정된 정답을 올바르게 출력할 확률을 측정
  2. 일반화 능력(Generalization, SR(l₁, l₂))

    • 편집된 사실에 대한 모든 패러프레이징된 질문과 모든 언어에서의 평균 점수를 계산
    • 이는 편집이 다른 언어와 패러프레이징된 질문에서도 일관되게 적용되는지를 평가
  3. 국소성(Locality) 테스트

    • 무작위로 선택한 다른 사실(facts)에 대한 모델의 정확도를 측정
    • 이를 통해 편집된 지식이 모델의 다른 언어 지식에 미치는 영향을 확인

이 방식은 모델의 특정 지식만 변경하면서도, 다른 언어의 지식이나 기존 성능을 보존할 수 있는지 검증하는 데 중요한 역할을 합니다.

4 Results

본 연구의 주요 결과를 제시하기에 앞서, 먼저 연구 방법론의 성능을 검증하였습니다.

  • 다양한 지식 편집 방법(미세 조정, ROME, MEMIT) 간의 결과 상관계수는 0.87로 높게 나타났습니다.
    • 이는 연구 결과가 특정 편집 방법에 의존하지 않으며, 방법론적 일관성을 유지하고 있음을 의미합니다.
  • 이러한 높은 일관성을 바탕으로, 주요 결과는 MEMIT 기반 실험 결과를 중심으로 제시하며,
    • 다른 방법들의 결과는 **부록 C(Appendix C)**에 포함하였습니다.
  • 또한, 모든 편집 기법에서 국소성(Locality) 점수가 평균 70% 이상 유지되었습니다.
    • 이는 지식 편집이 특정 사실에만 영향을 미치고, 모델의 전반적인 지식은 유지되었음을 시사합니다.

추가적으로,

  • 동일한 언어 내에서도 패러프레이징(paraphrasing)된 질문 간 성능 차이가 존재함을 확인하였습니다.
    • 이는 Mizrahi et al. (2024)의 연구 결과와 일치하며,
    • 단일 표현이 아닌 다양한 표현을 활용하여 모델의 지식을 평가하는 접근 방식이 타당함을 입증합니다.

4.1 The Issue of Knowledge Variability

대규모 언어 모델(LLM)은 언어별 사실적 지식 검색(factual knowledge retrieval)에서 상당한 변동성을 보입니다(Fig. 2).

  • 다양한 언어를 지원하는 여러 LLM에서 사실적 지식 검색(factual knowledge retrieval) 정확도를 언어별로 비교한 결과입니다.
  • ‘Any Language’ (녹색): 최소 한 개 이상의 언어에서 사실을 올바르게 인식한 비율
  • ‘Best Language’ (주황색): 특정 모델이 가장 높은 성능을 보이는 단일 언어에서의 정확도
  • ‘Cross-lingual Average’: CLIKE 데이터셋의 13개 언어 전체에서 평균적인 정확도
  • 오차 막대(error bars): 표준 편차(standard deviation)를 나타내며, 언어별 성능 변동성을 시각적으로 표현

이 분석을 통해, LLM의 언어별 지식 검색 성능이 크게 차이 나며, 특정 언어에서 더 높은 정확도를 보이는 경향이 있음을 확인할 수 있습니다.

  • 7B 파라미터 모델 4개를 분석한 결과,
    • 평균적으로 한 언어 이상에서 42.5%의 사실을 인식하지만,
    • 최고 성능을 보이는 단일 언어에서의 정확도는 27.6%에 불과했습니다.
    • 반면, 13개 언어 전체 평균 정확도는 11.8%로 크게 낮았습니다.

즉, 모델이 특정 언어에서 학습한 지식을 모든 언어에서 공유할 수 있다면

  • 최고 성능을 보이는 언어의 정확도는 최대 53%까지 증가할 가능성이 있으며,
  • 현재의 다국어 평균 정확도도 3배 이상 향상될 수 있습니다.
  • 이러한 결과는 언어 간 지식 표현 공유(CKR)를 심층적으로 분석할 필요성을 강조하며,
    • 모델이 활용하지 못하고 있는 잠재적 지식 저장 구조를 탐색할 동기를 제공합니다.

4.2 Consistency Does Not Imply Representation Sharing

우리는 교차언어적 지식 일관성(CKC)과 지식 표현 공유(CKR)를 독립적으로 분석하였습니다.

  • Fig. 3: 전반적인 언어 간 경향
  • Fig. 4: 개별 언어 쌍(pairwise language relationships)에 대한 상세 분석

(1) CKC가 높다고 해서 CKR도 높은 것은 아님

  • 모든 모델에서, E[NCL] (평균적으로 한 사실이 일관되게 알려진 언어 수)가 E[NTL] (평균적으로 한 사실이 공유된 표현으로 저장된 언어 수)보다 높음을 확인했습니다.

    • 즉, 모델이 여러 언어에서 동일한 답을 제공(CKC)하지만, 반드시 동일한 내부 표현(CKR)을 활용하는 것은 아님을 의미합니다.
  • 또한,

    • E[NCL] 값은 모델에 따라 큰 차이를 보였지만, E[NTL] 값은 상대적으로 더 균일한 경향을 나타냈습니다.
    • 이는 언어 간 일관성(CKC)과 실제 지식 표현 공유(CKR) 사이에 구조적인 차이가 존재함을 시사합니다.
  • 더불어,

    • 한 언어에서만 알고 있는 사실(NCL = 1)이 적은 모델일수록, 한 언어에서만 저장된 사실(NTL = 1)은 오히려 많음을 확인했습니다(Fig. 3).
    • 즉, 더 많은 언어에서 일관된 답변을 제공하는 모델일수록, 내부적으로는 언어별로 별도의 표현을 저장하는 경향이 있음을 시사합니다.

(2) 언어 쌍별 CKC vs CKR 비교

언어 쌍(pairwise language level)에서 CKC와 CKR의 패턴이 다르게 나타났습니다.

  • CKC(일관성)는 높지만 CKR(표현 공유)은 낮은 경우

    • 대부분의 모델(특히 Qwen 제외)은 문자 체계가 다른 저자원 언어(중국어, 일본어, 히브리어, 아랍어) 간 CKC가 높음을 보였습니다.
    • 그러나 이들 언어 간 CKR(공유된 표현)은 거의 존재하지 않았습니다.
    • 즉, 모델이 이 언어들에서 동일한 답변을 제공하지만, 내부적으로 별개의 표현을 활용하고 있음을 의미합니다.
  • CKC보다 CKR이 높은 경우

    • 키릴 문자(Cyrillic) 언어들(러시아어, 불가리아어, 우크라이나어) 간에는 상대적으로 높은 CKR이 존재함을 확인했습니다.
    • 즉, 이들 언어는 내부적으로 더 유사한 지식 표현을 공유하는 경향이 강함을 의미합니다.
    • 반면, 키릴 문자와 라틴 문자(영어, 프랑스어 등) 간에는 CKR이 낮은 편이었습니다.
  • 반대 현상:

    • 흥미롭게도, CKC 점수는 오히려 키릴 문자-라틴 문자 간이 키릴 문자 언어들 간보다 높게 나타남을 확인했습니다.
    • 즉, 키릴 문자 언어들 간에는 내부적으로 더 많은 정보를 공유하지만, 표면적으로는 오히려 키릴-라틴 문자 간에서 더 일관된 답변이 제공되는 경우가 많음을 의미합니다.

결론

  • 언어 모델이 동일한 답을 제공한다고 해서, 반드시 동일한 내부 표현을 활용하는 것은 아님(CKC ≠ CKR)
  • 일관된 답변을 제공하는 능력은 높지만, 내부적으로 별도의 표현을 저장하는 경향이 확인됨
  • 문자 체계가 유사한 언어들 간에는 더 높은 CKR(지식 공유) 경향이 존재
  • 특정 언어군(키릴 문자 언어 등)에서는 내부 표현을 더 공유하지만, 외적으로는 CKC보다 낮게 나타나는 역설적인 현상 존재

이러한 연구 결과는 LLM이 다국어 환경에서 정보를 저장하고 활용하는 방식에 대한 새로운 통찰을 제공하며, 향후 모델 개선을 위한 방향성을 제시합니다.

4.3 The Key Role of the Language Script

우리의 분석에서는 LLM에서 교차언어적 지식 표현 공유(CKR)를 정량적으로 측정하였습니다.
  • 기존 연구 *(Qi et al., 2023; Beniwal et al., 2024)*와 마찬가지로,
    • 다국어 지식 표현에서 언어의 문자(script)가 중요한 영향을 미친다는 점을 강조합니다.
  • 모델마다 지원하는 언어는 다르지만,
    • 언어 간 CKR 측정값(SR)은 모델에 관계없이 비교적 일관되게 유지됨을 확인했습니다.

(1) 동일한 문자 체계를 공유하는 언어 간 높은 CKR

모든 모델에서 같은 문자 체계를 사용하는 언어들끼리 가장 높은 CKR을 보였습니다.

  • Fig. 4에서, CKC(지식 일관성)와 CKR(지식 표현 공유)의 패턴이 문자 기반 그룹(script-based grouping)으로 나뉨을 확인했습니다.
  • 이는 토크나이제이션(tokenization)에서 발생하는 편향(bias)에 기인할 가능성이 높음 (Singh et al., 2019).

특히, 다음과 같은 언어 그룹에서 높은 CKR이 나타났습니다.

  • 라틴 문자(Latin script) 언어들: 영어(English), 프랑스어(French), 이탈리아어(Italian), 스페인어(Spanish)
  • 키릴 문자(Cyrillic script) 언어들: 러시아어(Russian), 우크라이나어(Ukrainian), 불가리아어(Bulgarian)
  • 데바나가리 문자(Devanagari script) 언어들: 힌디어(Hindi), 벵골어(Bengali)
    • 단, 데바나가리 문자 언어에서는 Bloom과 Mistral 모델이 높은 CKR을 보였으나, 다른 모델에서는 상대적으로 낮은 CKR을 기록

(2) 서로 다른 문자 체계 간 지식 전이(Cross-Script Transfer)

  • 대부분의 CKR은 동일한 문자 체계를 사용하는 언어들 간에서 발생하지만,
  • 문자 체계가 다른 언어들 간에도 일정 부분 지식 전이가 존재함을 확인했습니다.
    • 예를 들어, 키릴 문자(Cyrillic)와 라틴 문자(Latin) 간에는 다양한 모델에서 지식 전이가 관찰됨.
    • BLOOM 모델에서는 이탈리아어(Italian) → 힌디어(Hindi) 간 CKR이 28%로 나타나는 등, 겉보기에 관련 없는 언어 쌍에서도 지식 공유가 발생.

(3) 문자 체계 간 지식 전이의 비대칭성(Asymmetry in Knowledge Transfer)

  • 키릴 문자(Cyrillic)에서 라틴 문자(Latin)로의 지식 전이 확률은 40~60% 수준으로 높음.
  • 그러나, 라틴 문자에서 키릴 문자로의 지식 전이 확률은 10~20% 수준으로 더 낮음.
  • 이는 훈련 데이터에서 라틴 문자(특히 영어)가 차지하는 비중이 높기 때문일 가능성이 큼.
    • 영어 중심의 학습 데이터 구조로 인해, 라틴 문자 기반의 지식이 더 강하게 저장되며, 키릴 문자에서 라틴 문자로의 전이가 더 원활하게 이루어짐.

4.4 Impact of Model Design Languages

모델이 어떤 언어를 기본적으로 지원하도록 설계되었는지에 따라, CKR과 CKC 패턴이 달라짐을 발견했습니다.

  • 전반적으로, 모델이 지원하는 언어 세트가 다름에도 불구하고, CKR 패턴은 비교적 일관되게 유지됨.
  • 그러나 세부적으로는 일부 모델에서 설계 방식에 따른 미묘한 차이가 발생하였습니다.

(1) 다국어 모델(BLOOM)의 패턴

  • BLOOM은 문자 체계가 다른 언어 간에도 가장 높은 CKC(36%)와 CKR(8.4%)을 기록.
  • Fig. 4에서, BLOOM은 겉보기에는 관련 없어 보이는 언어 쌍에서도 지식 전이가 발생하는 모습을 보임.
  • 이러한 결과는 BLOOM이 다국어 지원을 목표로 설계된 모델임을 반영하며, 모델의 정확도는 낮더라도 언어 간 관계를 잘 학습하고 있음을 시사.

(2) 이중언어 모델(Qwen)의 패턴

  • Qwen(영어-중국어 모델)은 중국어에서 높은 정확도를 보이지만, 영어와의 CKC 및 CKR이 낮음 (Fig. 4 참고).
  • 이는 Qwen이 이중언어 모델로 설계된 특성을 반영하며, 개별 언어 성능은 높지만, 교차언어적 지식 공유는 적음을 의미.
  • 그러나, Qwen은 일부 언어에서 4개국어(NTL=4) 수준의 공유 표현을 가지는 독특한 패턴을 보임.
    • 즉, 교차 문자 체계 간 공유는 적지만, 같은 문자 체계 내에서 일부 다국어적 표현을 개발하고 있음.

(3) 단일언어 모델(Mistral, Llama)의 패턴

  • Mistral과 LLaMA 같은 단일언어(영어) 모델에서도 특정 언어 그룹 간 높은 CKR이 관찰됨.
  • Fig. 3에서, 이들 모델은 정확히 4개 언어에서 지식을 공유하는 비율이 비정상적으로 높음.
    • 이는 데이터셋 내 라틴 문자 언어 4개(영어, 프랑스어, 이탈리아어, 스페인어)에서 강한 연결이 형성되었음을 시사.
  • 특히, Mistral은 단일언어 모델임에도 불구하고, CKC(54.7%)와 CKR(37.6%)에서 가장 높은 값을 기록.
    • 이는 강력한 영어 학습 기반이 자연스럽게 라틴 문자 언어로 확장되었음을 의미.
    • 즉, 단일언어 모델도 문자 체계가 유사한 경우, 교차언어적 지식 공유가 가능함을 보여줌.

결론 및 시사점

  1. 문자 체계(Script)가 교차언어적 지식 표현 공유에 중요한 역할을 함.

    • 동일한 문자 체계를 사용하는 언어들 간 CKR이 가장 높음.
    • CKC와 CKR 모두 문자 기반 그룹(script-based grouping)을 형성함.
  2. 문자 체계가 다를 경우에도 일부 지식 전이가 존재하지만, 비대칭적인 패턴을 보임.

    • 키릴 문자 → 라틴 문자로의 지식 전이는 강하지만, 반대 방향 전이는 약함.
    • 이는 훈련 데이터에서 영어 중심의 비중이 높기 때문일 가능성이 큼.
  3. 모델의 설계 방식이 CKC 및 CKR 패턴에 영향을 미침.

    • 다국어 모델(BLOOM)은 교차 문자 체계 간에도 높은 CKR을 보임.
    • 이중언어 모델(Qwen)은 개별 언어 성능은 우수하지만, 교차언어적 지식 공유는 적음.
    • 단일언어 모델(Mistral)은 강력한 영어 학습을 바탕으로 라틴 문자 언어로 지식을 자연스럽게 확장함.

이러한 결과는 LLM의 다국어 지식 표현 방식이 단순한 언어적 일관성(CKC)과는 다르며, 문자 체계와 모델의 학습 방식이 중요한 변수로 작용함을 시사합니다.

4.5 Language Extended LMs

**영어(English)와 확장된 언어(Extended Language, EL)**에서 추가적인 사전 학습(pretraining)이 기존 단일언어 모델(monolingual LMs)의 교차언어적 지식 일관성(CKC)과 지식 표현 공유(CKR)에 어떤 영향을 미치는가?

우리는 Chinese-Llama-2-7B(중국어 확장)와 Hebrew-Mistral-7B(히브리어 확장)를 분석한 결과, 공통적인 패턴을 발견했습니다.


1) 확장된 언어(EL)에서의 지식 증가 vs. 영어 성능 저하

  • 모델이 EL에서 상당한 수준의 새로운 지식을 학습하는 반면,
  • 기존 영어(English) 성능이 크게 감소하는 **트레이드오프(trade-off)**가 발생.
  • 교차언어적 지식 분포(Cross-lingual knowledge distribution)가 변화하지만, 문자 체계 간의 간극을 완전히 해소하지는 못함.
  • further pretraining 했을 때의 문제점

2) 주요 실험 결과 (Table 1 요약)

(1) 확장된 언어(EL)에서의 정확도 증가, 영어 정확도 감소

  • 두 모델 모두 확장된 언어에서의 정확도가 상승함.
  • 하지만, 영어에서의 정확도는 감소하는 경향을 보임.

(2) CKC(지식 일관성) 분석

  • 모델이 EL에서 새로운 지식을 학습하였으나, 이 지식은 영어에서 대부분 존재하지 않던 내용.
  • 그러나, EL에서 학습한 새로운 지식이 기존 영어 지식을 포함하는 경향도 있음.
    • 즉, EL에서 학습한 정보가 부분적으로 영어와 겹치지만, 완전히 공유되지는 않음.

(3) CKR(지식 표현 공유) 분석

  • 모델이 영어와 EL 간 양방향(bidirectional) 지식 전이를 증가시켰음에도 불구하고, 여전히 지식 공유 비율이 낮음.
  • 이는 EL에서 추가 학습을 진행하더라도, 언어적으로 먼(linguistically distant) 언어 간에는 강력한 공유 표현(shared representation)을 형성하는 것이 어려움을 시사.

3) 결론 및 시사점

  • EL에서 추가 학습을 진행하면 해당 언어에서의 성능은 향상되지만, 영어에서의 성능이 감소하는 트레이드오프가 존재.
  • 확장된 언어에서 학습한 지식이 기존 영어 지식을 일부 포함하지만, 교차언어적 지식 공유는 여전히 제한적.
  • 표현 공유가 증가하기는 하지만, 문자 체계가 다른 언어 간에는 완전히 통합된 지식 표현을 형성하기 어려움.

이러한 결과는 단순히 특정 언어에서 추가적인 훈련을 수행하는 것만으로는 문자 체계가 다른 언어 간의 지식 공유 문제를 해결하기 어렵다는 점을 강조합니다.

추가 분석: 특정 관계 유형이 CKR에 미치는 영향은 **부록 D(Appendix D)**에서 논의.

5 Related Work

5.1 교차언어적 지식 일관성(Cross-lingual Knowledge Consistency)

  • 단일언어 환경에서의 지식 일관성(monolingual knowledge consistency)은 이전부터 자주 연구되었음 (Elazar et al., 2021; Mizrahi et al., 2024).
  • 그러나 교차언어적 지식 일관성에 대한 연구는 상대적으로 부족.
  • 일부 연구에서는 RankC라는 교차언어적 일관성 평가 지표를 제안,
    • 이는 정답과 오답을 포함한 다양한 후보 답변 간의 유사성을 측정하는 방식 (연구 참고).
  • 우리 연구는 오직 정답(correct answers)만을 평가 대상으로 하여 보다 단순하고 명확한 교차언어 평가를 수행.
    • 또한, 언어 쌍 간(pairwise) 비교에 국한되지 않는 보다 광범위한 평가 방법을 제시.

5.2 교차언어적 지식 표현 공유(Cross-lingual Knowledge Representation Sharing)

이전 연구들은 다양한 접근 방식을 통해 교차언어적 지식 표현 공유(CKR)에 대한 탐색을 진행.

(1) 뉴런 활성화/비활성화 분석(Neuron Activation/Deactivation Analysis)

  • 언어 간 매개변수(parameter) 공유 정도를 분석하는 연구들이 존재 (Libovicky et al., 2020; Zhao et al., 2024b; Chen et al., 2024; Tang et al., 2024; Kojima et al., 2024).
  • 다국어 모델이 다른 언어의 정보를 평가할 때 뉴런의 활성화 패턴이 어떻게 변하는지 연구.
  • 언어 독립적(language-independent) 뉴런을 강화하면 다국어 모델의 성능이 향상되지만, 특정 언어에서 성능 저하 없이 유지 가능함을 확인.

(2) 훈련 데이터와 지식 전이 분석(Knowledge Transfer from Training Data)

  • 모델이 학습한 데이터의 언어적 출처(language source)를 분석하는 연구 (Choenni et al., 2023; Zhao et al., 2024a).
  • 한 언어에서 학습한 지식이 다른 언어에서도 모델의 성능 향상에 기여할 수 있음을 입증.

(3) 입력 언어에 따른 활성화 패턴 연구(Language-based Activation Patterns)

  • 다국어 입력이 모델 내부에서 유사한 활성화 패턴을 생성하는지 분석 (Singh et al., 2019; Libovicky et al., 2020; Chang et al., 2022).
  • 의미적으로 동일한 내용이 다른 언어로 입력되었을 때도 유사한 내부 표현을 생성할 가능성이 높음을 확인.

(4) 연구 한계 및 우리의 차별점

  • 기존 연구들은 언어 간 지식 연결성을 탐색하는 데 초점을 맞췄으나, 실제 공유되는 지식의 양을 정량적으로 평가하지 못함.
  • 기존 연구들이 수동(passive) 분석을 통해 언어 간 유사성을 측정했다면,
    • 우리의 연구는 능동적(active)인 지식 편집 툴을 활용하여, 교차언어적 지식 표현 간의 인과 관계(causal relation)를 직접 평가.

5.3 다국어 지식 편집(Multilingual Knowledge Editing)

  • 기존 연구에서는 다국어 환경에서의 지식 편집 방법 비교 및 성능 향상에 초점을 맞춤 (Si et al., 2024; Xu et al., 2022; Wei et al., 2024; Wang et al., 2023a).
  • 우리의 접근 방식은 단순히 편집 성능을 비교하는 것이 아니라, 지식 편집 툴을 분석 도구(analytical tool)로 활용.
  • 다국어 모델들이 서로 다른 언어에서 어떻게 지식을 공유하는지 이해하는 데 초점을 맞춤.
  • 즉, 지식 편집을 통해 모델이 특정 언어에서 학습한 정보를 다른 언어에서도 반영하는지 검증하고, 다국어 설정별 지식 공유 패턴을 분석.

결론 및 연구 기여

  • 본 연구는 단순한 지식 검색 성능 비교를 넘어, 모델 내부의 지식 표현이 언어 간 어떻게 공유되는지 정량적으로 분석하는 방법론을 제시.
  • 기존 연구들이 교차언어적 지식 일관성(CKC)이나 표현 공유(CKR)를 개별적으로 분석했다면,
    • 우리의 연구는 두 가지 요소를 동시에 측정하고, 능동적인 지식 편집을 활용하여 인과 관계까지 평가.
  • 이를 통해 다국어 모델이 어떻게 정보를 저장하고, 공유하며, 특정 언어에서의 변화가 다른 언어에 미치는 영향을 보다 체계적으로 분석.

6 Conclusion

본 연구에서는 대규모 언어 모델(LLM)에서 교차언어적 지식 일관성(CKC)과 지식 표현 공유(CKR) 간의 관계를 분석하였습니다.

우리의 연구 결과에 따르면, 언어 간 높은 일관성(CKC)이 반드시 내부적으로 공유된 지식 표현(CKR)을 의미하지는 않으며,
특히 문자 체계(script)가 다른 언어들 사이에서 이러한 차이가 더욱 두드러지게 나타남을 확인하였습니다.

이를 정량적으로 분석하기 위해, 새로운 방법론(methodology)과 데이터셋(dataset)을 개발하였으며,
이를 통해 LLM이 사실적 지식을 저장하고 검색하는 방식에 대한 보다 정교한 이해를 제공하였습니다.

우리는 언어별 사실적 지식 검색 성능의 큰 차이를 관찰하였으며,
만약 모델이 모든 언어에서 지식을 완전히 공유할 수 있다면, 성능이 크게 향상될 가능성이 있음을 확인하였습니다.

이러한 결과는 더 효과적인 다국어 지식 표현(multilingual knowledge representation) 개발의 필요성을 강조하며,
본 연구가 보다 효율적이고 공정한(multilingual equity) 다국어 모델 개발을 위한 방향을 제시할 것으로 기대합니다.
궁극적으로, 우리의 연구가 모든 언어에서 보다 균형 잡힌 성능을 제공하는 LLM 발전에 기여할 것이라 전망합니다.

Reference

댓글