NL-339, Do Llamas Work in English? On the Latent Language of Multilingual Transformers, ACL 2024
Abstract
이 논문에서는 영어 중심의 불균형한 데이터로 학습된 다국어 언어 모델이 내부적으로 영어를 중간 피벗 언어(pivot language)로 사용하는지를 탐구한다. 이는 언어 모델의 작동 방식과 언어적 편향의 기원을 이해하는 데 중요한 질문이다.
본 연구는 Llama-2 계열 transformer 모델을 대상으로, 정답이 하나의 토큰으로 결정되는 비영어 프롬프트를 설계하여 분석한다. Transformer는 각 레이어를 거치며 입력 토큰의 임베딩을 점진적으로 변환하여, 다음 토큰 확률을 계산하는 출력 임베딩으로 매핑한다.
중간 레이어의 임베딩을 추적한 결과, 다음과 같은 세 단계 과정이 나타난다:
초기에는 출력 토큰 임베딩과 멀리 떨어져 있음
중간 레이어에서는 의미적으로 올바른 토큰을 복원할 수 있지만, 입력 언어보다 영어 토큰에 더 높은 확률을 부여함
마지막에는 입력 언어에 특화된 임베딩 공간으로 이동함
이 결과를 바탕으로, 모델의 내부 표현은 각각 “입력 공간(input space) → 개념 공간(concept space) → 출력 공간(output space)”에서 작동한다고 해석한다. 특히 중요한 점은, 이 추상적인 개념 공간이 다른 언어보다 영어에 더 가깝다는 것이다.
이는 다국어 언어 모델이 가지는 편향에 중요한 영향을 미칠 수 있다. 또한, 코드와 데이터는 공개되어 있다.
1 Introduction
대부분의 현대 대규모 언어 모델(LLM)은 주로 영어 텍스트로 구성된 방대한 코퍼스로 학습된다. 그럼에도 불구하고 이들은 영어가 아닌 언어에서도 다양한 다운스트림 태스크에서 높은 성능을 보인다. 이는 다음과 같은 중요한 질문을 제기한다. LLM은 어떻게 주로 영어로 학습되었음에도 다른 언어로 잘 일반화할 수 있는가?
직관적으로, 데이터 효율적으로 비영어 데이터에서 높은 성능을 달성하는 한 가지 방법은 영어를 중간 피벗 언어로 사용하는 것이다. 즉, 입력을 먼저 영어로 번역하고, 영어로 처리한 뒤, 결과를 다시 입력 언어로 번역하는 방식이다. 이러한 방법은 명시적으로 구현했을 때 높은 성능을 보이는 것으로 알려져 있다. 이 연구의 핵심 질문은, 비영어 프롬프트를 입력했을 때 LLM 내부에서도 이러한 영어 피벗 과정이 암묵적으로 발생하는지 여부이다.
연구 커뮤니티와 대중 매체에서는 이 질문에 대해 긍정적으로 가정하는 경우가 많다. 예를 들어 “이 기계는 영어로 생각한 뒤 마지막 순간에 에스토니아어로 번역한다”와 같은 주장으로 나타난다. 본 연구는 이러한 추측을 넘어, 해당 질문을 실증적으로 분석하고자 한다.
이 질문은 매우 중요하다. 한편으로, 영어를 내부 피벗으로 사용하는 경우 모델이 영어 중심의 패턴에 편향될 수 있으며, 이는 어휘, 문법, 은유뿐 아니라 감정 표현이나 시간 개념과 같은 더 깊은 수준의 행동에도 영향을 줄 수 있다. 다른 한편으로, 만약 영어를 피벗으로 사용하지 않는다면, LLM이 어떻게 저자원 언어에서도 그렇게 잘 동작하는지를 설명해야 하는 새로운 문제가 생긴다. 결국 내부 피벗 언어의 존재 여부를 밝히는 것은 LLM의 작동 원리를 이해하는 데 중요한 단서가 된다.
LLM 내부에 특정 언어가 존재하는지를 분석하는 것은 쉽지 않다. 이는 모델이 매우 크고 해석하기 어려우며, 입력 레이어 이후에는 이산 토큰이 아니라 고차원 실수 벡터로 계산이 이루어지기 때문이다. 이러한 벡터가 영어, 에스토니아어, 중국어와 같은 특정 언어에 대응하는지, 아니면 어떤 언어에도 해당하지 않는지는 여전히 열린 문제이며, 따라서 내부 피벗 언어에 대한 질문은 지금까지 실증적으로 거의 다뤄지지 않았다.
기여 요약.
이러한 문제를 해결하기 위해, 본 연구는 메커니즘 해석 가능성(mechanistic interpretability) 분야의 방법을 활용하고 확장한다. Transformer에서는 각 입력 토큰의 임베딩 벡터가 레이어를 거치면서 형태를 유지한 채 점진적으로 변환된다. 최종 레이어 이후에는 “unembedding” 연산을 통해 다음 토큰 분포로 변환된다.
본 연구는 Llama-2 모델을 대상으로, 중간 레이어에서 unembedding을 미리 적용하는 logit lens 기법을 사용한다. 이 방법을 통해 중간 레이어에서도 이미 문맥에 맞는 토큰이 복원되는 것을 확인할 수 있으며, 이를 통해 내부 상태를 부분적으로 관찰할 수 있다.
이 특성을 활용하여, logit lens로 복원된 토큰이 의미적으로 올바른지, 그리고 어떤 언어에 속하는지를 판별할 수 있도록 정교한 프롬프트를 설계한다. 예를 들어 프랑스어 단어 “fleur”를 중국어 “花”로 번역하는 작업을 사용한다. 레이어별 언어 확률을 추적한 결과, 초반 레이어에서는 적절한 토큰이 거의 나타나지 않다가, 중간 레이어에서 영어 단어 “flower”의 확률이 급격히 증가하고, 이후 마지막 레이어에서 목표 언어인 중국어 “花”로 확률이 이동하는 현상이 관찰된다.
이러한 결과를 바탕으로, 단순히 영어로 번역한 뒤 다시 처리하는 것이 아니라, Transformer가 중간 레이어에서 추상적인 개념 공간에서 연산을 수행한다고 해석한다. 이 공간은 특정 언어에 직접 대응되지 않지만, 영어 토큰과 더 가까운 경향을 보인다. 이는 logit lens에서 영어 토큰이 먼저 나타나는 현상이 실제 번역 과정이 아니라, 개념 공간의 영어 편향 때문임을 시사한다.
마지막으로, 이러한 잠재적 편향이 미치는 영향과 향후 연구 방향에 대해 논의한다. 이는 신뢰할 수 있는 AI를 구축하기 위한 중요한 단계이다.
2 Related work
다국어 언어 모델. 다국어 언어 모델은 여러 입력 언어를 동시에 처리하도록 학습된 모델이다. 대표적인 예로 mBERT, mBART, XLM-R, mT5, XGLM, mGPT, BLOOM, PolyLM 등이 있다. 최근의 GPT-4, PaLM, Llama-2와 같은 최신 모델들은 영어 중심 데이터로 학습되어 영어에서 더 높은 성능을 보이지만, 여전히 다양한 언어에서도 좋은 성능을 달성한다.
연구자들은 언어 간 능력을 효율적으로 전이하기 위해 다양한 방법을 제안해왔다. 예를 들어, 문맥 임베딩을 정렬하는 방법, 새로운 언어에 대해 파인튜닝 시 임베딩 행렬을 재학습하는 방법, 또는 프리트레이닝 중 이를 반복적으로 수행하는 방법 등이 있다.
일부 접근법은 영어를 피벗 언어로 활용한다. 예를 들어, Llama 모델에 다국어 지시 수행 능력을 부여할 때 영어 표현을 활용할 수 있으며, 번역 데이터와 영어 기반 지시 데이터를 이용한 파인튜닝을 통해 다국어 추론 능력을 향상시킬 수 있음이 보고되었다. 또한 로마자 표기와 영어 데이터를 함께 활용하면 저자원 언어 성능을 효율적으로 개선할 수 있다는 연구도 있다.
프롬프트 설계 측면에서도 영어를 피벗으로 활용하는 방법이 존재한다. 예를 들어, 입력을 먼저 영어로 번역하거나, 영어로 chain-of-thought 추론을 수행하도록 유도하는 방식이 다국어 성능을 향상시킬 수 있다.
그러나 고자원 언어를 활용하는 이러한 방식은 저자원 언어에서의 출력 생성에 편향을 유발할 수 있으며, 문법 등에서 영어의 영향을 받을 수 있다는 문제도 지적된다.
또한 다국어 모델 내부에서 언어별 표현이 어떻게 다른지에 대한 연구도 이루어져 왔다. mBERT와 같은 encoder-only 모델에서는 초기 레이어는 언어별 특성을 가지지만, 후반 레이어에서는 언어에 독립적인 표현 공간이 형성된다는 결과가 보고되었다.
메커니즘 해석 가능성. 메커니즘 해석 가능성은 신경망의 내부 동작을 역공학적으로 분석하여 이해하는 것을 목표로 하는 연구 분야이다. 이를 위해 회로 발견, 제어된 태스크 기반 학습, 인과 추적 등의 방법이 사용된다.
작은 모델(GPT-2, Pythia 등)에서는 sparse probing과 같은 방법을 통해 특정 언어에 대응하는 뉴런이나 n-gram을 강화하는 서브네트워크가 존재한다는 결과가 보고되었다.
본 연구와 가장 관련 있는 도구는 logit lens, tuned lens, direct logit attribution이다. 이들은 transformer의 중간 레이어에서 토큰 예측을 복원하여 내부 표현을 해석하는 방법이다.
logit lens는 원래 마지막 레이어에서만 적용되는 language modeling head를 중간 레이어에 그대로 적용하여 토큰 분포를 얻는 방법이다. tuned lens는 중간 표현을 최종 표현과 유사하게 만들기 위한 추가적인 affine mapping을 학습한다. direct logit attribution은 각 attention head가 로짓에 기여하는 정도를 분석하는 방법이다.
본 연구에서는 tuned lens 대신 logit lens를 사용한다. tuned lens는 중간 표현을 최종 출력에 맞추도록 학습되기 때문에, 만약 내부적으로 영어 표현이 존재하더라도 이를 제거해버릴 수 있다. 따라서 본 연구의 목적에는 logit lens가 더 적합하다.
Reference






댓글
댓글 쓰기