NL-339, Do Llamas Work in English? On the Latent Language of Multilingual Transformers, ACL 2024
◼ Comment 다국어 모델 (여기선 llama)에서 멀티링구얼간의 관계를 분석한 논문이다 결론은 어떤 언어로 질문하든, 중간 공간에서는 영어로 생각을 하고 출력은 질문에 해당하는 언어로 나온다라는 개념이다 분석한 툴로는 logit lens로, unembedding weight을 중간 hidden state에 대해서도 적용해서 어떤 토큰이 나오는지를 본것이다. mBERT에서 encoder-only 모델에서도 초기 레이어는 언어별 특성을 가지지만, 후반 레이어에서는 언어에 독립적인 표현 공간이 형성된다는 결론이 있다고 한다. (ref로 쓰면 좋을 듯) 여기서 테스트한 테스크는 다음과 같다 번역 테스크 few-shot줘서 번역하는 테스크라 보면됨. 따라서 어떤 언어가 나와야하는지 알 수 있음 반복 테스크 이건 굳이 왜한거지? 그냥 입력과 똑같은 단어가 나오도록 함 즉 번역에서 동일언어->동일언어 개념임 클로즈 테스크 빈칸 맞추기라 보면됨. 목표 단어가 주어지면 GPT4로 문장을 만들고, 목표단어 마스킹함 즉 맨 앞에 있는 단어를 맞추는 테스크 logit lens 그림보면, 타겟 토큰이 중국어가 나와야하는데, layer가 증가할수록 점점 증가함 중간 layer에서는 영어가 나올확률이 max 여기서 중국어+영어이외에 다른 언어 토큰이 있기 때문에 확률이 1이 아닐수 있어서, 꼭 정반대의 경향이 아님 토큰 에너지 현재 hidden state가 “얼마나 바로 토큰으로 해석 가능한 상태인가”를 보는 것이다 logit lens만으로 판단하기에는 hidden에는 “토큰 예측에 쓰이지 않는 정보”도 많다 hidden이 token embedding 방향에 얼마나 align되어 있는지보는 것인데 높음 → 거의 output 직전 (token으로 바로 해석 가능) 낮음 → 아직 내부 계산 상태 (concept / feature 상태) 그림 4결과보면, 토큰 에너지가 마지막에 급격히 증가한다는 것이고, 이는 중간 hidden state는 conceptual 정보...