NL-336, ReTok: Replacing Tokenizer to Enhance Representation Efficiency in Large Language Model
Abstract Tokenizer는 대규모 언어 모델(LLM)의 핵심 구성 요소이며, 높은 압축률을 가진 토크나이저는 모델의 표현 효율성과 처리 효율성을 향상시킬 수 있다. 그러나 토크나이저는 모든 상황에서 높은 압축률을 보장하지 못하며, 입력과 출력의 평균 길이가 증가하면 모델의 학습 및 추론 비용도 증가하게 된다. 따라서 모델의 성능을 유지하면서 최소한의 비용으로 효율성을 향상시키는 방법을 찾는 것이 중요하다. 본 연구에서는 LLM의 토크나이저를 교체함으로써 모델의 표현 및 처리 효율성을 개선하는 방법을 제안한다. 우리는 기존 모델의 입력층과 출력층의 파라미터를 기반으로 이를 교체 및 재초기화하고, 다른 파라미터는 고정한 채 해당 층들만 학습하는 방식을 제안한다. 다양한 LLM에 대해 실험을 수행한 결과, 제안한 방법은 토크나이저를 교체한 이후에도 모델의 성능을 유지하면서, 특히 긴 텍스트에 대해 디코딩 속도를 크게 향상시킬 수 있음을 보였다. 1 Introduction Tokenizer는 대규모 언어 모델(LLM)의 기본 구성 요소로서 (Brown et al., 2020; OpenAI, 2023; Touvron et al., 2023), 텍스트를 토큰 시퀀스로 변환하는 전처리 과정에 사용된다. 이 과정은 텍스트를 더 작은 단위로 나누어 모델이 보다 효율적으로 처리하고 분석할 수 있도록 한다. 현재 서로 다른 LLM들은 일반적으로 서로 다른 토크나이저를 사용하며, 이러한 토크나이저는 각자의 학습 데이터에 기반하여 BPE, WordPiece, Unigram 등의 다양한 방법으로 학습된다. 일반적으로 이러한 방법들은 학습 데이터에서 등장 빈도에 따라 토큰의 vocabulary를 구성한다. 이를 통해 학습 데이터에 대해서는 비교적 높은 압축률(즉, 더 짧은 시퀀스 길이)을 달성할 수 있다. 그러나 학습 데이터와 테스트 데이터 간 분포 차이가 클 경우, 토크나이저의 압축률이 낮아지는 문제가 발생한다 (Tran, 2020; Liu et al., 2023...