NL-332, End-to-End Vision Tokenizer Tuning, Preprint 2025
Abstract 기존의 비전 토크나이제이션 방식은 비전 토크나이저의 최적화를 다운스트림 학습과 분리하여 수행하며, 이미지 생성이나 시각적 질의응답과 같은 다양한 태스크 전반에서 시각 토큰이 일반화될 수 있다고 암묵적으로 가정한다. 그러나 저수준 재구성을 목표로 최적화된 비전 토크나이저는, 서로 다른 표현과 의미를 요구하는 다운스트림 태스크에 대해서는 태스크 비의존적이다. 이러한 분리된 패러다임은 중요한 불일치를 초래하는데, 비전 토크나이제이션의 손실 자체가 목표 태스크의 표현 병목이 될 수 있다. 예를 들어, 이미지 내 텍스트를 토크나이즈하는 과정에서 발생한 오류는 해당 텍스트를 인식하거나 생성하는 성능 저하로 이어진다. 이를 해결하기 위해, 우리는 비전 토크나이제이션과 목표 자동회귀 태스크를 공동으로 최적화할 수 있는 엔드투엔드 비전 토크나이저 튜닝 방법인 ETT를 제안한다. 동결된 비전 토크나이저로부터 이산 인덱스만을 사용하는 기존 자동회귀 모델들과 달리, ETT는 토크나이저 코드북의 시각 임베딩을 직접 활용하며, 재구성 목표와 캡션 목표를 함께 사용하여 비전 토크나이저를 엔드투엔드 방식으로 최적화한다. ETT는 기존 대규모 언어 모델의 코드북이나 아키텍처를 수정할 필요 없이 간단하게 구현 및 통합할 수 있다. 광범위한 실험 결과, 제안한 엔드투엔드 비전 토크나이저 튜닝은 동결된 토크나이저를 사용하는 기준선 대비 멀티모달 이해 및 시각 생성 태스크에서 2에서 6퍼센트에 이르는 유의미한 성능 향상을 달성함과 동시에, 기존의 재구성 성능을 유지함을 보여준다. 우리는 이 단순하면서도 강력한 방법이 이미지 생성과 이해를 넘어 멀티모달 파운데이션 모델 전반에 기여할 수 있기를 기대한다. 기존에는 토크나이저 하고 나서 LLM에 넣어서 학습 딸깍 했는데, 이러면 LLM 학습과 토크나이저가 분리되니까, LLM 학습시에도 gradient가 흐르게 하자 1. Introduction 최근 대규모 언어 모델과 멀티모달 사전학습의 급속한 발전으로 인해, 자동회귀 모델링은...