NL-332, End-to-End Vision Tokenizer Tuning, Preprint 2025

Abstract

기존의 비전 토크나이제이션 방식은 비전 토크나이저의 최적화를 다운스트림 학습과 분리하여 수행하며, 이미지 생성이나 시각적 질의응답과 같은 다양한 태스크 전반에서 시각 토큰이 일반화될 수 있다고 암묵적으로 가정한다. 그러나 저수준 재구성을 목표로 최적화된 비전 토크나이저는, 서로 다른 표현과 의미를 요구하는 다운스트림 태스크에 대해서는 태스크 비의존적이다. 이러한 분리된 패러다임은 중요한 불일치를 초래하는데, 비전 토크나이제이션의 손실 자체가 목표 태스크의 표현 병목이 될 수 있다. 예를 들어, 이미지 내 텍스트를 토크나이즈하는 과정에서 발생한 오류는 해당 텍스트를 인식하거나 생성하는 성능 저하로 이어진다.

이를 해결하기 위해, 우리는 비전 토크나이제이션과 목표 자동회귀 태스크를 공동으로 최적화할 수 있는 엔드투엔드 비전 토크나이저 튜닝 방법인 ETT를 제안한다. 동결된 비전 토크나이저로부터 이산 인덱스만을 사용하는 기존 자동회귀 모델들과 달리, ETT는 토크나이저 코드북의 시각 임베딩을 직접 활용하며, 재구성 목표와 캡션 목표를 함께 사용하여 비전 토크나이저를 엔드투엔드 방식으로 최적화한다. ETT는 기존 대규모 언어 모델의 코드북이나 아키텍처를 수정할 필요 없이 간단하게 구현 및 통합할 수 있다.

광범위한 실험 결과, 제안한 엔드투엔드 비전 토크나이저 튜닝은 동결된 토크나이저를 사용하는 기준선 대비 멀티모달 이해 및 시각 생성 태스크에서 2에서 6퍼센트에 이르는 유의미한 성능 향상을 달성함과 동시에, 기존의 재구성 성능을 유지함을 보여준다. 우리는 이 단순하면서도 강력한 방법이 이미지 생성과 이해를 넘어 멀티모달 파운데이션 모델 전반에 기여할 수 있기를 기대한다. 

기존에는 토크나이저 하고 나서 LLM에 넣어서 학습 딸깍 했는데, 이러면 LLM 학습과 토크나이저가 분리되니까, LLM 학습시에도 gradient가 흐르게 하자

1. Introduction

최근 대규모 언어 모델과 멀티모달 사전학습의 급속한 발전으로 인해, 자동회귀 모델링은 자연어 처리 분야를 넘어 비전 및 멀티모달 태스크 전반으로 그 영향력을 확장하고 있다. 자동회귀 모델의 다음 토큰 예측 패러다임 하에서, 멀티모달 학습은 일반적으로 이미지와 텍스트와 같은 서로 다른 모달리티의 데이터를 하나의 통합된 시퀀스 모델링을 위해 압축된 이산 토큰으로 인코딩한다. 예를 들어, 최근 연구인 Emu3는 텍스트, 이미지, 비디오를 모두 이산 토큰으로 토크나이즈한 뒤, 통합된 토큰 공간에서 다음 토큰 예측을 수행한다. 이후의 여러 연구들 또한 이러한 방향을 확장하여 시각 생성 및 인식 성능을 더욱 향상시켰다. 이와 같은 통합된 다음 토큰 예측 패러다임은 대규모 학습과 추론을 모두 지원하는 유연한 멀티모달 학습 프레임워크를 가능하게 한다.

이러한 자동회귀 프레임워크에서 토크나이제이션은 핵심적인 역할을 한다. 

  • 이미지나 비디오와 같은 모달리티의 경우, 효율적이면서도 범용적인 토크나이저를 학습하는 것은 매우 도전적인 문제인데, 토크나이제이션은 동시에 압축성과 무손실성을 만족시키기 어렵기 때문이다. 
  • 토크나이제이션 과정에서 발생하는 정보 손실은 목표 태스크의 성능 병목이 될 수 있다. 
  • 예를 들어, 이미지 내 텍스트를 토크나이즈하는 과정에서의 오류는 해당 텍스트를 인식하거나 생성하는 성능 저하로 직접 이어진다.

그러나 기존의 토크나이제이션 접근법들은 이러한 불일치를 간과한 채, 비전 토크나이저를 다운스트림 학습과 분리하여 별도로 학습한 뒤 그대로 통합한다. 

  • 이는 학습된 시각 토큰이 다양한 태스크 전반에서 충분히 일반화될 수 있다는 가정에 기반한다. 
  • 특히, 자동인코딩을 목표로 최적화된 비전 토크나이저는 서로 다른 표현과 의미를 요구하는 다운스트림 태스크에 대해 태스크 비의존적이다. 
  • 대부분의 토크나이저는 저수준의 픽셀 단위 재구성에 집중하며, 벡터 양자화로 인한 정보 손실로 인해 학습된 표현의 품질은 본질적으로 제한된다. 
  • 그 결과, CLIP과 같은 연속적인 고수준 표현을 사용하는 모델들에 비해 시각적 이해 태스크에서 열등한 성능을 보이게 된다.

더 나아가, 기존의 자동회귀 파이프라인들은 일반적으로 비전 토크나이저로부터 얻은 이산 인덱스만을 사용하며, 다운스트림 태스크를 수행하기 위해 대규모 언어 모델 내의 시각 임베딩은 무작위 초기화에 의존한다. 이는 멀티모달 학습에서 핵심적인 요소인 시각 표현 학습과 비전-언어 정렬을 어렵게 만든다.

본 연구에서는 비전 토크나이제이션과 목표 자동회귀 다운스트림 태스크를 공동으로 최적화할 수 있는 엔드투엔드 비전 토크나이저 튜닝 접근법인 ETT를 제안한다. 

  • 최근의 비전-언어 모델들이 학습 과정에서 연속적인 비전 인코더를 업데이트함으로써 시각 표현과 비전-언어 정렬을 함께 최적화하는 데서 영감을 받아, 우리는 이산 비전 토크나이저 역시 엔드투엔드 방식으로 튜닝할 수 있음을 제안한다. 
  • 이 과정에서 대규모 언어 모델은 비전 토크나이저의 시각적 보조자 역할을 수행한다. 
  • 구체적으로, 우리는 이산 인덱스만을 사용하는 대신 비전 토크나이저의 코드북 임베딩을 도입하고, 토큰 단위 캡션 손실을 통합하여 비전 토크나이저의 표현을 직접 최적화한다.

실험 결과, ETT는 멀티모달 이해 및 시각 생성 태스크에서 다운스트림 성능을 크게 향상시키며, 비전 토크나이저가 보다 판별적이고 생성에 유리한 표현을 학습하도록 만든다. 또한 ETT는 비전 토크나이저의 기존 이미지 재구성 성능을 유지할 수 있음을 확인하였다. 더 나아가, 본 방법은 대규모 언어 모델의 기존 텍스트 코드북을 수정하거나, 시각 임베딩 및 비전-언어 정렬을 처음부터 학습하기 위해 임베딩 레이어나 분류 헤드를 확장할 필요 없이 간단하게 구현 및 통합할 수 있다. 


























Reference

댓글