NL-326, OmniTokenizer: A Joint Image-Video Tokenizer for Visual Generation, NeurIPS 2025
Abstract 토크나이저는 복잡한 시각 데이터를 압축된 잠재 공간으로 매핑하는 번역기 역할을 하며, 시각 생성 모델의 핵심 구성 요소이다. 기존 토크나이저들이 이미지 또는 비디오 입력 중 하나에 특화되어 설계되었다는 한계를 바탕으로, 본 논문에서는 이미지와 비디오를 공동으로 토크나이즈할 수 있는 트랜스포머 기반 토크나이저인 OmniTokenizer 를 제안한다. OmniTokenizer는 공간–시간 분리(spatial-temporal decoupled) 아키텍처를 채택하여, 공간 모델링에는 윈도우 어텐션(window attention)을, 시간 모델링에는 인과적 어텐션(causal attention)을 통합한다. 이미지와 비디오 데이터의 상보적 특성을 효과적으로 활용하기 위해, 먼저 고정 해상도의 이미지 데이터로 학습하여 공간 인코딩 능력을 확보한 뒤, 다중 해상도의 이미지와 비디오 데이터를 함께 사용해 시간적 동역학을 학습하는 **점진적 학습 전략(progressive training strategy)**을 제안한다. OmniTokenizer는 최초로 이미지와 비디오 입력을 하나의 통합된 프레임워크 내에서 처리할 수 있음을 보이며, 두 모달리티 간 시너지의 가능성을 입증한다. 광범위한 실험을 통해 OmniTokenizer는 다양한 이미지 및 비디오 데이터셋에서 최첨단(SOTA) 재구성 성능을 달성함을 보였다. 예를 들어, ImageNet에서 재구성 FID 1.11, UCF-101에서 재구성 FVD 42를 기록하여 기존 SOTA 방법 대비 각각 13%, 26%의 성능 향상을 달성하였다. 또한 OmniTokenizer를 통합했을 때, 언어 모델 기반 접근법과 확산 모델(diffusion model) 모두에서 고급 시각 생성 성능을 달성할 수 있음을 보였으며, 이를 통해 제안 방법의 우수성과 범용성을 강조한다. 1. Introduction 생성 모델의 발전 [25, 52, 14, 17, 10, 39]은 인공지능 분야에서 가장 흥미로운 진전 중 하나로, 시...