NL-326, OmniTokenizer: A Joint Image-Video Tokenizer for Visual Generation, NeurIPS 2025
Abstract
토크나이저는 복잡한 시각 데이터를 압축된 잠재 공간으로 매핑하는 번역기 역할을 하며, 시각 생성 모델의 핵심 구성 요소이다. 기존 토크나이저들이 이미지 또는 비디오 입력 중 하나에 특화되어 설계되었다는 한계를 바탕으로, 본 논문에서는 이미지와 비디오를 공동으로 토크나이즈할 수 있는 트랜스포머 기반 토크나이저인 OmniTokenizer를 제안한다.
OmniTokenizer는 공간–시간 분리(spatial-temporal decoupled) 아키텍처를 채택하여, 공간 모델링에는 윈도우 어텐션(window attention)을, 시간 모델링에는 인과적 어텐션(causal attention)을 통합한다. 이미지와 비디오 데이터의 상보적 특성을 효과적으로 활용하기 위해, 먼저 고정 해상도의 이미지 데이터로 학습하여 공간 인코딩 능력을 확보한 뒤, 다중 해상도의 이미지와 비디오 데이터를 함께 사용해 시간적 동역학을 학습하는 **점진적 학습 전략(progressive training strategy)**을 제안한다.
OmniTokenizer는 최초로 이미지와 비디오 입력을 하나의 통합된 프레임워크 내에서 처리할 수 있음을 보이며, 두 모달리티 간 시너지의 가능성을 입증한다. 광범위한 실험을 통해 OmniTokenizer는 다양한 이미지 및 비디오 데이터셋에서 최첨단(SOTA) 재구성 성능을 달성함을 보였다. 예를 들어, ImageNet에서 재구성 FID 1.11, UCF-101에서 재구성 FVD 42를 기록하여 기존 SOTA 방법 대비 각각 13%, 26%의 성능 향상을 달성하였다.
또한 OmniTokenizer를 통합했을 때, 언어 모델 기반 접근법과 확산 모델(diffusion model) 모두에서 고급 시각 생성 성능을 달성할 수 있음을 보였으며, 이를 통해 제안 방법의 우수성과 범용성을 강조한다.
1. Introduction
생성 모델의 발전 [25, 52, 14, 17, 10, 39]은 인공지능 분야에서 가장 흥미로운 진전 중 하나로, 시각 콘텐츠를 생성하는 방식을 근본적으로 변화시킬 잠재력을 지니고 있다. 최근 몇 년간 시각 생성 분야에서는 두 가지 주요 패러다임이 부상하였다. 하나는 언어 모델 기반 방법 [52, 12, 64, 46]이며, 다른 하나는 확산 모델(diffusion model) [17, 43]이다.
discrete token을 이용한 이미지 생성 vs 디퓨젼 기반 이미지 생성
언어 모델 기반 방법은 언어 모델(LM)의 뛰어난 시퀀스 모델링 능력 [34, 35, 50]을 활용하여 시각 생성을 다음 토큰 예측(next-token prediction) 문제로 정식화한다. 반면, 확산 모델은 정교하게 설계된 역확산(reverse diffusion) 과정을 통해 잡음(noise)을 점진적으로 일관된 시각 구조로 변환한다. 이 두 접근법의 공통적인 핵심 요소는 **토크나이저(tokenizer)**로, 이는 시각 신호를 잠재 표현(latent representation)으로 변환하는 역할을 수행한다.
언어 모델 기반 방법에서 사용되는 토크나이저는 일반적으로 VQVAE로 불리며, 입력을 이산적인 잠재 코드 시퀀스로 양자화한다 [12, 62, 64]. 반면 확산 모델에서는 VAE가 토크나이저 역할을 수행하며, 잠재 공간에서의 확률 분포를 모델링한다 [25, 39]. 이는 문자 언어에서 어휘(lexicon)가 수행하는 역할과 유사하게, 시각 합성에서의 토크나이저는 생성 모델이 도달할 수 있는 성능의 상한선을 결정한다. 이러한 이유로, 시각 생성 토크나이저는 최근 연구 커뮤니티에서 점점 더 많은 주목을 받고 있다 [12, 61, 19].
기존의 토크나이저들은 이미지 [12, 62] 또는 비디오 [61, 13, 64] 입력 중 하나에만 특화되어 설계되어 왔으며, 이로 인해 이후에 결합되는 생성 모델의 적용 유연성과 데이터 확장성 측면에서 본질적인 한계를 가진다. MAGVITv2 [65]는 인과적 3D 합성곱을 사용하여 두 모달리티를 모두 처리하려는 시도를 하였으나, 여전히 이미지 데이터와 비디오 데이터에 대해 별도의 모델을 각각 학습해야 하며, 두 모달리티 간의 시너지를 실질적으로 달성하지는 못했다.
- 이미지랑 비디오를 다른 모달리티로 인식하고, 각각에 특화된 토크나이저를 사용하면 모델에서 관계를 학습해야하는 한계가 있다는 듯
- 처음부터 모달리티간의 시너지나는 토크나이저가 필요하다는 것
본 연구는 **공동 이미지–비디오 토크나이저(joint image-video tokenizer)**의 필요성을 다음 두 가지 측면에서 강조한다.
- 첫째, 공동 토크나이저는 이미지와 비디오 데이터를 함께 학습할 수 있도록 하여 [56, 58], 특히 데이터가 상대적으로 부족한 비디오 모달리티의 한계를 완화하고 보다 일반적인 표현을 학습할 수 있도록 한다.
- 둘째, 통합된 토크나이징 프레임워크는 본질적으로 더 나은 범용성과 확장성을 제공한다. 예를 들어, 이미지 또는 비디오 중 어느 한 쪽의 데이터만 추가하더라도 토크나이저 성능을 향상시킬 수 있으며, 이는 이미지 생성이나 비디오 생성에 특화된 생성 모델의 성능 향상으로 자연스럽게 이어진다.
이러한 배경에서, 본 논문은 OmniTokenizer를 제안한다. OmniTokenizer는 이미지와 비디오를 공동으로 토크나이즈하기 위한 트랜스포머 기반 토크나이저이다. 직관적으로는 이미지와 비디오 데이터를 단순히 통합하는 것만으로도 충분해 보일 수 있으나, 실제로는 이러한 단순 결합만으로는 두 모달리티 간의 상호 보완적 효과를 얻기 어렵다.
이를 해결하기 위해, 우리는 공간–시간 분리(spatial-temporal decoupled) 아키텍처 [2]를 채택한다.
- 공간 차원에서는 지역적 집계 능력과 효율성이 뛰어난 윈도우 어텐션(window attention) [27]을 사용하고, 시간 차원에서는 비디오의 움직임을 포착하고 시간적 일관성을 보장하기 위해 **인과적 어텐션(causal attention)**을 사용한다.
모델 설계와 더불어, 우리는 **점진적 학습 전략(progressive training strategy)**을 도입한다. 이 전략은 먼저 고정 해상도의 이미지 데이터로 사전 학습을 수행하여 정적인 시각 정보에 대한 기본적인 이해를 구축한 뒤, 비디오 데이터를 포함한 다중 해상도의 공동 학습을 통해 보다 복잡한 장면에서의 시간적 동역학을 학습하는 방식이다. 이러한 점진적 학습 전략은 서로 다른 형태의 시각 입력 간의 간극을 효과적으로 연결하고, 다양한 시각 데이터가 지닌 풍부한 정보를 최대한 활용할 수 있도록 한다.
제안한 방법의 효과를 실증적으로 검증하기 위해, 우리는 언어 모델 토크나이저와 확산 토크나이저를 각각 구현한 OmniTokenizer-VQVAE와 OmniTokenizer-VAE를 제안하고, ImageNet [9], CelebA-HQ [21], FFHQ [22], UCF-101 [44], Kinetics-600 [6] 등 다양한 데이터셋에서 실험을 수행하였다. 실험 결과, OmniTokenizer는 이미지 데이터셋과 비디오 데이터셋 모두에서 재구성 FID 기준으로 기존 방법들을 능가하는 성능을 보였다. 예를 들어 ImageNet에서는 OmniTokenizer-VQVAE가 1.11 rFID, OmniTokenizer-VAE가 0.69 rFID를 달성하였으며, UCF-101에서는 각각 42 rFVD와 23 rFVD를 기록하였다.
- VQVAE 방식과 VQE 방식으로 이미지 생성하는 것과 Omnitokenizer와 결합하여 성능 확인했더니, 기존보다 좋다는거 같음?
- 연구가 약간 이미지 생성쪽으로 포커싱되어 있는 느낌이긴 함
또한 OmniTokenizer를 토크나이저로 사용했을 때, 언어 모델 기반 생성 모델과 확산 모델 모두에서 클래스 조건부 생성, 무조건 생성, 프레임 예측 등의 다양한 시각 생성 과제에서 경쟁력 있는 성능을 달성할 수 있음을 확인하였다.
요약하면, 본 논문의 주요 기여는 다음과 같다:
-
우리는 이미지와 비디오를 공동으로 토크나이즈하기 위한 트랜스포머 기반 토크나이저 OmniTokenizer를 제안한다. OmniTokenizer는 동일한 프레임워크와 가중치(shared framework and weights)를 사용하여 두 종류의 시각 데이터를 모두 처리하는 최초의 방법이다.
-
우리는 먼저 고정 해상도의 이미지 데이터로 사전 학습을 수행한 뒤, 다중 해상도의 이미지–비디오 공동 학습으로 전환하는 점진적 학습 전략(progressive training strategy)을 제안한다. 이 접근법은 이미지와 비디오 데이터 간의 시너지를 효과적으로 활용하여, 이미지 전용 혹은 비디오 전용 학습보다 더 우수한 성능을 달성하도록 한다.
-
우리는 ImageNet, CelebA-HQ, FFHQ, UCF-101, Kinetics-600 등 다양한 데이터셋에 대해 광범위한 실험을 수행하였다. 실험 결과, OmniTokenizer는 이미지 및 비디오 데이터셋 모두에서 최첨단(state-of-the-art) 재구성 성능을 달성하였다. 또한 OmniTokenizer를 토크나이저로 사용할 경우, 언어 모델 기반 생성 모델과 확산 모델 모두에서 뛰어난 시각 생성 성능을 달성할 수 있음을 확인하였다.
2. Related Work
2.1 Language Models for Visual Generation
언어 모델은 자연어 처리 분야에서의 압도적인 성공 [34, 35, 49, 50]과 시각 이해 분야에서의 성과 [11, 5, 47, 57, 55]에 힘입어, 시각 생성 분야에서도 강력한 접근법으로 부상하였다. 이러한 방법들 [12, 7, 13, 64]은 시각 합성을 인간 언어에서 문장을 구성하는 과정과 유사하게, **시퀀스 예측 문제(sequence prediction problem)**로 재정식화한다.
토큰을 순차적으로 예측하는지 혹은 병렬적으로 예측하는지에 따라, 언어 모델 기반 방법은 자기회귀(autoregressive, AR) 모델 [12, 63]과 비자기회귀(non-autoregressive, Non-AR) 모델 [7, 65]로 나눌 수 있다. 자기회귀(AR) 모델은 시각 생성 분야에서 가장 먼저 시도된 접근으로, 언어 모델이 지닌 본질적인 순차 모델링 특성을 활용하여 이미지를 [62, 63] 또는 비디오를 [61, 13] 단계적으로 생성한다. 이러한 모델들—예를 들어 DALL·E [37] 및 그 이전 변형들—은 한 번에 하나의 토큰을 예측하는 방식으로 작동하며, 높은 생성 품질과 생성 과정에 대한 정밀한 제어 능력을 특징으로 한다.
VAR [46]는 이미지에 대한 자기회귀 학습 프레임워크를 거친 해상도에서 미세 해상도로 진행되는 “다음 스케일 예측(next-scale prediction)” 패러다임으로 재정의하였다.
반면, 비자기회귀(Non-AR) 모델은 여러 토큰을 서로 독립적으로, 그리고 병렬적으로 예측함으로써 생성 속도를 크게 향상시키기 위해 제안되었다. MaskGIT [7]과 같은 모델은 이러한 병렬성을 활용하여, 생성된 이미지의 충실도를 유지하면서도 생성 시간을 현저히 단축하는 데 성공하였다. 비자기회귀 접근법은 MAGVIT 계열 [64, 65]을 통해 비디오 생성에서도 유망한 성과를 보여주었다.
디퓨젼 방식이 생성 속도 방식에서는 장점이 있나봄
자기회귀 방식과 비자기회귀 방식 모두 시각 생성 분야를 크게 발전시켰으며, 고품질 이미지와 비디오를 합성하기 위한 새로운 방법론을 제시하였다.
2.2 Diffusion Models for Visual Generation
확산 모델(diffusion models) [17, 31, 3, 60]은 시각 생성을 위한 또 하나의 중요한 접근법으로, 무작위 신호(random signal)를 반복적으로 제거(denoising)하여 구조화된 이미지나 비디오로 변환하는 확률적 생성 과정에 기반한다. 이러한 모델들은 전역적으로 일관된 구조를 유지하면서도 세밀한 질감을 풍부하게 표현할 수 있다는 점에서 강점을 가진다 [30, 32].
언어 모델 기반 방법이 시각 입력을 이산적인 잠재 코드(latent code)로 토크나이즈하는 것과 달리, 확산 모델은 **연속적인 픽셀 공간(pixel space)**에서 직접 시각 샘플을 생성한다 [43, 10]. 이 방식은 높은 생성 품질을 제공하지만, 시각 데이터의 차원이 매우 크기 때문에 상당한 계산 자원을 요구한다는 단점이 있다.
이러한 문제를 완화하기 위해 제안된 것이 잠재 확산 모델(latent diffusion models, LDMs) [39]이다. LDM은 사전 학습된 변분 오토인코더(Variational Autoencoder, VAE) [25, 39]를 사용하여 고차원 시각 데이터를 잠재 공간으로 압축한 뒤, 그 잠재 공간에서 확산 과정을 수행한다. 이를 통해 픽셀 공간 확산 모델이 지닌 고품질 이미지 생성 능력과 조건부 생성 가능성 등의 장점을 유지하면서도, 학습 및 샘플링에 필요한 계산 비용을 크게 줄일 수 있다.
이후 LDM 계열의 연구들 [69, 33, 32, 28]은 시각 생성의 품질을 더욱 향상시키고, 더 높은 해상도와 더 복잡한 장면을 생성하는 방향으로 지속적으로 발전해 왔다.
Reference











댓글
댓글 쓰기