◼ Comment

논문제목이 omnitokenizer라서, 텍스트,비전,오디오 등을 다 토크나이저하는 하나의 모듈을 기대했는데 그런 것은 아니다.
여기서 제안하는 토크나이저는 이미지,비디오를 통합하는 토크나이저이고 2가지 버전이 존재한다

discrete 토큰화
continuous 토큰화 (embedding)

과정을 보면 다음과 같다.

입력은 이미지 or 비디오중 하나이고 같은 토크나이저 아키텍처 사용
이미지는 단일 프레임으로 이미지 패치화를 함
비디오는 여러 프레임인데, 첫 번째 프레임은 이미지 패치화&linear layer 태우고, 나머지 프레임은 비디오 패치화&linear layer를 함. 비디오 경우, 두 개의 결과를 하나의 시퀀스로 연결하여 인코더 입력으로 사용

여기서 패치화란, 이미지의 경우 2차원이니 conv 하는것처럼 2차원을 쪼개서 하고
비디오의 경우 3차원으로 쪼개서 패치화를 함
linear layer을 해서 벡터화를 하고 이를 concat하여 인코더 입력으로 구성
이미지의 경우는 concat하는 부분이 없는 것

인코더에는 2가지 transformer가 있는데, spatial과 temporal이다.

자세히 써있지는 않는데, spatial은 같은 시간(프레임)에서의 window attention을 한다는 것이고
temporal은 같은 패치의 위치에서 시간축으로 attention을 한다는 것이다
이것에 대한 attention masking을 지정해서 하는것 같음

이제 인코딩 벡터가 나온 것을 토크나이저 해야하는데 2가지 과정이 있다

1) 먼저 VQVAE식으로 학습을 한다.

딱히 여기서는 큰 트릭은 없고 기존 VQVAE을 따르는 것 같음

2) 그 다음 순차적으로 VAE식으로 학습을 한다.

VQVAE을 통해 학습된 인코더-디코더는 계속해서 학습되고, 추가적으로 학습되는 부분은 mean, variance을 예측하는 layer가 있음
이때 KL divergence, recon loss말고도 GAN loss을 사용한다고 함
이 부분에 대한 자세한 얘기는 없음

어쨌든 결과로 VQVAE까지 학습된 모델은 discrete token을 추출할 수 있고
VAE까지 학습된 모델은 continuous token을 추출할 수 있게 된다

두 토크나이저 결과를 비전 생성 테스크에서 주로 평가해보니 좋더라~

결과적으로

이미지랑 비디오가 처음부터 시너지 나는 토크나이저를 학습했고
VQVAE, VAE 토크나이저가 기존것보다 좋다는 것이고

두개가 한 모델은 아님

성능은 주로 비디오생성에서 보여주는 연구임 (비전 이해에서는 왜 안했을까)

(참고) 디퓨젼 방식이 생성 속도 방식에서는 장점이 있나봄

Abstract

토크나이저는 복잡한 시각 데이터를 압축된 잠재 공간으로 매핑하는 번역기 역할을 하며, 시각 생성 모델의 핵심 구성 요소이다. 기존 토크나이저들이 이미지 또는 비디오 입력 중 하나에 특화되어 설계되었다는 한계를 바탕으로, 본 논문에서는 이미지와 비디오를 공동으로 토크나이즈할 수 있는 트랜스포머 기반 토크나이저인 OmniTokenizer를 제안한다.

OmniTokenizer는 공간–시간 분리(spatial-temporal decoupled) 아키텍처를 채택하여, 공간 모델링에는 윈도우 어텐션(window attention)을, 시간 모델링에는 인과적 어텐션(causal attention)을 통합한다. 이미지와 비디오 데이터의 상보적 특성을 효과적으로 활용하기 위해, 먼저 고정 해상도의 이미지 데이터로 학습하여 공간 인코딩 능력을 확보한 뒤, 다중 해상도의 이미지와 비디오 데이터를 함께 사용해 시간적 동역학을 학습하는 **점진적 학습 전략(progressive training strategy)**을 제안한다.

OmniTokenizer는 최초로 이미지와 비디오 입력을 하나의 통합된 프레임워크 내에서 처리할 수 있음을 보이며, 두 모달리티 간 시너지의 가능성을 입증한다. 광범위한 실험을 통해 OmniTokenizer는 다양한 이미지 및 비디오 데이터셋에서 최첨단(SOTA) 재구성 성능을 달성함을 보였다. 예를 들어, ImageNet에서 재구성 FID 1.11, UCF-101에서 재구성 FVD 42를 기록하여 기존 SOTA 방법 대비 각각 13%, 26%의 성능 향상을 달성하였다.

또한 OmniTokenizer를 통합했을 때, 언어 모델 기반 접근법과 확산 모델(diffusion model) 모두에서 고급 시각 생성 성능을 달성할 수 있음을 보였으며, 이를 통해 제안 방법의 우수성과 범용성을 강조한다.

1. Introduction

생성 모델의 발전 [25, 52, 14, 17, 10, 39]은 인공지능 분야에서 가장 흥미로운 진전 중 하나로, 시각 콘텐츠를 생성하는 방식을 근본적으로 변화시킬 잠재력을 지니고 있다. 최근 몇 년간 시각 생성 분야에서는 두 가지 주요 패러다임이 부상하였다. 하나는 언어 모델 기반 방법 [52, 12, 64, 46]이며, 다른 하나는 확산 모델(diffusion model) [17, 43]이다.

discrete token을 이용한 이미지 생성 vs 디퓨젼 기반 이미지 생성

언어 모델 기반 방법은 언어 모델(LM)의 뛰어난 시퀀스 모델링 능력 [34, 35, 50]을 활용하여 시각 생성을 다음 토큰 예측(next-token prediction) 문제로 정식화한다. 반면, 확산 모델은 정교하게 설계된 역확산(reverse diffusion) 과정을 통해 잡음(noise)을 점진적으로 일관된 시각 구조로 변환한다. 이 두 접근법의 공통적인 핵심 요소는 **토크나이저(tokenizer)**로, 이는 시각 신호를 잠재 표현(latent representation)으로 변환하는 역할을 수행한다.

언어 모델 기반 방법에서 사용되는 토크나이저는 일반적으로 VQVAE로 불리며, 입력을 이산적인 잠재 코드 시퀀스로 양자화한다 [12, 62, 64]. 반면 확산 모델에서는 VAE가 토크나이저 역할을 수행하며, 잠재 공간에서의 확률 분포를 모델링한다 [25, 39]. 이는 문자 언어에서 어휘(lexicon)가 수행하는 역할과 유사하게, 시각 합성에서의 토크나이저는 생성 모델이 도달할 수 있는 성능의 상한선을 결정한다. 이러한 이유로, 시각 생성 토크나이저는 최근 연구 커뮤니티에서 점점 더 많은 주목을 받고 있다 [12, 61, 19].

기존의 토크나이저들은 이미지 [12, 62] 또는 비디오 [61, 13, 64] 입력 중 하나에만 특화되어 설계되어 왔으며, 이로 인해 이후에 결합되는 생성 모델의 적용 유연성과 데이터 확장성 측면에서 본질적인 한계를 가진다. MAGVITv2 [65]는 인과적 3D 합성곱을 사용하여 두 모달리티를 모두 처리하려는 시도를 하였으나, 여전히 이미지 데이터와 비디오 데이터에 대해 별도의 모델을 각각 학습해야 하며, 두 모달리티 간의 시너지를 실질적으로 달성하지는 못했다.

이미지랑 비디오를 다른 모달리티로 인식하고, 각각에 특화된 토크나이저를 사용하면 모델에서 관계를 학습해야하는 한계가 있다는 듯
처음부터 모달리티간의 시너지나는 토크나이저가 필요하다는 것

본 연구는 **공동 이미지–비디오 토크나이저(joint image-video tokenizer)**의 필요성을 다음 두 가지 측면에서 강조한다.

첫째, 공동 토크나이저는 이미지와 비디오 데이터를 함께 학습할 수 있도록 하여 [56, 58], 특히 데이터가 상대적으로 부족한 비디오 모달리티의 한계를 완화하고 보다 일반적인 표현을 학습할 수 있도록 한다.
둘째, 통합된 토크나이징 프레임워크는 본질적으로 더 나은 범용성과 확장성을 제공한다. 예를 들어, 이미지 또는 비디오 중 어느 한 쪽의 데이터만 추가하더라도 토크나이저 성능을 향상시킬 수 있으며, 이는 이미지 생성이나 비디오 생성에 특화된 생성 모델의 성능 향상으로 자연스럽게 이어진다.

동기에 대해 명확히 짚고 감. 텍스트,비전,오디오 옴니 토크나이저 연구하면 딱일거 같긴 한데..

이러한 배경에서, 본 논문은 OmniTokenizer를 제안한다. OmniTokenizer는 이미지와 비디오를 공동으로 토크나이즈하기 위한 트랜스포머 기반 토크나이저이다. 직관적으로는 이미지와 비디오 데이터를 단순히 통합하는 것만으로도 충분해 보일 수 있으나, 실제로는 이러한 단순 결합만으로는 두 모달리티 간의 상호 보완적 효과를 얻기 어렵다.

이를 해결하기 위해, 우리는 공간–시간 분리(spatial-temporal decoupled) 아키텍처 [2]를 채택한다.

공간 차원에서는 지역적 집계 능력과 효율성이 뛰어난 윈도우 어텐션(window attention) [27]을 사용하고, 시간 차원에서는 비디오의 움직임을 포착하고 시간적 일관성을 보장하기 위해 **인과적 어텐션(causal attention)**을 사용한다.

모델 설계와 더불어, 우리는 **점진적 학습 전략(progressive training strategy)**을 도입한다. 이 전략은 먼저 고정 해상도의 이미지 데이터로 사전 학습을 수행하여 정적인 시각 정보에 대한 기본적인 이해를 구축한 뒤, 비디오 데이터를 포함한 다중 해상도의 공동 학습을 통해 보다 복잡한 장면에서의 시간적 동역학을 학습하는 방식이다. 이러한 점진적 학습 전략은 서로 다른 형태의 시각 입력 간의 간극을 효과적으로 연결하고, 다양한 시각 데이터가 지닌 풍부한 정보를 최대한 활용할 수 있도록 한다.

제안한 방법의 효과를 실증적으로 검증하기 위해, 우리는 언어 모델 토크나이저와 확산 토크나이저를 각각 구현한 OmniTokenizer-VQVAE와 OmniTokenizer-VAE를 제안하고, ImageNet [9], CelebA-HQ [21], FFHQ [22], UCF-101 [44], Kinetics-600 [6] 등 다양한 데이터셋에서 실험을 수행하였다. 실험 결과, OmniTokenizer는 이미지 데이터셋과 비디오 데이터셋 모두에서 재구성 FID 기준으로 기존 방법들을 능가하는 성능을 보였다. 예를 들어 ImageNet에서는 OmniTokenizer-VQVAE가 1.11 rFID, OmniTokenizer-VAE가 0.69 rFID를 달성하였으며, UCF-101에서는 각각 42 rFVD와 23 rFVD를 기록하였다.

VQVAE 방식과 VAE 방식으로 이미지 생성하는 것과 Omnitokenizer와 결합하여 성능 확인했더니, 기존보다 좋다는거 같음?
연구가 약간 이미지 생성쪽으로 포커싱되어 있는 느낌이긴 함

또한 OmniTokenizer를 토크나이저로 사용했을 때, 언어 모델 기반 생성 모델과 확산 모델 모두에서 클래스 조건부 생성, 무조건 생성, 프레임 예측 등의 다양한 시각 생성 과제에서 경쟁력 있는 성능을 달성할 수 있음을 확인하였다.

요약하면, 본 논문의 주요 기여는 다음과 같다:

우리는 이미지와 비디오를 공동으로 토크나이즈하기 위한 트랜스포머 기반 토크나이저 OmniTokenizer를 제안한다. OmniTokenizer는 동일한 프레임워크와 가중치(shared framework and weights)를 사용하여 두 종류의 시각 데이터를 모두 처리하는 최초의 방법이다.
우리는 먼저 고정 해상도의 이미지 데이터로 사전 학습을 수행한 뒤, 다중 해상도의 이미지–비디오 공동 학습으로 전환하는 점진적 학습 전략(progressive training strategy)을 제안한다. 이 접근법은 이미지와 비디오 데이터 간의 시너지를 효과적으로 활용하여, 이미지 전용 혹은 비디오 전용 학습보다 더 우수한 성능을 달성하도록 한다.
우리는 ImageNet, CelebA-HQ, FFHQ, UCF-101, Kinetics-600 등 다양한 데이터셋에 대해 광범위한 실험을 수행하였다. 실험 결과, OmniTokenizer는 이미지 및 비디오 데이터셋 모두에서 최첨단(state-of-the-art) 재구성 성능을 달성하였다. 또한 OmniTokenizer를 토크나이저로 사용할 경우, 언어 모델 기반 생성 모델과 확산 모델 모두에서 뛰어난 시각 생성 성능을 달성할 수 있음을 확인하였다.

2. Related Work

2.1 Language Models for Visual Generation

언어 모델은 자연어 처리 분야에서의 압도적인 성공 [34, 35, 49, 50]과 시각 이해 분야에서의 성과 [11, 5, 47, 57, 55]에 힘입어, 시각 생성 분야에서도 강력한 접근법으로 부상하였다. 이러한 방법들 [12, 7, 13, 64]은 시각 합성을 인간 언어에서 문장을 구성하는 과정과 유사하게, **시퀀스 예측 문제(sequence prediction problem)**로 재정식화한다.

토큰을 순차적으로 예측하는지 혹은 병렬적으로 예측하는지에 따라, 언어 모델 기반 방법은 자기회귀(autoregressive, AR) 모델 [12, 63]과 비자기회귀(non-autoregressive, Non-AR) 모델 [7, 65]로 나눌 수 있다. 자기회귀(AR) 모델은 시각 생성 분야에서 가장 먼저 시도된 접근으로, 언어 모델이 지닌 본질적인 순차 모델링 특성을 활용하여 이미지를 [62, 63] 또는 비디오를 [61, 13] 단계적으로 생성한다. 이러한 모델들—예를 들어 DALL·E [37] 및 그 이전 변형들—은 한 번에 하나의 토큰을 예측하는 방식으로 작동하며, 높은 생성 품질과 생성 과정에 대한 정밀한 제어 능력을 특징으로 한다.

VAR [46]는 이미지에 대한 자기회귀 학습 프레임워크를 거친 해상도에서 미세 해상도로 진행되는 “다음 스케일 예측(next-scale prediction)” 패러다임으로 재정의하였다.

반면, 비자기회귀(Non-AR) 모델은 여러 토큰을 서로 독립적으로, 그리고 병렬적으로 예측함으로써 생성 속도를 크게 향상시키기 위해 제안되었다. MaskGIT [7]과 같은 모델은 이러한 병렬성을 활용하여, 생성된 이미지의 충실도를 유지하면서도 생성 시간을 현저히 단축하는 데 성공하였다. 비자기회귀 접근법은 MAGVIT 계열 [64, 65]을 통해 비디오 생성에서도 유망한 성과를 보여주었다.

디퓨젼 방식이 생성 속도 방식에서는 장점이 있나봄

자기회귀 방식과 비자기회귀 방식 모두 시각 생성 분야를 크게 발전시켰으며, 고품질 이미지와 비디오를 합성하기 위한 새로운 방법론을 제시하였다.

2.2 Diffusion Models for Visual Generation

확산 모델(diffusion models) [17, 31, 3, 60]은 시각 생성을 위한 또 하나의 중요한 접근법으로, 무작위 신호(random signal)를 반복적으로 제거(denoising)하여 구조화된 이미지나 비디오로 변환하는 확률적 생성 과정에 기반한다. 이러한 모델들은 전역적으로 일관된 구조를 유지하면서도 세밀한 질감을 풍부하게 표현할 수 있다는 점에서 강점을 가진다 [30, 32].

언어 모델 기반 방법이 시각 입력을 이산적인 잠재 코드(latent code)로 토크나이즈하는 것과 달리, 확산 모델은 **연속적인 픽셀 공간(pixel space)**에서 직접 시각 샘플을 생성한다 [43, 10]. 이 방식은 높은 생성 품질을 제공하지만, 시각 데이터의 차원이 매우 크기 때문에 상당한 계산 자원을 요구한다는 단점이 있다.

이러한 문제를 완화하기 위해 제안된 것이 잠재 확산 모델(latent diffusion models, LDMs) [39]이다. LDM은 사전 학습된 변분 오토인코더(Variational Autoencoder, VAE) [25, 39]를 사용하여 고차원 시각 데이터를 잠재 공간으로 압축한 뒤, 그 잠재 공간에서 확산 과정을 수행한다. 이를 통해 픽셀 공간 확산 모델이 지닌 고품질 이미지 생성 능력과 조건부 생성 가능성 등의 장점을 유지하면서도, 학습 및 샘플링에 필요한 계산 비용을 크게 줄일 수 있다.

이후 LDM 계열의 연구들 [69, 33, 32, 28]은 시각 생성의 품질을 더욱 향상시키고, 더 높은 해상도와 더 복잡한 장면을 생성하는 방향으로 지속적으로 발전해 왔다.

3 Methodology

3.1 이미지–비디오 공동 토크나이제이션 (Joint Image and Video Tokenization)

본 연구의 목표는 이미지와 비디오를 하나의 통합된 프레임워크에서 토크나이즈하고, 두 모달리티 간의 **상호 이득(mutual benefits)**을 달성하는 것이다. 이를 위해 우리는 **공간(spatial)과 시간(temporal)을 분리(decoupled)**한 블록으로 구성된 Transformer 기반 아키텍처를 사용한다(3.1.1절 참조).
또한, 시각적 인코딩 능력을 점진적으로(incremental) 학습하기 위해, 두 단계로 이루어진 **점진적 학습 전략(progressive training strategy)**을 제안한다(3.1.2절 참조).
제안하는 전체 프레임워크는 Figure 1에 도시되어 있다.

3.1.1 공간–시간 Transformer (Space-Time Transformer)

Patchify.
시각 입력 $x \in \mathbb{R}^{(1+T)\times H \times W \times 3}$ 가 주어졌다고 하자. 여기서 $(1+T)$ 는 프레임의 개수이며, 이미지의 경우 $T=0$ , $H \times W$ 는 공간 해상도를 의미한다.
우리는 비디오와 정적 이미지를 공동으로 인코딩하기 위해, 첫 번째 프레임 $x_0 \in \mathbb{R}^{1\times H \times W \times 3}$ 과 이후 프레임들 $x_{1:T} \in \mathbb{R}^{T \times H \times W \times 3}$ 을 항상 분리하여 처리한다 [65].

구체적으로, $x_0$ 와 $x_{1:T}$ 는 각각 **겹치지 않는 패치(non-overlapping patches)**로 분할된다.

이미지 프레임 $x_0$ 는 $p \times p$ 크기의 패치로,
비디오 프레임 $x_{1:T}$ 는 $t \times p \times p$ 크기의 패치로 나뉜다.

이후, 이미지 패치와 비디오 패치를 각각 서로 다른 두 개의 선형 레이어를 통해 투영하여 패치 임베딩을 얻는다. 그 결과,

이미지 패치 임베딩은 $e_0 \in \mathbb{R}^{L_1 \times c}$ ,
비디오 패치 임베딩은 $e_{1:T} \in \mathbb{R}^{L_2 \times c}$ 가 된다.

여기서

$L_1 = \frac{H}{p} \times \frac{W}{p}, \quad L_2 = \frac{T}{t} \times \frac{H}{p} \times \frac{W}{p}$

이다.
이후 $e_0$ 와 $e_{1:T}$ 를 **시퀀스 차원(sequence dimension)**에서 연결(concatenate)하여 공간–시간 임베딩 $e$ 를 구성한다.
이 과정을 통해 입력 해상도는

$(1+T)\times H \times W \;\;\rightarrow\;\; \left(1+\frac{T}{t}\right)\times \frac{H}{p} \times \frac{W}{p}$

로 압축된다.

Encoder와 Decoder.
이미지와 비디오 입력 모두에 대해 더 나은 호환성을 확보하기 위해, 우리는 공간–시간 분해(spatial-temporal factorized) 인코더를 채택한다. 이 인코더는 **공간 블록(spatial blocks)**과 **시간 블록(temporal blocks)**을 분리하여 구성한다.

**공간 차원(spatial dimension)**에서는, 국소적 집계(local aggregation) 능력과 계산 효율성이 뛰어난 윈도우 어텐션(window attention) [27]을 사용한다.
**시간 차원(temporal dimension)**에서는, 두 번째 단계의 자기회귀적(autoregressive) 시각 생성 방식과 정렬되도록 **인과적 어텐션(causal attention)**을 사용한다.

이후 잠재 코드 $z$ 는

언어 모델(LM) 토크나이저의 경우 코드북을 조회하여 얻어지며(즉, VQVAE에서의 양자화),
확산(diffusion) 토크나이저의 경우 가우시안 분포로부터 샘플링하여 얻어진다.

디코더의 아키텍처는 인코더와 **대칭적(symmetric)**이며, 마지막으로 공간–시간 토큰을 활성화 함수 없이 두 개의 선형 투영 레이어를 통해 픽셀 공간으로 매핑한다.

즉 이미지와 비디오를 패치화해서 임베딩하는 건데, 비디오는 이미지가 여러 개 있는 개념이다
그래서 비디오는 1번째 프레임과 나머지 프레임으로 나눠서, 1번째 프레임은 이미지 임베딩하고 같은 과정을 거치고, 나머지 프레임은 비디오 임베딩 과정을 거치게 한다
간단히 말하면, 이미지는 2차원으로 패치화하고 비디오는 3차원으로 패치화하는 것이다.
그리고 VQVAE 방식으로 양자화해서 discrete token을 얻어서 next token prediction으로 활용하고

VAE 방식으로 가우시안 latent z을 얻어서 디퓨젼을 태운다

3.1.2 Progressive Training

기존의 이미지 토크나이저들은 이미지 데이터만을 사용하여 학습을 수행하거나 [12, 62], 비디오 토크나이저들은 이미지 토크나이저로 학습된 모델을 초기값으로 사용하여 학습을 진행한다 [64, 65]. 이에 반해, 우리는 언어 모델 기반 토크나이저인 OmniTokenizer-VQVAE의 공간–시간 표현 학습을 촉진하기 위해, 두 개의 연속된 VQ 학습 단계로 이루어진 점진적 학습 패러다임을 활용한다. 이후 해당 모델은 KL 파인튜닝을 통해 확산 토크나이저인 OmniTokenizer-VAE로 파인튜닝될 수 있다.

Figure 2에 도시된 두 단계 VQ 학습은 이산 잠재 코드를 이용한 시각적 복원 학습을 목표로 하며, 두 개의 단계로 구성된다.

첫 번째 단계는 고정 해상도의 이미지 데이터에 초점을 맞추어 공간적 이해에 대한 기초를 형성하는 단계이다.
이를 기반으로 두 번째 단계에서는 비디오 데이터를 도입하여 정적 이미지 특징과 함께 시간적 동역학 모델링을 학습한다.
이 이미지–비디오 공동 학습 단계는 개별 프레임의 공간적 세부 정보와 연속적인 비디오 데이터의 시간적 관계를 모두 정확하게 포착할 수 있는 보편적인 임베딩을 학습하는 데 핵심적인 역할을 한다.

두 단계 모두에서 모델은 다음과 같은 벡터 양자화 목적 함수로 학습된다:

여기서 sg는 stop-gradient 연산을 의미하며, $\lambda_1$ 과 $\lambda_2$ 는 균형을 위한 하이퍼파라미터이고, $E$ 와 $z_q$ 는 각각 OmniTokenizer의 인코더와 코드북 벡터를 나타낸다. 코드북 활용도를 향상시키기 위해 분해된 코드와 $l_2$ -정규화된 코드 [62] 또한 사용된다.

VQ 학습 이후, 우리는 모델을 확산 토크나이저인 OmniTokenizer-VAE로 사용하기 위해, 위의 $\mathcal{L}_{VQ}$ 를 다음과 같은 Kullback–Leibler(KL) 손실로 대체하여 추가 파인튜닝을 수행한다:

여기서 $P(z)$ 는 가우시안 분포이며, $Q(z|x)$ 는 관측된 입력이 주어졌을 때 잠재 코드의 사후 분포를 의미한다.

$\mathcal{L}_{VQ}$ 또는 $\mathcal{L}_{KL}$ 외에도, VQ 학습과 KL 파인튜닝 모두에서 L2 재구성 손실 $\mathcal{L}_{recon}$ 과 GAN 손실 $\mathcal{L}_{GAN}$ 이 함께 사용된다.

3.2 Visual Generation

3.1.2절에서 언급했듯이, 점진적 학습과 KL 파인튜닝 이후 우리는 두 가지 토크나이저, 즉 시각 입력을 이산 코드북 상의 잠재 코드로 인코딩하는 OmniTokenizer-VQVAE와 연속적인 잠재 공간으로 인코딩하는 OmniTokenizer-VAE를 얻을 수 있다. 이를 바탕으로 우리는 시각 생성을 위해 언어 모델 또는 확산 모델을 추가로 학습한다.

언어 모델 기반 생성 방식은 시각 합성을 토큰 예측 문제로 정식화한다. 구체적으로, OmniTokenizer-VQVAE가 이미지 또는 비디오 입력을 이산 잠재 코드 시퀀스로 토크나이즈한 이후, 우리는 이를 래스터 순서(raster order) [8, 12]로 펼쳐 코드 인덱스 $y$ 를 얻는다. 이후 Transformer 언어 모델 [34]은 예측된 토큰 $\hat{y}$ 와 실제 토큰 $y$ 간의 로그 우도를 최대화하도록 교차 엔트로피 손실로 학습된다:

$c$ 는 조건 정보(예: 클래스 조건 이미지 및 비디오 생성을 위한 레이블)를 의미하며, $\theta$ 는 언어 모델의 학습 가능한 파라미터이고, $P$ 와 $L$ 은 각각 소프트맥스 확률과 시퀀스 길이를 나타낸다. 추론 시에는 모델의 우도에 따라 각 토큰을 순차적으로 예측한다.

잠재 확산 모델(latent diffusion models, LDMs) [39]은 계산 효율성을 유지하면서 고품질 이미지 합성을 가능하게 하기 위해 잠재 공간에서 확산 과정을 수행한다. 구체적으로, OmniTokenizer-VAE로부터 얻은 2차원 잠재 표현을 사용하여, 확산 과정에서는 가우시안 노이즈를 점진적으로 잠재 코드에 추가하여 교란된 샘플을 생성하고, 디노이징 과정에서는 추가된 노이즈를 예측하도록 확산 모델을 학습한다. 추론 단계에서는, 잘 학습된 확산 모델이 노이즈로부터 시작하여 노이즈 제거 과정을 반복적으로 역전함으로써 일관된 시각 샘플을 생성할 수 있다.

이 논문은 이미지와 비디오를 하나의 통합된 시각 토크나이저로 처리하는 방법을 제안한다.

입력은 이미지 또는 비디오 중 하나이며, 두 경우 모두 동일한 토크나이저 아키텍처를 사용한다. 이미지는 단일 프레임( $T=0$ )으로 간주되고, 비디오는 여러 프레임( $T>0$ )으로 구성된 입력으로 처리된다. 비디오 입력의 경우, 첫 번째 프레임은 이미지와 동일한 방식으로 2차원 패치( $p \times p$ )로 분할되어 임베딩되고, 나머지 프레임들은 시간 축을 포함한 3차원 패치( $t \times p \times p$ )로 분할되어 임베딩된다.

각 패치는 선형 투영(linear projection)을 통해 동일한 차원의 토큰 임베딩으로 변환되며, 첫 프레임에서 생성된 이미지 패치 임베딩과 이후 프레임에서 생성된 비디오 패치 임베딩은 하나의 시퀀스로 연결되어(space–time token sequence) 공간–시간 Transformer 인코더의 입력으로 사용된다.

공간 차원에서는 윈도우 어텐션을, 시간 차원에서는 인과적 어텐션을 적용하여, 정적 공간 정보와 시간적 동역학을 분리하여 모델링한다.
즉 패치화해서 mlp태워서 임베딩만든다는것

이렇게 얻어진 인코더 출력은 바로 사용되지 않고, 원본 이미지 또는 비디오를 복원할 수 있는 의미 있는 잠재 표현이 되도록 토크나이저 자체를 학습하는 데 사용된다.

먼저, OmniTokenizer는 VQVAE 방식으로 사전학습되며, 인코더 출력은 코드북 상의 이산 벡터로 양자화되고, 디코더는 해당 이산 잠재 코드를 입력으로 받아 원본 시각 신호를 재구성하도록 학습된다.

이 단계에서 인코더, 코드북, 디코더가 모두 학습되며, 코드북의 인덱스는 곧 이미지·비디오를 표현하는 **이산 시각 토큰(discrete visual tokens)**이 된다.

이후, 동일한 인코더–디코더 구조를 유지한 채 양자화 과정을 제거하고, 인코더 출력으로부터 평균과 분산을 예측하여 가우시안 분포에서 잠재 변수를 샘플링하는 VAE 방식으로 전환한다.

이 단계에서는 Kullback–Leibler 손실을 통해 잠재 분포가 표준 정규 분포에 정렬되도록 유도하며, 인코더와 디코더 모두 VQVAE에서 학습된 파라미터를 초기값으로 사용하여 계속 파인튜닝된다.

그 결과, 동일한 토크나이저로부터 언어 모델 기반 생성에 적합한 이산 토큰과, 확산 모델 기반 생성에 적합한 연속 잠재 토큰을 모두 얻을 수 있게 된다.

근데 이러면, omnitokenizer-vqvae는 discrete token 생성에 사용되고, omnitokenizer-vae는 continuous token에 사용되는거인데, 각각 따른 체크포인트를 활용하게 되는 식임.

한 모델이 동시에 토큰화를 하는게 아닌 개념

4 Experiments

Datasets.
우리는 OmniTokenizer의 시각 토크나이제이션 성능을 이미지 및 비디오 데이터셋 모두에서 평가한다. 사용한 데이터셋은 ImageNet [9], CelebA-HQ [21], FFHQ [22], Kinetics [23, 6], UCF-101 [44], Moments-in-Time (MiT) [29], Something-Something v2 (SSV2) [15]를 포함한다. 이들 중 일부 데이터셋을 선택하여, 기존 연구들 [12, 62, 53, 13]과 비교하는 시각 생성 실험을 수행한다.

Implementation Details.
OmniTokenizer는 공간–시간 분리 구조를 채택하며, 공간 차원에는 윈도우 어텐션 기반 레이어 4개(윈도우 크기 8), 시간 차원에는 인과적 어텐션 기반 레이어 4개를 사용한다. 은닉 차원은 512, 잠재 차원은 8로 설정하였으며, 이는 ViT-VQGAN [62]의 설정을 따른 것이다. $\lambda_1, \lambda_2, \lambda_3$ 는 각각 1, 1, $1\times10^{-6}$ 으로 설정한다. 3.1.2절에서 언급했듯이, OmniTokenizer의 학습은 점진적 학습 전략을 따르며, 두 단계 모두 500K iteration 동안 학습된다. 학습률은 워밍업 이후 최대 $1\times10^{-3}$ 까지 증가한 뒤 코사인 스케줄러를 사용해 0까지 감소시킨다. 최적화에는 Adam [24]을 사용하며, $\beta_1=0.9$ , $\beta_2=0.99$ 로 설정한다. 이미지 학습 단계에서는 고정 해상도 $256\times256$ 이미지를 사용한다. 이미지–비디오 공동 학습 단계에서는 이미지와 비디오 데이터를 번갈아가며 입력하며, 비디오 시퀀스 길이는 17 프레임으로 설정한다. 공간 해상도는 128, 192, 256, 320, 384 중 하나를 무작위로 선택한다. 데이터 증강으로는 무작위 좌우 반전만을 사용한다. 모든 모델은 NVIDIA A100 GPU 8장을 사용하여 약 2주간 학습하였다. 별도의 언급이 없는 한, 본 논문의 결과는 ImageNet과 UCF-101을 공동 학습한 설정에서 보고한다.

우리는 OmniTokenizer를 토크나이저로 사용하여 언어 모델 기반 생성과 확산 모델 기반 생성을 모두 실험한다. 언어 모델 설정은 VQGAN [12]을 따르며, 공정한 비교를 위해 ViT-VQGAN [62]을 따라 은닉 차원을 1536으로 확장한 대규모 모델도 함께 실험한다. 이미지 및 비디오 확산 Transformer의 학습은 각각 DiT [32]와 Latte [28]의 설정을 따른다.

4.1 Visual Tokenization

먼저 OmniTokenizer의 시각 토크나이제이션 성능을 ImageNet과 두 개의 고해상도 얼굴 데이터셋인 CelebA-HQ 및 FFHQ에서 평가한다. 기존 연구들 [12, 62]을 따라 재구성 FID(reconstruction FID)를 사용한다.

Table 1에서 확인할 수 있듯이, 동일한 압축률과 코드북 크기를 사용하는 조건에서 OmniTokenizer는 모든 데이터셋에서 기존 방법들을 큰 폭으로 상회한다. 특히 OmniTokenizer-VQVAE는 ImageNet에서 1.11 FID를 달성하여, 기존 최고 성능 방법인 ViT-VQGAN 대비 13% 향상된 결과를 보인다. OmniTokenizer-VAE로 파인튜닝한 경우, FID는 추가로 0.69까지 감소한다. 이는 KL 학습이 VQ 학습보다 더 부드러운 그래디언트를 제공하고, 양자화 과정에서의 정보 손실을 완화하기 때문이라고 추측한다.

이미지복원에서 VAE가 VQVAE보다 좋더라

또한 비디오 재구성 실험을 수행하였으며, 그 결과를 Table 2에 보고한다.

UCF-101과 Moments-in-Time 데이터셋 모두에서 OmniTokenizer가 가장 우수한 성능을 보임을 확인할 수 있다. 추가적인 비디오 재구성 결과는 어블레이션 스터디에서 제시한다.

여기서도 VAE가 VQVAE보다 좋더라

4.2 Visual Generation with AutoRegressive Transformers

4.1은 단순히 복원을 본 것이고, 이거는 Llm 식으로 autoregressive하게 모델을 학습해보자. 따라서 discrete token인 VQVAE 토크나이저를 사용

OmniTokenizer-VQVAE를 토크나이저로 사용하여, 이미지 및 비디오 합성을 위한 자기회귀적(autoregressive) 방식의 언어 모델을 학습한다. 구체적으로, OmniTokenizer-VQVAE가 이미지 또는 비디오 입력을 코드북 상의 잠재 코드 인덱스 시퀀스로 변환한 뒤, 이를 자기회귀적으로 예측하도록 언어 모델을 학습한다.

ImageNet $256\times256$ 클래스 조건 생성 결과는 Table 3에 제시되어 있으며, 제안한 모델은 기존 자기회귀적 이미지 생성 방법들을 큰 폭으로 능가한다. 특히 227M 파라미터 규모의 모델만으로도 10.13 FID와 94.5 IS를 달성하여, VQGAN [12] 대비 각각 32%와 25% 향상된 성능을 보인다. 모델 크기를 650M 파라미터로 확장한 경우, FID는 추가로 7.45까지 감소한다.

비디오 생성 결과는 Table 4에 제시되어 있다. UCF-101 클래스 조건 비디오 생성에서, 제안한 모델은 기존 최고 성능의 자기회귀적 방법인 TATS [13]보다 훨씬 낮은 FVD(314 대비 283)를 기록한다. 또한 Kinetics-600 데이터셋에서의 프레임 예측(frame prediction) 실험에서도, 제안한 모델은 기존 자기회귀적 방법들뿐 아니라 비자기회귀적 방법인 Phenaki [53]까지도 능가하는 성능을 보인다.

4.3 Visual Generation with Diffusion Models

언어 모델 기반 방법과 더불어, 확산 모델(diffusion models) [17, 43, 10], 특히 잠재 확산 모델(latent diffusion models, LDMs) [39]은 시각 합성을 위한 또 다른 유망한 접근법이다. 따라서 우리는 OmniTokenizer-VAE를 토크나이저로 사용하여, 확산 모델 기반 이미지 및 비디오 생성에서 제안한 방법의 효과를 평가한다. 여기서는 DiT [32]와 Latte [28]의 동일한 아키텍처를 사용하되, 기존에 사용되던 VAE [1]를 OmniTokenizer-VAE로 대체한다. DiT [32]는 Transformer 아키텍처를 잠재 확산 모델에 최초로 적용한 방법으로, 뛰어난 확장성(scalability)을 보인다. Latte [28]는 이를 확장하여, 공간 어텐션과 시간 어텐션 블록을 번갈아 적용함으로써 잠재 비디오 확산 모델로 확장하였다.

Table 5에 제시된 실험 결과에서 확인할 수 있듯이, OmniTokenizer-VAE를 장착한 DiT-XL/2 모델은 classifier-free guidance(CFG)를 적용했을 때 더 높은 Inception Score 244.23을 달성하며, 이미지 합성에서 확산 모델 프레임워크 내에서도 제안한 토크나이저의 효율성을 입증한다. 또한 UCF-101 데이터셋에서의 무조건적(unconditional) 비디오 생성 실험에서는, 제안한 방법이 더 높은 압축률을 통해 학습 비용을 절감하는 동시에, 기존 방법들보다 훨씬 낮은 FVD를 기록함을 확인할 수 있다.

4.4 Ablation Study

Training Paradigms.

제안한 점진적 학습 전략의 효과를 검증하기 위해, 다양한 학습 패러다임을 비교하며 그 결과를 Table 7에 제시한다.

Table 7의 3–4행과 6행의 결과는, 이미지 사전학습을 포함한 공동 학습이 비디오 데이터셋 전반에서 비디오 단독 학습보다 현저히 우수함을 보여주며, 이는 비디오 학습에 앞서 이미지 학습이 수행되는 것이 중요함을 시사한다.
또한 고정 해상도에서의 공동 학습(5행)은 비디오 데이터셋에서 비디오 단독 학습보다 훨씬 나은 성능을 보이지만, ImageNet 재구성 FID는 1.28에서 1.35로 오히려 악화된다.
반면, 점진적 학습 전략은 비디오 데이터셋에서 가장 우수한 성능을 달성함과 동시에, 이미지 재구성 성능 또한 향상시키는 결과를 보인다.

Architecture and Efficiency Analysis.

Table 8에서는 ImageNet에서 다양한 아키텍처의 추론 비용(GFLOPs, 즉 하드웨어 독립적인 연산량 지표)과 재구성 FID를 비교한다. 공간–시간 결합 어텐션(JointAttn)과 분리된 일반 어텐션(DePlainAttn)과 비교했을 때, 제안한 윈도우 기반 공간 어텐션과 인과적 시간 어텐션을 사용하는 분리 구조는 가장 낮은 추론 비용과 가장 우수한 재구성 FID를 동시에 달성한다.

Latent Dimension and Compression Rate.

Figure 3은 서로 다른 압축률과 잠재 차원(latent dimension)에 따른 재구성 FID를 보여준다. 압축률이 증가할수록 인코딩 과정에서 더 많은 정보가 손실되기 때문에 재구성 성능이 항상 저하됨을 확인할 수 있다. 또한 잠재 차원을 8로 설정했을 때 재구성 FID와 코드북 활용도 간의 균형이 가장 우수함을 관찰할 수 있다.

4.5 Visualizations

Visual Reconstruction.
Figure 4에서는 OmniTokenizer, VQGAN [12], TATS [13]의 이미지 및 비디오 재구성 결과를 시각적으로 비교한다. 제안한 방법은 얼굴이나 텍스트와 같이 재구성이 특히 어려운 경우에서도 기존 방법들보다 훨씬 우수한 재구성 품질을 보여준다.

Class-conditional Image and Video Generation.
클래스 조건 이미지 및 비디오 생성 결과는 Figure 5–8에 제시되어 있다. OmniTokenizer를 사용한 모델은 시각적으로 일관되고 맥락적으로 정확한 이미지와 비디오를 생성할 수 있으며, 이는 생성 작업에서 OmniTokenizer의 강점을 잘 보여준다.

Frame Prediction and Arbitrary Long Video Generation.
프레임 예측 결과는 Figure 9에 제시되어 있으며, 모델이 이후 프레임을 높은 선명도와 시간적 일관성을 유지한 채 예측할 수 있음을 확인할 수 있다. 또한, 새로 생성된 프레임을 다음 프레임 생성의 조건으로 재귀적으로 사용하는 순환적(cyclical) 과정을 통해, 임의의 길이를 갖는 비디오 생성 가능성 또한 함께 제시한다.

5 Conclusion and Discussion of Broader Impact

본 논문에서는 이미지와 비디오를 공동으로 토크나이즈하기 위한 Transformer 기반 토크나이저인 OmniTokenizer를 제안하였다. OmniTokenizer는 공간–시간 분리(spatial-temporal decoupled) 아키텍처를 채택하여, 공간 차원에서는 윈도우 어텐션을, 시간 차원에서는 인과적 어텐션을 적용한다. 이미지와 비디오 데이터 간의 시너지를 실현하기 위해, 우리는 먼저 고정 해상도의 이미지 데이터로 학습하여 공간 인코딩 능력을 확보한 뒤, 비디오 데이터를 포함한 다중 해상도 공동 학습을 통해 시간적 모델링을 학습하는 점진적 학습 전략을 제안하였다. 광범위한 실험 결과는 OmniTokenizer가 시각적 재구성 과제에서 최첨단 성능을 달성함을 입증하며, 또한 OmniTokenizer를 장착한 언어 모델 기반 방법과 확산 모델 기반 방법 모두가 우수한 시각 생성 성능을 달성할 수 있음을 보여준다.

기존 연구들 [20, 16, 68, 46, 45]은 Transformer 모델의 성능이 모델 크기가 증가함에 따라 유의미하게 향상된다는 사실, 즉 스케일링 법칙(scaling law)을 보여주었다. 향후 연구에서는 OmniTokenizer의 모델 용량을 확장하여, 더욱 진보된 토크나이제이션 성능을 탐구할 계획이다.

Reference

https://arxiv.org/pdf/2406.09399

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-326, OmniTokenizer: A Joint Image-Video Tokenizer for Visual Generation, NeurIPS 2025