NL-326, OmniTokenizer: A Joint Image-Video Tokenizer for Visual Generation, NeurIPS 2025

이미지
Abstract 토크나이저는 복잡한 시각 데이터를 압축된 잠재 공간으로 매핑하는 번역기 역할을 하며, 시각 생성 모델의 핵심 구성 요소이다. 기존 토크나이저들이 이미지 또는 비디오 입력 중 하나에 특화되어 설계되었다는 한계를 바탕으로, 본 논문에서는 이미지와 비디오를 공동으로 토크나이즈할 수 있는 트랜스포머 기반 토크나이저인 OmniTokenizer 를 제안한다. OmniTokenizer는 공간–시간 분리(spatial-temporal decoupled) 아키텍처를 채택하여, 공간 모델링에는 윈도우 어텐션(window attention)을, 시간 모델링에는 인과적 어텐션(causal attention)을 통합한다. 이미지와 비디오 데이터의 상보적 특성을 효과적으로 활용하기 위해, 먼저 고정 해상도의 이미지 데이터로 학습하여 공간 인코딩 능력을 확보한 뒤, 다중 해상도의 이미지와 비디오 데이터를 함께 사용해 시간적 동역학을 학습하는 **점진적 학습 전략(progressive training strategy)**을 제안한다. OmniTokenizer는 최초로 이미지와 비디오 입력을 하나의 통합된 프레임워크 내에서 처리할 수 있음을 보이며, 두 모달리티 간 시너지의 가능성을 입증한다. 광범위한 실험을 통해 OmniTokenizer는 다양한 이미지 및 비디오 데이터셋에서 최첨단(SOTA) 재구성 성능을 달성함을 보였다. 예를 들어, ImageNet에서 재구성 FID 1.11, UCF-101에서 재구성 FVD 42를 기록하여 기존 SOTA 방법 대비 각각 13%, 26%의 성능 향상을 달성하였다. 또한 OmniTokenizer를 통합했을 때, 언어 모델 기반 접근법과 확산 모델(diffusion model) 모두에서 고급 시각 생성 성능을 달성할 수 있음을 보였으며, 이를 통해 제안 방법의 우수성과 범용성을 강조한다. 1. Introduction 생성 모델의 발전 [25, 52, 14, 17, 10, 39]은 인공지능 분야에서 가장 흥미로운 진전 중 하나로, 시...

NL-325, Emu3: Next-Token Prediction is All You Need, Preprint 2024

이미지
◼ Comment 내가 생각했던 가장 쉽게 시작할 수 있는 방법인 Next token prediction 만으로 멀티모달 만드는 것이다. 여기서는, 비전 이해, 비전 생성까지 커버 아키텍쳐 말 그대로 모든 입력을 토큰화해서 next token prediction만 한다 텍스트는 QwenTokenizer 쓰 비전 토크나이저는 SBERT-MoVQGAN을 가져와서 사용한다. 데이터 text 데이터는 Aquila를 사용 이미지 데이터는 오픈소스, AI 생성 데이터, 내부 데이터 등으로 구축 비디오 데이터는 시드가 공개 안된거 맞나? 어쨌든 다양하게 전처리하고 필터링하고 하는 내용이 있음 pretraining 비전 생성 [BOS] {caption text} [SOV] {meta text} [SOT] {vision tokens} [EOV] [EOS] 여기서 [BOS]와 [EOS]는 텍스트 토크나이저의 기본 특수 토큰이며, [SOV]는 비전 입력의 시작을, [SOT]는 비전 토큰의 시작을, [EOV]는 비전 입력의 종료를 나타낸다. 비전 이해 위에서 caption text을 [EOV] 토큰 뒤로 이동시켜서 데이터만 바꾸는 식 post-training 비전 생성 SFT을 하는데, 고품질 데이터를 잘 필터링해서 학습함 인스터럭션 데이터는 아니고, 텍스트에 맞는 이미지 생성 (“A cat sitting on a chair” <-> 이미지) 또한 SFT후 같은 프롬프트에 대해 여러 결과를 생성하여, 사람이 태깅하여 preference 데이터를 모아 DPO 학습까지 함 비전 이해 Image-to-Text 학습 [vision tokens] → [text tokens] 식으로 학습됨 (captioning, OCR, 설명 생성, free-form 묘사) Instruction Tuning [vision tokens + question/instruction text] → [answer text] 식으로 학습됨 (명시적 지시(prompt–response) 구조, QA 데이...

NL-324, Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation, CVPR 2024

이미지
◼ Comment 2024년 논문이라, 아마 이런 시도중 되게 초창기 논문이 아니었을까 싶다. 이 논문의 기여중 하나는 비전 인코더를 2개 썼다는 점이다. 비전 이해에는, siglip 인코더로 뽑은 high-dimensional semantic features을 사용 비전 생성에는 VQ 토크나이저로 뽑은 discrete token을 사용한다는 것 텍스트야 뭐, 원래쓰던 토크나이저를 쓴 것이고 이렇게 비전에서 사용될 테스크에 따라 다른것을 쓰는게 좋다라고 4.5 ablation에서 보여주긴 함 그리고 이전 모델에서 이를 분리안하면 이해vs생성간의 성능이 서로에게 trade-off인 결과를 보여줬었나 봄? 여기서는 이 두 개의 비전 인코더가 아예 초기상태가 관련이 없는데, manzano에서는 이를 같이 학습된 것을 사용하는 식으로 발전되긴 함 또 다른 기여중 하나로 보이는 것은 학습 절차이다 3.2 섹션에서 보면, 3개의 스테이지로 나눠서 학습되는데 1. encoder, adaptor, generation gead 학습 2. 멀티모달 pretraining으로 모든 파라미터 학습 3. 멀티모달 SFT로 generation encoder 뺀 파라미터 학습 여기서 왜 이렇게 했는지에 대한, 혹은 ablation은 설명이 안되서 아쉽 학습 objective는 next token prediction 느낌으로 학습 비전 생성에서, 생성된 비전 토큰에서 이미지로 변환하는 것은 사전에 학습되는 것으로 이미지 VQ 인코더(생성용) 학습할때 같이 되는 거를 사용한 듯 추론할때 3.4섹션에서 추론하는 classifier-free guidance 방법은 새롭게 안 지식으로 그럴싸한 듯 환각분야에서 context 주고 없애고 간의 logit 차이를 이용하는 것과 거의 똑같긴 함 Abstract 본 논문에서는 멀티모달 이해와 생성을 통합하는 자기회귀적 프레임워크인 Janus 를 제안한다. 기존 연구들은 Chameleon과 같이 두 과제를 모두 처리하기 위해 단일 시각 인코더에 의존하는 경...