NL-333, Emu3.5: Native Multimodal Models are World Learners, Preprint 2025
| 항목 | Emu (2023) | Emu2 (2024) | Emu3 (2024) | Emu3.5 (2025) |
|---|---|---|---|---|
| 학습 패러다임 | multimodal CPT | multimodal CPT | multimodal scratch | multimodal scratch + scaling |
| LLM backbone | LLaMA | LLaMA-33B | 없음 | Qwen3 초기화 |
| Vision encoder | EVA-CLIP | EVA-CLIP | 없음 | 없음 |
| 이미지 생성 | diffusion decoder | SDXL decoder | AR generation | AR + DiDA acceleration |
| 구조 | compositional | compositional | single transformer | single transformer world model |
| 학습 objective | text + visual regression | next-token + regression | next-token prediction only | next-token prediction |
| 학습 시작 | pretrained 모델 결합 | pretrained 모델 결합 | 완전 scratch | pretrained LM initialization |
| multimodal tokenization | visual embedding | visual embedding | discrete visual tokens | discrete visual tokens |
| 데이터 구조 | image-text | image/video-text | image + video + text | interleaved video-language |
| 데이터 규모 | ~150B tokens | 수백B tokens | 수백B tokens | 13T tokens |
| 주요 데이터 | LAION / MMC4 / WebVid | image + video pairs | multimodal mix | 63M video corpus |
| 학습 단계 | multimodal pretraining + instruction tuning | 2-stage pretraining | 2-stage pretraining | pretrain + SFT + RL + DiDA |
| 주요 capability | VLM + image generation | multimodal ICL | unified generation/understanding | world modeling |
| 모델 규모 | ~13B | ~33B | ~8B | 34B |
| 핵심 contribution | multimodal generative pretraining | multimodal ICL | token-unified multimodal GPT | long-horizon world model |
정리
이 논문은 Emu3.5라는 대규모 멀티모달 모델을 제안하며, 텍스트와 비전을 단순히 결합하는 수준을 넘어 “world model”로서 동작하는 네이티브 멀티모달 모델을 목표로 한다. 기존 언어 모델은 대규모 텍스트 데이터에서 뛰어난 추론 능력을 보였지만, 텍스트만으로는 실제 세계의 공간적·시간적 구조를 충분히 학습하기 어렵다는 한계가 있다. 인간은 언어뿐 아니라 비디오와 같은 장기적인 멀티모달 경험을 통해 세계를 이해하며, 이러한 특성을 반영한 모델이 필요하다. Emu3.5는 이러한 문제를 해결하기 위해 **비디오 기반의 장기적 멀티모달 시퀀스를 학습하여 시각과 언어를 동시에 예측하는 “next-state world model”**을 구축하는 것을 목표로 한다.
모델 구조는 decoder-only transformer 기반의 통합 멀티모달 아키텍처로 설계되어 있으며, 텍스트와 이미지 모두를 동일한 토큰 시퀀스로 처리한다. 모델은 64개의 transformer layer, hidden size 5120을 갖는 약 34B 파라미터 규모이며, 텍스트 토큰과 비전 토큰을 하나의 vocabulary로 통합하여 처리한다. 시각 정보는 discrete visual token으로 변환되며, 이를 통해 이미지와 텍스트를 동일한 next-token prediction 방식으로 학습한다. 이러한 구조 덕분에 모델은 텍스트 생성, 이미지 생성, 이미지 편집, 시각적 스토리 생성 등 다양한 멀티모달 작업을 하나의 생성 모델로 통합적으로 수행할 수 있다.
학습 데이터는 매우 대규모이며 총 약 13조(multimodal) 토큰 규모로 구성된다. 데이터는 네 가지 주요 구성요소로 이루어진다. 첫째, 핵심 데이터는 비디오 프레임과 ASR 텍스트를 시간적으로 정렬한 video-interleaved 데이터로, 약 6,300만 개의 인터넷 영상에서 추출되었으며 평균 길이는 6.5분 정도이다. 이 데이터는 장기적인 시각-언어 관계와 인과 구조를 학습하는 데 핵심 역할을 한다. 둘째, 약 5억 개의 이미지-텍스트 쌍과 3천만 개의 비디오-텍스트 쌍으로 구성된 vision-text paired 데이터가 포함된다. 셋째, 다양한 이미지 편집과 생성 능력을 학습하기 위한 **Any-to-Image 데이터(약 2,700만 샘플)**가 포함된다. 마지막으로 약 3조 토큰 규모의 텍스트 데이터가 추가되어 언어 능력을 유지하도록 한다. 이러한 구성은 멀티모달 이해와 생성 능력을 동시에 강화하기 위한 데이터 설계이다.
학습 방식은 크게 pre-training, supervised fine-tuning, reinforcement learning의 세 단계로 이루어진다. 먼저 pre-training 단계에서는 모든 데이터를 하나의 시퀀스로 구성하여 통합 next-token prediction objective로 학습한다. (qwen3 초기화) 학습은 두 단계로 진행되며 약 10조 토큰으로 기본 멀티모달 정렬을 학습하고 이후 추가 3조 토큰으로 해상도와 데이터 품질을 향상시킨다. 이후 SFT 단계에서는 약 150B 샘플 규모의 멀티모달 데이터로 다양한 작업(텍스트-이미지 생성, visual narrative, visual guidance, world exploration 등)을 학습한다. 마지막으로 멀티모달 보상 함수를 기반으로 한 reinforcement learning을 적용하여 생성 품질과 추론 능력을 향상시킨다.
추론 효율을 높이기 위해 논문은 **Discrete Diffusion Adaptation (DiDA)**라는 방법을 제안한다. 일반적인 autoregressive 이미지 생성은 토큰을 하나씩 생성하기 때문에 매우 느리지만, DiDA는 이미지 토큰을 discrete diffusion 방식으로 병렬적으로 복원하도록 변환한다. 이 방법은 기존 AR 모델을 유지하면서도 이미지 생성 시 약 20배 빠른 추론 속도를 달성하며 성능 손실이 거의 없다.
실험 결과에서 Emu3.5는 다양한 멀티모달 벤치마크에서 강력한 성능을 보인다. 텍스트-이미지 생성에서는 GenEval, OneIG-Bench, LeX-Bench 등 여러 벤치마크에서 기존 모델을 능가하거나 경쟁력 있는 성능을 보였으며 특히 이미지 내 텍스트 렌더링 능력에서 강력한 결과를 보였다. Any-to-Image 편집 벤치마크(ImgEdit, GEdit-Bench 등)에서도 Gemini 2.5 Flash Image 등 최신 모델과 경쟁하거나 더 높은 점수를 기록했다. 또한 visual narrative, visual guidance, world exploration, embodied manipulation과 같은 장기 멀티모달 생성 작업에서도 높은 자동 평가 승률을 보이며 세계 모델로서의 잠재력을 보여준다.
이 논문의 주요 기여는 다음과 같이 정리할 수 있다. 첫째, 대규모 video-interleaved 데이터 기반의 네이티브 멀티모달 world model을 제안하여 장기 시각-언어 시퀀스 학습을 가능하게 했다. 둘째, 텍스트와 이미지를 동일한 토큰 공간에서 처리하는 통합 autoregressive 멀티모달 아키텍처를 설계했다. 셋째, 멀티모달 RL을 포함한 unified post-training 전략을 통해 다양한 멀티모달 작업을 하나의 모델에서 학습하도록 했다. 넷째, Discrete Diffusion Adaptation을 통해 AR 이미지 생성의 추론 속도를 크게 개선하였다. 이러한 접근은 멀티모달 모델을 단순한 perception 모델이 아니라 세계의 동적 상태를 예측하는 generative world model로 확장하는 중요한 단계로 평가된다.
Abstract
본 논문에서는 시각과 언어 전반에 걸쳐 다음 상태를 자연스럽게 예측하는 대규모 멀티모달 월드 모델 Emu3.5를 소개한다. Emu3.5는 인터넷 동영상의 연속 프레임과 자막을 주된 원천으로 하는 10조 개 이상의 토큰을 포함한 시각-언어 인터리브 데이터 코퍼스에 대해, 통합된 next-token prediction 목표로 엔드투엔드 사전학습되었다. 이 모델은 시각과 언어가 섞인 입력을 자연스럽게 받아들이고, 시각-언어가 인터리브된 형태의 출력을 생성한다. 또한 대규모 강화학습 기반의 후속 학습(post-training)을 통해 멀티모달 추론 및 생성 능력을 향상시켰다.
추론 효율성을 개선하기 위해 우리는 Discrete Diffusion Adaptation (DiDA)를 제안한다. 이는 토큰 단위의 순차적 디코딩을 양방향 병렬 예측 방식으로 변환하여, 성능 저하 없이 이미지당 추론 속도를 약 20배 가속한다. Emu3.5는 장기적(롱-호라이즌) 시각-언어 생성, 임의 입력 기반 이미지 생성(X2I), 복잡한 텍스트가 포함된 이미지 생성 등 강력한 네이티브 멀티모달 능력을 보인다. 또한 다양한 시나리오와 과제에서 시공간적으로 일관된 월드 탐색과 오픈 월드 환경에서의 체화된 조작(embodied manipulation)을 가능하게 하는 일반화된 월드 모델링 능력을 갖추고 있다.
비교 실험에서 Emu3.5는 이미지 생성 및 편집 과제에서 Gemini 2.5 Flash Image(Nano Banana)와 동등한 수준의 성능을 달성했으며, 인터리브 생성 과제 전반에서는 더 우수한 결과를 보였다. 우리는 커뮤니티 연구를 지원하기 위해 Emu3.5를 오픈소스로 공개한다.
1 Introduction
대규모 텍스트 코퍼스로 학습된 언어 모델은 언어적 추론과 생성에서 괄목할 만한 성과를 이루어왔다 [1, 3, 92, 22]. 그러나 텍스트만으로는 세계에 대한 이해에 한계가 있다. 언어는 사람들 사이의 의사소통과 일반화를 가능하게 하지만, 인간이 환경을 인지하고 상호작용하며 학습하는 데 있어 핵심적인 감각은 시각이다. 인간은 언어뿐 아니라, 특히 장시간의 비디오와 그에 인터리브(interleaved)된 언어를 통해 공간적·시간적으로 확장된 멀티모달 경험으로부터 지식을 습득한다. 이러한 데이터는 풍부한 맥락, 인과관계, 시간적 일관성을 담고 있다. 최근 단편(short-clip) 비디오 생성의 발전은 단기 동적 변화를 포착하는 능력을 보여주었으나, 장기적(롱-호라이즌) 시각-언어 시퀀스를 학습하고 추론하는 문제는 여전히 핵심적인 미해결 과제로 남아 있다.
이전 Emu 시리즈 [88, 87, 102]는 next-token prediction과 같은 단순한 생성 목표를 통해 멀티모달 과제를 통합하고, 인터리브된 시각-언어 시퀀스를 모델링하는 것이 가능함을 보여주었다. 그러나 이러한 연구는 주로 짧은 형식 또는 소규모 데이터에 초점을 맞추었으며, 장기 멀티모달 데이터를 다루기 위해 사전학습, 후속학습, 추론을 어떻게 확장해야 하는지에 대한 근본적인 질문은 여전히 남아 있다. 특히, 장시간 비디오와 텍스트가 인터리브된 데이터를 효과적으로 학습하는 방법, 범용 멀티모달 상호작용을 가능하게 하는 방법, 수만 개에 달하는 시각 토큰을 효율적으로 예측하는 방법은 사전학습·후속학습·추론 측면에서 각각 중요한 도전 과제이다.
본 연구에서는 이러한 문제를 해결하고, 인터리브된 시각과 언어 전반에서 다음 상태를 자연스럽게 예측하는 월드 모델을 구축한다. 구체적으로, 우리는 장기 멀티모달 데이터로부터 학습하고 일반화할 수 있는 대규모 멀티모달 월드 모델 Emu3.5를 제안한다.
Emu3.5는 인터넷 동영상의 연속 프레임과 자막을 주요 데이터 원천으로 하여, 10조(10T)개 이상의 토큰을 포함하는 인터리브 시각-언어 코퍼스에 대해 통합된 next-token prediction 목표로 엔드투엔드 사전학습되었다.
- 모델은 비전-언어 모델임
- 근데 비전이 비디오를 의미하는 것이긴 함.
- 즉 오디오가 데이터로 있긴한데, 텍스트로 전사해서 활용햇다고 뒤에서 써있음
후속학습 단계에서는 장기 생성 능력을 향상시키기 위해 멀티모달 보상에 기반한 대규모 강화학습을 수행한다. 모델은 인터리브 입력을 자연스럽게 처리하고 인터리브 출력을 생성하여, 범용 멀티모달 추론을 가능하게 한다.
또한 추론 효율을 높이기 위해 Discrete Diffusion Adaptation(DiDA)을 제안한다. 이는 토큰 단위 순차 디코딩을 양방향 병렬 예측으로 전환하여, 성능 저하 없이 이미지당 추론 속도를 약 20배 가속한다.
- 이 부분이 새로 생긴 거인 듯
Emu3.5는 대규모 네이티브 시각-언어 생성으로 나아가는 첫 단계이다. 이 모델은 장기 멀티모달 생성 및 추론 능력을 보여주며, 시간적 일관성과 의미적 정합성을 동시에 유지하는 시각 프레임과 텍스트의 인터리브 시퀀스를 생성한다. 이러한 능력은 다양한 과제를 가능하게 한다. 예를 들어, Visual Narrative는 교육적·상상적 주제를 포함한 개방형 주제에 대해 일관된 시각적 스토리텔링을 지원하며, Visual Guidance는 복잡한 절차나 작업을 단계별로 설명하기 위한 시간적으로 일관된 추론을 가능하게 한다. 더 나아가 Emu3.5는 월드 탐색(World Exploration)과 체화된 조작(Embodied Manipulation)을 포함하는 일반화 가능한 월드 모델링 능력을 보여주며, 실제 및 가상 환경에서 제어 가능한 상호작용, 자유로운 내비게이션, 동적 장면 시뮬레이션을 지원한다. 우리는 이러한 새로운 능력을 체계적으로 평가하였으며, 단일 32B 통합 모델인 Emu3.5가 비공개 모델인 Gemini 2.5 Flash Image [91]보다 우수함을 입증한다.
또한 Emu3.5는 강력한 네이티브 멀티모달 능력을 바탕으로 최첨단 any-to-image(X2I) 및 text-to-image 생성 모델로서도 기능한다. X2I 과제에서는 정밀한 제어와 자유로운 시공간적 조작을 통해 오픈 월드 편집을 가능하게 한다. 이미지 생성 측면에서는 정확하고 제어 가능하며 자연스러운 텍스트 렌더링을 구현한다. 모델은 다중 이미지 입력을 지원하며, 최대 2K 해상도의 출력을 생성할 수 있다. 비교 결과, Emu3.5는 X2I 과제에서 Gemini 2.5 Flash Image와 동등한 성능을 보이고, 텍스트 렌더링에서는 이를 능가한다. 특히, 추론 속도와 생성 품질 모두에서 비공개 확산(diffusion) 모델에 필적하는 최초의 오토리그레시브 모델이라는 점에서 의의가 있다.
우리는 몇 가지 중요한 관찰도 제시한다. 첫째, 사전학습 연산량이 증가함에 따라 분포 외(out-of-distribution) 멀티모달 과제에 대한 검증 손실이 지속적으로 감소하며, 이는 학습 도메인을 넘어서는 일반화 능력이 점진적으로 강화됨을 시사한다. 둘째, 강화학습과 같은 통합적 후속학습은 다양한 과제가 상호 이득을 얻고 전이 학습을 할 수 있는 공유 멀티모달 인터페이스를 형성한다. 예를 들어, text-to-image의 높은 충실도와 X2I의 편집 능력은 자연스럽게 visual narrative 및 visual guidance 과제로 전이된다. 셋째, next-token prediction 모델이 성능 저하 없이 양방향 예측기로 효율적으로 변환될 수 있음을 보였으며, 이를 통해 상당한 추론 가속을 달성하였다. 이러한 관찰은 네이티브 멀티모달 패러다임의 확장성, 범용성, 유연성을 강조한다.
우리는 Emu3.5를 커뮤니티 연구와 개발을 지원하기 위해 오픈소스로 공개한다. 이 모델은 단계별 시각-언어 상호작용을 위한 인터랙티브 인터페이스를 자연스럽게 지원하며, 새로운 멀티모달 능력 개발을 위한 기반이 된다. Emu3.5가 월드 모델 연구를 진전시키고 멀티모달 지능 향상에 기여하기를 기대한다.
2.2 Unified Architecture
Emu3.5는 Qwen3 [97]와 같은 최신 대규모 언어 모델에서 널리 채택된 표준 트랜스포머 기반 아키텍처를 따르면서, 확장성과 멀티모달 적응성을 균형 있게 확보하기 위해 몇 가지 설계적 수정을 포함한다.
모델은 64개의 트랜스포머 레이어로 구성되며,
히든 차원(hidden size)은 5,120,
중간 차원(intermediate size)은 25,600이다.
어텐션 메커니즘은 64개의 헤드와 그 중 8개의 전용 key-value 헤드를 사용하며, 계산 효율을 높이기 위해 Grouped Query Attention (GQA) [2]를 채택한다. 학습 안정화를 위해 RMSNorm [123]을 pre-normalization 방식으로 적용한다. 또한 어텐션 안정성을 강화하기 위해 query 및 key projection에 QK-Norm [23]을 도입하였다. 활성화 함수로는 SwiGLU [78]를 사용하며, 위치 인코딩에는 Rotary Positional Embeddings (RoPE) [85]를 적용한다.
전체 모델 파라미터 수는 34.1B(341억) 개이며,
이 중 31.2B는 트랜스포머 레이어에,
2.9B는 임베딩 레이어에 해당한다.
총 어휘(vocabulary) 크기는 282,926개 토큰으로 구성되며,
151,854개는 텍스트 토큰,
131,072개는 시각 토큰이다.
텍스트 어휘는 QwenTokenizer를 그대로 재사용하여 강력한 다국어 텍스트 처리를 보장한다. 시각 어휘는 다양한 이미지로부터 학습되었으며, 이에 대한 세부 내용은 2.3절에서 다룬다.
모델은 최대 32,768 토큰의 컨텍스트 길이를 지원하며, 학습 안정화를 위해 dropout 비율 0.1을 적용한다. 보다 상세한 모델 설정은 표 1에 요약되어 있다.
2.3 Tokenizer
우리는 시각 토크나이징을 위해 기본적으로 IBQ [81] 프레임워크를 채택하며, 다운샘플링 비율은 ( f = 16 )이다. 코드북의 각 이산 토큰은 차원 ( D = 256 )을 갖는다. 토크나이저의 표현 용량을 더욱 확장하기 위해 코드북 크기를 131,072개로 늘렸으며, 모델 규모 또한 폭(width) 확장을 통해 4.55억(455M) 파라미터로 증가시켜 복잡한 이미지 구조를 보다 효과적으로 표현할 수 있도록 했다.
또한 REPA [120]의 아이디어를 참고하여, 토크나이저 디코더의 중간 출력에 SigLIP [122] 기반 특징 증류(feature distillation)를 통합하였다. 이를 통해 표현 학습을 개선하고, 이산 이미지 토큰에 보다 풍부한 의미 정보를 부여한다.
- 이건 무슨 의미일까?
Image Decoder
기본(바닐라) 토크나이저는 동일한 이미지를 표현하는 데 있어 Emu3 대비 4분의 1 수준의 토큰 수만 사용하면서도 더 우수한 재구성 품질을 달성한다.
- Emu3과 다른 토크나이저를 썼군. Hz 토큰수가 더 적은걸로
- 그리고 이미지/비디오 모두 디퓨젼 기반 디코더 사용
시각 디코딩 성능을 추가로 향상시키기 위해, 우리는 선택적으로 확산(diffusion) 기반 이미지 디코더를 도입한다. 이 디코더는 동일한 양자화 토큰을 입력으로 사용하지만, 바닐라 디코더 대비 2배 해상도로 이미지를 생성한다. 특히 텍스트 영역과 얼굴 복원과 같은 세부 디테일에서 국소적·미세 표현이 크게 향상된다.
또한 [11]을 따라 LoRA 기반 증류(distillation) 기법을 적용하여, 디노이징 단계를 50단계에서 4단계로 줄이면서도 성능 저하 없이 약 10배 가속을 달성한다.
Video Decoder
우리는 생성된 키프레임 토큰을 조건으로 하는 확산 기반 비디오 디코더를 통해 Emu3.5를 연속 비디오 생성으로 확장한다. 비디오 디코더는 주류 DiT [69] 아키텍처를 기반으로 구축되었다.
VQ 양자화기에서 추출된 임베딩을 사용하여 세밀한 시각적 디테일을 제공하며, 선택적으로 프레임 간 텍스트 정보를 활용해 고수준 의미적 가이드를 제공한다.
또한 어떤 프레임의 토큰이 주어졌는지를 표시하기 위해 추가적인 4채널 마스크를 도입하여, 임의 개수의 중간 프레임을 지원할 수 있도록 설계하였다. 학습 과정에서는 장기 시간 의존성을 강화하고 다양한 키프레임 조건에 대한 일반화를 높이기 위해, 첫 번째 키프레임 잠재 표현(latent)을 깨끗한 이미지 토큰으로 무작위 대체한다.
3 Pre-training
3.1 Training Data
Emu3.5의 사전학습 데이터는 13조 개 이상의 멀티모달 토큰으로 구성되며, 이는 Emu3 [102] 대비 규모, 다양성, 품질 측면에서 한 단계 발전한 것이다. 우리의 사전학습 데이터셋은 네 가지 주요 구성 요소로 이루어진다:
-
인터리브된 시각-언어 데이터 (Interleaved vision-language data)
-
시각-텍스트 쌍 데이터 (Vision-text pairs)
-
Any-to-Image 데이터
-
텍스트 전용 데이터 (Text-only data)
3.1.1 비디오 인터리브 데이터 (Video Interleaved Data)
기존의 접근 방식들 [5, 51, 57, 100, 106]이 주로 짧고 독립적인 샘플로 구성된 쌍(pair) 데이터에 의존하는 것과 달리, 우리의 코퍼스는 장기적(long-horizon)이며 인터리브된(interleaved) 멀티모달 맥락을 포착하도록 구성되었다. 구체적으로, 이 데이터셋은 대규모 인터넷 비디오로부터 추출한 연속적인 비디오 프레임과 시간적으로 정렬된 오디오 전사(transcript)로부터 구축되었다. 이러한 데이터는 본질적으로 시공간적 연속성, 모달 간 정렬(cross-modal alignment), 그리고 맥락적 일관성을 보존한다.
이와 같은 장기 멀티모달 시퀀스는 고립된 이미지-텍스트 쌍보다 훨씬 풍부한 맥락을 제공하며, 모델이 확장된 시간 범위에 걸친 생성, 추론, 그리고 월드 모델링 능력을 학습하도록 돕는다.
데이터 수집 (Data Collection)
우리의 인터리브 비전-언어 데이터는 오픈소스 데이터셋, 공개 온라인 비디오, 그리고 제3자와의 협업을 통해 확보한 비디오 등 다양한 출처로부터 수집되었다.
전체 코퍼스는 약 6,300만 개의 비디오로 구성되며, 평균 길이는 6.5분, 총합으로 약 790년 분량의 연속 영상에 해당한다.
수집된 데이터는 교육, 과학기술, How-to, 엔터테인먼트, 스포츠, 게임, 여행, 애니메이션 등 다양한 도메인을 포괄하며, 현실 세계와 상상 세계 시나리오를 모두 포함한다.
이러한 설계는 웹 규모 텍스트 코퍼스와 유사하게 인터넷 비디오 콘텐츠의 확장 가능성을 활용하며, 도메인·과제·시나리오 전반에 걸쳐 지속적으로 데이터셋을 확장할 수 있도록 한다.
데이터 전처리 (Data Preprocessing)
원시 비디오 데이터는 시각 프레임과 오디오 트랙을 모두 포함하므로, 별도의 그러나 정합된 전처리 과정이 필요하다.
1. 비디오 프레임 처리
먼저 PySceneDetect를 사용하여 각 비디오를 의미적으로 일관된 장면(scene) 단위로 분할한다.
각 장면의 길이가 t초 이하이면 가운데 프레임 하나를 선택한다.
t초를 초과하는 경우에는 t초 간격으로 프레임을 샘플링하고 타임스탬프를 기록한다.
실험 분석 결과, 이 방식은 균일 샘플링(uniform sampling)보다 핵심 시각 정보를 더 잘 보존하면서 중복 프레임을 효과적으로 제거하는 것으로 나타났다.
전체적으로 초당 평균 0.27개의 키프레임이 추출된다.
2. 오디오 처리
Whisper-large-v2 모델을 사용하여 자동 음성 인식(ASR)을 수행하며,
Faster-Whisper 구현을 통해 가속화한다.
생성된 전사문과 단어 단위 타임스탬프는 spaCy를 활용하여 후처리되며,
시간적 정지 구간
문법적 규칙
등을 기반으로 문장을 분할하여 문법적으로 자연스럽고 시간적으로 정렬된 텍스트를 생성한다.
각 비디오에 대해 키프레임당 평균 ASR 토큰 수를 계산한 결과, 분포는 비교적 균형적이었다. 다만 일부 무음 비디오가 존재하여 텍스트 토큰이 없는 경우도 있으며, 이는 후속 데이터 처리 단계에서 균형을 맞춘다.
오디오는 직접적인 입력으로 들어가는게 아니군. 텍스트로 전사해서 활용함
3. 최종 통합
추출된 키프레임과 처리된 ASR 전사를 타임스탬프 기준으로 정렬하여 자연스럽게 인터리브된 비디오-텍스트 시퀀스를 구성한다.
이 과정은 멀티모달 사전학습을 위한 풍부하고 구조화된 문맥 정보를 제공한다.
데이터 필터링 (Data Filtering)
인터리브 코퍼스의 전반적 품질과 일관성을 보장하기 위해 2단계 필터링 파이프라인을 설계하였다.
1단계: 기본 필터링 (Basic Filtering)
길이 및 해상도 필터링: 지나치게 짧거나 해상도가 낮은 비디오 제거
토킹헤드 제거: 얼굴 검출 모델 + Qwen-VL 분류기를 활용하여 토킹헤드 영상 제거
언어 및 무음 균형 조정: 다국어 및 무음 비디오 비율을 조정하여 균형 유지
2단계: 고급 필터링 (Advanced Filtering)
프레임 품질 평가: DeQA 모델로 시각적 선명도 평가
중복 제거: DINO 및 FG-CLIP 특징 기반 프레임 유사도 계산
텍스트 품질 평가: LLM을 활용하여 ASR 텍스트 품질 점수화
1차 사전학습 단계에서는 기본 필터링만 사용하고, 2차 단계에서는 기본+고급 필터링을 모두 적용한다.
데이터 주석 (Data Annotation)
주석은 사전학습의 두 단계에 맞추어 구성된다.
1단계
자동 추출된 키프레임과 ASR 전사 외에 추가 주석 없음
2단계
수렴 속도와 다운스트림 적응력을 높이기 위해 다음 주석을 추가한다:
의미 단위 분할 및 요약
LLM을 활용하여 ASR 전사를 의미적으로 분할하고 요약
이렇게 스크립트를 요약하는군?
시각 캡셔닝
Qwen2.5-VL-7B를 사용하여 장면별 상세 캡션 생성
이러한 방법 많이 쓰는듯
멀티모달 요약
LLM이 텍스트 분할 결과 + 시각 캡션 + ASR 전사를 통합하여
각 학습 샘플에 대한 통합 요약 생성
이로써 각 비디오 샘플은 압축적이면서도 의미적으로 풍부한 감독 신호(supervision signal)를 갖게 된다.
- 1. 여러 장면으로 쪼개기
- 2. 비디오의 음성을 텍스트 스크립트화하기
- 3. 이를 키프렘이 기준으로 얼라인 시키기
- 4. 기본 필터링 => 1차 학습 데이터
- 5. 고급 필터링 => 2차 학습 데이터 (1차 학습데이터의 subset 개념?)
- 5-1. ASR한 스크립트를 LLM으로 요약함 (고수준 narrative 요약 생성)
- 5-2. 시각 캡셔닝으로 장면별 캡션 생성 (Qwen2.5-VL로 상세 캡션 생성)
- 6. 장면 <-> 기존 스크립트 + 요약본 + 시각 캡셔닝 함께 활용하여 학습
- Frame → ASR → Caption → Summary → Frame → ... 이런 느낌인 듯
3.1.2 Vision-Text Paired Data
비전-텍스트 서브셋은 약 5억 개의 이미지-텍스트 쌍과 3천만 개의 비디오-텍스트 쌍으로 구성된다. 시각 데이터는 주로 Emu3 [102]의 학습 코퍼스로부터 파생되었으며, 이에 대응하는 텍스트 주석은 Qwen2.5-VL-7B [5]를 사용하여 재라벨링 및 보강되었다. 이를 통해 주석 품질, 서술적 풍부함, 그리고 정렬 정확도를 향상시켰다.
또한 이미지 생성 품질을 향상시키기 위해, 최신 오픈소스 텍스트-투-이미지(T2I) 모델 [49]로 생성된 합성 이미지-텍스트 쌍을 추가로 활용하였다. 동시에 InfinityMM [38]과 LLaVA-OV [51]를 포함한 최근 공개된 오픈소스 비전-언어 데이터셋을 통합하여 멀티모달 이해 능력을 강화하였다. 이러한 데이터셋은 정교한 시각적 근거(grounded visual references)와 다양한 질문-답변 형식을 갖춘 고품질 멀티모달 주석을 제공하며, 이를 통해 모델이 구조적 추론, 근거 기반 이해, 그리고 맥락적으로 풍부한 응답을 수행하는 능력을 강화한다.
비디오-텍스트 쌍의 경우, Emu3 [102] 데이터셋을 보강하기 위해 모션 점수 기반의 추가 필터링을 적용하여 동적인 시각 다양성을 확보하였고, 시간적 범위와 계산 효율성 간 균형을 맞추기 위해 프레임 샘플링 간격을 1 FPS로 증가시켰다. 동일한 비디오에서 여러 개의 클립-텍스트 쌍이 생성된 경우, 학습 과정에서 이들을 시간 순서대로 순차적으로 패킹하여 자연스럽게 인터리브된 비디오-텍스트 시퀀스를 형성한다. 이러한 설계는 학습 효율성을 향상시킬 뿐만 아니라, 연속적인 멀티모달 데이터 내에서 장기적 시간 의존성과 맥락적 일관성을 더 잘 포착하도록 한다.
3.1.3 Any-to-Image Data
Any-to-Image (X2I) 데이터셋은 약 2,735만 개의 샘플로 구성되며, 광범위한 오픈소스 데이터셋과 자체 구축한 내부 데이터를 결합하여 구성되었다. 오픈소스 데이터에는 SEED-Data-Edit [32], WeatherStream [124], PromptFix [121], OmniGen-X2I [111], ShareGPT-4o-Image [16], ImgEdit [117], OmniGen2-X2I2 [107], MultiRef [17], GPT-IMAGE-EDIT-1.5M [103] 등이 포함된다. 그러나 오픈소스 데이터는 종종 다양성 부족, 품질 저하, 데이터 규모의 한계와 같은 본질적인 제약을 갖는다. 이러한 한계를 해결하기 위해, 우리는 다양한 비디오와 이미지로부터 대규모 X2I 학습 데이터를 추가로 구축하여 데이터의 다양성, 품질, 규모를 크게 향상시켰다.
3.1.4 Text-only Data
우리는 약 3조 개의 토큰을 포함하는 대규모 텍스트 전용 코퍼스를 통합하였다. Emu3 [102]에서 사용된 텍스트 데이터를 기반으로, 영어와 중국어 모두에서 신중하게 필터링된 고품질 오픈소스 코퍼스 [52, 84]를 추가로 포함시켜 데이터셋을 확장하였다. 이를 통해 언어와 도메인 전반에 걸쳐 균형 잡힌 범위를 보장하였다.
이 텍스트 코퍼스는 언어 모델링을 위한 견고한 기반을 제공하며, 멀티모달 학습의 효율성과 일반화를 향상시키면서 강력한 언어 능력을 유지한다. 풍부하고 다양한 텍스트 지식에 멀티모달 학습을 기반으로 함으로써, Emu3.5는 인터리브된 비전-언어 맥락에서 의미적으로 일관되고 논리적으로 정합한 출력을 생성할 수 있다.
3.2 Training Details
Training Objective
우리는 Emu3 [102]와 동일한 특수 토큰 집합과 멀티모달 데이터 포맷 전략을 채택하여, 시각 토큰과 텍스트 토큰을 통합된 문서 형태의 시퀀스로 결합하여 사전학습을 수행한다. Emu3.5에서는 모든 시각 신호가 완전히 이산(discrete) 토큰으로 토크나이즈되기 때문에, 모델은 교차 엔트로피 손실에 기반한 표준 next-token prediction 목적함수로 학습된다. 모달 간 최적화의 균형을 유지하고 시각 토큰이 학습을 지배하지 않도록 하기 위해, 시각 토큰에 해당하는 손실 항에는 0.5의 가중치를 적용한다.
시각토큰이 너무 많아서 그런가? 손실 weight을 0.5로 조절했다는데, 이건 이유도 없고 걍 휴리트식 때려버린건가
Training Stage
표 2는 단계 구성, 병렬화 전략, 최적화 설정 및 학습 절차를 포함한 전체 학습 파이프라인을 제시한다.
Emu3.5 모델은 두 단계의 사전학습 과정을 통해 학습된다.
-
Stage 1 (S1): 모델은 최대 시퀀스 길이 32,768 토큰으로 10조 개의 토큰에 대해 사전학습된다. 이 단계는 대규모 일반 학습에 초점을 맞추며, 시각 및 텍스트 모달리티 전반에 걸쳐 기본적인 멀티모달 정렬과 next-token prediction 능력을 학습하는 것을 목표로 한다.
-
Stage 2 (S2): 모델은 약 3조 개의 토큰에 대해 추가 사전학습을 수행한다. 이 단계는 이미지 해상도의 다양성을 증가시키고, 데이터 품질을 향상시키며, 데이터 분포를 균형화하고, 더 많은 인터리브 멀티모달 주석을 도입함으로써 멀티모달 생성 능력을 더욱 강화한다.
학습 및 추론 인프라는 FlagScale [90] 프레임워크를 기반으로 구축되었으며, 이는 다양한 병렬화 전략, 효율적인 설정 관리, 이기종 하드웨어 아키텍처 전반에 걸친 분산 배포를 포괄적으로 지원한다. 두 학습 단계 모두 Tensor Parallelism (TP) = 8, Context Parallelism (CP) = 2를 사용한다. 모델은 Qwen3 [114]에서 초기화된다.
첫 번째 단계(S1)에서는 모든 데이터를 최대 컨텍스트 길이에 맞추어 온라인으로 패킹하여 계산 자원을 효율적으로 활용한다. 모든 이미지는 최대 1,024개의 시각 토큰으로 제한되며, 이는 원본 종횡비를 유지하면서 최대 512×512 픽셀 영역에 해당한다.
두 번째 단계(S2)에서는 추가 주석이 포함된 인터리브 데이터를 오프라인으로 미리 패킹하고 최대 컨텍스트 길이에 맞추어 패딩하여 학습 효율성과 주석 일관성을 보장한다. 이 단계에서는 동적 토큰 전략을 채택하여 시각 토큰 수를 1,024에서 4,096 사이로 설정한다. 구체적으로, 이미지는 원본 종횡비를 유지하도록 리사이즈되며, 최소 해상도는 512×512, 최대 해상도는 1024×1024까지 허용된다. 모든 단계에서 AdamW 옵티마이저를 사용하며, β1 = 0.9, β2 = 0.95, ϵ = 1.0 × 10⁻⁸로 설정한다.
그림 7은 사전학습 1단계 동안 Emu3.5의 전체 최적화 동역학을 보여준다. 학습 손실은 매끄럽고 일관되게 감소하며, 이는 대규모 멀티모달 최적화 하에서 안정적인 수렴을 나타낸다. 마찬가지로, 9개의 홀드아웃 검증 세트 전반에서 검증 손실 또한 지속적으로 감소하는 추세를 보이며, 이는 인도메인 및 아웃오브디스트리뷰션(OOD) 시나리오 모두에서 강력한 일반화 능력을 반영한다.
9개의 검증 세트는 포괄적인 평가 관점을 포함한다. ISG-Bench [14], OpenING [130], MMIE [110]의 경우, 각 벤치마크의 질문과 정답을 연결하여 일관된 입력-출력 쌍을 구성한 후 검증 손실을 계산한다. 세 개의 인도메인 검증 세트는 사전학습에 포함된 주요 데이터 유형을 각각 포괄하며, 여기에는 텍스트-투-이미지(T2I), 이미지-투-텍스트(I2T), 비디오 인터리브 데이터가 포함된다. T2I의 경우에는 시각 토큰 손실만 계산하고, I2T의 경우에는 텍스트 토큰 손실만 계산하여 모달리티별 타깃 평가를 수행한다.
나머지 세 개의 검증 세트는 초기 단계의 supervised fine-tuning(SFT) 데이터에서 파생되었으며, visual narrative, visual guidance, world exploration과 같은 다운스트림 작업을 포함하고 사전학습 데이터와는 중복이 없다.
9개 모든 검증 세트에서 일관된 성능 향상이 관찰되며, 이는 대규모 인터리브 학습 패러다임이 안정적인 최적화 동역학과 모달 및 도메인 전반에 걸친 강건한 일반화를 제공함을 보여준다.
이 첫 번째 사전학습 단계는 추가 주석을 도입하지 않고 대규모 비디오 인터리브 데이터에 주로 의존하며, 이미지-텍스트 쌍과 텍스트 전용 데이터는 보조적 역할을 수행한다. 이러한 비디오 인터리브 중심의 확장 패러다임은 이질적인 모달리티를 포함하면서도 안정적인 수렴을 가능하게 하며, 더 나아가 다양한 데이터 분포에 대한 효과적인 일반화를 입증한다. 비디오와 오디오-ASR-텍스트 쌍의 자연스러운 인터리브 구조를 활용함으로써, Emu3.5는 대규모 비디오 데이터로부터 직접 시간적 연속성과 모달 간 일관성을 학습하며, 확장성과 표현 강건성을 동시에 달성한다.
4 Post-training
4.1 Supervised Fine-tuning
4.1.1 Task Formulation
General Tasks
Emu3.5는 텍스트-투-이미지 생성(T2I), 언어 이해 및 생성(Language), 비전-언어 질의응답(VL)을 포함한 광범위한 일반 멀티모달 작업을 자연스럽게 지원한다.
Any-to-Image
멀티모달 단일 단계 생성과 월드 편집을 위한 핵심 능력으로서, Any-to-Image(X2I) 생성, 즉 범용 이미지 편집은 매우 중요한 역할을 한다. 여기서 “X”는 임의의 인터리브된 이미지-텍스트 입력 시퀀스를 의미한다. 텍스트 기반 이미지 생성, 로컬 이미지 편집, 주제 기반 이미지 생성, 인컨텍스트 이미지 편집, 인컨텍스트 이미지 생성과 같은 다양한 조건 기반 이미지 생성 작업은 모두 보다 일반적인 X2I 패러다임의 특수한 인스턴스 또는 하위 과제로 볼 수 있다.
X2I는 기존의 이미지 편집 및 생성 작업보다 더 광범위한 요구 사항과 더 복잡한 도전을 제시한다. 특히 멀티모달 지시 따르기(multimodal instruction following), 주체/배경 일관성, 생성 결과의 스타일 및 품질 측면, 세계 지식 및 물리 법칙 이해 등 다양한 능력을 요구한다. X2I에 필요한 이러한 도전적 능력을 충분히 학습하면, 모델은 보다 보편적인 Any-to-Any(X2X) 생성 패러다임으로 발전할 수 있으며, 더 복잡한 월드 모델 과제를 수행할 수 있게 된다.
Visual Narrative
Visual Narrative는 서사 텍스트와 생생한 이미지를 인터리브된 방식으로 연속 생성하는 멀티모달 작업으로, 폭넓은 실용적 응용 가능성을 지닌 중요한 과제로 부상하고 있다. 이 작업은 구조적으로 완성된 스토리 스크립트를 생성할 뿐만 아니라, 인물과 스타일 측면에서 시간적으로 일관된 시각적으로 매력적인 이미지를 생성해야 한다. 따라서 시각 단서와 텍스트 표현 간의 복잡한 관계를 이해하여 일관된 서사 흐름을 유지하는 고차원적 능력이 요구된다.
이전 방법들 [73, 95, 4, 131]은 주어진 캡션에 기반하여 일련의 이미지를 생성하거나, [32, 79]와 같이 특정 도메인(예: 순수 카툰 스타일 스토리)에 제한된 스토리 생성에 초점을 맞추었다. 반면, 우리의 Visual Narrative는 두 가지 핵심 능력을 통해 실제 세계 모델링의 경계를 크게 확장한다.
첫째, 비전-텍스트 인터리브 스토리 생성은 가상에서 현실까지(예: 애니메이션, 카툰, 일상 사건), 고대에서 현대까지(예: 역사적 사건, 영화, 브이로그), 서사적 표현에서 상상적 창작까지(예: 과학 개념, 동화)에 이르는 폭넓은 범위를 포괄한다.
둘째, 생성된 콘텐츠는 풍부한 일반 지식과 교육적 의도를 포함하며, 세밀한 묘사와 정밀하고 매력적인 시각적 표현이 결합된 이미지-텍스트 일관 서사 형태로 제시된다. 따라서 이러한 능력은 Visual Narrative를 멀티모달 학습이 전체적 세계 수준 이해로 나아가는 교두보 역할로 만든다.
Visual Guidance
Visual Guidance는 이미지나 비디오 프레임과 같은 시각 정보를 통해 모델이 절차적 행동을 이해하고 생성하도록 설계된 멀티모달 학습 과제이다. 이 과제는 다단계 지시나 작업 시나리오 전반에 걸쳐 시각 단서와 언어 표현을 정렬하도록 요구하며, 텍스트 명령과 구체적 시각 맥락을 통합함으로써 모델이 무엇을 해야 하는지뿐만 아니라 어떻게 수행해야 하는지도 이해하도록 한다.
Visual Guidance는 비전-언어 인터리브 생성을 중심으로 하며, 시각적 요소와 텍스트 요소가 함께 구성되어 하나의 과정에 대한 단계별 표현을 형성한다. 이 설정에서 시각 신호는 단순한 보조 입력이 아니라, 언어적 추론을 제약하고 텍스트 지시를 실제 시각 맥락에 근거하도록 만드는 동적 가이드 역할을 한다.
요리, 수공예, 기계 조립과 같은 작업에서 텍스트와 시각 조건 하에 다단계 지시를 공동으로 해석하고 수행하도록 요구함으로써, Visual Guidance는 멀티모달 학습을 단순한 동시 출현 수준 이해에서 행동 수준의 이해 및 인과적·과정 중심 추론으로 확장한다. 이러한 능력은 멀티모달 모델을 인간과 유사한 학습 및 작업 수행에 더욱 가깝게 만들 뿐만 아니라, 물리적 세계에서 인지하고 추론하며 행동할 수 있는 상호작용적·체화형 AI 시스템 개발의 기반을 마련한다.
World Exploration
World Exploration은 모델이 사용자 정의 가상 세계에 몰입하고, 텍스트 또는 멀티모달 프롬프트에 기반하여 상호작용적 탐색을 수행하도록 설계된 과제이다. 세계의 의미적, 공간적, 또는 스타일적 맥락을 명시하는 순수 텍스트 또는 이미지-텍스트 프롬프트가 주어지면, 모델은 시각적 관찰과 해당 텍스트 서술을 포함하는 인터리브된 비전-언어 출력을 생성하여 일관된 환경을 구성하고, 사용자가 자연어 지시나 암묵적 경로 진화를 통해 단계적으로 탐색할 수 있도록 한다.
탐색 과정에서 모델은 공간적 일관성, 시각적 현실성, 인과적 연속성을 유지해야 하며, 각 생성된 관찰이 사용자 의도와 진화하는 세계 동역학을 정확히 반영해야 한다.
이를 위해 우리는 World Exploration을 상호작용적 장면 이해와 장기 시각 합성을 위한 통합 프레임워크로 정식화하며, 두 가지 상보적 패러다임으로 구성한다: User-Interactive Mode와 Free-Exploration Mode.
User-Interactive Mode는 명시적 제어 가능성에 초점을 맞추며, 각 사용자 지시가 의도적인 탐색 행동에 대응하는 단일 단계 시각 업데이트를 유발한다. 반면 Free-Exploration Mode는 자율적 연속성에 초점을 맞추어, 모델이 초기화된 환경 내에서 스스로 탐색을 수행하며 시간적으로 일관된 시각 시퀀스와 동기화된 텍스트 서술을 생성하도록 한다.
이 두 패러다임의 시너지는 인간 주도 탐색과 모델 주도 탐색 간의 부드러운 전환을 가능하게 하며, 제어 가능한 상호작용과 개방적 상상력을 균형 있게 결합한다. 이러한 통합 설계는 하이브리드 현실-합성 환경과 동적 장면 진화를 자연스럽게 수용하며, 체화 추론과 생성적 월드 모델링을 위한 기반을 마련한다.
다음은 논문 4.1.2 Training Data 섹션의 문단을 원문 구조 그대로 번역한 것입니다 (pp. 12–14 기준, ).
4.1.2 Training Data
표 3은 Emu3.5의 SFT에 사용된 작업과 데이터 통계를 요약한다.
General Tasks
일반 멀티모달 작업을 위해, 우리는 작업 범위와 생성 품질을 모두 향상시키기 위해 여러 도메인 특화 데이터셋을 수집하였다.
텍스트-투-이미지 생성 작업을 위해 약 500만 개의 균형 잡힌 고품질 샘플 데이터셋을 구축했으며, 시각-텍스트 일관성과 미적 품질을 보장하기 위해 엄격한 필터링 기준을 적용하였다. 또한 이 데이터셋은 카툰, 예술 스타일, 인물 이미지, 텍스트 렌더링과 같은 특수 도메인의 샘플을 의도적으로 포함하도록 확장되었다.
언어 작업을 위해서는 약 890만 개의 고품질 지시-응답 쌍을 포함한 공개 데이터셋 **Infinity-Instruct [52]**를 사용하여 언어 이해와 생성에 대한 포괄적 감독 신호를 제공하였다.
비전-언어 질의응답 작업을 위해서는 약 370만 개의 샘플을 포함한 LLaVA-OV [51] 오픈소스 데이터셋을 사용하여 모델의 멀티모달 이해 능력을 강화하였다.
Any-to-Image
오픈소스 이미지 편집 데이터셋이나 폐쇄형 모델에서 증류된 데이터셋을 직접 사용하는 것은 쉽지만, 이러한 폐쇄형 모델의 성능을 능가하는 것은 여전히 매우 어려운 문제이다. 이는 이러한 데이터가 종종 품질, 다양성, 규모 측면에서 심각한 부족을 보이기 때문이다. 따라서 강력한 Any-to-Image(X2I) 능력을 확보하기 위해서는 데이터 연구, 데이터 엔지니어링, 데이터 관리가 핵심 요소가 된다.
X2I 데이터셋이 충분한 다양성, 높은 품질, 충분한 규모를 갖도록 하기 위해 우리는 여러 데이터 소스를 종합적으로 고려하여 데이터셋을 구축하였다. 데이터 형식은 다음과 같은 구조를 따른다:
입력은 항상 **텍스트 지시와 선택적 이미지 집합(0개, 1개 또는 여러 개)**을 포함하며, 출력은 단일 생성 이미지로 제한된다.
데이터에서 수정되는 주요 대상은 사람, 동물, 정물 객체, 텍스트, 장면, 복합 카테고리 등으로 분류할 수 있다.
데이터 출처의 다양성을 확보하기 위해 데이터셋은 세 가지 주요 유형으로 구성된다:
완전 실제 데이터 (fully real)
반실제/반합성 데이터 (semi-real / semi-synthetic)
완전 합성 데이터 (fully synthetic)
완전 실제 데이터를 구축하기 위해 우리는 긴 비디오, 짧은 비디오 클립, 웹 규모 이미지에 대해 비디오 장면 분할, 키프레임 매칭 및 추출, 이미지 검색 등의 기술을 활용하는 파이프라인을 적용하였다.
반실제/반합성 및 완전 합성 데이터를 구축하기 위해서는 다양한 오픈소스 모델을 실제 및 합성 이미지에 보조 도구로 활용하였다.
품질 보장을 위해 데이터 대부분은 해상도, 선명도, 미적 품질 등의 기준에 따라 필터링되었으며, 이후 이미지 클러스터링을 적용하여 다양성을 유지하면서도 компакт한 데이터셋을 구성하였다.
Visual Narrative
고품질 Visual Narrative 데이터셋을 구축하기 위해 우리는 **상상적·가상 스토리부터 교육적 서사, 실제 사건(예: 과학 개념, 동화, 역사 사건, 일상 사건)**까지 다양한 콘텐츠를 포함하도록 설계하였다.
데이터는 풍부한 시각 및 텍스트 정보를 포함한 다양한 도메인의 비디오에서 수집된다. 모든 비디오는 먼저 scene segmentation과 ASR을 통해 구조화된 시각 및 텍스트 시퀀스로 변환되며, 이는 사전학습 데이터 처리 파이프라인과 유사하다.
이러한 시퀀스를 일관된 짧은 서사로 변환하기 위해 우리는 다단계 처리 프레임워크를 설계하였다.
먼저 각 키프레임에 대해 시각 특징과 품질 점수를 추출한 후, 특징 유사성과 품질 점수를 기반으로 중복 제거를 수행하여 대표적인 시퀀스를 생성한다.
중복 제거된 시퀀스는 종종 여러 서사가 섞여 있으며, 기존 VLM은 다중 이미지-다중 텍스트 입력을 처리하는 능력이 제한적이기 때문에, 우리는 각 프레임에 대해 Qwen2.5-VL을 이용해 dense caption을 생성하고 이를 ASR 텍스트와 결합하여 Qwen3에 입력함으로써 정확한 서사 분할을 수행한다.
이 과정은 스토리 경계 정확도를 크게 향상시킨다.
각 분할된 스토리는 Qwen3에 의해 서사 완결성 평가를 수행하며, 내용 및 등장 인물의 일관성과 명확한 시작–전개–결말 구조를 유지하도록 한다.
검증된 스토리는 이후 키프레임을 필터링하고 ASR 텍스트와 시각 정보를 기반으로 서사 텍스트 프롬프트를 생성한다.
마지막으로 각 서사에 대해 다음과 같은 세 가지 추론 중심 주석을 생성한다:
질문(user prompt)
전체 chain-of-thought (global CoT)
이미지 수준 chain-of-thought (image-level CoT)
이 파이프라인을 통해 총 43만 개의 고품질 visual narrative 샘플을 구축하였다.
Visual Guidance
Visual Guidance 작업을 위한 대규모 인터리브 시각-텍스트 데이터셋을 구축하기 위해 우리는 요리, DIY, 수공예 등 다양한 실제 상황에서의 멀티모달 시연과 단계별 튜토리얼 데이터를 수집하였다.
작업 관련 키워드와 메타데이터를 사용해 고품질 튜토리얼 비디오를 검색하고, 자막에서 핵심 텍스트 구간을 추출한 뒤 이를 대표적인 비디오 키프레임과 정렬하여 단계별 이미지-텍스트 쌍을 구성한다.
정제 이전 단계에서 다음과 같은 샘플은 제거된다:
손상되었거나 품질이 낮은 이미지
왜곡된 종횡비
중복 또는 의미적으로 중복된 텍스트
포맷 불일치
또한 절차 단계가 2단계 미만이거나 10단계를 초과하는 샘플도 제거한다.
최근 추론 모델에서 영감을 받아 우리는 이중 수준 Chain-of-Thought(CoT) 메커니즘을 도입하였다.
image-level CoT: Qwen3 및 Qwen2.5-VL을 사용하여 각 단계에 대한 상세한 시각 추론 생성
global CoT: 전체 절차의 의미 구조를 유지하여 장기 시퀀스에서의 정보 손실을 방지
마지막으로 Qwen2.5-VL을 이용하여 다음 기준으로 자동 평가를 수행한다:
단계 관련성
지시 명확성
이미지-텍스트 정렬
시각 정보성
최종적으로 96만 개의 고품질 인터리브 샘플을 구축하였다.
World Exploration
World Exploration 데이터셋을 구축하기 위해 우리는 **Sekai [53]**와 OpenDV [115] 데이터셋을 결합하였다. 두 데이터셋은 각각 보행 탐색과 차량 탐색 시나리오를 제공하며, 실제 환경과 게임 환경 모두를 포함한다.
먼저 DeQA-Score 필터링을 적용하여 저품질 비디오 클립을 제거한다.
이후 카메라 포즈 주석 파이프라인을 적용하여 모든 클립에 정확한 카메라 궤적을 부여한다.
멀티모달 추론 품질을 향상시키기 위해 Qwen3 및 Qwen2.5-VL을 사용하여 다음을 자동 생성한다:
사용자 프롬프트
이미지 수준 CoT
각 샘플은 다음 네 가지 형태로 변환된다:
텍스트 입력 + 사용자 인터랙션
멀티모달 입력 + 사용자 인터랙션
텍스트 입력 + 자유 탐색
멀티모달 입력 + 자유 탐색
최종적으로 20만 개의 World Exploration 샘플을 구축하였다.
Embodied Manipulation
Embodied Manipulation 데이터셋은 다음 세 가지 데이터 소스를 결합하여 구축하였다:
OpenX Embodiment dataset (OXE)
Agi-world Alpha dataset
Songling Aloha dataset
최종 데이터셋은 973,000개 샘플로 구성되며, 각 샘플은 서브태스크 + 키프레임 + 설명으로 구성된다.
OpenX Embodiment 데이터셋의 경우 자동 라벨링 프레임워크를 사용하여:
큰 움직임이나 그리퍼 상태 변화가 있는 프레임을 선택
Qwen2.5-VL을 사용해 키프레임 병합 및 설명 생성
품질 필터링 및 의미 중복 제거
또한 모델이 복구 및 다단계 계획 능력을 학습하도록 하기 위해 중간 단계에서 시작하는 시퀀스도 생성한다.
최종적으로 구성된 데이터셋은 다음과 같다:
OXE: 920K
Agi-world Alpha: 40K
Songling Aloha: 13K
총 973K 샘플의 인터리브 비전-언어 데이터셋이 구축되었다.
4.1.3 Training Details
사전학습 단계 이후, 우리는 다양한 멀티모달 작업에서 수집된 고품질 데이터를 통합하여 **통합된 supervised fine-tuning(SFT)**을 수행한다. 이를 통해 서로 다른 다운스트림 작업 간 상호 강화와 지식 전이가 가능하도록 하나의 공통 멀티모달 인터페이스를 구축한다. 각 다운스트림 작업에 대한 상세 데이터 통계는 표 3에 제시되어 있다.
모델 성능과 학습 효율을 동시에 향상시키고, 높은 해상도의 생성 품질을 유지하기 위해 우리는 두 단계(two-stage)의 SFT 전략을 사용한다.
첫 번째 단계에서는 각 다운스트림 작업을 표준 해상도에서 학습한다. 구체적으로,
-
Any-to-Image 작업은 768px 해상도에서 학습된다.
-
Visual Guidance, Visual Narrative, Embodied Manipulation 작업은 512px 해상도에서 학습된다.
-
World Exploration 작업은 더 많은 시각적 세부 정보를 요구하기 때문에 720px 해상도에서 학습된다.
시각 모달리티에 대해서는 시각 토큰에 해당하는 손실 항에 가중치 1.0을 적용한다. 학습 중 최대 시퀀스 길이는 16,384 토큰으로 설정하여 성능과 계산 비용 간 균형을 맞춘다.
두 번째 단계에서는 더 높은 해상도에서 모델을 추가 학습한다.
-
Any-to-Image 작업은 1024px 해상도에서 학습된다.
-
다른 인터리브 작업들은 720px 해상도로 확장된다.
이 단계에서는 더 많은 시각 토큰이 도입되므로, 모달 간 균형 있는 최적화를 유지하기 위해 시각 토큰의 손실 가중치를 0.5로 설정한다. 또한 최대 시퀀스 길이를 32,768 토큰으로 확장한다.
이 두 번째 단계는 특히 고해상도 이미지 생성 품질과 멀티모달 작업 수행의 정확성을 향상시키며, 작업 간 지식 전이를 더욱 촉진한다.
사전학습 단계와 마찬가지로, SFT 단계의 학습 및 추론 인프라는 FlagScale [90] 프레임워크를 기반으로 구축된다.
첫 번째 단계에서는:
-
Tensor Parallelism (TP) = 8
-
Context Parallelism (CP) = 1
을 사용한다.
두 번째 단계에서는:
-
TP = 8
-
CP = 2
로 설정된다.
학습에서 batch size는 1024, learning rate는 6e⁻⁶로 설정된다. 모든 단계에서 AdamW 옵티마이저가 사용되며, β1 = 0.9, β2 = 0.95로 설정되고 cosine learning rate schedule을 적용한다.
텍스트-투-이미지 생성, 언어 이해 및 생성, 비전-언어 질의응답과 같은 일반 작업의 경우, 두 단계 모두에서 입력 데이터를 최대 컨텍스트 길이에 맞추어 사전 패킹(pre-pack) 및 패딩하여 학습 효율성과 데이터 일관성을 유지한다.
각 단계는 3000 iterations 동안 학습되며, 이를 통해 모델이 작업의 특성에 점진적으로 적응하고 서로 다른 모달리티 전반에서 최적화될 수 있도록 한다.
다음은 4.2 Reinforcement Learning 섹션의 핵심 내용만 요약 번역입니다. (하위 섹션 포함)
4.2 Reinforcement Learning (핵심 요약)
4.2.1 Reward System
멀티모달 추론과 생성 능력을 향상시키기 위해 Emu3.5는 다양한 멀티모달 작업을 대상으로 대규모 강화학습(RL) 을 수행한다. 이를 위해 여러 보상 함수를 결합한 통합 reward 시스템을 설계한다.
reward 시스템의 특징은 세 가지이다.
1. Generality (범용성)
여러 작업에 공통적으로 적용되는 보상을 사용한다.
예:
CLIP 기반 이미지-텍스트 유사도
VLM 기반 alignment 평가
aesthetic quality 점수
→ 전반적인 생성 품질을 평가
2. Task-specificity (작업 특화 보상)
특정 작업에 맞는 보상을 따로 둔다.
예:
OCR 및 layout 기반 text fidelity 평가 (텍스트 렌더링)
face detection / identification (인물 일관성)
VLM 기반 narrative consistency (스토리 생성)
3. Unified reward space (통합 보상 공간)
모든 reward를 하나의 공간에서 결합하여 end-to-end RL 학습을 수행한다.
각 reward는 [1,10] 범위로 정규화
여러 작업 간 reward scale 차이를 해결
→ 특정 reward만 최적화되는 reward hacking 방지
4.2.2 Training Data
RL 학습 데이터는 다음으로 구성된다.
SFT 데이터에서 각 task별 약 10K high-quality prompt
1K human feedback samples
추가 데이터
58K X2I instructions
50K T2I samples
→ 특히 image generation / editing task 강화 목적
4.2.3 Training Details
RL 학습 설정:
algorithm: GRPO (Group Relative Policy Optimization)
global batch size: 640
learning rate: 1e-6
rollout number: 8
추론 샘플링은 vLLM 기반 엔진을 사용하며 VeRL 프레임워크와 통합된다.
학습 방식:
multi-task RL
하나의 batch에 여러 task를 섞어서 학습
→ task 간 synergy 및 knowledge transfer 유도
또한 이미지 생성 품질 향상을 위해
X2I / T2I 전용 RL stage도 추가로 수행한다.
4.2.4 Scaling Behavior
RL 학습 동안 평균 reward가 지속적으로 증가한다.
초기 reward ≈ 4.5
최종 reward ≈ 7.1 이상
이는 다음을 의미한다.
여러 task의 reward를 하나의 RL 과정에서 안정적으로 최적화
unified reward 시스템이 다양한 task objective를 균형 있게 통합
핵심 요약 (3줄)
1️⃣ 다양한 task를 위해 general reward + task-specific reward를 결합
2️⃣ multi-task RL (GRPO) 로 SFT 모델을 추가 학습
3️⃣ reward normalization과 unified reward space로 task 균형 학습
다음은 논문 4.3 Discrete Diffusion Adaptation 섹션의 전체 번역입니다 (하위 섹션 포함).
4.3 Discrete Diffusion Adaptation
4.3.1 Training Approach
멀티모달 autoregressive 모델은 강력한 생성 능력을 가지고 있음에도 불구하고, 토큰을 하나씩 순차적으로 생성해야 하는 decoding 방식 때문에 본질적으로 추론 속도가 느리다는 한계를 가진다. 특히 이미지 생성에서는 이러한 문제가 더욱 심각하다. 예를 들어, 16× 다운샘플링 비율을 사용하는 경우 1024 × 1024 해상도의 이미지를 생성하려면 약 4K개의 토큰이 필요하며, 이는 상당한 계산 지연을 초래한다.
이 문제를 해결하기 위해 우리는 **Discrete Diffusion Adaptation (DiDA)**이라는 **경량 적응 방법(lightweight adaptation)**을 제안한다. 이 방법은 autoregressive 모델의 이미지 생성 속도를 가속하면서도 텍스트 생성 능력은 그대로 유지한다.
사전학습된 autoregressive 모델을 기반으로, DiDA는 visual token에 대해 discrete diffusion 방식을 확장하여 이미지 생성을 **순차적 디코딩(sequential decoding)**에서 **병렬 생성(parallel generation)**으로 전환할 수 있도록 한다.
구체적으로, DiDA는 visual token에 대해 discrete diffusion 과정을 적용한다. 이 과정에서는 이미지 토큰 시퀀스를 한 번에 초기화한 후, 여러 단계의 discrete denoising step을 통해 점진적으로 목표 이미지를 복원한다. 이러한 방식은 출력 품질을 유지하면서도 추론 속도를 크게 향상시킬 수 있다.
학습을 위해 우리는 image-text pair와 interleaved image-text sequence로 구성된 self-distillation 데이터셋을 구축한다.
또한 interleaved text-image 시퀀스에서 discrete diffusion 학습을 적용하기 위해 attention mask 구조를 수정한다. 이를 통해 visual token을 전역적으로 모델링하면서도 텍스트와 시각 정보 사이의 관계를 정확하게 유지할 수 있도록 한다.
구체적으로 그림 9에 나타난 것처럼,
noisy image token은
이전의 clean token에는 causal attention으로 접근하고
같은 이미지 내의 다른 noisy token에는 bidirectional attention으로 접근한다.
반면,
clean image token과 text token은
기존 autoregressive 방식과 동일하게
이전의 clean token에 대해서만 causal attention을 수행한다.
4.3.2 Infrastructure
기존 인프라 시스템들은 견고한 기반을 제공하지만, DiDA에서 요구되는 cross-modal attention 학습과 **동적 모달 전환 추론(dynamic modality-switching inference)**을 유연하게 지원하는 데에는 한계가 있다.
이를 해결하기 위해 우리는 FlagScale [90] 프레임워크를 기반으로 여러 핵심 기술을 확장하였다.
Flexible Cross-Modal Attention and Hybrid Parallel Training
DiDA와 같은 구조에서 필요한 복잡한 cross-modal attention 패턴을 효율적으로 모델링하기 위해, 우리는 FlagScale 프레임워크에 PyTorch FlexAttention을 통합하였다.
기존의 4차원 attention mask 대신 per-row block mask를 사용하여
causal attention
bidirectional attention
region-specific attention
과 같은 다양한 attention 제약을 유연하게 표현할 수 있도록 한다.
이 설계는 전체 attention matrix를 저장할 필요를 제거하여 메모리 사용량을 크게 줄이고, 긴 시퀀스에서도 확장성을 높인다.
또한 분산 학습 효율을 최적화하기 위해 우리는 다음을 결합한 hybrid parallelism 전략을 사용한다.
Tensor Parallelism (TP)
Pipeline Parallelism (PP)
Sequence Parallelism (SP)
ZeRO-1 Data Parallelism (DP)
추가로 activation recomputation을 적용하여 메모리 사용량을 최소화하면서도 학습 안정성을 유지한다.
Hybrid Inference Framework with FSM-based Scheduling
DiDA 모델의 복잡한 **동적 모달 전환 추론(dynamic modality-switching inference)**을 지원하기 위해, 우리는 FlagScale 내부에 hybrid inference framework를 구축하였다.
이 프레임워크는 Finite-State Machine (FSM) 기반 scheduler를 도입하여 텍스트 생성 단계와 이미지 생성 단계 사이의 전환을 동적으로 관리한다. 또한 필요한 계산 자원을 미리 할당함으로써 효율적인 동시 처리(concurrent processing)를 가능하게 한다.
비동기 요청 처리(asynchronous request handling), 런타임 상태 재사용(runtime state reuse), 그리고 FP8 양자화와 결합하여, 이 프레임워크는 커널 오버헤드를 크게 줄이고 처리량을 증가시킨다.
그 결과, 4개의 장치를 사용하는 환경에서 최소 50% 이상의 속도 향상을 달성한다.
5 Tokenizer Training
Tokenizer Training의 핵심은 Emu3.5가 이미지를 직접 픽셀로 처리하지 않고 이산(discrete) 토큰으로 변환하여 언어 모델처럼 학습할 수 있도록 하는 visual tokenizer를 별도로 학습한다는 점이다. 모델은 이미지와 텍스트를 동일한 토큰 시퀀스 형태로 처리하기 때문에, 이미지 정보를 효과적으로 압축하면서도 의미 정보를 유지하는 토크나이저가 매우 중요하다. 이를 위해 다양한 도메인의 대규모 이미지 데이터를 수집해 tokenizer를 학습한다.
Tokenizer 학습 데이터는 크게 세 가지 유형으로 구성된다. 첫째는 일반적인 시각 분포를 학습하기 위한 데이터로, ImageNet, OpenImages, CC3M, CC12M 같은 공개 데이터셋과 영화 장면, 게임 녹화, 브이로그 등 내부 수집 이미지가 포함된다. 둘째는 미적 품질을 높이기 위한 고품질 이미지 데이터로, 공개 웹사이트에서 수집한 aesthetic 이미지들이 사용된다. 셋째는 특정 시각 요소를 정밀하게 표현하기 위한 특수 데이터로, 텍스트가 많이 포함된 이미지(text-rich dataset)와 얼굴 이미지(face dataset)가 포함된다. 텍스트 데이터는 TextAtlas5M, PosterCraft, LAION 등을 사용해 텍스트 렌더링 능력을 강화하고, 얼굴 데이터는 Midjourney, COYO-700M, JourneyDB 등에서 추출해 인물 표현 능력을 향상시킨다.
이렇게 수집된 이미지는 학습 전에 품질 필터링을 거친다. 먼저 해상도가 512×512 이하인 이미지는 제거하고, 이미지 선명도·노이즈·품질 등을 평가하는 품질 점수를 이용해 낮은 품질의 이미지를 제거한다. 또한 LAION aesthetic predictor를 이용해 미적 점수가 낮은 이미지를 제외하고, 워터마크가 포함된 이미지도 제거하여 데이터 품질을 높인다.
Tokenizer 학습 자체는 여러 손실 함수를 결합해 수행된다. 기본적으로는 **이미지 재구성 손실(reconstruction loss)**과 quantization loss가 사용되며, 여기에 LPIPS 기반 perceptual loss, PatchGAN 기반 adversarial loss, entropy loss, 그리고 SigLIP 특징을 이용한 semantic distillation loss가 추가된다. 이러한 다양한 손실을 결합함으로써 tokenizer가 단순히 픽셀을 복원하는 수준을 넘어, 이미지의 의미적 구조까지 잘 표현하는 discrete token을 생성하도록 학습된다.
또한 Emu3.5는 기본적인 이미지 디코더 외에 diffusion 기반 이미지 디코더도 함께 학습한다. 이 디코더는 동일한 quantized token을 입력으로 사용하지만 더 높은 해상도의 이미지를 생성할 수 있으며, 특히 텍스트 영역이나 얼굴과 같은 세밀한 시각 정보를 더 정확하게 복원한다. 추가로 LoRA 기반 distillation을 적용해 diffusion 디코딩 과정의 denoising step을 크게 줄여 추론 속도를 약 10배 정도 향상시킨다.
마지막으로 영상 생성을 위한 video decoder도 별도로 학습된다. 이 디코더는 DiT 기반 구조를 사용하며, keyframe 토큰을 조건으로 받아 연속적인 비디오를 생성할 수 있도록 설계되어 있다. 이를 위해 Koala, Sekai, Agibot 데이터와 내부 비디오 데이터를 활용하여 다양한 동적 장면을 학습한다. 이러한 tokenizer와 디코더 구조 덕분에 Emu3.5는 이미지를 토큰 형태로 효율적으로 표현하면서도 고해상도 이미지와 영상 생성 능력을 동시에 확보할 수 있다.
Reference







댓글
댓글 쓰기