NL-333, Emu3.5: Native Multimodal Models are World Learners, Preprint 2025

Abstract

본 논문에서는 시각과 언어 전반에 걸쳐 다음 상태를 자연스럽게 예측하는 대규모 멀티모달 월드 모델 Emu3.5를 소개한다. Emu3.5는 인터넷 동영상의 연속 프레임과 자막을 주된 원천으로 하는 10조 개 이상의 토큰을 포함한 시각-언어 인터리브 데이터 코퍼스에 대해, 통합된 next-token prediction 목표로 엔드투엔드 사전학습되었다. 이 모델은 시각과 언어가 섞인 입력을 자연스럽게 받아들이고, 시각-언어가 인터리브된 형태의 출력을 생성한다. 또한 대규모 강화학습 기반의 후속 학습(post-training)을 통해 멀티모달 추론 및 생성 능력을 향상시켰다.

추론 효율성을 개선하기 위해 우리는 Discrete Diffusion Adaptation (DiDA)를 제안한다. 이는 토큰 단위의 순차적 디코딩을 양방향 병렬 예측 방식으로 변환하여, 성능 저하 없이 이미지당 추론 속도를 약 20배 가속한다. Emu3.5는 장기적(롱-호라이즌) 시각-언어 생성, 임의 입력 기반 이미지 생성(X2I), 복잡한 텍스트가 포함된 이미지 생성 등 강력한 네이티브 멀티모달 능력을 보인다. 또한 다양한 시나리오와 과제에서 시공간적으로 일관된 월드 탐색과 오픈 월드 환경에서의 체화된 조작(embodied manipulation)을 가능하게 하는 일반화된 월드 모델링 능력을 갖추고 있다.

비교 실험에서 Emu3.5는 이미지 생성 및 편집 과제에서 Gemini 2.5 Flash Image(Nano Banana)와 동등한 수준의 성능을 달성했으며, 인터리브 생성 과제 전반에서는 더 우수한 결과를 보였다. 우리는 커뮤니티 연구를 지원하기 위해 Emu3.5를 오픈소스로 공개한다.

1 Introduction

대규모 텍스트 코퍼스로 학습된 언어 모델은 언어적 추론과 생성에서 괄목할 만한 성과를 이루어왔다 [1, 3, 92, 22]. 그러나 텍스트만으로는 세계에 대한 이해에 한계가 있다. 언어는 사람들 사이의 의사소통과 일반화를 가능하게 하지만, 인간이 환경을 인지하고 상호작용하며 학습하는 데 있어 핵심적인 감각은 시각이다. 인간은 언어뿐 아니라, 특히 장시간의 비디오와 그에 인터리브(interleaved)된 언어를 통해 공간적·시간적으로 확장된 멀티모달 경험으로부터 지식을 습득한다. 이러한 데이터는 풍부한 맥락, 인과관계, 시간적 일관성을 담고 있다. 최근 단편(short-clip) 비디오 생성의 발전은 단기 동적 변화를 포착하는 능력을 보여주었으나, 장기적(롱-호라이즌) 시각-언어 시퀀스를 학습하고 추론하는 문제는 여전히 핵심적인 미해결 과제로 남아 있다.

이전 Emu 시리즈 [88, 87, 102]는 next-token prediction과 같은 단순한 생성 목표를 통해 멀티모달 과제를 통합하고, 인터리브된 시각-언어 시퀀스를 모델링하는 것이 가능함을 보여주었다. 그러나 이러한 연구는 주로 짧은 형식 또는 소규모 데이터에 초점을 맞추었으며, 장기 멀티모달 데이터를 다루기 위해 사전학습, 후속학습, 추론을 어떻게 확장해야 하는지에 대한 근본적인 질문은 여전히 남아 있다. 특히, 장시간 비디오와 텍스트가 인터리브된 데이터를 효과적으로 학습하는 방법, 범용 멀티모달 상호작용을 가능하게 하는 방법, 수만 개에 달하는 시각 토큰을 효율적으로 예측하는 방법은 사전학습·후속학습·추론 측면에서 각각 중요한 도전 과제이다.

본 연구에서는 이러한 문제를 해결하고, 인터리브된 시각과 언어 전반에서 다음 상태를 자연스럽게 예측하는 월드 모델을 구축한다. 구체적으로, 우리는 장기 멀티모달 데이터로부터 학습하고 일반화할 수 있는 대규모 멀티모달 월드 모델 Emu3.5를 제안한다. 

Emu3.5는 인터넷 동영상의 연속 프레임과 자막을 주요 데이터 원천으로 하여, 10조(10T)개 이상의 토큰을 포함하는 인터리브 시각-언어 코퍼스에 대해 통합된 next-token prediction 목표로 엔드투엔드 사전학습되었다. 

  • 모델은 비전-언어 모델임
  • 근데 비전이 비디오를 의미하는 것이긴 함. 
  • 즉 오디오가 데이터로 있긴한데, 언급을 안하는거 보니까.. 오디오 성능이나 이런거는 별로인거 아닐까?

후속학습 단계에서는 장기 생성 능력을 향상시키기 위해 멀티모달 보상에 기반한 대규모 강화학습을 수행한다. 모델은 인터리브 입력을 자연스럽게 처리하고 인터리브 출력을 생성하여, 범용 멀티모달 추론을 가능하게 한다. 

또한 추론 효율을 높이기 위해 Discrete Diffusion Adaptation(DiDA)을 제안한다. 이는 토큰 단위 순차 디코딩을 양방향 병렬 예측으로 전환하여, 성능 저하 없이 이미지당 추론 속도를 약 20배 가속한다.

  • 이 부분이 새로 생긴 거인 듯

Emu3.5는 대규모 네이티브 시각-언어 생성으로 나아가는 첫 단계이다. 이 모델은 장기 멀티모달 생성 및 추론 능력을 보여주며, 시간적 일관성과 의미적 정합성을 동시에 유지하는 시각 프레임과 텍스트의 인터리브 시퀀스를 생성한다. 이러한 능력은 다양한 과제를 가능하게 한다. 예를 들어, Visual Narrative는 교육적·상상적 주제를 포함한 개방형 주제에 대해 일관된 시각적 스토리텔링을 지원하며, Visual Guidance는 복잡한 절차나 작업을 단계별로 설명하기 위한 시간적으로 일관된 추론을 가능하게 한다. 더 나아가 Emu3.5는 월드 탐색(World Exploration)과 체화된 조작(Embodied Manipulation)을 포함하는 일반화 가능한 월드 모델링 능력을 보여주며, 실제 및 가상 환경에서 제어 가능한 상호작용, 자유로운 내비게이션, 동적 장면 시뮬레이션을 지원한다. 우리는 이러한 새로운 능력을 체계적으로 평가하였으며, 단일 32B 통합 모델인 Emu3.5가 비공개 모델인 Gemini 2.5 Flash Image [91]보다 우수함을 입증한다.

또한 Emu3.5는 강력한 네이티브 멀티모달 능력을 바탕으로 최첨단 any-to-image(X2I) 및 text-to-image 생성 모델로서도 기능한다. X2I 과제에서는 정밀한 제어와 자유로운 시공간적 조작을 통해 오픈 월드 편집을 가능하게 한다. 이미지 생성 측면에서는 정확하고 제어 가능하며 자연스러운 텍스트 렌더링을 구현한다. 모델은 다중 이미지 입력을 지원하며, 최대 2K 해상도의 출력을 생성할 수 있다. 비교 결과, Emu3.5는 X2I 과제에서 Gemini 2.5 Flash Image와 동등한 성능을 보이고, 텍스트 렌더링에서는 이를 능가한다. 특히, 추론 속도와 생성 품질 모두에서 비공개 확산(diffusion) 모델에 필적하는 최초의 오토리그레시브 모델이라는 점에서 의의가 있다.

우리는 몇 가지 중요한 관찰도 제시한다. 첫째, 사전학습 연산량이 증가함에 따라 분포 외(out-of-distribution) 멀티모달 과제에 대한 검증 손실이 지속적으로 감소하며, 이는 학습 도메인을 넘어서는 일반화 능력이 점진적으로 강화됨을 시사한다. 둘째, 강화학습과 같은 통합적 후속학습은 다양한 과제가 상호 이득을 얻고 전이 학습을 할 수 있는 공유 멀티모달 인터페이스를 형성한다. 예를 들어, text-to-image의 높은 충실도와 X2I의 편집 능력은 자연스럽게 visual narrative 및 visual guidance 과제로 전이된다. 셋째, next-token prediction 모델이 성능 저하 없이 양방향 예측기로 효율적으로 변환될 수 있음을 보였으며, 이를 통해 상당한 추론 가속을 달성하였다. 이러한 관찰은 네이티브 멀티모달 패러다임의 확장성, 범용성, 유연성을 강조한다.

우리는 Emu3.5를 커뮤니티 연구와 개발을 지원하기 위해 오픈소스로 공개한다. 이 모델은 단계별 시각-언어 상호작용을 위한 인터랙티브 인터페이스를 자연스럽게 지원하며, 새로운 멀티모달 능력 개발을 위한 기반이 된다. Emu3.5가 월드 모델 연구를 진전시키고 멀티모달 지능 향상에 기여하기를 기대한다.

2 Emu3.5

2.1 Overall

그림 3은 대규모 학습과 효율적 추론 단계에서의 Emu3.5 전체 아키텍처를 보여준다.
학습 단계에서 모델은 통합된 next-token prediction (NTP)을 수행하며, 대규모 멀티모달 사전학습, 지도 미세조정(supervised fine-tuning), 강화학습을 위해 표준 디코더 전용(transformer decoder-only) 구조를 따른다.
추론 단계에서는 제안한 DiDA(Discrete Diffusion Adaptation) 기법을 통해 하이브리드 생성이 가능하다. 즉, 텍스트는 순차적으로 생성하고, 시각 정보는 병렬적으로 생성하여, 이미지당 약 20배의 속도 향상을 달성하면서도 품질 저하를 방지한다.

전체 학습 파이프라인은 그림 4에 제시되어 있다. Emu3.5는 약 13조 토큰 규모의 데이터로 두 단계에 걸쳐 엔드투엔드 사전학습된다. 

  • 이 데이터는 주로 인터넷 동영상의 연속 프레임과 자막으로부터 수집되었다. 
  • 두 번째 단계에서는 시각 해상도 다양성, 데이터 품질, 주석(annotation) 풍부도를 추가로 개선하여 보다 정밀한 멀티모달 감독 신호를 제공한다. 
  • 이러한 2단계 학습 설정을 통해 모델은 통합 생성 프레임워크 내에서 시각-언어가 인터리브된 입력을 자연스럽게 처리하고, 인터리브된 출력을 생성할 수 있다.
  • pretraining이 데이터 품질 기준으로 2단계로 나눠서 진행. 데이터가 중복인지 아닌지는 모르겠음 (10T->3T)
  • scratch부터 같이 학습하는 구조임

이후 Emu3.5는 약 1,500억 샘플 규모의 지도 미세조정(SFT)을 거쳐 통합 멀티모달 생성 인터페이스를 확립하고, 이어서 대규모 강화학습을 통해 멀티모달 추론 및 생성 능력을 추가로 향상시킨다. 

  • 멀티모달 SFT 데이터도 어지간히 많은듯

마지막으로, DiDA를 적용하여 고효율 추론에 빠르게 적응시키며, 이 단계에서는 SFT 데이터와 자기 증류(self-distillation) 데이터 중 수십억 토큰만을 사용한다.

  • DiDA가 뭔지 좀 봐야될듯

2.2 Unified Architecture

Emu3.5는 Qwen3 [97]와 같은 최신 대규모 언어 모델에서 널리 채택된 표준 트랜스포머 기반 아키텍처를 따르면서, 확장성과 멀티모달 적응성을 균형 있게 확보하기 위해 몇 가지 설계적 수정을 포함한다.

모델은 64개의 트랜스포머 레이어로 구성되며,

  • 히든 차원(hidden size)은 5,120,

  • 중간 차원(intermediate size)은 25,600이다.

어텐션 메커니즘은 64개의 헤드와 그 중 8개의 전용 key-value 헤드를 사용하며, 계산 효율을 높이기 위해 Grouped Query Attention (GQA) [2]를 채택한다. 학습 안정화를 위해 RMSNorm [123]을 pre-normalization 방식으로 적용한다. 또한 어텐션 안정성을 강화하기 위해 query 및 key projection에 QK-Norm [23]을 도입하였다. 활성화 함수로는 SwiGLU [78]를 사용하며, 위치 인코딩에는 Rotary Positional Embeddings (RoPE) [85]를 적용한다.

전체 모델 파라미터 수는 34.1B(341억) 개이며,

  • 이 중 31.2B는 트랜스포머 레이어에,

  • 2.9B는 임베딩 레이어에 해당한다.

총 어휘(vocabulary) 크기는 282,926개 토큰으로 구성되며,

  • 151,854개는 텍스트 토큰,

  • 131,072개는 시각 토큰이다.

텍스트 어휘는 QwenTokenizer를 그대로 재사용하여 강력한 다국어 텍스트 처리를 보장한다. 시각 어휘는 다양한 이미지로부터 학습되었으며, 이에 대한 세부 내용은 2.3절에서 다룬다.

모델은 최대 32,768 토큰의 컨텍스트 길이를 지원하며, 학습 안정화를 위해 dropout 비율 0.1을 적용한다. 보다 상세한 모델 설정은 표 1에 요약되어 있다.

2.3 Tokenizer

우리는 시각 토크나이징을 위해 기본적으로 IBQ [81] 프레임워크를 채택하며, 다운샘플링 비율은 ( f = 16 )이다. 코드북의 각 이산 토큰은 차원 ( D = 256 )을 갖는다. 토크나이저의 표현 용량을 더욱 확장하기 위해 코드북 크기를 131,072개로 늘렸으며, 모델 규모 또한 폭(width) 확장을 통해 4.55억(455M) 파라미터로 증가시켜 복잡한 이미지 구조를 보다 효과적으로 표현할 수 있도록 했다.

또한 REPA [120]의 아이디어를 참고하여, 토크나이저 디코더의 중간 출력에 SigLIP [122] 기반 특징 증류(feature distillation)를 통합하였다. 이를 통해 표현 학습을 개선하고, 이산 이미지 토큰에 보다 풍부한 의미 정보를 부여한다.

  • 이건 무슨 의미일까?

Image Decoder

기본(바닐라) 토크나이저는 동일한 이미지를 표현하는 데 있어 Emu3 대비 4분의 1 수준의 토큰 수만 사용하면서도 더 우수한 재구성 품질을 달성한다.

  • Emu3과 다른 토크나이저를 썼군. Hz 토큰수가 더 적은걸로
  • 그리고 이미지/비디오 모두 디퓨젼 기반 디코더 사용

시각 디코딩 성능을 추가로 향상시키기 위해, 우리는 선택적으로 확산(diffusion) 기반 이미지 디코더를 도입한다. 이 디코더는 동일한 양자화 토큰을 입력으로 사용하지만, 바닐라 디코더 대비 2배 해상도로 이미지를 생성한다. 특히 텍스트 영역과 얼굴 복원과 같은 세부 디테일에서 국소적·미세 표현이 크게 향상된다.

또한 [11]을 따라 LoRA 기반 증류(distillation) 기법을 적용하여, 디노이징 단계를 50단계에서 4단계로 줄이면서도 성능 저하 없이 약 10배 가속을 달성한다.

Video Decoder

우리는 생성된 키프레임 토큰을 조건으로 하는 확산 기반 비디오 디코더를 통해 Emu3.5를 연속 비디오 생성으로 확장한다. 비디오 디코더는 주류 DiT [69] 아키텍처를 기반으로 구축되었다.

VQ 양자화기에서 추출된 임베딩을 사용하여 세밀한 시각적 디테일을 제공하며, 선택적으로 프레임 간 텍스트 정보를 활용해 고수준 의미적 가이드를 제공한다.

또한 어떤 프레임의 토큰이 주어졌는지를 표시하기 위해 추가적인 4채널 마스크를 도입하여, 임의 개수의 중간 프레임을 지원할 수 있도록 설계하였다. 학습 과정에서는 장기 시간 의존성을 강화하고 다양한 키프레임 조건에 대한 일반화를 높이기 위해, 첫 번째 키프레임 잠재 표현(latent)을 깨끗한 이미지 토큰으로 무작위 대체한다.















Reference

댓글