NL-333, Emu3.5: Native Multimodal Models are World Learners, Preprint 2025
Abstract 본 논문에서는 시각과 언어 전반에 걸쳐 다음 상태를 자연스럽게 예측하는 대규모 멀티모달 월드 모델 Emu3.5 를 소개한다. Emu3.5는 인터넷 동영상의 연속 프레임과 자막을 주된 원천으로 하는 10조 개 이상의 토큰을 포함한 시각-언어 인터리브 데이터 코퍼스에 대해, 통합된 next-token prediction 목표로 엔드투엔드 사전학습되었다. 이 모델은 시각과 언어가 섞인 입력을 자연스럽게 받아들이고, 시각-언어가 인터리브된 형태의 출력을 생성한다. 또한 대규모 강화학습 기반의 후속 학습(post-training)을 통해 멀티모달 추론 및 생성 능력을 향상시켰다. 추론 효율성을 개선하기 위해 우리는 Discrete Diffusion Adaptation (DiDA)를 제안한다. 이는 토큰 단위의 순차적 디코딩을 양방향 병렬 예측 방식으로 변환하여, 성능 저하 없이 이미지당 추론 속도를 약 20배 가속한다. Emu3.5는 장기적(롱-호라이즌) 시각-언어 생성, 임의 입력 기반 이미지 생성(X2I), 복잡한 텍스트가 포함된 이미지 생성 등 강력한 네이티브 멀티모달 능력을 보인다. 또한 다양한 시나리오와 과제에서 시공간적으로 일관된 월드 탐색과 오픈 월드 환경에서의 체화된 조작(embodied manipulation)을 가능하게 하는 일반화된 월드 모델링 능력을 갖추고 있다. 비교 실험에서 Emu3.5는 이미지 생성 및 편집 과제에서 Gemini 2.5 Flash Image(Nano Banana)와 동등한 수준의 성능을 달성했으며, 인터리브 생성 과제 전반에서는 더 우수한 결과를 보였다. 우리는 커뮤니티 연구를 지원하기 위해 Emu3.5를 오픈소스로 공개한다. 1 Introduction 대규모 텍스트 코퍼스로 학습된 언어 모델은 언어적 추론과 생성에서 괄목할 만한 성과를 이루어왔다 [1, 3, 92, 22]. 그러나 텍스트만으로는 세계에 대한 이해에 한계가 있다. 언어는 사람들 사이의 의사소통과 일반화를 가능하게 하지만, 인간이 환경을 인지...