NL-333, Emu3.5: Native Multimodal Models are World Learners, Preprint 2025
정리 이 논문은 Emu3.5 라는 대규모 멀티모달 모델을 제안하며, 텍스트와 비전을 단순히 결합하는 수준을 넘어 “world model”로서 동작하는 네이티브 멀티모달 모델 을 목표로 한다. 기존 언어 모델은 대규모 텍스트 데이터에서 뛰어난 추론 능력을 보였지만, 텍스트만으로는 실제 세계의 공간적·시간적 구조를 충분히 학습하기 어렵다는 한계가 있다. 인간은 언어뿐 아니라 비디오와 같은 장기적인 멀티모달 경험을 통해 세계를 이해 하며, 이러한 특성을 반영한 모델이 필요하다. Emu3.5는 이러한 문제를 해결하기 위해 **비디오 기반의 장기적 멀티모달 시퀀스를 학습하여 시각과 언어를 동시에 예측하는 “next-state world model”**을 구축하는 것을 목표로 한다. 모델 구조는 decoder-only transformer 기반의 통합 멀티모달 아키텍처 로 설계되어 있으며, 텍스트와 이미지 모두를 동일한 토큰 시퀀스로 처리한다. 모델은 64개의 transformer layer, hidden size 5120을 갖는 약 34B 파라미터 규모 이며, 텍스트 토큰과 비전 토큰을 하나의 vocabulary로 통합하여 처리한다. 시각 정보는 discrete visual token 으로 변환되며, 이를 통해 이미지와 텍스트를 동일한 next-token prediction 방식으로 학습한다. 이러한 구조 덕분에 모델은 텍스트 생성, 이미지 생성, 이미지 편집, 시각적 스토리 생성 등 다양한 멀티모달 작업을 하나의 생성 모델로 통합적으로 수행 할 수 있다. 학습 데이터는 매우 대규모이며 총 약 13조(multimodal) 토큰 규모 로 구성된다. 데이터는 네 가지 주요 구성요소로 이루어진다. 첫째, 핵심 데이터는 비디오 프레임과 ASR 텍스트를 시간적으로 정렬한 video-interleaved 데이터 로, 약 6,300만 개의 인터넷 영상에서 추출되었으며 평균 길이는 6.5분 정도이다. 이 데이터는 장기적인 시각-언어 관계와 인과 구조를 학습하는 데 핵심 역할을 한다...