이 논문에서 다루는 기본 설정을 먼저 정리하면, 텍스트 토크나이저는 존재하지만 이미지 토크나이저는 존재하지 않는다는 점이 핵심이다. 텍스트는 일반적인 LLM에서 사용하는 것과 동일한 서브워드 기반 토크나이저를 통해 이산 토큰으로 변환된다. 반면 이미지는 VQ-VAE나 VQGAN처럼 이미지를 이산 토큰으로 바꾸는 이미지 토크나이저를 사용하지 않는다. 대신 이미지를 일정 크기의 패치로 나눈 뒤, 각 패치를 연속적인 벡터로 변환하고 단순한 선형 변환(linear projection)을 통해 Transformer의 hidden dimension에 맞춘다.

이 모델은 Native Multimodal Model(NMM)로 정의되며, 텍스트와 이미지를 모두 처음부터 함께 학습한다. 즉, 사전학습된 LLM이나 사전학습된 비전 인코더, 이미지 토크나이저를 가져다 쓰지 않는다. 고정되어 있는 것은 텍스트 토크나이저뿐이며, 나머지 파라미터들은 멀티모달 데이터(텍스트, 이미지 캡션, 인터리브 문서)를 통해 end-to-end로 공동 학습된다. 이런 의미에서 텍스트와 이미지 모듈이 “각각 따로 학습된 상태”로 결합되는 구조는 아니다.

학습 목표는 autoregressive next token prediction이다. 다만 여기서 “token”은 출력 기준으로만 텍스트 토큰을 의미한다. 모델은 텍스트 토큰과 이미지 패치 임베딩을 입력으로 받아, 다음 텍스트 토큰을 예측하도록 학습된다. 이미지는 조건 정보로만 사용되며, 이 논문에서의 NMM은 이미지를 생성하지 않는다. 손실 함수 역시 텍스트에 대한 cross-entropy loss 하나뿐이다.

논문에서 말하는 Early fusion은 “각각 독립적으로 학습된 토크나이저를 활용한다”는 의미가 아니다. Early fusion이란 텍스트 토큰 임베딩과 이미지 패치 임베딩을 Transformer의 입력 단계에서 바로 결합하여 하나의 동일한 Transformer 디코더로 처리하는 구조를 의미한다. 이미지 쪽에는 패치화와 선형 투영 외에 별도의 깊은 전용 네트워크가 없으며, Transformer의 가장 초기 레이어부터 텍스트와 이미지 간 상호작용이 가능하다.

반면 Late fusion은 이미지와 텍스트를 구조적으로 분리해 처리한다. 이미지는 전용 비전 인코더(예: ViT 구조)를 통해 고수준 표현으로 변환되고, 텍스트는 별도의 디코더에서 처리된다. 두 모달리티의 결합은 비전 인코더 이후, 즉 Transformer의 더 깊은 단계에서 이루어진다. 이 논문에서는 late fusion 역시 from-scratch로 학습하지만, 구조적으로 모달리티 전용 파라미터가 분리되어 있다는 점에서 early fusion과 대비된다.

정리하면, 이 논문에서의 멀티모달 학습은 “텍스트는 이산 토큰, 이미지는 연속 임베딩”이라는 입력 비대칭성을 유지한 채, 출력은 항상 텍스트 next-token prediction으로 통일되어 있다. Early fusion은 이 두 입력을 초기에 하나의 Transformer로 통합하는 방식이고, Late fusion은 모달리티별 인코더를 거친 뒤 늦게 결합하는 방식이다. 핵심적으로, early fusion은 “토크나이저를 나눠 쓰는 방식”이 아니라 “모달리티를 언제, 어디서 섞느냐”에 대한 구조적 선택이다.

대규모 스케일링 실험 결과, early fusion과 late fusion은 동일한 FLOPs 기준에서 거의 동일한 성능 스케일링을 보였다. 최종 validation loss는 두 구조 모두 $L \propto C^{-0.049}$ 에 가까운 지수로 감소하며, late fusion이 본질적으로 더 우수하다는 증거는 발견되지 않았다. 오히려 작은 모델 크기나 낮은 compute 예산에서는 early fusion이 일관되게 더 낮은 loss를 보였다.

또한 compute-optimal 관점에서 두 구조는 중요한 차이를 보였다. 동일한 성능을 달성하기 위해 late fusion 모델은 더 많은 파라미터 수를 필요로 하는 반면, early fusion 모델은 상대적으로 적은 파라미터와 더 많은 학습 토큰을 활용하는 방향으로 최적화된다. 그 결과 early fusion은 학습 시 메모리 사용량이 더 적고, 학습 속도가 빠르며, 추론 시에도 파라미터 수가 적어 서빙 비용 측면에서 유리하다.

논문은 여기에 더해 early fusion 구조에 Mixture of Experts(MoE)를 도입했을 때의 효과도 분석한다. Early-fusion MoE 모델은 동일한 inference cost(활성 파라미터 수)를 기준으로 dense 모델보다 일관되게 더 낮은 loss를 달성했으며, 특히 작은 모델 크기에서 그 이점이 두드러졌다. MoE 내부에서는 명시적인 규칙 없이도 전문가들이 자연스럽게 텍스트와 이미지 모달리티에 특화되는 현상이 관찰되었고, 이는 멀티모달 데이터의 이질성을 효과적으로 처리할 수 있음을 시사한다.

종합하면, 이 논문의 결과는 멀티모달 모델에서 흔히 가정되는 “비전 인코더 + LLM” 형태의 late fusion이 필수적이지 않음을 보여준다. 이미지 토크나이저 없이 연속 임베딩을 사용하는 early-fusion 구조도 텍스트 기반 next-token prediction만으로 충분히 경쟁력 있는 멀티모달 표현을 학습할 수 있으며, 스케일링 효율과 실용적 비용 측면에서는 오히려 더 유리한 선택이 될 수 있음을 실험적으로 입증한다.

(1) Image–Caption 데이터

Dataset	규모
DFN (Data Filtering Networks)	~2B image-caption pairs
COYO	~600M image-text pairs
HQITP (High-Quality Image-Text Pairs, private)	~400M pairs

(2) Interleaved Image–Text 데이터

Dataset	규모
Obelics	~141M documents

(3) Text-only 데이터 (이중 일부)

Dataset	규모
DCLM (Datacomp-LM)	~6.6T text tokens

Image-Caption : Interleaved : Text-only

45% : 45% : 10%

추가로 실험에서는 다음 mixture도 사용합니다:

40–20–40
30–30–40
20–40–40

mixture가 달라도 scaling law는 거의 동일하다는 것이 논문의 핵심 주장 중 하나

결론

항목	Scratch Multimodal	CPT
초기 모델	없음	pretrained LLM
text-only 학습	없음	2T tokens
multimodal 학습	200B ~ 1.4T tokens	200B ~ 1.4T tokens
multimodal 구성	45% caption / 45% interleaved / 10% text	동일
총 tokens	200B ~ 1.4T	2.2T ~ 3.4T

task	CPT advantage	scratch가 따라잡는 시점
image-caption	CPT가 초반 우세	<100B tokens면 거의 동일
interleaved	CPT 우세	~1T tokens 필요
text	CPT 우세	~1T tokens 필요

이 논문의 핵심 실험은 native multimodal training (scratch)과 LLM initialization 후 multimodal continual pretraining (CPT)을 비교하여, 두 접근이 성능과 학습 효율 측면에서 어떤 차이를 보이는지를 분석하는 것이다. 실험 결과에 따르면, LLM으로 초기화된 모델은 초기 학습 단계에서 더 낮은 validation loss를 보이며 빠르게 성능을 얻는다. 이는 이미 대규모 텍스트 데이터로 학습된 언어 능력이 있기 때문에 multimodal 데이터에 대한 학습을 시작할 때 유리한 출발점을 갖기 때문이다. 그러나 multimodal 학습을 계속 진행하면 scratch로 시작한 native multimodal 모델도 점차 성능 격차를 줄이며 결국 유사한 성능에 도달한다. 특히 image-caption 데이터에서는 약 100B multimodal tokens 이하의 학습만으로도 초기화 모델과 거의 동일한 수준의 성능을 달성할 수 있다. 반면 interleaved image-text 데이터나 text-only 데이터에서는 scratch 모델이 동일한 성능에 도달하기까지 더 많은 학습이 필요하며, 경우에 따라 약 1T tokens 수준의 multimodal 학습이 필요하다.

이 결과는 multimodal 모델 학습에서 LLM 초기화가 반드시 필요한 것은 아니라는 점을 보여준다. 충분히 큰 규모의 multimodal 데이터와 학습 시간이 제공된다면, 텍스트 LLM을 먼저 학습시키지 않고도 동일한 수준의 모델을 학습할 수 있다. 다만 학습 효율 측면에서는 차이가 존재한다. LLM 초기화 모델은 이미 언어 구조와 표현을 학습한 상태이기 때문에 상대적으로 적은 multimodal 데이터로도 높은 성능에 도달한다. 반대로 native multimodal 모델은 처음부터 모든 모달리티를 함께 학습해야 하므로 초기 학습 속도는 느리지만, 충분한 학습이 진행되면 동일한 성능 수준에 도달할 수 있다. 이러한 결과는 multimodal 모델 설계에서 “텍스트 LLM을 먼저 학습한 뒤 multimodal을 추가하는 방식”이 필수적인 설계가 아니라, 단지 데이터 효율성을 높이기 위한 전략일 뿐임을 시사한다.

성능비교: pretraining validation loss

Reference

https://arxiv.org/pdf/2504.07951

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-329, Scaling Laws for Native Multimodal Models, ICCV 2025

결론

댓글

댓글 쓰기