NL-329, Scaling Laws for Native Multimodal Models, ICCV 2025
이 논문에서 다루는 기본 설정을 먼저 정리하면, 텍스트 토크나이저는 존재하지만 이미지 토크나이저는 존재하지 않는다는 점이 핵심이다. 텍스트는 일반적인 LLM에서 사용하는 것과 동일한 서브워드 기반 토크나이저를 통해 이산 토큰으로 변환된다. 반면 이미지는 VQ-VAE나 VQGAN처럼 이미지를 이산 토큰으로 바꾸는 이미지 토크나이저를 사용하지 않는다. 대신 이미지를 일정 크기의 패치로 나눈 뒤, 각 패치를 연속적인 벡터로 변환하고 단순한 선형 변환(linear projection)을 통해 Transformer의 hidden dimension에 맞춘다.
이 모델은 Native Multimodal Model(NMM)로 정의되며, 텍스트와 이미지를 모두 처음부터 함께 학습한다. 즉, 사전학습된 LLM이나 사전학습된 비전 인코더, 이미지 토크나이저를 가져다 쓰지 않는다. 고정되어 있는 것은 텍스트 토크나이저뿐이며, 나머지 파라미터들은 멀티모달 데이터(텍스트, 이미지 캡션, 인터리브 문서)를 통해 end-to-end로 공동 학습된다. 이런 의미에서 텍스트와 이미지 모듈이 “각각 따로 학습된 상태”로 결합되는 구조는 아니다.
학습 목표는 autoregressive next token prediction이다. 다만 여기서 “token”은 출력 기준으로만 텍스트 토큰을 의미한다. 모델은 텍스트 토큰과 이미지 패치 임베딩을 입력으로 받아, 다음 텍스트 토큰을 예측하도록 학습된다. 이미지는 조건 정보로만 사용되며, 이 논문에서의 NMM은 이미지를 생성하지 않는다. 손실 함수 역시 텍스트에 대한 cross-entropy loss 하나뿐이다.
논문에서 말하는 Early fusion은 “각각 독립적으로 학습된 토크나이저를 활용한다”는 의미가 아니다. Early fusion이란 텍스트 토큰 임베딩과 이미지 패치 임베딩을 Transformer의 입력 단계에서 바로 결합하여 하나의 동일한 Transformer 디코더로 처리하는 구조를 의미한다. 이미지 쪽에는 패치화와 선형 투영 외에 별도의 깊은 전용 네트워크가 없으며, Transformer의 가장 초기 레이어부터 텍스트와 이미지 간 상호작용이 가능하다.
반면 Late fusion은 이미지와 텍스트를 구조적으로 분리해 처리한다. 이미지는 전용 비전 인코더(예: ViT 구조)를 통해 고수준 표현으로 변환되고, 텍스트는 별도의 디코더에서 처리된다. 두 모달리티의 결합은 비전 인코더 이후, 즉 Transformer의 더 깊은 단계에서 이루어진다. 이 논문에서는 late fusion 역시 from-scratch로 학습하지만, 구조적으로 모달리티 전용 파라미터가 분리되어 있다는 점에서 early fusion과 대비된다.
정리하면, 이 논문에서의 멀티모달 학습은 “텍스트는 이산 토큰, 이미지는 연속 임베딩”이라는 입력 비대칭성을 유지한 채, 출력은 항상 텍스트 next-token prediction으로 통일되어 있다. Early fusion은 이 두 입력을 초기에 하나의 Transformer로 통합하는 방식이고, Late fusion은 모달리티별 인코더를 거친 뒤 늦게 결합하는 방식이다. 핵심적으로, early fusion은 “토크나이저를 나눠 쓰는 방식”이 아니라 “모달리티를 언제, 어디서 섞느냐”에 대한 구조적 선택이다.
대규모 스케일링 실험 결과, early fusion과 late fusion은 동일한 FLOPs 기준에서 거의 동일한 성능 스케일링을 보였다. 최종 validation loss는 두 구조 모두 에 가까운 지수로 감소하며, late fusion이 본질적으로 더 우수하다는 증거는 발견되지 않았다. 오히려 작은 모델 크기나 낮은 compute 예산에서는 early fusion이 일관되게 더 낮은 loss를 보였다.
또한 compute-optimal 관점에서 두 구조는 중요한 차이를 보였다. 동일한 성능을 달성하기 위해 late fusion 모델은 더 많은 파라미터 수를 필요로 하는 반면, early fusion 모델은 상대적으로 적은 파라미터와 더 많은 학습 토큰을 활용하는 방향으로 최적화된다. 그 결과 early fusion은 학습 시 메모리 사용량이 더 적고, 학습 속도가 빠르며, 추론 시에도 파라미터 수가 적어 서빙 비용 측면에서 유리하다.
논문은 여기에 더해 early fusion 구조에 Mixture of Experts(MoE)를 도입했을 때의 효과도 분석한다. Early-fusion MoE 모델은 동일한 inference cost(활성 파라미터 수)를 기준으로 dense 모델보다 일관되게 더 낮은 loss를 달성했으며, 특히 작은 모델 크기에서 그 이점이 두드러졌다. MoE 내부에서는 명시적인 규칙 없이도 전문가들이 자연스럽게 텍스트와 이미지 모달리티에 특화되는 현상이 관찰되었고, 이는 멀티모달 데이터의 이질성을 효과적으로 처리할 수 있음을 시사한다.
종합하면, 이 논문의 결과는 멀티모달 모델에서 흔히 가정되는 “비전 인코더 + LLM” 형태의 late fusion이 필수적이지 않음을 보여준다. 이미지 토크나이저 없이 연속 임베딩을 사용하는 early-fusion 구조도 텍스트 기반 next-token prediction만으로 충분히 경쟁력 있는 멀티모달 표현을 학습할 수 있으며, 스케일링 효율과 실용적 비용 측면에서는 오히려 더 유리한 선택이 될 수 있음을 실험적으로 입증한다.
Reference
댓글
댓글 쓰기