NL-319, BAGEL: Emerging Properties in Unified Multimodal Pretraining, Preprint 2025
Abstract
멀티모달 이해와 생성을 하나의 모델로 통합하려는 접근은 최신 상용 시스템에서 인상적인 성능을 보여주고 있다. 본 연구에서는 멀티모달 이해와 생성을 네이티브하게 지원하는 오픈소스 파운데이션 모델 BAGEL을 소개한다. BAGEL은 텍스트, 이미지, 비디오, 웹 데이터가 대규모로 상호 교차(interleaved)된 수조(trillions) 토큰 규모의 데이터로 사전학습된, 통합된 디코더 전용(unified, decoder-only) 모델이다. 이러한 다양한 멀티모달 인터리브 데이터를 대규모로 학습함으로써, BAGEL은 복잡한 멀티모달 추론에서 **출현적 능력(emerging capabilities)**을 보인다.
그 결과, 표준 벤치마크 전반에서 멀티모달 생성과 이해 모두에서 기존 오픈소스 통합 모델들을 크게 능가하며, 자유 형식 이미지 조작, 미래 프레임 예측, 3D 조작, 월드 내비게이션과 같은 고급 멀티모달 추론 능력도 보여준다. 멀티모달 연구의 추가적인 발전을 촉진하고자, 본 논문에서는 핵심 발견 사항과 사전학습 세부 내용, 데이터 생성 프로토콜을 공유하며, 코드와 체크포인트를 커뮤니티에 공개한다.
1 Introduction
통합된 멀티모달 이해와 생성(unified multimodal understanding and generation) 분야는 최근 큰 관심을 받고 있으며, 다수의 연구들 [57, 66, 68, 70, 73, 79, 83, 89]이 정교하게 설계된 통합 아키텍처를 통해 생성과 이해 벤치마크를 공동으로 최적화하는 데서 유망한 성과를 보여주고 있다. 일부 연구 [1, 11, 70]는 이러한 통합 모델의 스케일을 확장하려는 시도를 하고 있으나, 여전히 주된 학습 데이터는 표준적인 이미지 생성·이해 과제에서 사용되는 이미지–텍스트 쌍 데이터에 주로 기반한다. 최근 연구 [10]는 학계 모델과 GPT-4o 및 Gemini 2.0 같은 상용 시스템 사이에 통합 멀티모달 이해 및 생성 능력에서 상당한 격차가 존재함을 보여주었는데, 이들 시스템의 기반 기술은 공개되어 있지 않다. 우리는 이 격차를 좁히는 핵심이 텍스트, 이미지, 비디오, 웹 소스를 통합하는 **정교하게 구조화된 멀티모달 인터리브 데이터(multimodal interleaved data)**로 스케일링하는 데 있다고 주장한다. 우리의 실험은 인터리브 멀티모달 사전학습이 확장됨에 따라 출현적 특성이 나타남을 보여준다. 기본적인 멀티모달 이해·생성 능력을 강화하는 것을 넘어, 이러한 스케일링은 자유 형식 시각 조작(free-form visual manipulation)과 장문 컨텍스트 추론을 수반한 멀티모달 생성 같은 복잡한 조합적 능력(compositional abilities)까지 가능하게 하며, 폭넓은 고급 기능으로의 길을 연다.
이 비전을 실현하기 위해, 우리는 고품질 멀티모달 인터리브 데이터를 대규모로 **소싱(sourcing)**하고 **필터링(filtering)**하며 **구성(construction)**하기 위한 새로운 프로토콜을 수립했다.
- 웹 소스뿐 아니라, 픽셀 수준·개념 수준·시간적·물리적 연속성을 자연스럽게 제공하는 비디오 데이터도 포함했는데,
- 이는 대규모로 현실에 기반한(world-grounded) 지식을 획득하는 데 필수적인 독자적 신호를 제공한다.
- 또한 우리의 인터리브 형식은 멀티모달 대화, 텍스트-투-이미지/비디오, 이미지 조작과 같은 과제들을 본질적으로 포함하므로, 다양한 생성 데이터를 매끄럽게 통합할 수 있다.
DeepSeek-R1 [26]에서 영감을 받아, 우리는 멀티모달 추론을 촉진하기 위해 추론 지향(reasoning-oriented) 콘텐츠로 인터리브 데이터를 추가로 풍부화했으며, 이를 통해 이해와 생성 과정 사이에서 지식이 자연스럽게 전이되도록 했다. 그 결과, 큐레이션된 데이터는 풍부한 세계 지식과 정교한 교차-모달 상호작용 콘텐츠를 포착하며, 모델이 인컨텍스트 예측(in-context prediction), 월드 모델링(world modeling), 복잡한 멀티모달 추론을 수행하는 데 필요한 파운데이션 역량을 갖추도록 한다.
아키텍처 설계 측면에서, 우리의 주요 목표는 기존 모델들이 흔히 사용하는 휴리스틱한 병목(heuristic bottleneck)이나 과제 특화 제약(task-specific constraint)을 도입하지 않으면서 모델의 용량(capacity)을 최대화하는 것이다.
이러한 설계 철학에 따라, 우리는 모달리티별 파라미터를 선택적으로 활성화하는 Mixture-of-Transformer-Experts (MoT) 아키텍처를 채택한다.
이미 이런 연구가 있군?
일부 선행 연구들 [18, 57, 69, 73]이 생성 모듈과 이해 모듈 사이에 병목 커넥터(bottleneck connector)를 도입한 것과 달리, 우리의 설계는 공유 self-attention 연산을 통해 멀티모달 이해와 생성 간 **장문 컨텍스트 상호작용(long-context interaction)**이 가능하도록 한다. 이 병목 없는 설계는 학습 데이터와 학습 스텝을 효과적으로 스케일링할 수 있게 하며, 아키텍처적 제약 때문에 모델의 잠재 신호가 방해받거나 가려지지 않고 온전히 드러나도록 한다.
우리는 대규모 인터리브 멀티모달 데이터로 학습한, 활성(active) 파라미터 7B(총 14B) 규모의 오픈소스 멀티모달 파운데이션 모델 **Scalable Generative Cognitive Model (BAGEL)**을 제시한다. BAGEL은 표준 멀티모달 이해 리더보드에서 현재 최상위 오픈소스 VLM들 [4, 12]을 능가하며, 텍스트-투-이미지 품질은 SD3 [19], FLUX.1-dev [35] 같은 선도적인 공개 생성기들과 경쟁적이다. 또한 BAGEL은 고전적인 이미지 편집 시나리오에서 선도 오픈소스 모델들보다 일관되게 더 우수한 정성적 결과를 보여준다. 더 중요한 점은, BAGEL이 자유 형식 시각 조작, 멀티뷰 합성(multiview synthesis), 월드 내비게이션(world navigation)으로까지 확장된다는 사실인데, 이는 기존 이미지 편집 모델의 범위를 넘어서는 “월드 모델링(world-modeling)” 과제에 해당한다. 우리는 Figure 1에서 이러한 정성적 성능을 제시한다.
BAGEL을 인터리브 멀티모달 사전학습으로 스케일링할 때,
- 우리는 뚜렷한 출현 패턴을 관찰한다. 먼저 기본적인 멀티모달 이해와 고충실도(high-fidelity) 생성이 먼저 수렴하고,
- 다음으로 복잡한 편집 및 자유 형식 시각 조작 능력이 나타나며,
- 마지막으로 장문 컨텍스트 추론이 멀티모달 이해·생성 모두에 이득을 주기 시작한다.
이는 이전에는 서로 독립적인 원자적 기술(atomic skills)이 모달리티 간 조합적 추론(compositional reasoning)으로 시너지를 내며 결합될 수 있음을 시사한다. 이러한 출현 능력은 공개 벤치마크들로도 뒷받침되지만, 우리가 제안하는 IntelligentBench에서 더 뚜렷하게 드러나며, 추가로 정성적 관찰을 통해서도 검증된다. 이러한 관찰은 이해와 생성의 최적화 지형(optimization landscape)이 부분적으로는 분리되어 있을지라도, 단일 트랜스포머 모델 안에서 공유 self-attention 컨텍스트를 통해 함께 탐색될 수 있음을 보여주며, 오픈소스 시스템에서도 풍부한 스펙트럼의 능력을 산출할 수 있음을 시사한다.
2 Model
Figure 2에 나타난 바와 같이, BAGEL은 두 개의 트랜스포머 전문가(transformer expert)—하나는 멀티모달 이해에 특화되고, 다른 하나는 멀티모달 생성에 특화된—로 구성된 Mixture-of-Transformers (MoT) 아키텍처를 채택한다. 이에 따라 모델은 두 개의 서로 다른 시각 인코더를 사용한다. 하나는 이해 지향 인코더이고, 다른 하나는 생성 지향 인코더이다. 이 두 트랜스포머 전문가는 모든 레이어에서 공유된 self-attention 연산을 통해 동일한 토큰 시퀀스를 처리한다.
텍스트 토큰을 예측할 때 BAGEL은 자동회귀 언어 모델의 강점을 계승하는 다음 토큰 예측(Next-Token Prediction) 패러다임을 따른다. 반면 시각 토큰 예측에서는 시각 생성 분야의 모범 사례에 따라 Rectified Flow [19, 41, 45] 방법을 채택한다. 본 절의 나머지 부분에서는 이러한 설계 선택을 형성한 통찰과 동기를 공유한다.
Rectified Flow가 뭐지?
2.1 Model Design Space
통합 멀티모달 생성 및 이해 모델을 설계할 때 일반적으로 고려되는 선택지는 다음과 같다.
Quantized Autoregressive 모델.
이 계열의 방법 [11, 48, 59, 70, 79, 83–85, 90]은 이산 시각 토크나이저 [31, 36, 51, 94]를 사용하여 **자동회귀적 시각 생성(autoregressive visual generation)**을 수행한다. 이 접근법은 텍스트와 시각 토큰 모두에 대해 다음 토큰 예측 패러다임을 활용하므로, 기존 LLM 인프라를 그대로 사용할 수 있어 구현이 비교적 단순하다. 그러나 경험적으로 자동회귀 모델의 시각 생성 품질은 확산(diffusion) 기반 모델보다 열등하다. 또한 자동회귀 방식의 순차적 특성으로 인해 추론 지연(latency) 역시 증가한다.
External Diffuser 방식.
이 설계는 LLM 백본을 외부 확산(diffusion) 모듈과 결합하는 접근법이다 [18, 23, 57, 69, 73]. 일반적으로 사전학습된 LLM/VLM을 경량의 학습 가능한 어댑터를 통해 확산 모델과 연결한다. 언어 백본은 자동회귀적으로 잠재 토큰(latent token) 집합을 “의미적 조건(semantic condition)” 신호로 생성하고, 확산 모듈은 이를 조건으로 삼아 이미지를 생성한다. 이 구조는 데이터 소모가 적고 빠르게 수렴하며, 기존 벤치마크에서 경쟁력 있는 성능을 보이기도 한다 [57]. 그러나 LLM의 컨텍스트가 상대적으로 소수의 잠재 토큰으로 압축되기 때문에, 이해 모듈과 생성 모듈 사이에 **명시적인 병목(bottleneck)**이 발생한다는 단점이 있다. 이는 특히 장문 컨텍스트 멀티모달 추론에서 심각한 정보 손실을 초래할 수 있으며, 대규모 파운데이션 모델의 스케일링 철학과도 상충될 수 있다.
Integrated Transformer 방식.
이 접근법은 LLM과 확산 모델을 단일 트랜스포머 내부에 통합하는 방식이다 [40, 50, 66, 104]. 자동회귀 트랜스포머의 강력한 이해·추론 능력과 확산 트랜스포머의 우수한 시각 생성 능력을 결합하여, 동일한 모델 아키텍처 내에서 두 패러다임을 자유롭게 전환할 수 있도록 한다. External Diffuser 방식에 비해 학습에 훨씬 더 많은 계산 자원이 필요하지만, 모든 트랜스포머 블록 전반에 걸쳐 **병목 없는 컨텍스트(bottleneck-free context)**를 유지할 수 있다는 결정적인 장점이 있다. 이는 생성과 이해 모듈 간의 정보 손실 없는 상호작용을 가능하게 하며, 대규모 스케일링에 더욱 적합하다.
본 연구에서는 통합 모델이 대규모 멀티모달 인터리브 데이터로부터 기존 벤치마크로는 포착되지 않는 보다 풍부한 멀티모달 능력을 학습할 수 있다고 주장한다. 이를 위해 우리는 병목이 없는 Integrated Transformer 설계를 선택했으며, 이 설계가 장문 컨텍스트 멀티모달 추론뿐 아니라 강화학습까지 아우르는 파운데이션 모델로서 더 큰 잠재력을 가진다고 본다.
2.2 Architecture
우리의 백본 모델은 decoder-only Transformer 구조를 갖는 LLM에서 출발한다. 초기화 모델로는 Qwen2.5 LLM을 선택했는데, 이는 우수한 성능과 공개 가용성을 모두 갖추고 있기 때문이다. 해당 모델은 정규화로 RMSNorm, 활성화 함수로 SwiGLU, 위치 인코딩으로 RoPE, 그리고 KV 캐시 비용을 줄이기 위해 GQA를 사용한다. 또한 이미지·비디오 생성 모델에서의 일반적인 관행을 따라, 각 attention 블록에 QK-Norm을 추가하였으며, 이는 학습 안정성에 효과적인 것으로 알려져 있다.
시각 정보는 두 가지 측면에서 표현된다.
**시각적 이해(visual understanding)**를 위해, 원본 픽셀을 토큰으로 변환하는 ViT 인코더를 사용한다. 우리는 SigLIP2-so400m/14 모델을 초기화로 채택하고, 입력 해상도는 고정된 384로 설정한다. 이후 위치 임베딩을 보간하여 최대 입력 크기를 980×980으로 확장하고, 이미지의 원래 종횡비를 유지한 채 처리할 수 있도록 NaViT를 통합한다. ViT 토큰의 특징 차원과 LLM의 hidden state 차원을 맞추기 위해 2-layer MLP 커넥터를 사용한다.
**시각적 생성(visual generation)**을 위해, FLUX에서 제공하는 사전학습된 VAE 모델을 사용하여 이미지를 픽셀 공간과 latent 공간 사이에서 변환한다. 이 latent 표현은 다운샘플 비율 8, 채널 수 16을 가지며, 이후 2×2 patch embedding layer를 통해 공간 해상도를 줄이고 LLM 백본의 hidden dimension과 정렬한다. VAE 모델은 학습 과정 동안 고정(frozen) 된다.
본 프레임워크에서는 ViT 토큰과 VAE 토큰 모두에 대해, LLM 백본에 통합되기 전에 2D positional encoding을 적용한다. 확산(diffusion) 타임스텝 인코딩의 경우, 기존 diffusion transformer에서 흔히 사용되는 AdaLN 대신, 선행 연구를 따라 VAE 토큰의 초기 hidden state에 timestep embedding을 직접 더하는 방식을 사용한다. 이 변경은 성능을 유지하면서도 아키텍처를 보다 간결하게 만든다.
LLM 내부에서는 텍스트 토큰, ViT 토큰, VAE 토큰이 입력의 모달 구조에 따라 interleaving되어 처리된다. 동일한 샘플에 속한 토큰들에 대해서는 일반화된 causal attention 메커니즘을 적용한다. 구체적으로, 토큰들은 단일 모달리티(예: 텍스트, ViT, VAE)로 구성된 여러 개의 연속된 split으로 나뉘며, 한 split의 토큰은 그 이전 split들의 모든 토큰에 attention할 수 있다. 각 split 내부에서는 텍스트 토큰에는 causal attention을 적용하고, 시각 토큰에는 bidirectional attention을 유지한다.
인터리빙: [Text] [ViT] [Text] [VAE] [Text] [VAE] ...
2.3 Generalized Causal Attention
학습 과정에서, 하나의 interleaved 멀티모달 생성 샘플은 여러 장의 이미지를 포함할 수 있다. 각 이미지에 대해 우리는 다음의 세 종류의 시각 토큰을 준비한다.
Noised VAE 토큰:
확산 노이즈가 주입된 VAE latent로, Rectified Flow 학습에만 사용된다. MSE 손실은 이 토큰들에 대해서만 계산된다.Clean VAE 토큰:
노이즈가 없는 원본 latent로, 이후 이미지 또는 텍스트 토큰을 생성할 때 조건(conditioning) 으로 사용된다.ViT 토큰:
SigLIP2 인코더로부터 얻은 토큰으로, interleaved 생성 데이터와 이해 데이터를 입력 형식 측면에서 통일하는 역할을 하며, 경험적으로 interleaved 생성 품질을 향상시키는 데 기여한다.
Interleaved 생성에서의 attention 규칙
interleaved 이미지 생성 또는 텍스트 생성 과정에서, 이후에 생성되는 이미지 토큰이나 텍스트 토큰은 이전 이미지들의 clean VAE 토큰과 ViT 토큰에는 attention할 수 있지만, noised VAE 토큰에는 attention할 수 없다.
정리하면
- 이미지 에디팅 테스크라고 해보자.
- 그러면 테스크의 데이터로 입력=(텍스트, 원본이미지) 출력=(바뀔이미지)가 세팅되어 있을 것
- 입력으로는 텍스트 토큰 임베딩과 원본이미지의 ViT continuous embedding, VAE continuous embedding이 들어가는 형태.
- 이건 인터리빙으로 (VIT 임베딩, VAE 임베딩, 텍스트 토큰 임베딩) 이렇게 들어가고 출력은 next token prediction이 아닌 Diffusion 예측 방식으로 진행
- 인터리빙 순서는 고정된건 아님
- 좀 더 자세히 보면
- [v_src, a_src, t, a_tgt(noise)]가 입력 형태이고
- a_tgt(noise)가 a_tgt가 되도록 학습되는 것이고, 이 과정을 Rectified flow 방식을 따른다고 함
- 테스트할때에는 a_tgt(noise)을 모르니 pure noise을 넣어줘서 이미지 생성하는 방식
- attention
- a_tgt끼리는 attention이 안걸리고, 앞의 정보들은 attention 걸리는 식
다중 이미지 생성 (multi-image generation)
interleaved 다중 이미지 생성을 위해, 우리는 diffusion forcing 전략을 사용한다.
이 전략에서는 서로 다른 이미지에 독립적인 노이즈 레벨을 부여하고, 각 이미지를 이전 이미지들의 noisy 표현에 조건부로 생성한다.
또한 생성 일관성을 높이기 위해, 선행 연구를 따라 연속된 이미지들을 무작위로 그룹화하고, 각 그룹 내부에서는 완전한 attention(full attention) 을 적용한다. 이때, 하나의 그룹 내부에서는 동일한 노이즈 레벨을 사용한다.
구현 및 추론 시 최적화
우리는 PyTorch의 FlexAttention을 사용하여 일반화된 causal attention을 구현했으며,
단순한 scaled dot-product attention 대비 약 2배의 속도 향상을 달성했다.
추론 시에는, 이 generalized causal 구조 덕분에 생성된 멀티모달 컨텍스트의 key–value(KV) 쌍을 캐시할 수 있어 멀티모달 디코딩을 가속할 수 있다. 이때 캐시되는 것은 clean VAE 토큰과 ViT 토큰의 KV 쌍만이다.
하나의 이미지 생성이 완료되면, 컨텍스트에 남아 있던 해당 이미지의 noised VAE 토큰은 clean VAE 토큰으로 대체된다.
Classifier-Free Guidance
interleaved 추론 과정에서 classifier-free guidance를 가능하게 하기 위해, 우리는 다음 확률로 토큰을 무작위로 제거(drop)한다.
텍스트 토큰: 0.1
ViT 토큰: 0.5
Clean VAE 토큰: 0.1
일반화된 causal attention의 구조에 대한 도식은 Figure 15에 제시되어 있다.
2.4 Transformer 설계
Integrated Transformer 설계 원칙에 따라, 우리는 여러 가지 트랜스포머 변형을 비교한다. 구체적으로 표준 Dense Transformer, Mixture-of-Experts(MoE) Transformer, 그리고 Mixture-of-Transformers(MoT) 아키텍처를 비교 대상으로 삼았다.
MoE 변형: 각 Qwen2.5 LLM 블록에서 피드포워드 네트워크(FFN) 만을 복제하여 생성(expert) 전문가를 초기화한다.
MoT 변형: Qwen2.5 LLM의 모든 학습 가능한 파라미터를 복제하여 완전한 크기의 생성 전문가를 구성한다. 이러한 유형의 아키텍처는 기존 연구들에서도 채택된 바 있다.
본 모델에서 사용한 MoE와 MoT 모두 하드 라우팅(hard routing) 을 적용한다. 즉, 새로 복제된 생성 전문가는 VAE 토큰만을 전담 처리하고, 원래의 파라미터—즉, 이해(understanding) 전문가는 텍스트 및 ViT 토큰을 처리한다. 이는 Qwen-VL 계열에서 사용된 전략을 따른 것이다.
MoE와 MoT 아키텍처는 Dense 기준선(dense baseline)에 비해 총 파라미터 수를 약 두 배로 증가시키지만, 훈련과 추론 시의 FLOPs는 세 모델 모두 동일하도록 유지된다.
우리는 트랜스포머 아키텍처 자체의 효과만을 분리해 평가하기 위해, 1.5B 규모의 Qwen-2.5 LLM을 대상으로 동일한 하이퍼파라미터와 데이터 설정을 유지한 채 통제 실험을 수행하였다.
Figure 3에서 보이듯이, MoT 변형은 Dense 및 MoE 설계 모두를 일관되게 상회하며, 그 격차는 특히 멀티모달 생성 작업에서 가장 두드러진다.
생성 성능을 나타내는 MSE 손실은 부드럽고 단조 감소하는 경향을 보이는데, MoT는 가장 빠르게 수렴할 뿐 아니라 최종 손실 값도 가장 낮다. 반면, 이해 성능을 나타내는 CE 손실은 이질적인 데이터가 인터리브(interleave)되어 학습되는 특성상 스텝 간 변동이 더 크지만, 그럼에도 불구하고 MoT가 전반적으로 가장 우수한 성능을 유지한다.
이러한 결과는 생성을 담당하는 파라미터와 이해를 담당하는 파라미터를 분리하는 것이 명확한 이점을 가진다는 점을 보여준다. 이는 두 목적(이해와 생성)이 서로 다른 파라미터 공간의 영역으로 모델을 유도할 가능성이 있음을 시사하며—적어도 여기서 검증한 1.5B 스케일에서는 그러하다. 요약하면, 멀티모달 이해와 생성을 위해 별도의 모델 용량을 할당하는 전략은, 서로 경쟁하는 모달리티 특화 학습 목표로 인해 발생하는 최적화 상의 충돌을 완화할 수 있다.
3 Data
데이터는 대규모 파운데이션 모델의 지식 경계를 규정한다. BAGEL은 언어, 이미지, 비디오, 웹 데이터를 포함하는 다양한 모달리티의 데이터셋으로 학습되었으며, 이를 통해 멀티모달 추론, 컨텍스트 내 예측(in-context prediction), 물리적 동역학 모델링, 미래 프레임 예측 등을 하나의 통합된 멀티모달 인터페이스를 통해 수행할 수 있다.
표준 비전–언어 모델(VLM), 텍스트-투-이미지(T2I), 대규모 언어 모델(LLM) 데이터셋에 더해, 우리는 웹 및 비디오 소스에서 새롭게 구축한 비전–텍스트 인터리브 데이터셋을 포함시켜, 모델의 순차적 멀티모달 추론 능력을 한층 강화하였다.
표 1에서는 모달리티별 학습 데이터의 규모와 구성 비율을 요약한다. 이후 절들에서는 데이터 소스, 준비(전처리) 프로토콜, 그리고 데이터 혼합 전략을 상세히 설명한다.
3.1 Text Only Data
기반 LLM의 언어 모델링 능력을 유지하기 위해, 우리는 학습 코퍼스에 고품질 텍스트 단일 모달 데이터를 추가로 포함시킨다. 이 데이터는 광범위한 언어적 범위를 지원하도록 선별되었으며, 일반 목적 텍스트 과제 전반에서 강력한 추론 및 생성 능력을 발휘할 수 있도록 구성되었다.
Reference














댓글
댓글 쓰기