◼ Comment

일단 이해하기 어려운 내용이 많았다.
하나씩 큰 그림을 잡아보면

모델 전체적인 구조는 그림2와 같다. 모델은 비전-언어 모델이라고 보면됨 (비전이해, 비전생성이 중심)
Understanding 쪽보면, Text tokenizer, Understanding Encoder가 들어간다고 한다.

텍스트는 일반적으로 쓰이는 텍스트 토큰으로 나눠서, 임베딩 태우는 것이고
비전 Understanding은 ViT에서 뽑은 continuous embedding을 말한다.

Generation 쪽 보면, Generation Encoder가 들어간다고 한다.

이거는 VAE에서 뽑은 continuous embedding을 말한다.
VAE embedding으로부터 벡터 필드를 예측해서, 이미지를 생성하는 구조라고 보면 됨

테스크 별로 나눠보면

이미지 이해 테스크

여기서는, text tokenizer (Qwen2.5 LLM 토큰)와
ViT embedding을 (Vision → SigLIP2 ViT → MLP connector → LLM hidden dim) 사용한다고 보면된다.
이 둘을 concat하여 학습하는 식이라고 보면 됨

이미지 생성 테스크

논문에서 강조하는 것은, 이쪽이라고 보면 되는 듯
여기서는, text tokenizer, ViT embedding을 그대로 쓰고
VAE embedding이 (Vision → FLUX VAE encoder → latent → patch embedding → LLM hidden dim)가 추가적으로 들어간다고 보면 된다.
생성쪽이 디퓨젼 구조라고 보면되는데 (정확히는 rectified flow), VAE embedding을 초기 샘플링 분포이고 text tokenizer, ViT embedding을 조건으로 보면서 최종 이미지를 샘플링하는 구조이다.
VAE-only vs VAE+ViT 비교 시, 지능적 편집(Intelligent Editing)에서 큰 차이가 난다고 리포트 됨
여기서 VAE는 FLUX에서 사전학습된 VAE를 그대로 사용

인코더쪽에서 가우시안 샘플링으로 초기 임베딩 분포를 샘플링하는 것 같음

timestep embedding도 있다고 함
어텐션이 어케걸리지는지는 그림 15보면 자세히 나와있음
학습 데이터

테이블 1보면 나와있는데, 5T 정도 되는 것으로 보이고 (중복이 있긴 함)
열심히 데이터 만들었다고 하는듯
학습 비율도 generation : understanding ≈ 4 : 1로 설정됨 (§4.1)

학습 순서

학습백본: Qwen2.5-1.5B / Qwen2.5-7B
테이블 3보면 나와 있는데
이미지 캡셔닝으로 SigLIP ViT와 Qwen2.5 LLM 정렬하는 MLP 학습
PT: 인터리브 포함 다양한 데이터 2.5T로 전체 파라미터 학습 (VAE만 제외)
CT: PT에 비해 시각적 해상도를 높인 차이. 인터리브드 데이터 비율을 좀 더 높힘. 총 학습 2.6T
SFT: 고품질 서브셋과(이건 그럼 중복인가?) 외부 데이터 SFT 필터링된 부분으로 학습.
이런 순서로 보면 되는 듯

하이퍼파라미터

스케일링 느낌으로다가 4.1에서 데이터 샘플링 비율
4.2에서 learning rate을 찾는 과정이 있는 듯

여기서 백그라운드를 집고 가면

MoT는 무엇인가?
Rectified Flow는 무엇인가?

Abstract

멀티모달 이해와 생성을 하나의 모델로 통합하려는 접근은 최신 상용 시스템에서 인상적인 성능을 보여주고 있다. 본 연구에서는 멀티모달 이해와 생성을 네이티브하게 지원하는 오픈소스 파운데이션 모델 BAGEL을 소개한다. BAGEL은 텍스트, 이미지, 비디오, 웹 데이터가 대규모로 상호 교차(interleaved)된 수조(trillions) 토큰 규모의 데이터로 사전학습된, 통합된 디코더 전용(unified, decoder-only) 모델이다. 이러한 다양한 멀티모달 인터리브 데이터를 대규모로 학습함으로써, BAGEL은 복잡한 멀티모달 추론에서 **출현적 능력(emerging capabilities)**을 보인다.

그 결과, 표준 벤치마크 전반에서 멀티모달 생성과 이해 모두에서 기존 오픈소스 통합 모델들을 크게 능가하며, 자유 형식 이미지 조작, 미래 프레임 예측, 3D 조작, 월드 내비게이션과 같은 고급 멀티모달 추론 능력도 보여준다. 멀티모달 연구의 추가적인 발전을 촉진하고자, 본 논문에서는 핵심 발견 사항과 사전학습 세부 내용, 데이터 생성 프로토콜을 공유하며, 코드와 체크포인트를 커뮤니티에 공개한다.

1 Introduction

통합된 멀티모달 이해와 생성(unified multimodal understanding and generation) 분야는 최근 큰 관심을 받고 있으며, 다수의 연구들 [57, 66, 68, 70, 73, 79, 83, 89]이 정교하게 설계된 통합 아키텍처를 통해 생성과 이해 벤치마크를 공동으로 최적화하는 데서 유망한 성과를 보여주고 있다. 일부 연구 [1, 11, 70]는 이러한 통합 모델의 스케일을 확장하려는 시도를 하고 있으나, 여전히 주된 학습 데이터는 표준적인 이미지 생성·이해 과제에서 사용되는 이미지–텍스트 쌍 데이터에 주로 기반한다. 최근 연구 [10]는 학계 모델과 GPT-4o 및 Gemini 2.0 같은 상용 시스템 사이에 통합 멀티모달 이해 및 생성 능력에서 상당한 격차가 존재함을 보여주었는데, 이들 시스템의 기반 기술은 공개되어 있지 않다. 우리는 이 격차를 좁히는 핵심이 텍스트, 이미지, 비디오, 웹 소스를 통합하는 **정교하게 구조화된 멀티모달 인터리브 데이터(multimodal interleaved data)**로 스케일링하는 데 있다고 주장한다. 우리의 실험은 인터리브 멀티모달 사전학습이 확장됨에 따라 출현적 특성이 나타남을 보여준다. 기본적인 멀티모달 이해·생성 능력을 강화하는 것을 넘어, 이러한 스케일링은 자유 형식 시각 조작(free-form visual manipulation)과 장문 컨텍스트 추론을 수반한 멀티모달 생성 같은 복잡한 조합적 능력(compositional abilities)까지 가능하게 하며, 폭넓은 고급 기능으로의 길을 연다.

이 비전을 실현하기 위해, 우리는 고품질 멀티모달 인터리브 데이터를 대규모로 **소싱(sourcing)**하고 **필터링(filtering)**하며 **구성(construction)**하기 위한 새로운 프로토콜을 수립했다.

웹 소스뿐 아니라, 픽셀 수준·개념 수준·시간적·물리적 연속성을 자연스럽게 제공하는 비디오 데이터도 포함했는데,
이는 대규모로 현실에 기반한(world-grounded) 지식을 획득하는 데 필수적인 독자적 신호를 제공한다.
또한 우리의 인터리브 형식은 멀티모달 대화, 텍스트-투-이미지/비디오, 이미지 조작과 같은 과제들을 본질적으로 포함하므로, 다양한 생성 데이터를 매끄럽게 통합할 수 있다.

DeepSeek-R1 [26]에서 영감을 받아, 우리는 멀티모달 추론을 촉진하기 위해 추론 지향(reasoning-oriented) 콘텐츠로 인터리브 데이터를 추가로 풍부화했으며, 이를 통해 이해와 생성 과정 사이에서 지식이 자연스럽게 전이되도록 했다. 그 결과, 큐레이션된 데이터는 풍부한 세계 지식과 정교한 교차-모달 상호작용 콘텐츠를 포착하며, 모델이 인컨텍스트 예측(in-context prediction), 월드 모델링(world modeling), 복잡한 멀티모달 추론을 수행하는 데 필요한 파운데이션 역량을 갖추도록 한다.

아키텍처 설계 측면에서, 우리의 주요 목표는 기존 모델들이 흔히 사용하는 휴리스틱한 병목(heuristic bottleneck)이나 과제 특화 제약(task-specific constraint)을 도입하지 않으면서 모델의 용량(capacity)을 최대화하는 것이다.

이러한 설계 철학에 따라, 우리는 모달리티별 파라미터를 선택적으로 활성화하는 Mixture-of-Transformer-Experts (MoT) 아키텍처를 채택한다.

이미 이런 연구가 있군?

일부 선행 연구들 [18, 57, 69, 73]이 생성 모듈과 이해 모듈 사이에 병목 커넥터(bottleneck connector)를 도입한 것과 달리, 우리의 설계는 공유 self-attention 연산을 통해 멀티모달 이해와 생성 간 **장문 컨텍스트 상호작용(long-context interaction)**이 가능하도록 한다. 이 병목 없는 설계는 학습 데이터와 학습 스텝을 효과적으로 스케일링할 수 있게 하며, 아키텍처적 제약 때문에 모델의 잠재 신호가 방해받거나 가려지지 않고 온전히 드러나도록 한다.

우리는 대규모 인터리브 멀티모달 데이터로 학습한, 활성(active) 파라미터 7B(총 14B) 규모의 오픈소스 멀티모달 파운데이션 모델 **Scalable Generative Cognitive Model (BAGEL)**을 제시한다. BAGEL은 표준 멀티모달 이해 리더보드에서 현재 최상위 오픈소스 VLM들 [4, 12]을 능가하며, 텍스트-투-이미지 품질은 SD3 [19], FLUX.1-dev [35] 같은 선도적인 공개 생성기들과 경쟁적이다. 또한 BAGEL은 고전적인 이미지 편집 시나리오에서 선도 오픈소스 모델들보다 일관되게 더 우수한 정성적 결과를 보여준다. 더 중요한 점은, BAGEL이 자유 형식 시각 조작, 멀티뷰 합성(multiview synthesis), 월드 내비게이션(world navigation)으로까지 확장된다는 사실인데, 이는 기존 이미지 편집 모델의 범위를 넘어서는 “월드 모델링(world-modeling)” 과제에 해당한다. 우리는 Figure 1에서 이러한 정성적 성능을 제시한다.

BAGEL을 인터리브 멀티모달 사전학습으로 스케일링할 때,

우리는 뚜렷한 출현 패턴을 관찰한다. 먼저 기본적인 멀티모달 이해와 고충실도(high-fidelity) 생성이 먼저 수렴하고,
다음으로 복잡한 편집 및 자유 형식 시각 조작 능력이 나타나며,
마지막으로 장문 컨텍스트 추론이 멀티모달 이해·생성 모두에 이득을 주기 시작한다.

이는 이전에는 서로 독립적인 원자적 기술(atomic skills)이 모달리티 간 조합적 추론(compositional reasoning)으로 시너지를 내며 결합될 수 있음을 시사한다. 이러한 출현 능력은 공개 벤치마크들로도 뒷받침되지만, 우리가 제안하는 IntelligentBench에서 더 뚜렷하게 드러나며, 추가로 정성적 관찰을 통해서도 검증된다. 이러한 관찰은 이해와 생성의 최적화 지형(optimization landscape)이 부분적으로는 분리되어 있을지라도, 단일 트랜스포머 모델 안에서 공유 self-attention 컨텍스트를 통해 함께 탐색될 수 있음을 보여주며, 오픈소스 시스템에서도 풍부한 스펙트럼의 능력을 산출할 수 있음을 시사한다.

2 Model

Figure 2에 나타난 바와 같이, BAGEL은 두 개의 트랜스포머 전문가(transformer expert)—하나는 멀티모달 이해에 특화되고, 다른 하나는 멀티모달 생성에 특화된—로 구성된 Mixture-of-Transformers (MoT) 아키텍처를 채택한다. 이에 따라 모델은 두 개의 서로 다른 시각 인코더를 사용한다. 하나는 이해 지향 인코더이고, 다른 하나는 생성 지향 인코더이다. 이 두 트랜스포머 전문가는 모든 레이어에서 공유된 self-attention 연산을 통해 동일한 토큰 시퀀스를 처리한다.

텍스트 토큰을 예측할 때 BAGEL은 자동회귀 언어 모델의 강점을 계승하는 다음 토큰 예측(Next-Token Prediction) 패러다임을 따른다. 반면 시각 토큰 예측에서는 시각 생성 분야의 모범 사례에 따라 Rectified Flow [19, 41, 45] 방법을 채택한다. 본 절의 나머지 부분에서는 이러한 설계 선택을 형성한 통찰과 동기를 공유한다.

Rectified Flow가 뭐지?

2.1 Model Design Space

통합 멀티모달 생성 및 이해 모델을 설계할 때 일반적으로 고려되는 선택지는 다음과 같다.

Quantized Autoregressive 모델.
이 계열의 방법 [11, 48, 59, 70, 79, 83–85, 90]은 이산 시각 토크나이저 [31, 36, 51, 94]를 사용하여 **자동회귀적 시각 생성(autoregressive visual generation)**을 수행한다. 이 접근법은 텍스트와 시각 토큰 모두에 대해 다음 토큰 예측 패러다임을 활용하므로, 기존 LLM 인프라를 그대로 사용할 수 있어 구현이 비교적 단순하다. 그러나 경험적으로 자동회귀 모델의 시각 생성 품질은 확산(diffusion) 기반 모델보다 열등하다. 또한 자동회귀 방식의 순차적 특성으로 인해 추론 지연(latency) 역시 증가한다.

External Diffuser 방식.
이 설계는 LLM 백본을 외부 확산(diffusion) 모듈과 결합하는 접근법이다 [18, 23, 57, 69, 73]. 일반적으로 사전학습된 LLM/VLM을 경량의 학습 가능한 어댑터를 통해 확산 모델과 연결한다. 언어 백본은 자동회귀적으로 잠재 토큰(latent token) 집합을 “의미적 조건(semantic condition)” 신호로 생성하고, 확산 모듈은 이를 조건으로 삼아 이미지를 생성한다. 이 구조는 데이터 소모가 적고 빠르게 수렴하며, 기존 벤치마크에서 경쟁력 있는 성능을 보이기도 한다 [57]. 그러나 LLM의 컨텍스트가 상대적으로 소수의 잠재 토큰으로 압축되기 때문에, 이해 모듈과 생성 모듈 사이에 **명시적인 병목(bottleneck)**이 발생한다는 단점이 있다. 이는 특히 장문 컨텍스트 멀티모달 추론에서 심각한 정보 손실을 초래할 수 있으며, 대규모 파운데이션 모델의 스케일링 철학과도 상충될 수 있다.

Integrated Transformer 방식.
이 접근법은 LLM과 확산 모델을 단일 트랜스포머 내부에 통합하는 방식이다 [40, 50, 66, 104]. 자동회귀 트랜스포머의 강력한 이해·추론 능력과 확산 트랜스포머의 우수한 시각 생성 능력을 결합하여, 동일한 모델 아키텍처 내에서 두 패러다임을 자유롭게 전환할 수 있도록 한다. External Diffuser 방식에 비해 학습에 훨씬 더 많은 계산 자원이 필요하지만, 모든 트랜스포머 블록 전반에 걸쳐 **병목 없는 컨텍스트(bottleneck-free context)**를 유지할 수 있다는 결정적인 장점이 있다. 이는 생성과 이해 모듈 간의 정보 손실 없는 상호작용을 가능하게 하며, 대규모 스케일링에 더욱 적합하다.

본 연구에서는 통합 모델이 대규모 멀티모달 인터리브 데이터로부터 기존 벤치마크로는 포착되지 않는 보다 풍부한 멀티모달 능력을 학습할 수 있다고 주장한다. 이를 위해 우리는 병목이 없는 Integrated Transformer 설계를 선택했으며, 이 설계가 장문 컨텍스트 멀티모달 추론뿐 아니라 강화학습까지 아우르는 파운데이션 모델로서 더 큰 잠재력을 가진다고 본다.

2.2 Architecture

우리의 백본 모델은 decoder-only Transformer 구조를 갖는 LLM에서 출발한다. 초기화 모델로는 Qwen2.5 LLM을 선택했는데, 이는 우수한 성능과 공개 가용성을 모두 갖추고 있기 때문이다. 해당 모델은 정규화로 RMSNorm, 활성화 함수로 SwiGLU, 위치 인코딩으로 RoPE, 그리고 KV 캐시 비용을 줄이기 위해 GQA를 사용한다. 또한 이미지·비디오 생성 모델에서의 일반적인 관행을 따라, 각 attention 블록에 QK-Norm을 추가하였으며, 이는 학습 안정성에 효과적인 것으로 알려져 있다.

시각 정보는 두 가지 측면에서 표현된다.

**시각적 이해(visual understanding)**를 위해, 원본 픽셀을 토큰으로 변환하는 ViT 인코더를 사용한다. 우리는 SigLIP2-so400m/14 모델을 초기화로 채택하고, 입력 해상도는 고정된 384로 설정한다. 이후 위치 임베딩을 보간하여 최대 입력 크기를 980×980으로 확장하고, 이미지의 원래 종횡비를 유지한 채 처리할 수 있도록 NaViT를 통합한다. ViT 토큰의 특징 차원과 LLM의 hidden state 차원을 맞추기 위해 2-layer MLP 커넥터를 사용한다.
**시각적 생성(visual generation)**을 위해, FLUX에서 제공하는 사전학습된 VAE 모델을 사용하여 이미지를 픽셀 공간과 latent 공간 사이에서 변환한다. 이 latent 표현은 다운샘플 비율 8, 채널 수 16을 가지며, 이후 2×2 patch embedding layer를 통해 공간 해상도를 줄이고 LLM 백본의 hidden dimension과 정렬한다. VAE 모델은 학습 과정 동안 고정(frozen) 된다.

결국 두 케이스 모두 cotinuous embedding을 쓰는것이군 + timestep embedding

비전 이해 테스크에서는 VIT만 쓰는 듯

비전 생성 테스크에서는 VIT+VAE을 동시에 사용하는 느낌

본 프레임워크에서는 ViT 토큰과 VAE 토큰 모두에 대해, LLM 백본에 통합되기 전에 2D positional encoding을 적용한다. 확산(diffusion) 타임스텝 인코딩의 경우, 기존 diffusion transformer에서 흔히 사용되는 AdaLN 대신, 선행 연구를 따라 VAE 토큰의 초기 hidden state에 timestep embedding을 직접 더하는 방식을 사용한다. 이 변경은 성능을 유지하면서도 아키텍처를 보다 간결하게 만든다.

LLM 내부에서는 텍스트 토큰, ViT 토큰, VAE 토큰이 입력의 모달 구조에 따라 interleaving되어 처리된다. 동일한 샘플에 속한 토큰들에 대해서는 일반화된 causal attention 메커니즘을 적용한다. 구체적으로, 토큰들은 단일 모달리티(예: 텍스트, ViT, VAE)로 구성된 여러 개의 연속된 split으로 나뉘며, 한 split의 토큰은 그 이전 split들의 모든 토큰에 attention할 수 있다. 각 split 내부에서는 텍스트 토큰에는 causal attention을 적용하고, 시각 토큰에는 bidirectional attention을 유지한다.

인터리빙: [Text] [ViT] [Text] [VAE] [Text] [VAE] ...

2.3 Generalized Causal Attention

학습 과정에서, 하나의 interleaved 멀티모달 생성 샘플은 여러 장의 이미지를 포함할 수 있다. 각 이미지에 대해 우리는 다음의 세 종류의 시각 토큰을 준비한다.

Noised VAE 토큰:
확산 노이즈가 주입된 VAE latent로, Rectified Flow 학습에만 사용된다. MSE 손실은 이 토큰들에 대해서만 계산된다.
Clean VAE 토큰:
노이즈가 없는 원본 latent로, 이후 이미지 또는 텍스트 토큰을 생성할 때 조건(conditioning) 으로 사용된다.
ViT 토큰:
SigLIP2 인코더로부터 얻은 토큰으로, interleaved 생성 데이터와 이해 데이터를 입력 형식 측면에서 통일하는 역할을 하며, 경험적으로 interleaved 생성 품질을 향상시키는 데 기여한다.

Interleaved 생성에서의 attention 규칙

interleaved 이미지 생성 또는 텍스트 생성 과정에서, 이후에 생성되는 이미지 토큰이나 텍스트 토큰은 이전 이미지들의 clean VAE 토큰과 ViT 토큰에는 attention할 수 있지만, noised VAE 토큰에는 attention할 수 없다.

정리하면

이미지 에디팅 테스크라고 해보자.

그러면 테스크의 데이터로 입력=(텍스트, 원본이미지) 출력=(바뀔이미지)가 세팅되어 있을 것
입력으로는 텍스트 토큰 임베딩과 원본이미지의 ViT continuous embedding, VAE continuous embedding이 들어가는 형태.
이건 인터리빙으로 (VIT 임베딩, VAE 임베딩, 텍스트 토큰 임베딩) 이렇게 들어가고 출력은 next token prediction이 아닌 Diffusion 예측 방식으로 진행

인터리빙 순서는 고정된건 아님

좀 더 자세히 보면

[v_src, a_src, t, a_tgt(noise)]가 입력 형태이고
a_tgt(noise)가 a_tgt가 되도록 학습되는 것이고, 이 과정을 Rectified flow 방식을 따른다고 함
테스트할때에는 a_tgt(noise)을 모르니 pure noise을 넣어줘서 이미지 생성하는 방식

attention

a_tgt끼리는 attention이 안걸리고, 앞의 정보들은 attention 걸리는 식

다중 이미지 생성 (multi-image generation)

interleaved 다중 이미지 생성을 위해, 우리는 diffusion forcing 전략을 사용한다.
이 전략에서는 서로 다른 이미지에 독립적인 노이즈 레벨을 부여하고, 각 이미지를 이전 이미지들의 noisy 표현에 조건부로 생성한다.

또한 생성 일관성을 높이기 위해, 선행 연구를 따라 연속된 이미지들을 무작위로 그룹화하고, 각 그룹 내부에서는 완전한 attention(full attention) 을 적용한다. 이때, 하나의 그룹 내부에서는 동일한 노이즈 레벨을 사용한다.

구현 및 추론 시 최적화

우리는 PyTorch의 FlexAttention을 사용하여 일반화된 causal attention을 구현했으며,
단순한 scaled dot-product attention 대비 약 2배의 속도 향상을 달성했다.

추론 시에는, 이 generalized causal 구조 덕분에 생성된 멀티모달 컨텍스트의 key–value(KV) 쌍을 캐시할 수 있어 멀티모달 디코딩을 가속할 수 있다. 이때 캐시되는 것은 clean VAE 토큰과 ViT 토큰의 KV 쌍만이다.
하나의 이미지 생성이 완료되면, 컨텍스트에 남아 있던 해당 이미지의 noised VAE 토큰은 clean VAE 토큰으로 대체된다.

Classifier-Free Guidance

interleaved 추론 과정에서 classifier-free guidance를 가능하게 하기 위해, 우리는 다음 확률로 토큰을 무작위로 제거(drop)한다.

텍스트 토큰: 0.1
ViT 토큰: 0.5
Clean VAE 토큰: 0.1

일반화된 causal attention의 구조에 대한 도식은 Figure 15에 제시되어 있다.

2.4 Transformer 설계

Integrated Transformer 설계 원칙에 따라, 우리는 여러 가지 트랜스포머 변형을 비교한다. 구체적으로 표준 Dense Transformer, Mixture-of-Experts(MoE) Transformer, 그리고 Mixture-of-Transformers(MoT) 아키텍처를 비교 대상으로 삼았다.

MoE 변형: 각 Qwen2.5 LLM 블록에서 피드포워드 네트워크(FFN) 만을 복제하여 생성(expert) 전문가를 초기화한다.
MoT 변형: Qwen2.5 LLM의 모든 학습 가능한 파라미터를 복제하여 완전한 크기의 생성 전문가를 구성한다. 이러한 유형의 아키텍처는 기존 연구들에서도 채택된 바 있다.

본 모델에서 사용한 MoE와 MoT 모두 하드 라우팅(hard routing) 을 적용한다. 즉, 새로 복제된 생성 전문가는 VAE 토큰만을 전담 처리하고, 원래의 파라미터—즉, 이해(understanding) 전문가는 텍스트 및 ViT 토큰을 처리한다. 이는 Qwen-VL 계열에서 사용된 전략을 따른 것이다.
MoE와 MoT 아키텍처는 Dense 기준선(dense baseline)에 비해 총 파라미터 수를 약 두 배로 증가시키지만, 훈련과 추론 시의 FLOPs는 세 모델 모두 동일하도록 유지된다.

우리는 트랜스포머 아키텍처 자체의 효과만을 분리해 평가하기 위해, 1.5B 규모의 Qwen-2.5 LLM을 대상으로 동일한 하이퍼파라미터와 데이터 설정을 유지한 채 통제 실험을 수행하였다.

Figure 3에서 보이듯이, MoT 변형은 Dense 및 MoE 설계 모두를 일관되게 상회하며, 그 격차는 특히 멀티모달 생성 작업에서 가장 두드러진다.
생성 성능을 나타내는 MSE 손실은 부드럽고 단조 감소하는 경향을 보이는데, MoT는 가장 빠르게 수렴할 뿐 아니라 최종 손실 값도 가장 낮다. 반면, 이해 성능을 나타내는 CE 손실은 이질적인 데이터가 인터리브(interleave)되어 학습되는 특성상 스텝 간 변동이 더 크지만, 그럼에도 불구하고 MoT가 전반적으로 가장 우수한 성능을 유지한다.

이러한 결과는 생성을 담당하는 파라미터와 이해를 담당하는 파라미터를 분리하는 것이 명확한 이점을 가진다는 점을 보여준다. 이는 두 목적(이해와 생성)이 서로 다른 파라미터 공간의 영역으로 모델을 유도할 가능성이 있음을 시사하며—적어도 여기서 검증한 1.5B 스케일에서는 그러하다. 요약하면, 멀티모달 이해와 생성을 위해 별도의 모델 용량을 할당하는 전략은, 서로 경쟁하는 모달리티 특화 학습 목표로 인해 발생하는 최적화 상의 충돌을 완화할 수 있다.

3 Data

데이터는 대규모 파운데이션 모델의 지식 경계를 규정한다. BAGEL은 언어, 이미지, 비디오, 웹 데이터를 포함하는 다양한 모달리티의 데이터셋으로 학습되었으며, 이를 통해 멀티모달 추론, 컨텍스트 내 예측(in-context prediction), 물리적 동역학 모델링, 미래 프레임 예측 등을 하나의 통합된 멀티모달 인터페이스를 통해 수행할 수 있다.

표준 비전–언어 모델(VLM), 텍스트-투-이미지(T2I), 대규모 언어 모델(LLM) 데이터셋에 더해, 우리는 웹 및 비디오 소스에서 새롭게 구축한 비전–텍스트 인터리브 데이터셋을 포함시켜, 모델의 순차적 멀티모달 추론 능력을 한층 강화하였다.

표 1에서는 모달리티별 학습 데이터의 규모와 구성 비율을 요약한다. 이후 절들에서는 데이터 소스, 준비(전처리) 프로토콜, 그리고 데이터 혼합 전략을 상세히 설명한다.

3.1 Text Only Data

기반 LLM의 언어 모델링 능력을 유지하기 위해, 우리는 학습 코퍼스에 고품질 텍스트 단일 모달 데이터를 추가로 포함시킨다. 이 데이터는 광범위한 언어적 범위를 지원하도록 선별되었으며, 일반 목적 텍스트 과제 전반에서 강력한 추론 및 생성 능력을 발휘할 수 있도록 구성되었다.

3.2 Vision-Text Paired Data

텍스트–이미지 쌍 데이터는 멀티모달 학습에서 핵심적인 역할을 하며, 비전–언어 모델(VLM) 과 텍스트-투-이미지(T2I) 생성 모두에 대규모 시각적 감독 신호를 제공한다. 본 연구에서는 비전–텍스트 쌍 데이터를 다운스트림 활용 목적에 따라 두 가지 하위 집합으로 구성한다. 하나는 VLM 사전학습용, 다른 하나는 T2I 생성용이다.

VLM용 이미지–텍스트 쌍
VLM 학습을 위해 웹의 alt-text와 캡션을 중심으로 한 대규모 이미지–텍스트 쌍 데이터를 사용한다. 데이터 품질을 보장하기 위해 CLIP 기반 유사도 필터링, 해상도 및 종횡비 제약, 텍스트 길이 검사, 중복 제거를 수행한다. 또한 롱테일 분포 문제를 완화하기 위해 개념 인지 샘플링(concept-aware sampling) 을 적용하여 희귀 범주의 커버리지를 개선한다. 더불어 OCR 문서, 차트, 그라운딩 주석 등에서 파생된 구조적 감독 신호를 포함시켜 읽기 및 공간적 이해 능력을 강화한다.

T2I용 이미지–텍스트 쌍
고품질 이미지–텍스트 쌍과 함께, 기존 T2I 모델로부터 생성된 소량의 합성 데이터를 포함한다. 이 데이터는 예술적·서술적·초현실적 캡션 등 다양한 스타일을 포함하며, 이미지 또한 선명도, 구조적 완결성, 의미적 다양성을 기준으로 엄격히 필터링된다. 이를 통해 T2I 학습 코퍼스의 시각적 품질과 스타일 다양성을 동시에 향상시킨다.

3.3 Vision-Text Interleaved Data

비전–텍스트 쌍 데이터는 유용한 감독 신호를 제공하지만, 다중 이미지와 중간 텍스트가 얽힌 복잡한 컨텍스트 내 추론을 지원하기에는 한계가 있다. 이러한 데이터로 학습된 모델은 모달리티 간 시각적·의미적 관계를 충분히 포착하지 못해, 생성 결과의 일관성이 떨어지는 경우가 많다. 이러한 한계를 극복하기 위해, 우리는 대규모 비전–텍스트 인터리브 데이터를 학습에 포함시킨다.

멀티모달 이해 향상을 위해서는 VLM용 인터리브 데이터셋을 사용하고, 시각적 생성을 위해서는 다양한 데이터 소스를 결합한 통합 인터리브 데이터 구축 프로토콜을 도입하여 더 풍부한 멀티모달 상호작용을 학습할 수 있도록 한다. 세부 내용은 아래와 같다.

3.3.1 Data Source

다양한 실제 세계 상황을 포괄하면서도 확장 가능한 데이터 공급을 확보하기 위해, 본 연구의 학습 코퍼스는 멀티모달 추론에 충분한 지식을 제공하는 두 가지 핵심 데이터 소스를 통합한다. 바로 비디오 데이터와 웹 데이터이다.

비디오 데이터는 현실 세계의 시간적·공간적 동역학을 직접 포착함으로써 풍부한 세계 지식을 제공한다. 이는 가장 크고 자연적인 시뮬레이터로서 작용하며, 세밀한 시각적 디테일을 유지하고, 프레임 전반에 걸친 정체성 일관성(identity consistency) 을 보존하며, 복잡한 움직임을 모델링할 수 있게 한다. 이러한 특성 덕분에 비디오 데이터는 이미지 편집, 내비게이션, 3D 조작과 같은 작업에 특히 효과적이다.

본 연구에서는 공개적으로 이용 가능한 온라인 비디오 자원과 더불어, Koala36M(대규모 지시·상호작용 중심 콘텐츠 제공)과 MVImgNet2.0(다양한 카메라 시점에서 촬영된 객체를 포함하여 다중 시점 공간 이해를 지원)이라는 두 가지 오픈소스 데이터셋을 활용한다.

웹 데이터는 현실 세계의 복잡한 멀티모달 구조를 포착하며, 광범위한 도메인에 걸친 다양한 지식을 제공한다. 여기에는 그림이 포함된 백과사전 문서, 단계별 시각 튜토리얼 등과 같이 텍스트와 이미지가 자연스럽게 인터리브된 자료들이 포함된다. 이러한 인터리브 형식은 멀티모달 추론 모델을 학습시키는 데 풍부한 감독 신호를 제공한다.

본 연구에서는 Common Crawl에서 전처리된 대규모 데이터셋인 OmniCorpus를 기반으로 하며, 이는 텍스트와 이미지가 인터리브된 방대한 웹 문서 컬렉션을 제공한다. 여기에 더해, 우리는 오픈소스 이미지 편집 데이터셋들을 구조화된 인터리브 데이터로 추가 포함시킨다. 이러한 데이터셋들은 미세한 수준의 편집 행동(fine-grained editing behaviors) 을 학습하도록 돕고, 모델의 정확한 멀티모달 추론 능력과 단계적(step-by-step) 생성 능력을 강화한다.

3.3.2 데이터 필터(Data Filter)

비디오 데이터에 대한 데이터 필터링(Data Filtering for Video Data).
우리는 고품질의 훈련 클립으로 비디오를 사전 처리하기 위해 T2V 비디오 처리 파이프라인 [63] 프로토콜을 따른다. 먼저 비디오는 가벼운 샷 탐지(shot detection)를 이용하여 짧고 일관된 클립으로 분할되며, 관련된 세그먼트는 시각적 유사성에 따라 선택적으로 병합된다. 그 후, 크롭(crop) 탐지와 프레임 수준의 바운딩 박스(bounding box) 집계를 사용하여 로고 또는 텍스트와 같은 오버레이(overlays)와 검은 테두리(black borders)를 제거한다. 품질을 보장하기 위해 클립은 길이, 해상도, 선명도(clarity), 움직임의 안정성(motion stability)을 기준으로 필터링하고, CLIP 기반 유사성을 사용하여 중복을 제거한다. 이 프로세스를 통해 멀티모달 훈련에 적합한 깨끗하고 다양한 비디오 데이터셋을 얻을 수 있다.

웹 데이터에 대한 데이터 필터링(Data Filtering for Web Data).
대규모 코퍼스(corpus)로부터 고품질 인터리브드 데이터를 선별하기 위해 우리는 텍스트와 이미지가 강한 의미적 정렬을 보이는 튜토리얼, 백과사전 항목, 디자인 콘텐츠와 같은 문서를 타겟으로 하는 2단계 필터링 파이프라인을 설계했다. DeepSeekMath [64]에서 영감을 얻어, 우리는 먼저 가벼운 토픽 선택 프로세스(lightweight topic selection process)를 적용했다. 즉, 소규모 문서 하위 집합(subset)을 분류하도록 LLM에 프롬프팅한 다음, 이로부터 얻어진 레이블을 사용하여 fastText [34] 분류기를 훈련하여 효율적인 대규모 추론을 수행했다. 이렇게 선택된 데이터는 다시 LLM 분류기를 통해 정밀 필터링(fine-grained filtering)을 거친다. 성능과 효율의 균형을 위해 14B 크기의 Qwen2.5 모델 [93]을 사용하였다. 데이터 품질을 더욱 향상시키기 위해, 이미지 선명도, 관련성 및 문서 구조를 타겟으로 하는 일련의 규칙 기반 필터(rule-based filters)를 적용하였다(Table 2에 요약되어 있음).

3.3.3 데이터 구축(Data Construction)

비디오로부터 인터리브드 데이터 구축(Interleaved Data from Videos).
비디오로부터 이미지-텍스트 인터리브드 시퀀스를 구성하기 위해, 우리는 연속된 프레임 사이에서 일어나는 시각적 변화들—예를 들어 객체의 움직임, 행동 변화, 장면 전환 등—을 포착하는 텍스트 설명을 생성한다. 이 프레임 간 캡션(inter-frame captions)은 시각적 역학(visual dynamics)을 학습하는 데 시간적 감독(temporal supervision)의 역할을 한다. 대형 VLM(비전-언어 모델)은 높은 품질의 변화 설명(change descriptions)을 생성할 수 있지만, 추론 비용이 높아 확장성(scalability)이 제한된다. 따라서 우리는 소수의 고품질 프레임 간 예제들을 기반으로 미세 조정(finetuned)한 Qwen2.5-VL-7B [4] 모델을 이용하여 경량 캡션 생성 모델을 디스틸(distill)하였다. 환각(hallucination)을 줄이기 위해 캡션 길이를 30 토큰(token)으로 제한하였다. 각 비디오 클립에 대해 평균적으로 4개의 프레임을 샘플링하고, 각 프레임 쌍에 대해 캡션을 생성하여 총 4천 5백만 개(45 million)의 시간적으로 근거가 명확한 인터리브드 시퀀스를 구성하였다. 데이터 파이프라인 및 예시는 그림 4(a)에 나타나 있다.

웹으로부터 인터리브드 데이터 구축(Interleaved Data from Webs).
웹 문서로부터 고품질의 인터리브드 시퀀스를 구축할 때, 이미지와 이를 둘러싼 텍스트 및 시각적 맥락 간의 약한 정렬(weak alignment)로 인해 이미지 생성 난이도가 높아지는 문제를 줄이고자 한다. 각 이미지에 대해 더욱 국소적이고(localized) 관련성 높은 단서를 제공하기 위해, 우리는 캡션 우선 전략(caption-first strategy)을 채택하였다. 즉, 각 이미지에 대해 Qwen2.5-VL-7B [4]을 이용하여 간결한 설명을 생성하고, 이 설명을 이미지 바로 앞에 개념적 스캐폴드(conceptual scaffold)로 삽입한다. 이를 통해 모델은 이미지를 생성하기 전에 앞선 문맥과 삽입된 캡션을 기반으로 대상 이미지에 대한 개념적 초안(conceptual draft)을 형성할 수 있다. 이렇게 캡션을 먼저 생성하여 모델이 이미지에서 기대할 수 있는 내용을 안내함으로써, 관련성이 낮거나 모호한 입력으로 인해 발생하는 문제를 완화할 수 있다. 또한, 맥락적 밀도를 높이기 위해 300 토큰을 초과하는 이미지 간(inter-image) 텍스트 세그먼트에 대해서는 LLM 기반 요약기를 사용하여 다시 작성(rewrite)하였다. 이러한 과정을 거쳐 2천만 개(20 million)의 보다 깔끔하고 구조화된 인터리브드 웹 문서 데이터셋을 얻었다. 데이터 파이프라인 및 예시는 그림 4(b)에 나타나 있다.

3.3.4 추론 증강 데이터 (Reasoning-Augmented Data)

최근의 모델들인 O1 [33]과 DeepSeek-R1 [26]로부터 영감을 받아, 우리는 멀티모달 이해(multimodal understanding)를 위해 긴 맥락(long-context)의 연쇄적 사고(Chain-of-Thoughts, CoT) 데이터를 활용한다. 또한, 이미지 생성 전에 언어 기반의 추론 단계를 추가하면 시각적 목표를 명확히 하고 계획 능력을 향상시킬 수 있다는 가설을 세웠다. 이를 탐구하기 위해 입력과 출력 간의 구조적 관계에 따라 네 가지 범주로 나뉘는 50만 개(500k)의 추론 증강(reasoning-augmented) 예제를 구축하였다. 이 범주들은 텍스트에서 이미지 생성(text-to-image generation), 자유형 이미지 편집(free-form image manipulation), 추상적 편집(abstract edits)을 포함한다.

텍스트에서 이미지 생성(Text-to-Image generation).
우리는 먼저 간결하고 모호한 텍스트-이미지 생성(T2I) 질의(query)와 간단한 생성 지침(generation guidance)을 포함한 수작업 데이터셋을 만들었다. 그런 다음, 인컨텍스트 학습(in-context learning)을 사용하여 Qwen2.5-72B [93] 모델이 추가적인 질의-지침 쌍(query-guidance pairs) 및 이에 대응하는 세부적인 프롬프트(detailed prompts)를 생성하도록 하였고, 이 생성된 프롬프트를 FLUX.1-dev [35]에 전달하여 목표 이미지를 생성하였다. 이 과정을 통해 질의(query), 추론 흔적(reasoning trace; 지침 및 세부 프롬프트), 그리고 이미지로 구성된 훈련 삼중 항목(triplets)을 생성하여, 모델이 이미지 생성을 언어 기반 추론(language-based reasoning)에 근거할 수 있게 하였다.

자유형 이미지 편집(Free-form image manipulation).
우리는 DeepSeek-R1 [26]에서 제공한 추론 흔적 예시(reasoning trace example)를 사용하여 원본 이미지(source image), 목표 이미지(target image), 사용자 질의(user query)를 포함한 VLM을 프롬프팅하여 추론 증강 예제를 생성하였다. R1 예시는 원본 및 목표 캡션(source and target captions), 사용자 질의(user query), 그리고 추론 지침(reasoning instruction)을 조건화(conditioning)하여 생성된다. 추론 흔적을 생성하기 위한 VLM 프롬프트는 표 11과 표 12에 나타나 있다. 소스-타겟 이미지 쌍은 주로 두 가지 출처에서 샘플링되었다: OmniEdit [80]와 같은 오픈소스 편집 데이터셋, 그리고 인터리브드 비디오 데이터. 인터리브드 비디오 데이터는 상당한 움직임, 시점(viewpoint) 변화, 사람 간 상호작용과 같은 실제 자연적 편집 시나리오를 제공하며, 동시에 시공간적 일관성(spatial-temporal coherence)을 유지한다.

개념적 편집(Conceptual Edits).
개념적 편집은 단순한 국소적 픽셀 수정(local pixel modifications)을 넘어, 높은 수준의 개념적 추론(conceptual reasoning)이 필요한 이미지 편집을 목표로 한다. 예를 들어, 사물을 디자인 스케치로 변형시키는 작업이 이에 해당한다. 이러한 작업을 위해, 웹 인터리브드 데이터셋을 사용하여 각 시퀀스에서 후보 이미지 쌍(candidate image pairs)을 샘플링한 후, 고품질의 질문-응답(QA) 예제를 구성하기 위한 3단계 VLM 파이프라인을 적용했다. 첫째, 일련의 이미지가 주어졌을 때 입력-출력(input-output) 쌍으로 적합한 후보를 식별하도록 VLM을 프롬프팅한다. 둘째, 선택된 쌍을 기반으로 해당하는 텍스트 질문을 생성하도록 모델을 프롬프팅한다. 마지막으로, 생성된 질문의 품질과 입력 및 출력 이미지와의 일치성을 평가하기 위해 다시 VLM을 사용하여 저품질 예제를 필터링하였다. 승인된 예제는 다시 DeepSeek-R1 [26]의 추론 흔적 예시를 이용하여 VLM을 통해 목표로 하는 변환(transformation)의 근거 있는 설명(grounded explanation)을 생성한다(표 13 참고). 이와 같은 설정을 통해 모델이 다양한 텍스트 지침에서 복잡한 시각적 목표(complex visual goals)를 해석하는 능력을 학습할 수 있도록 돕는다.

4 훈련 (Training)

표 3에서 제시된 바와 같이, 우리는 동적으로 구성한 데이터 혼합 방식을 사용하여 멀티 스테이지 훈련 전략(multi-stage training strategy)을 채택하였다. 이 데이터는 앞서 설명한 방식으로 큐레이션되었으며, 구체적으로는 VLM 커넥터 초기화를 위한 정렬(Alignment) 단계, 대규모 사전 훈련을 위한 사전 훈련(Pre-training) 단계, 더 높은 해상도와 인터리브드 데이터 비율 증가를 위한 지속 훈련(Continued Training) 단계, 고품질 정밀조정을 위한 지도 정밀조정(Supervised Fine-tuning) 단계로 구성된다:

정렬 단계 (Alignment Stage)
이 단계에서는 비전 인코더와 언어 모델을 고정(frozen)한 상태에서 오직 MLP 커넥터만을 훈련함으로써 SigLIP2 ViT 인코더를 Qwen2.5 LLM과 정렬시킨다. 이 단계에서는 이미지-텍스트 쌍 데이터만 사용하여 이미지 캡셔닝(image captioning)을 수행하며, 각 이미지는 사전 훈련된 SigLIP2 입력 크기에 맞게 고정된 해상도인 378×378로 크기 조정된다.
사전 훈련 단계 (Pre-training, PT)
이 단계에서는 LLM에 QK-Norm을 추가하며, VAE를 제외한 모든 모델 파라미터가 훈련 가능한 상태가 된다. 훈련 코퍼스는 텍스트, 이미지-텍스트 쌍, 멀티모달 대화, 웹 인터리브드 및 비디오 인터리브드 데이터를 포함한 총 2.5T 토큰(tokens)으로 구성된다. 멀티모달 이해 및 생성 모두에 대해 입력 이미지의 네이티브(native) 해상도 전략을 채택하며, 각 이미지의 최대 장축(long side) 및 최소 단축(short side)에 대한 제한이 있다.
지속 훈련 단계 (Continued Training, CT)
PT 단계에 비해, CT 단계에서는 시각적 입력 해상도를 더욱 높였으며, 이는 멀티모달 생성과 이해 성능 모두에 중요하다. 또한, 모델의 핵심 이해 및 생성 능력이 더욱 안정적이고 신뢰할 수 있게 됨에 따라 교차 모달 추론(cross-modal reasoning) 학습을 강조하기 위해 인터리브드 데이터의 샘플링 비율을 전략적으로 증가시킨다. CT 단계에서는 약 2.6T의 토큰을 사용한다.
지도 정밀조정 단계 (Supervised Fine-tuning, SFT)
이 단계에서는 멀티모달 생성을 위해 이미지-텍스트 쌍 데이터셋과 인터리브드 생성 데이터셋에서 고품질 부분 집합(subset)을 구성한다. 멀티모달 이해를 위해서는 LLaVA-OV [37]와 Mammoth-VL [27]의 지시 튜닝(instruction-tuning) 데이터에서 필터링된 부분 집합을 사용한다. 이 단계에서의 훈련 토큰 수는 총 727억(72.7B)에 달한다.

이 부분이 학습의 핵심인 듯?

이미지 캡셔닝으로 SigLIP ViT와 Qwen2.5 LLM 정렬하는 MLP 학습
PT: 인터리브 포함 다양한 데이터 2.5T로 전체 파라미터 학습 (VAE만 제외)
CT: PT에 비해 시각적 해상도를 높인 차이. 인터리브드 데이터 비율을 좀 더 높힘. 총 학습 2.6T
SFT: 고품질 서브셋과(이건 그럼 중복인가?) 외부 데이터 SFT 필터링된 부분으로 학습.

모든 훈련 단계에서 우리는 AdamW [47] 옵티마이저(β1=0.9, β2=0.95)를 사용한다. [52]에서 영감을 얻어, 손실(loss)의 급격한 증가(loss spikes)를 억제하기 위해 ε을 1.0×10^-15로 설정하였다. 생성 해상도를 증가시킬 때는 적절한 노이즈 레벨 분포를 보장하기 위해 확산(diffusion) 시간 단계를 1.0에서 4.0으로 증가시킨다. 우리는 PT, CT 및 SFT 단계에서 일정한(constant) 학습률을 채택하여, 훈련을 재시작하지 않고도 훈련 데이터를 쉽게 확장할 수 있도록 한다 [30]. 서로 다른 랭크(rank) 간의 부하(load) 균형을 보장하기 위해, 각 랭크에서의 시퀀스를 좁은 길이 범위(정렬 및 PT 단계에서는 32K~36K 토큰, CT 및 SFT 단계에서는 40K~45K 토큰)로 패킹(packing)한다.

독립적인 VLM 또는 T2I 모델의 사전 훈련과 달리, 통합된(unified) 멀티모달 사전 훈련은 이해 및 생성 작업의 신호 간 균형을 위해 두 가지 주요 하이퍼 파라미터—데이터 샘플링 비율(data-sampling ratio) 및 학습률(learning rate)—의 신중한 조정이 필요하다. 아래에서 우리는 이러한 선택을 안내한 경험적 통찰을 기술하며, 이는 표 3에 요약된 훈련 프로토콜을 구성하는 데 기여하였다.

4.1 데이터 샘플링 비율 (Data Sampling Ratio)

통합된 사전 훈련 동안 각 데이터 소스의 샘플링 비율을 선택하기 위해, 우리는 멀티모달 생성 데이터와 이해 데이터 간의 비율을 조정하여 1.5B Qwen2.5 LLM [93]을 대상으로 일련의 통제된(controlled) 실험을 수행하였다.

그림 5에서 나타나듯이, 생성 데이터의 샘플링 비율을 50%(“1g1u”)에서 80%(“4g1u”)로 증가시키면 MSE 손실이 꾸준히 감소하여 절대적으로 0.4% 감소하며, 이는 실질적으로 rectified-flow 모델에서 상당한 차이이다. 반면, 교차 엔트로피(cross-entropy, CE) 손실은 샘플링 비율 간에 일관된 패턴을 나타내지 않았으며, 가장 큰 관찰된 간격(14,000 단계에서 “4g1u”와 “2g1u” 간의 0.07 차이)은 다운스트림 벤치마크에 미미한 영향을 미친다. 이러한 결과는 생성 예제를 이해 예제보다 훨씬 더 자주 샘플링해야 함을 시사하며, 표 3의 훈련 프로토콜에 반영된 휴리스틱(heuristic)이다.

작은 모델에서 데이터 샘플을 찾는 ablation을 한 것

4.2 학습률 (Learning Rate)

다음으로, 학습률 설정을 제외하고 4.1절의 설정과 동일한 통제 실험을 수행하였다.

그림 6에서 나타난 바와 같이 두 손실은 상반된 행동을 보인다: 더 큰 학습률은 MSE 손실의 빠른 수렴을 촉진하지만, 더 작은 학습률은 CE 손실에 유리하다. 이러한 절충(trade-off)을 조정하기 위해, 표 3에서 나열된 바와 같이 두 목표에 별도의 가중치를 할당한다.

하이퍼파라미터인 learning rate 이거 관련된 ablation도 했다는 듯

5 평가 (Evaluation)

통합된(unified) 모델을 포괄적으로 평가하기 위해, 우리는 멀티모달 이해(multimodal understanding), 텍스트-이미지(T2I) 생성, 고전적 이미지 편집(classical image editing)과 같은 잘 정의된 능력을 타겟으로 하는 기존 벤치마크(benchmarks)를 사용한다. 그러나, 강력한 멀티모달 추론과 복잡한 태스크 구성이 요구되는 능력들에 대해서는 효과적인 평가 전략이 여전히 부족하다. 다음에서는 먼저 평가 과정에서 사용된 기존 벤치마크를 소개한 후, 멀티모달 추론 및 복잡한 구성 태스크에 대한 모델의 숙련도를 드러내도록 설계된 자유형 이미지 조작(free-form image manipulation, 개념적 편집 포함)의 새로운 평가 세트를 제안한다.

멀티모달 이해(Multimodal understanding).
우리는 널리 사용되는 6개의 벤치마크—MME [20], MMBench (1.0-EN) [46], MM-Vet [96], MMMU [97], MathVista [49], MMVP [74]—를 채택하였다. 이들 벤치마크는 지각(perception), 인지(cognition), 멀티모달 추론(multimodal reasoning)을 아우르는 간결하면서도 포괄적인 테스트베드를 제공하며, 최신 모델 간의 성능 차이를 명확히 드러낼 수 있는 강력한 변별력을 유지한다.

텍스트-이미지 생성(Text-to-Image generation).
[11, 57]을 따라 인기 있는 GenEval [25] 벤치마크에서 결과를 보고한다. 또한, 복잡한 의미적 이해와 세계 지식 통합(world-knowledge integration)을 종합적으로 평가하는 최근 제안된 WISE 벤치마크 [53]를 사용한다. 자동 평가 메트릭 외에도 최신 모델과의 질적(qualitative) 비교를 함께 포함하였다.

이미지 편집(Image Editing).
실세계와의 관련성 및 다양한 편집 태스크를 고려하여 GEdit-Bench [44]를 주요 평가 세트로 채택한다. 실제 사용자 요청에서 수집된 GEdit-Bench는 현실적인 편집 요구를 밀접하게 반영한다. 성능은 GPT-4.1 [54]을 통해 자동으로 점수가 매겨지며, 보다 세부적인 평가를 제공하기 위해 질적 사례를 추가로 제시한다.

지능적 이미지 편집(Intelligent Image Editing).
복잡한 멀티모달 추론 및 태스크 구성(task composition)을 필요로 하는 자유형 이미지 조작(free-form image manipulation) 능력 평가를 위한 프록시 태스크(proxy task)로서 IntelligentBench를 제안한다. IntelligentBench의 초기 릴리스는 질문 이미지, 질문 텍스트, 참조 응답 이미지로 구성된 총 350개의 예제를 포함한다. 평가 과정은 GPT-4o (버전: gpt-4o-2024-11-20)를 사용하여 이루어지며, 질문 이미지, 질문 텍스트, 참조 응답 이미지 및 모델이 생성한 이미지를 모두 포함한 4개 요소를 리뷰한다. 평가 기준은 요청 이행(request fulfillment), 시각적 일관성(visual consistency), 지식 기반 창의성(knowledge-grounded creativity)을 포함하며, 태스크의 정확성과 추론의 깊이를 모두 반영하도록 설계되었다. 각 응답은 0점에서 2점 사이의 척도로 점수가 매겨진다. 모델의 최종 점수는 모든 개별 점수의 합을 계산하고 총점을 100점 척도로 정규화하여 산출한다. 평가에 사용된 세부 프롬프트는 부록(Appendix)의 표 14에서 확인할 수 있다. IntelligentBench의 도움을 받아, 우리는 모델이 이미지 편집을 위한 추론(reasoning)을 얼마나 잘 수행하고 세계 지식을 통합할 수 있는지 평가할 수 있다. IntelligentBench의 일부 사례와 질적 결과는 그림 12에 나타나 있다.

6 창발적 속성 (Emerging Properties)

창발적 속성(Emerging properties)은 대규모 시각 모델이나 언어 모델의 맥락에서 광범위하게 연구되어 왔다 [7, 81]. 본 연구에서는 통합된 멀티모달 기초 모델(unified multimodal foundational models)의 범위 안에서, 우리는 창발적 속성에 대해 보다 집중된 정의를 채택한다:

"어떤 능력은 초기 훈련 단계에서는 나타나지 않았으나, 이후의 사전 훈련(pre-trainings) 단계에서 나타난다면 이를 창발적(emerging)이라 한다."

이러한 정성적 변화(qualitative shift)는 종종 위상 전이(phase transition)라고도 불리며, 모델 행동에서 나타나는 갑작스럽고 극적인 변화를 의미하며, 훈련 손실 곡선(loss curves)을 외삽(extrapolating)하여 예측할 수 없는 특성을 보인다 [81]. 흥미롭게도, 우리는 손실 곡선이 새로운 능력의 출현을 명시적으로 알리지 않는 통합된 멀티모달 스케일링에서도 유사한 현상을 관찰한다. 따라서 역사적 체크포인트(historical checkpoints) 상의 다양한 작업에서 성능을 평가함으로써 모델 능력의 창발(emergence)을 조사한다. 구체적으로, 표준 VLM 벤치마크에서의 평균 성능을 멀티모달 이해(multimodal understanding)에 대한 지표로, 생성 능력에 대한 GenEval 점수, 간단한 멀티모달 추론(naive multimodal reasoning)에 대한 GEdit 점수와 복잡한 멀티모달 추론(complex multimodal reasoning)에 대한 IntelligentBench 점수를 사용하여 모델 능력을 평가한다.

흥미롭게도, 서로 다른 작업들은 뚜렷한 학습 역학(learning dynamics)과 포화(saturation) 현상을 나타낸다. 피크 성능(peak performance)의 85% 수준에 도달하는 데 필요한 관측된 토큰(seen tokens)의 수를 지표로 선택하면(그림 7에서 언급됨), 전통적인 이해 및 생성 벤치마크는 상대적으로 빠르게 포화된다: 각각 약 0.18T와 0.68T 토큰에서이다. 반면, 이해 및 생성 능력이 모두 요구되는 편집 작업은 85%의 성능에 도달하기 위해 2.64T 토큰이 필요하며 더 느린 수렴을 보인다.

무엇보다 주목할 만한 점은, 순진한(naive) 편집 사례를 배제하고 복잡한 멀티모달 추론을 강조하도록 설계된 Intelligent Edit 작업은 85% 성능에 도달하는 데 3.61T 토큰이 필요하며, 이는 [81]에서 설명된 창발적 행동과 유사한 패턴을 나타낸다는 점이다. 이 설정에서 모델은 처음에 낮은 성능을 보이다가 3T의 관측 토큰(seen tokens) 이후 점진적으로 유의미하게 향상된다. 전통적인 편집 작업이 3T 토큰에서의 해상도 증가에 의해 크게 영향을 받지 않은 반면, Intelligent Editing 성능은 이후 훈련 단계에서 15점에서 45점으로 3배 상승하며, 통합된 멀티모달 추론에 대한 의존성을 뚜렷하게 보여준다. 우리는 또한 이해 능력, 특히 시각 입력(visual input)이 멀티모달 추론에서 결정적인 역할을 한다는 것을 발견했다. ViT 토큰을 제거하면 GEdit-Bench에는 미미한 영향을 미치지만 Intelligent Edit에서는 성능이 16% 떨어지며, 복잡한 편집 작업에서 시각적-의미적 추론(visual-semantic reasoning)의 중요성을 강조한다.

평가 메트릭(evaluation metrics)은 모델의 실제 능력을 선형적으로 포착하지 못하여 잠재적으로 잘못된 창발(emergence)의 신호를 초래할 수 있지만(가능성은 낮지만), 우리는 추가로 서로 다른 훈련 체크포인트를 통해 생성 출력을 정성적으로(qualitatively) 조사함으로써 창발적 행동(emerging behavior)을 살펴보았다.

그림 8에 나타난 바와 같이, 우리는 성능 곡선과 일치하는 경향을 관찰하였다: 생성 품질은 이미 1.5T 관측 토큰 이전에 강력하며, 고해상도로 훈련된 3.0T 관측 토큰 이후 작은 품질 향상을 보였다. 텍스트 렌더링(text rendering)의 경우, 올바르게 "hello"와 "BAGEL"을 철자하는 능력은 1.5T에서 4.5T 토큰 사이에서 늦게 나타났다.

학습이 될수록 지시가 제대로 먹으면서 이미지가 변화하는게 신기하긴하네?ㅋㅋ

창발적 행동은 그림 9의 Intelligent Editing 작업의 정성적 시각화에서도 관찰된다. 그림 8에 나타난 전통적인 편집과 달리(입력 이미지에 대한 부분적인 수정만 포함됨), Intelligent Editing은 멀티모달 추론을 기반으로 완전히 새로운 개념을 생성하는 것이 필요하다. 3.5T 토큰 이전에는 모델이 작업을 완전히 이해하지 못할 때의 전략(fallback strategy)으로서 입력 이미지를 최소한의 변화만 주고 다시 생성하는 경향이 있다. 그러나 3.5T 토큰 이후 모델은 명확한 추론을 수행하기 시작하고, 일관되고 의미적으로 적절한 편집을 생성하면서, 그림 7에서 나타난 창발적 행동과 일치한다.

7 주요 결과 (Main Results) 핵심 정리

7.1 이미지 이해 (Image Understanding)

BAGEL(7B)은 동일한 규모(약 7B)의 최신 공개 모델들 대비 MME, MMBench, MM-Vet, MMMU, MathVista, MMVP와 같은 다양한 이미지 이해 벤치마크에서 최상위 성능을 달성했다.
전문 이미지 이해 전용 모델(Qwen2.5-VL 등)과 비교해도 동등하거나 더 뛰어난 성능을 나타내, 통합 모델로서 이미지 이해와 생성 사이의 충돌(conflict)을 최소화한 MoT 구조의 우수성을 입증하였다.

7.2 이미지 생성 (Image Generation)

GenEval 벤치마크에서 BAGEL은 기존의 통합형(unified) 모델(Janus-Pro 등)뿐 아니라 이미지 생성 전용(specialist) 모델(SD3-Medium 등)도 능가하는 뛰어난 성능(LLM Rewriter 사용 시 88%, 미사용 시 82%)을 기록했다.
복잡한 세계 지식과 의미 이해가 요구되는 WISE 벤치마크에서도 GPT-4o(비공개 모델) 다음으로 우수한 성능을 보여, 통합 모델로서 매우 높은 수준의 추론 능력을 갖추었음을 확인했다.
질적 평가에서도 Janus-Pro, SD3-medium과 같은 기존 모델 대비 높은 품질의 이미지를 생성하였으며, 다국어 프롬프팅(영어, 중국어)을 기본적으로 지원했다.

7.3 이미지 편집 (Image Editing)

실제 사용자의 이미지 편집 요구를 반영한 GEdit-Bench에서 Step1X-Edit 같은 전문 편집 모델과 유사하거나 더 나은 성능을 기록하였다.
복잡한 추론과 다단계 편집을 평가하는 자체 평가 세트인 IntelligentBench에서 공개된 기존 모델들(Step1X-Edit 등) 대비 큰 격차로 우수한 결과를 나타냈다(44.9점으로 Step1X-Edit 대비 약 30점 우세).

7.4 추론 기반 생성 및 편집 (Generation/Editing with Thinking)

이미지 생성 및 편집 작업에서 모델이 중간 단계의 추론(Chain-of-Thought, CoT)을 수행하도록 하면 성능이 뚜렷하게 향상된다.
WISE 벤치마크에서는 CoT를 활용할 때 0.18점 증가(0.52 → 0.70)하며, IntelligentBench에서도 10점 이상 향상(44.9 → 55.3)을 기록했다.
이는 중간 단계의 명시적 추론이 모델의 이해도와 출력 품질을 크게 높인다는 점을 강조한다.

7.5 월드 모델링(World Modeling)

추가적으로 내비게이션과 비디오 데이터를 활용한 미세 조정(fine-tuning)을 수행하여 세계 모델링 능력(world modeling ability)을 크게 개선했다.
내비게이션, 카메라 회전, 다중 프레임 생성 등 다양한 장면에서 강력한 일반화 능력을 보였으며, 현실적인 장면뿐 아니라 만화나 게임 같은 도메인에도 잘 일반화되었다.

7.6 추가 질적 결과 (More Qualitative Results)

더 작은 규모(1.5B)의 BAGEL-1.5B 모델도 기존의 더 큰 규모 모델(JanusPro-7B, Step1X-Edit(12B))보다 우수한 성능을 나타내, 모델 확장 시 성능이 추가로 향상될 수 있는 가능성을 시사한다.
특정 IP, 복잡한 텍스트 렌더링, 정교한 인물 자세 등 여전히 해결하기 어려운 이미지 생성과 편집 사례들이 존재하며, 이 점은 현재 대부분의 공개 모델들이 공통적으로 직면하는 한계로 지적되었다.
이와 같은 어려운 사례들에서도 GPT-4o가 가장 일관된 성공률을 보여, 향후 더 많은 데이터와 모델 규모 확장 및 RLHF(인간 피드백 기반 강화학습)를 통해 추가 개선이 가능할 것으로 기대된다.

8 결론 (Conclusion)

본 논문에서 우리는 통합된 멀티모달 이해 및 생성 모델인 BAGEL을 제시하였다. 이 모델은 통합된 사전 훈련(unified pretraining)을 확장(scaling)할 때 다양한 창발적 능력(emerging capabilities)을 나타낸다. BAGEL은 표준 멀티모달 이해 및 생성 벤치마크에서 최고 수준(top-tier)의 성능을 제공할 뿐만 아니라, 강력한 세계 모델링(world modeling) 및 추론(reasoning) 능력을 갖추고 있다는 점에서 추가적인 차별성을 보인다. 우리는 본 연구의 핵심 결과, 사전 훈련 세부사항 및 데이터 생성 프로토콜을 공유하며, 멀티모달 연구를 위한 더 많은 기회를 열어가기 위해 BAGEL 모델을 오픈소스로 공개한다.

Reference

https://arxiv.org/pdf/2505.14683

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-319, BAGEL: Emerging Properties in Unified Multimodal Pretraining, Preprint 2025