◼ Comment

여기서 참고할만한 것은, 텍스트,오디오,이미지 학습 stage와 학습 데이터 비율이다
pretraining에서 학습 스테이지가 5개나 있고

1-4 stage에서는 오디오 discrete 토큰을 사용하고, 5 stage에서는 continuous feature을 활용하여 학습
출력은 항상 discrete 토큰이 나오는 형태
비전쪽은 내용 스킾

학습 데이터는

ASR만을 사용한게 아니라 QA 형식의 audio 데이터도 pretraining 사용했다고하고
post-training에서 이를 일부 재사용함

데이터 비율

stage 0: text-only 16T

기존에 학습한 longcat 모델 사용

stage 1: text+speech 5.1T

text:audio = 2:1

stage 2: text+speech+vision 3T

text:audio = 2:1
text:vision = 2:1
image caption
interleaved image-text
기본 speech-text

stage 3: text+speech+vision 0.33T

text:vision:speech = 2:1:1
video (새로 추가)
OCR / grounding / GUI
STEM reasoning
multi-image
고품질 데이터

stage 4: text+speech+vision long context

text:vision:speech = 2:1:1

stage 5: audio encoder alignment

LLM freeze / audio encoder만 학습

Abstract

우리는 실시간 오디오-비주얼 상호작용에서 뛰어난 성능을 보이는 5600억 파라미터 규모의 최신 오픈소스 옴니모달 모델 LongCat-Flash-Omni를 소개한다.

단순한 모달리티 시퀀스 모델링 작업에서 점점 더 복잡한 작업으로 확장되는 커리큘럼 기반 점진적 학습 전략을 채택함으로써, LongCat-Flash-Omni는 강력한 단일 모달 성능을 유지하면서도 종합적인 멀티모달 능력을 달성한다.

이 모델은 zero-computation expert를 포함한 고성능 Shortcut-connected MoE 구조를 사용하는 LongCat-Flash를 기반으로 하며, 효율적인 멀티모달 인식 및 음성 재구성 모듈을 통합한다.

총 560B 파라미터(활성화 27B)라는 매우 큰 규모에도 불구하고, LongCat-Flash-Omni는 저지연(real-time) 오디오-비주얼 상호작용을 구현한다.

학습 인프라 측면에서는, 대규모 멀티모달 학습에서 발생하는 데이터 및 모델 이질성을 처리하기 위해 모달리티 분리 병렬화(modality-decoupled parallelism) 방식을 제안한다. 이 방식은 텍스트-only 학습 대비 90% 이상의 처리량을 유지하는 높은 효율을 보여준다.

광범위한 평가 결과, LongCat-Flash-Omni는 오픈소스 모델 중 옴니모달 벤치마크에서 최고 수준의 성능을 달성했으며, 텍스트, 이미지, 비디오 이해뿐 아니라 음성 이해 및 생성 등 다양한 단일 모달 작업에서도 경쟁력 있는 성능을 보인다.

본 논문에서는 모델 아키텍처 설계, 학습 절차, 데이터 전략을 종합적으로 설명하며, 향후 연구와 개발을 촉진하기 위해 모델을 오픈소스로 공개한다.

1 Introduction

인간은 본질적으로 다양한 형태의 정보를 효율적으로 인지하고 통합할 수 있는 옴니모달 존재로, 시각과 청각 입력을 포함한 여러 정보를 활용하여 다양한 복잡한 작업을 수행할 수 있다. 이러한 다중 모달리티의 자연스러운 결합과 전달은 인간의 의사소통과 상호작용의 효율성과 효과를 크게 향상시킨다.

인공지능 일반지능(AGI)을 향한 흐름 속에서, 대규모 언어 모델(LLM) 분야는 이제 더욱 풍부한 멀티모달 능력과 효율적인 인간-AI 상호작용을 통합하는 방향으로 빠르게 발전하고 있다.

최근 Gemini-2.5, GPT-4o와 같은 모델들은 텍스트, 오디오, 이미지, 비디오 처리를 하나의 모델에 통합하여 효율적인 오디오-비주얼 상호작용을 가능하게 했다. 이러한 흐름을 따라 옴니모달 모델 연구가 활발히 진행되고 있다.

그러나 강력한 오프라인 멀티모달 이해 능력과 실시간 오디오-비주얼 상호작용 능력을 동시에 갖춘 옴니모달 모델을 학습하는 것은 매우 어렵다. 주요 어려움은 다음과 같다.

모달 간 이질성 (Cross-modal heterogeneity)
서로 다른 모달리티 간의 큰 차이는 효과적인 통합 표현과 결합 전략을 요구하며, 각 모달의 성능이 단일 모달 모델 대비 저하되지 않도록 해야 한다.
오프라인 처리와 스트리밍 능력의 통합
오프라인 멀티모달 이해와 실시간 상호작용을 동시에 지원하는 것은 어렵다. 특히 스트리밍 환경에서는 시간 인식, 오디오-비주얼 동기화, 멀티턴 대화 관리 등이 필요하다.
실시간 상호작용
스트리밍 오디오/비디오 입력과 음성 출력 모두를 지원하면서도 낮은 지연(latency)을 유지해야 하므로, 모델 구조와 시스템 설계에 높은 요구사항이 존재한다.
학습 효율성
데이터와 모델의 이질성은 대규모 분산 학습 전략 설계를 어렵게 만든다.

본 논문에서는 이러한 문제를 해결하기 위해 여러 접근을 제안한다.

먼저, 다단계 대규모 프리트레이닝 파이프라인을 설계하여 텍스트 기반 모델에서 시작해 점진적으로 오디오와 비주얼 데이터를 통합한다.

텍스트백본에 이어서 하는게 국룰이긴하나 이렇게 하는 이유에 대한 고찰이 부족.

균형 잡힌 데이터 혼합과 early-fusion 전략을 통해 모달 간 깊은 통합을 달성하면서도 단일 모달 성능을 유지한다.

두 번째로, 오프라인 이해와 실시간 상호작용 간의 균형을 위해 human-in-the-loop 방식의 고품질 상호작용 데이터를 구축하고, 장기 메모리와 멀티턴 대화를 고려한다. 또한 기존 비전-텍스트 데이터를 활용해 음성 출력이 가능한 QA 데이터를 생성하여, 오프라인 능력을 상호작용 환경으로 확장한다.

세 번째로, 대규모 모델에서 저지연 오디오-비주얼 상호작용을 달성하기 위해 전체 모듈을 효율적으로 설계했다. LongCat-Flash의 ScMoE 구조를 백본으로 사용하고, 오디오/비디오 인코더와 chunk 기반 interleaving 전략을 도입한다. 또한 multi-codebook 기반 음성 복원을 통해 디코딩 효율을 개선했으며, 스트리밍 파이프라인을 통해 서버 지연을 최소화했다. 그 결과 560B 규모에서도 밀리초 수준 응답 속도를 달성했다.

네 번째로, 학습 효율성을 위해 modality-decoupled parallelism (MDP)을 제안한다. 이 방식은 LLM, 비전 인코더, 오디오 인코더를 독립적으로 최적화할 수 있게 하며, 텍스트-only 학습 대비 90% 이상의 처리량을 유지한다.

실험 결과, 본 모델은 옴니모달 벤치마크와 실시간 상호작용 작업에서 강력하고 일관된 성능을 보인다. Omni-Bench, WorldSense 등에서 SOTA를 달성했으며, 텍스트, 이미지, 비디오, 음성 이해 및 생성 등 다양한 단일 모달 작업에서도 경쟁력 있는 성능을 보인다. 또한 사용자 평가에서도 낮은 지연과 높은 품질의 오디오-비주얼 상호작용을 확인했다.

LongCat-Flash-Omni의 주요 특징은 다음과 같다.

SOTA 통합 옴니모달 모델: 하나의 모델에서 오프라인 이해와 실시간 상호작용을 동시에 수행
대규모 + 실시간 상호작용: 128K 컨텍스트와 낮은 지연을 기반으로 멀티턴 대화 및 시간 추론 지원
효율적인 early-fusion 학습: 멀티모달 통합과 단일 모달 성능 유지
효율적인 학습 인프라: modality-decoupled parallelism 기반 학습 효율 향상
오픈소스 공개: 연구 및 커뮤니티 발전 지원

이후 논문의 구성은 다음과 같다. Section 2에서는 모델 아키텍처를, Section 3과 4에서는 프리트레이닝과 포스트트레이닝을, Section 5와 6에서는 학습 인프라와 추론을, Section 7에서는 실험 결과를, Section 8에서는 결론을 다룬다.

2 Architecture

그림 2에 나타난 바와 같이, LongCat-Flash-Omni는 완전한 end-to-end 옴니모달 모델이다.

그림만 봐서는, 입력으로는 continuous feature가 들어가고 출력으로 discrete 토큰들이 생성되는 형태 같은데
근데 이렇게하면 멀티턴인 경우에, 생성된 음성토큰을 오디오로 바꾸고, 다시 인코더를 태워야하기 때문에 속도가 지연되지 않나?
따라서 모델의 음성 출력은 입력으로 다시 안들어가고, 모델의 출력은 텍스트 토큰으로 context 유지하는 듯
즉 오디오 feature은 입력 오디오에 대해서만 인코더 태워서 들어가는 형식
또한 오디오 입력으 continuous로 이해에 유리하고, 출력은 discrete 한 토큰이므로 생성에 유리
출력은 텍스트/오디오만 지원하는 형식

이 모델은 텍스트, 오디오, 이미지, 비디오 및 이들의 임의 조합을 입력으로 받을 수 있으며, LLM 백본으로부터 직접 음성 토큰(speech tokens)을 생성할 수 있다.

LongCat-Flash-Omni는 멀티모달 입력을 처리하기 위해 비전 인코더(vision encoder)와 오디오 인코더(audio encoder)를 사용한다.
이렇게 얻은 멀티모달 특징은 LLM에 입력되며, LLM은 텍스트와 오디오 토큰을 생성한다. 이후 오디오 디코더(audio decoder)가 LLM이 생성한 음성 토큰을 waveform으로 복원하여 자연스러운 음성 상호작용을 가능하게 한다.

모든 모듈은 효율적인 스트리밍 추론(streaming inference)을 지원하도록 설계되었다.
오디오 인코더, 비전 인코더, 오디오 디코더는 각각 약 6억 파라미터 규모의 경량 모듈이며, 대규모 LLM 백본은 LongCat 계열에서 제안된 효율적인 아키텍처를 기반으로 한다.

이 섹션에서는 먼저 LongCat-Flash-Omni를 구성하는 각 구성 요소를 설명한다. 여기에는

다양한 해상도와 종횡비를 지원하는 비전 인코더
오디오 인코더, 디코더 및 토크나이저
LLM 백본

이 포함된다. 이후, 비디오 처리 전략과 저지연 실시간 오디오-비주얼 상호작용을 가능하게 하는 구조적 설계를 설명한다.

2.1 Vision Encoder

비전 인코더는 멀티모달 언어 모델에서 핵심적인 구성 요소이다.
이미지와 비디오와 같은 시각 입력을 효과적으로 인코딩하기 위해, LongCat-Flash-Omni는 LongCat-ViT라 불리는 잘 설계된 Vision Transformer(ViT)를 사용한다.

LongCat-ViT는 다양한 멀티모달 작업에서 높은 성능을 보이며, 다양한 해상도와 종횡비의 입력을 자연스럽게 처리하고, 이미지와 비디오 데이터를 통합적으로 인코딩할 수 있는 능력을 제공한다.

Architecture Design

LongCat-ViT는 기존 Vision Transformer의 기본 구조를 유지하면서, 다음과 같은 주요 개선을 포함한다:

이미지와 비디오 입력을 통합 처리하기 위한 통합 patchification 모듈
2D Rotary Position Embedding (2D-RoPE)
SwiGLU 활성화 함수
RMSNorm
LayerScale 모듈
Query-Key 정규화

이러한 설계 개선을 통해 기존 ViT 대비 더 강건하고 효율적인 아키텍처를 구현한다.

또한, 실시간 상호작용에서 비디오 프레임 인코딩의 계산 효율을 높이기 위해 상대적으로 경량화된 모델 구성을 사용한다.

일반적인 설정을 따르며, 시각-언어 정렬을 위해 pre-normalization을 적용한 2-layer MLP를 vision-language projector로 사용한다.
또한 고해상도 입력에서 발생하는 계산량 증가를 줄이기 위해 공간 차원에서 2× pixel-unshuffle 연산을 적용한다.

Native Resolution Encoding

기존 ViT 모델들(예: CLIP, SigLIP)은 입력 이미지를 고정된 해상도로 리사이즈하는 방식이 일반적이며, 이로 인해 특히 극단적인 종횡비나 고해상도 이미지에서 정보 손실이 발생할 수 있다.

이를 해결하기 위해 LongCat-ViT는 입력을 원본 해상도(native resolution) 그대로 인코딩한다.
이를 통해 시각 데이터의 공간적 및 문맥적 정보를 유지하여 복잡한 시각적 이해 및 추론 능력을 향상시킨다.

각 이미지 또는 비디오 프레임에 대해:

패치 개수가 특정 범위(학습 시 576~5832)에 들어가면 최소한의 리사이즈만 수행
범위를 벗어나면 종횡비를 유지하면서 해당 범위로 리스케일

하는 방식으로 처리한다.

Contrastive Vision-Language Pretraining

LongCat-ViT는 두 가지 적응 전략을 결합한 점진적 학습 방식을 사용한다:

해상도 적응 (progressive resolution adaptation)
- 초기에는 낮은 고정 해상도(예: 224)로 학습
- 이후 native resolution로 fine-tuning
모달리티 적응 (progressive visual modality adaptation)
- 초기에는 이미지 중심 학습
- 최종 단계에서 비디오 데이터를 추가하여 계산 비용을 줄임

초기 학습 안정성을 높이기 위해, 사전 학습된 비전 모델의 feature distillation을 보조 목표로 사용하며, 학습 후반으로 갈수록 해당 loss의 비중을 줄인다.

이 모델은 contrastive pretraining 단계에서 총 146억 개 샘플로 scratch부터 학습된다.

2.2 Audio Tokenizer, Encoder, and Decoder

LongCat-Flash-Omni에서는 학습 단계에 따라 서로 다른 형태의 오디오 입력을 LLM 백본에 제공한다. 구체적으로, pre-training 1–4단계에서는 audio tokenizer를 사용하여 원시 음성을 4개의 코드북으로 구성된 이산 토큰으로 변환한다. 이는 일관된 next-token prediction을 가능하게 하여 학습 효율을 높인다. 그러나 이러한 이산화는 미세한 음향 정보를 포착하는 능력을 저해하는 것으로 관찰되었다.

따라서 pre-training 5단계부터는 audio encoder를 도입하여 원시 음성을 연속적인 오디오 feature로 변환하여 LLM에 입력한다. 한편, 음성 생성의 경우에는 next-token prediction 패러다임에 맞추어, LLM이 여전히 4-codebook 기반의 이산 토큰을 생성하고, 이를 audio decoder가 waveform으로 복원한다.

입력단에서 1-4단계는 discrete 토큰만 사용하여 학습, 5단계는 continuous feature로 학습하는듯. 출력은 항상 discrete 토큰?

Audio Tokenizer and Decoder

우리는 LongCat-Audio-Codec을 오디오 토크나이저 및 디코더로 사용한다. 이는 강력한 의미 모델링 능력, 유연한 음향 특징 추출, 그리고 저지연 스트리밍 합성 능력을 제공하기 때문이다. 이 토크나이저는 오디오 waveform을 초당 16.67 프레임 속도로 4개의 코드북으로 이산화하며, 하나의 코드북은 semantic 정보를, 나머지 세 개는 acoustic 정보를 담당한다.

실시간 상호작용에서의 저지연 추론을 위해, diffusion이나 flow-matching 기반의 code2mel 모델과 vocoder를 사용하는 기존 방식과 달리, 토크나이저의 decoder를 직접 사용하여 waveform을 복원한다. 이 디코더는 3프레임의 look-ahead만 필요로 하는 스트리밍 디코딩을 지원한다.

그림 3에 나타난 바와 같이, audio decoder는 LSTM 레이어, convolution 블록, 그리고 causal transposed convolution 레이어로 구성되며, GAN 프레임워크 하에서 학습된다.

Audio Encoder

응답 지연을 최소화하고 임의 길이의 음성 입력을 처리하기 위해, audio encoder는 스트리밍 구조로 설계되었다. 그림 4에 나타난 바와 같이, audio encoder는 80차원 Fbank feature를 입력으로 받는다. 구조는 Pre-FFN 모듈을 포함하며, frame splicing downsampling을 통해 시퀀스 길이를 1/8로 줄인다. 이때 각 프레임은 80ms의 시간 구간을 나타낸다.

핵심 연산은 streaming encoder에서 수행되며, 이는 Transformer와 유사한 구조를 유지하면서 다음과 같은 수정이 적용된다: (1) 학습 안정성을 위한 Pre-Norm 구조, (2) self-attention 대신 FSMN 레이어를 사용하여 제한된 컨텍스트 내에서 효율적인 특징 처리를 수행한다.

지연과 성능 간 균형을 위해, 마지막 6개 레이어에만 1프레임 look-ahead를 적용하고, 나머지 레이어는 완전한 causal 구조를 유지한다. 이후 post-FFN 모듈을 통해 추가적인 feature refinement를 수행한다.

이 audio encoder는 음성 인식 데이터 기반의 supervised 학습으로, CTC loss를 사용하여 학습된다.

2.3 LLM Backbone

LongCat-Flash-Omni는 LongCat-Flash를 기반으로 구축된 5600억 파라미터 규모의 Mixture-of-Experts (MoE) 언어 모델이다.

LongCat-Flash는 Multi-head Latent Attention (MLA), shortcut-connected MoE, 그리고 zero-computation experts를 채택하여, 토큰마다 가변적인 계산을 수행한다. 이 과정에서 186억~313억 파라미터(평균 270억)가 활성화된다.

이러한 특성은 LongCat-Flash-Omni에서도 유지되며, 멀티모달 이해와 오디오-비주얼 상호작용으로 확장된다.

2.4 Video Strategy and Streaming Audio-Visual Interaction

LongCat-Flash-Omni는 강력한 오프라인 멀티모달 이해와 저지연 오디오-비주얼 상호작용을 자연스럽게 통합하도록 설계되었다. 오디오와 비주얼 스트림은 각각 audio encoder와 vision encoder에 의해 독립적으로 처리된다. 이후 추출된 feature는 시간적으로 정렬되고, 동기화된 chunk로 나뉘어 interleaving된 뒤 LLM decoder에 입력되어 멀티모달 이해를 수행한다. 본 절에서는 LongCat-Flash-Omni의 비디오 처리 전략과, 스트리밍 상호작용을 지원하기 위한 오디오-비주얼 입력 처리 방식을 설명한다.

2.4.1 Video Strategy

비디오 처리는 길이가 수 초에서 수 시간까지 다양하고 해상도 또한 크게 달라지는 특성 때문에 효율적으로 처리하기 어려운 과제이다. 이러한 문제를 해결하기 위해, 우리는 모델 성능과 계산 효율 사이의 균형을 맞추기 위한 여러 전략을 도입한다.

Dynamic Video Frame Sampling

기본적으로 초당 2프레임(2 FPS)의 샘플링 속도를 사용하며, 비디오 길이에 따라 동적으로 조정한다.
학습 시 짧은 비디오는 더 높은 프레임 속도로 샘플링하여 더 밀집된 시간 정보를 확보하며, 최소 16프레임을 유지한다. 반대로 매우 긴 비디오는 최대 프레임 수 제한에 따라 균일하게 샘플링한다. 이러한 프레임 제한은 메모리 사용량을 제어하고 계산 효율을 유지하는 데 기여한다.

Textual Timestamps

각 비디오 프레임 앞에 타임스탬프를 텍스트 형태로 추가하여 모델의 시간 인식 능력을 강화한다.
예를 들어, t초 시점의 프레임은 “Second{t}”라는 텍스트를 해당 시각 토큰 앞에 추가한다.

입력 시퀀스는 다음과 같은 형태를 갖는다:
“Second{i}||Vi||Second{j}||Vj||…”

여기서 Second{i}는 텍스트 타임스탬프, Vi는 해당 시점의 시각 토큰, “||”는 연결을 의미한다.

Hierarchical Token Compress in Video Inputs

비디오 입력은 다음 세 단계로 압축된다:

Section 2.1에서 설명한 방식으로 각 프레임을 패치 수 제한에 맞게 리사이즈
시각 인코더에 입력하기 전에 temporal stride 2의 3D convolution을 적용하여 프레임 수를 N → N/2로 축소
시각 토큰이 일정 개수를 초과할 경우, 추가적으로 보간 기반 다운샘플링 수행

2.4.2 Streaming Audio-Visual Interaction

스트리밍 오디오-비주얼 상호작용 메커니즘은 LongCat-Flash-Omni의 핵심 구성 요소로, 비디오와 음성 신호를 실시간으로 통합하여 상호작용 커뮤니케이션을 지원한다. 제안된 오디오-비주얼 상호작용 프레임워크는 다음 두 가지 핵심 측면으로 특징지어진다.

Streaming Audio-Visual Feature Interleaving

오프라인 오디오-비주얼 이해 작업에서는 오디오와 비주얼 feature를 시퀀스 수준에서 연결할 수 있다. 그러나 실시간 오디오-비주얼 상호작용에서는 사용자 질의가 입력된 이후의 응답 지연을 최소화하기 위해, 오디오 및 비디오 스트림의 feature를 가능한 한 빨리 LLM 백본에 prefill해야 한다.

이를 위해 우리는 시간적으로 동기화된, chunk 단위의 오디오-비주얼 feature interleaving 메커니즘을 설계한다.

오디오-비주얼 feature chunk는 다음과 같은 형태로 구성된다:
“<|timestamp|>:<|video-tokens|><|audio-start-token|><|audio-tokens|><|timestamp|>:<|video-tokens|><|audio-tokens|>...<|audio-end-token|>”

여기서 timestamp는 2.4.1절에서 설명한 바와 같이 텍스트 형태로 표현된다.

Sparse-Dense Sampling Strategy

사용자와 모델 간 turn-taking 상호작용 동안 계산 비용과 정보 손실 간의 균형을 최적으로 맞추기 위해 sparse-dense 샘플링 전략을 설계한다.

구체적으로, 정보 입력 구간에서는 가능한 많은 오디오-비주얼 정보를 보존하기 위해 chunk 크기를 1초로 설정하고, 더 높은 밀도의 비디오 샘플링 속도(2 FPS)를 사용한다. 반면, 모델 응답 구간에서는 비디오 프레임을 더 낮은 샘플링 속도(즉, chunk 크기 2초, 0.5 FPS)로 버퍼링하고, 이를 다음 사용자 턴 앞에 prepend한다.

이 설계는 모델 응답 구간 동안 시각 정보 유지와 계산 오버헤드 간의 균형을 효과적으로 맞추며, 고품질 오디오-비주얼 상호작용을 가능하게 한다. 이는 커뮤니티의 다른 옴니모달 모델과 구별되는 핵심 능력이다.

3 Pre-Training

1. 전체 데이터 구성 (Data Curation 개요)

이 모델은 총 2.5T tokens 이상의 대규모 멀티모달 코퍼스로 학습된다.
데이터는 다음과 같은 7가지 축으로 구성된다:

Audio data
Image-text data (caption + interleaved)
OCR / Grounding / GUI data
STEM data
Multi-image data
Video data
Long-context multimodal data

즉, 단순히 텍스트+이미지가 아니라 음성·영상·GUI·문서·과학문제까지 포함된 매우 heterogeneous한 mixture이다.

2. Audio 데이터

(1) Speech-Text Interleaved

수천만 시간 규모의 음성 데이터
VAD → ASR cross-check → alignment → filtering 파이프라인
(Ai, Ti) 구조로 쪼개고 일부 modality masking

👉 핵심:

speech + text를 하나의 sequence로 학습 (early fusion)
modality dropout 형태로 robustness 확보

(2) Audio Understanding

captioning, QA, acoustic scene, paralinguistic 등 포함
open-source + proprietary 혼합

👉 특징:

단순 ASR이 아니라 “음성 의미 + 감정 + 환경 이해”까지 포함

3. Image-Text 데이터

(1) Image Caption Data

multi-stage filtering + re-captioning
SigLIP similarity 기반 필터링
cluster 기반 resampling (long-tail 보정)

👉 특징:

단순 웹 데이터가 아니라 재구성된 high-quality caption dataset

(2) Interleaved Image-Text

여러 이미지 + 텍스트가 섞인 sequence
74% 데이터 pruning 후 quality 유지

👉 추가:

교육 영상 기반 in-house dataset 구축
ASR + OCR + LLM refinement

👉 핵심:

멀티 이미지 reasoning + in-context 능력 강화

4. OCR / Grounding / GUI 데이터

OCR: 문서, 표, 수식, handwriting
Grounding: detection + localization QA
GUI:
- perception (스크린샷 이해)
- grounding (UI 요소 위치)
- planning (action sequence)

👉 특징:

단순 vision이 아니라
→ document understanding + agent capability까지 포함

5. STEM 데이터

약 15M image-text pairs
K12 ~ 대학 수준 문제
MCQ + open-ended QA

👉 핵심:

reasoning capability 강화용 high-quality subset

6. Multi-image 데이터

taxonomy 기반 (emotion, vehicle, clock 등)
open-source + synthetic 생성

👉 역할:

fine-grained visual reasoning

7. Video 데이터

public dataset + in-house 데이터 혼합
구성:
- caption
- temporal QA
- action recognition QA

👉 특징:

temporal reasoning + long sequence 학습 핵심

8. Long-context Multimodal 데이터

긴 영상 (>3분) + interleaved text-image
long-video QA

👉 핵심:

long-context reasoning + memory 학습

9. 학습 단계별 데이터 비율 (핵심)

논문에서 가장 중요한 부분은 stage별 데이터 mixture 비율이다.

Stage-0 (Text only)

16T tokens (텍스트만)

Stage-1 (Text + Speech)

총 5.1T tokens
비율:
- text : audio = 2 : 1

👉 특징:

speech를 text space에 align

Stage-2 (Text + Speech + Vision)

총 3T+ tokens
비율:
- text : audio = 2 : 1 (유지)
- text : vision = 2 : 1

👉 즉:

대략
text : vision : audio = 2 : 1 : 1

Stage-3 (Full multimodal + video)

총 0.33T tokens
비율 유지:
- text : vision : speech = 2 : 1 : 1

👉 특징:

video + OCR + GUI + STEM 포함
PPL 기반 dynamic sampling

Stage-4 (Long context)

context 확장 (8K → 128K)
추가:
- long-context data 25% 추가
비율 유지:
- 2 : 1 : 1

Stage-5 (Audio encoder alignment)

LLM freeze
audio encoder만 학습

👉 데이터 비율 개념보다는
representation alignment 단계

10. 전체 요약 (핵심 구조)

데이터 구성

2.5T+ tokens
audio / image / video / OCR / GUI / STEM / long-context 포함

핵심 비율

Stage	Modalities	Ratio
Stage-0	text	-
Stage-1	text + audio	2 : 1
Stage-2	+ vision	2 : 1 : 1
Stage-3	+ video	2 : 1 : 1
Stage-4	+ long-context	2 : 1 : 1 (25% long-context 추가)

4 Post-Training

Post-training은 한 줄로 요약하면:

“모델을 쓸 수 있게 만드는 단계 (alignment + interaction + reasoning)”

구성은 2단계:

SFT (Supervised Fine-Tuning)
RL (DPO 기반 reinforcement learning)

1. 전체 구조

Post-training의 목표는:

instruction following
multimodal reasoning
real-time interaction
human alignment

👉 pretraining이 “능력 학습”이라면
👉 post-training은 “행동 교정 + 사용자 대응 능력”이다

2. SFT (Supervised Fine-Tuning)

2.1 데이터 구성

SFT는 여러 종류 데이터 mixture로 구성됨:

(1) Image-Text SFT 데이터

구성:

caption
VQA
multi-image reasoning
OCR / document / chart
grounding
STEM reasoning

특징:

LLM-as-a-judge로 품질 필터링
약 3M samples

👉 핵심:

high-quality instruction dataset

(2) Video-Text SFT 데이터

구성:

video understanding
temporal reasoning
segmentation / grounding
classification

데이터:

약 700K samples

특징:

48개 capability taxonomy로 sampling

👉 핵심:

temporal + causal reasoning 강화

(3) Audio Understanding 데이터

ASR / AST / paralinguistic / audio QA
pretraining 데이터 일부 재사용

👉 목적:

audio encoder ↔ LLM semantic alignment 강화

(4) Vision-Speech QA

구성:

입력: image/video + speech prompt
출력: speech

생성 방식:

기존 QA → LLM rewrite → TTS 변환

👉 핵심:

“보고 말하기” 능력 학습

(5) Audio-Visual Understanding 데이터

구성:

video + audio 기반 QA
interleaved chunk 형태

특징:

시간 정렬된 multimodal reasoning

👉 핵심:

audio + vision joint reasoning

(6) Multimodal Interaction 데이터 (핵심)

(a) Speech-to-Speech 데이터

multi-turn 대화
다양한 감정 / 억양 / dialect
TTS 기반 생성

👉 목적:

자연스러운 음성 대화

(b) Audio-Visual Interaction 데이터

구성:

multi-turn dialogue
referential reasoning
memory dependency

생성 방식:

모델로 QA 생성
자동 filtering (LLM judge)
human refinement

👉 핵심:

real-world interaction 시뮬레이션

2.2 SFT 학습 방식

중요 설정:

audio encoder freeze
나머지 (LLM + projector 등) 학습

👉 이유:

low-level acoustic feature 유지 + alignment만 학습

Optimizer:

AdamW
LR: 1e-5 → cosine decay
batch size: 1024
1 epoch

2.3 SFT 핵심 요약

👉 데이터 특징:

multimodal + interaction 중심
synthetic + human refined

👉 학습 전략:

partial freezing (audio encoder)
instruction mixture training

3. RL (Reinforcement Learning, DPO)

3.1 기존 문제

기존 DPO는:

text-only
또는 text/audio 따로 최적화

👉 문제:

multimodal coherence 깨짐

3.2 이 논문의 해결

👉 joint DPO (text + audio 동시 최적화)

3.3 Loss 구조

👉 특징:

text head + multiple audio head 동시에 학습
α : β = 1 : 1

3.4 데이터 구성

두 가지:

(1) General DPO 데이터

safety
helpfulness
style

(2) Model-generated 데이터

SFT 모델로 생성
한 prompt당 6개 rollout
preference pair 구성

👉 평가:

human + LLM judge 혼합

3.5 학습 설정

batch size: 256
LR: 1e-6 → cosine decay
KL regularization: 0.1

👉 목적:

SFT에서 너무 벗어나지 않도록

4. 전체 흐름 요약

Pre-training vs Post-training

단계	역할
Pre-training	능력 학습 (understanding)
SFT	instruction + interaction 학습
RL (DPO)	behavior alignment

핵심 구조

Pretraining → SFT → DPO
   능력        사용법     사람처럼

8 Conclusion

본 보고서에서는 텍스트, 오디오, 이미지, 비디오 등 다양한 모달리티를 하나의 통합된 프레임워크에서 결합하여, 강력한 오프라인 멀티모달 이해 능력과 실시간 오디오-비주얼 상호작용을 동시에 지원하는 차세대 오픈소스 옴니모달 모델인 LongCat-Flash-Omni를 제안하였다. LongCat-Flash-Omni는 대규모 모델이 개별 모달리티의 성능을 저하시키지 않으면서도 다양한 모달리티를 효과적으로 인지하고 통합하며 생성할 수 있음을 보여준다.

우리는 이러한 시스템을 구축하는 과정에서의 주요 도전 과제들, 즉 모달리티 간 이질성, 오프라인 처리와 스트리밍 상호작용의 통합, 그리고 저지연 실시간 상호작용을 해결하였다. 특히, 정교하게 설계된 다단계 early-fusion 사전학습 파이프라인을 통해, 각 모달리티의 성능을 유지하면서도 상호 보완적인 멀티모달 추론이 가능하도록 깊이 통합된 표현을 학습할 수 있었다. 또한 human-in-the-loop 데이터 구성 방식과 128K 토큰 컨텍스트 윈도우를 도입함으로써, 다중 턴 대화, 시간적 추론, 그리고 동적인 상호작용 환경에서의 메모리 능력을 향상시켰다. 아키텍처 측면에서는 zero-computation expert를 포함한 ScMoE 백본과 경량 모달리티 인코더 및 디코더를 채택하여, 실시간 오디오-비주얼 상호작용을 가능하게 하였다.

광범위한 실험 결과는 LongCat-Flash-Omni가 Omni-Bench, WorldSense와 같은 옴니모달 벤치마크에서 state-of-the-art 성능을 달성했을 뿐만 아니라, 이미지 및 비디오 이해, 오디오 이해 등 주요 단일 모달리티 작업에서도 폐쇄형 모델에 필적하거나 이를 능가하는 성능을 보임을 보여준다. 또한 주관적 평가 결과에서도 자연스럽고 저지연이며 고품질의 상호작용을 제공할 수 있음을 확인하여, 차세대 인간-인공지능 인터페이스의 기반 모델로서의 잠재력을 입증하였다.

향후 연구 방향으로는 학습 데이터의 다양성과 규모 확장, adaptive thinking mode의 도입, 스트리밍 및 생성 능력의 개선, 그리고 보다 풍부한 형태의 embodied 및 상호작용 지능 탐색이 포함된다. 우리는 LongCat-Flash-Omni의 공개가 멀티모달 이해 및 생성 연구를 가속화할 뿐만 아니라, 인간 중심의 AGI 지향 시스템을 구축하는 새로운 패러다임과 응용을 촉진할 것으로 기대한다.

Reference

https://arxiv.org/pdf/2511.00279

NL-337, LongCat-Flash-Omni Technical Report, Preprint 2025

◼ Comment

Abstract

1 Introduction

2 Architecture

2.1 Vision Encoder

Architecture Design

Native Resolution Encoding

Contrastive Vision-Language Pretraining

2.2 Audio Tokenizer, Encoder, and Decoder

Audio Tokenizer and Decoder

Audio Encoder

2.3 LLM Backbone

2.4 Video Strategy and Streaming Audio-Visual Interaction

2.4.1 Video Strategy

Dynamic Video Frame Sampling

Textual Timestamps

Hierarchical Token Compress in Video Inputs

2.4.2 Streaming Audio-Visual Interaction

Streaming Audio-Visual Feature Interleaving

Sparse-Dense Sampling Strategy

3 Pre-Training

1. 전체 데이터 구성 (Data Curation 개요)

2. Audio 데이터

(1) Speech-Text Interleaved

(2) Audio Understanding

3. Image-Text 데이터

(1) Image Caption Data

(2) Interleaved Image-Text

4. OCR / Grounding / GUI 데이터

5. STEM 데이터

6. Multi-image 데이터

7. Video 데이터

8. Long-context Multimodal 데이터

9. 학습 단계별 데이터 비율 (핵심)

Stage-0 (Text only)

Stage-1 (Text + Speech)

Stage-2 (Text + Speech + Vision)

Stage-3 (Full multimodal + video)

Stage-4 (Long context)

Stage-5 (Audio encoder alignment)

10. 전체 요약 (핵심 구조)

데이터 구성

핵심 비율

4 Post-Training

1. 전체 구조

2. SFT (Supervised Fine-Tuning)

2.1 데이터 구성

(1) Image-Text SFT 데이터

(2) Video-Text SFT 데이터

(3) Audio Understanding 데이터

(4) Vision-Speech QA

(5) Audio-Visual Understanding 데이터

(6) Multimodal Interaction 데이터 (핵심)

(a) Speech-to-Speech 데이터

(b) Audio-Visual Interaction 데이터

2.2 SFT 학습 방식

2.3 SFT 핵심 요약

3. RL (Reinforcement Learning, DPO)

3.1 기존 문제

3.2 이 논문의 해결

3.3 Loss 구조

3.4 데이터 구성

(1) General DPO 데이터

(2) Model-generated 데이터

3.5 학습 설정

4. 전체 흐름 요약

Pre-training vs Post-training

핵심 구조

8 Conclusion

댓글

댓글 쓰기