NL-337, LongCat-Flash-Omni Technical Report, Preprint 2025
Abstract
우리는 실시간 오디오-비주얼 상호작용에서 뛰어난 성능을 보이는 5600억 파라미터 규모의 최신 오픈소스 옴니모달 모델 LongCat-Flash-Omni를 소개한다.
단순한 모달리티 시퀀스 모델링 작업에서 점점 더 복잡한 작업으로 확장되는 커리큘럼 기반 점진적 학습 전략을 채택함으로써, LongCat-Flash-Omni는 강력한 단일 모달 성능을 유지하면서도 종합적인 멀티모달 능력을 달성한다.
이 모델은 zero-computation expert를 포함한 고성능 Shortcut-connected MoE 구조를 사용하는 LongCat-Flash를 기반으로 하며, 효율적인 멀티모달 인식 및 음성 재구성 모듈을 통합한다.
총 560B 파라미터(활성화 27B)라는 매우 큰 규모에도 불구하고, LongCat-Flash-Omni는 저지연(real-time) 오디오-비주얼 상호작용을 구현한다.
학습 인프라 측면에서는, 대규모 멀티모달 학습에서 발생하는 데이터 및 모델 이질성을 처리하기 위해 모달리티 분리 병렬화(modality-decoupled parallelism) 방식을 제안한다. 이 방식은 텍스트-only 학습 대비 90% 이상의 처리량을 유지하는 높은 효율을 보여준다.
광범위한 평가 결과, LongCat-Flash-Omni는 오픈소스 모델 중 옴니모달 벤치마크에서 최고 수준의 성능을 달성했으며, 텍스트, 이미지, 비디오 이해뿐 아니라 음성 이해 및 생성 등 다양한 단일 모달 작업에서도 경쟁력 있는 성능을 보인다.
본 논문에서는 모델 아키텍처 설계, 학습 절차, 데이터 전략을 종합적으로 설명하며, 향후 연구와 개발을 촉진하기 위해 모델을 오픈소스로 공개한다.
1 Introduction
인간은 본질적으로 다양한 형태의 정보를 효율적으로 인지하고 통합할 수 있는 옴니모달 존재로, 시각과 청각 입력을 포함한 여러 정보를 활용하여 다양한 복잡한 작업을 수행할 수 있다. 이러한 다중 모달리티의 자연스러운 결합과 전달은 인간의 의사소통과 상호작용의 효율성과 효과를 크게 향상시킨다.
인공지능 일반지능(AGI)을 향한 흐름 속에서, 대규모 언어 모델(LLM) 분야는 이제 더욱 풍부한 멀티모달 능력과 효율적인 인간-AI 상호작용을 통합하는 방향으로 빠르게 발전하고 있다.
최근 Gemini-2.5, GPT-4o와 같은 모델들은 텍스트, 오디오, 이미지, 비디오 처리를 하나의 모델에 통합하여 효율적인 오디오-비주얼 상호작용을 가능하게 했다. 이러한 흐름을 따라 옴니모달 모델 연구가 활발히 진행되고 있다.
그러나 강력한 오프라인 멀티모달 이해 능력과 실시간 오디오-비주얼 상호작용 능력을 동시에 갖춘 옴니모달 모델을 학습하는 것은 매우 어렵다. 주요 어려움은 다음과 같다.
모달 간 이질성 (Cross-modal heterogeneity)
서로 다른 모달리티 간의 큰 차이는 효과적인 통합 표현과 결합 전략을 요구하며, 각 모달의 성능이 단일 모달 모델 대비 저하되지 않도록 해야 한다.오프라인 처리와 스트리밍 능력의 통합
오프라인 멀티모달 이해와 실시간 상호작용을 동시에 지원하는 것은 어렵다. 특히 스트리밍 환경에서는 시간 인식, 오디오-비주얼 동기화, 멀티턴 대화 관리 등이 필요하다.실시간 상호작용
스트리밍 오디오/비디오 입력과 음성 출력 모두를 지원하면서도 낮은 지연(latency)을 유지해야 하므로, 모델 구조와 시스템 설계에 높은 요구사항이 존재한다.학습 효율성
데이터와 모델의 이질성은 대규모 분산 학습 전략 설계를 어렵게 만든다.
본 논문에서는 이러한 문제를 해결하기 위해 여러 접근을 제안한다.
먼저, 다단계 대규모 프리트레이닝 파이프라인을 설계하여 텍스트 기반 모델에서 시작해 점진적으로 오디오와 비주얼 데이터를 통합한다. 균형 잡힌 데이터 혼합과 early-fusion 전략을 통해 모달 간 깊은 통합을 달성하면서도 단일 모달 성능을 유지한다.
두 번째로, 오프라인 이해와 실시간 상호작용 간의 균형을 위해 human-in-the-loop 방식의 고품질 상호작용 데이터를 구축하고, 장기 메모리와 멀티턴 대화를 고려한다. 또한 기존 비전-텍스트 데이터를 활용해 음성 출력이 가능한 QA 데이터를 생성하여, 오프라인 능력을 상호작용 환경으로 확장한다.
세 번째로, 대규모 모델에서 저지연 오디오-비주얼 상호작용을 달성하기 위해 전체 모듈을 효율적으로 설계했다. LongCat-Flash의 ScMoE 구조를 백본으로 사용하고, 오디오/비디오 인코더와 chunk 기반 interleaving 전략을 도입한다. 또한 multi-codebook 기반 음성 복원을 통해 디코딩 효율을 개선했으며, 스트리밍 파이프라인을 통해 서버 지연을 최소화했다. 그 결과 560B 규모에서도 밀리초 수준 응답 속도를 달성했다.
네 번째로, 학습 효율성을 위해 modality-decoupled parallelism (MDP)을 제안한다. 이 방식은 LLM, 비전 인코더, 오디오 인코더를 독립적으로 최적화할 수 있게 하며, 텍스트-only 학습 대비 90% 이상의 처리량을 유지한다.
실험 결과, 본 모델은 옴니모달 벤치마크와 실시간 상호작용 작업에서 강력하고 일관된 성능을 보인다. Omni-Bench, WorldSense 등에서 SOTA를 달성했으며, 텍스트, 이미지, 비디오, 음성 이해 및 생성 등 다양한 단일 모달 작업에서도 경쟁력 있는 성능을 보인다. 또한 사용자 평가에서도 낮은 지연과 높은 품질의 오디오-비주얼 상호작용을 확인했다.
LongCat-Flash-Omni의 주요 특징은 다음과 같다.
SOTA 통합 옴니모달 모델: 하나의 모델에서 오프라인 이해와 실시간 상호작용을 동시에 수행
대규모 + 실시간 상호작용: 128K 컨텍스트와 낮은 지연을 기반으로 멀티턴 대화 및 시간 추론 지원
효율적인 early-fusion 학습: 멀티모달 통합과 단일 모달 성능 유지
효율적인 학습 인프라: modality-decoupled parallelism 기반 학습 효율 향상
오픈소스 공개: 연구 및 커뮤니티 발전 지원
이후 논문의 구성은 다음과 같다. Section 2에서는 모델 아키텍처를, Section 3과 4에서는 프리트레이닝과 포스트트레이닝을, Section 5와 6에서는 학습 인프라와 추론을, Section 7에서는 실험 결과를, Section 8에서는 결론을 다룬다.
Reference





댓글
댓글 쓰기