NL-335, Qwen2.5-Omni Technical Report, Preprint 2025

Abstract

본 보고서에서는 Qwen2.5-Omni를 소개한다. 이 모델은 텍스트, 이미지, 오디오, 비디오 등 다양한 모달리티를 인식하면서 동시에 텍스트와 자연스러운 음성 응답을 스트리밍 방식으로 생성할 수 있는 end-to-end 멀티모달 모델이다.

멀티모달 입력 정보를 스트리밍 방식으로 처리하기 위해 오디오와 비전 인코더는 block-wise processing 방식을 사용한다. 이 전략은 긴 멀티모달 시퀀스 처리에서 인식 역할은 멀티모달 인코더가 담당하고, 긴 시퀀스 모델링은 대형 언어 모델이 담당하도록 분리한다. 이러한 역할 분담은 공유 attention 메커니즘을 통해 서로 다른 모달리티 간의 융합을 효과적으로 수행하도록 한다.

비디오 입력에서 오디오와 비디오의 타임스탬프를 동기화하기 위해, 오디오와 비디오를 interleaved 방식으로 순차적으로 구성하고 TMRoPE(Time-aligned Multimodal RoPE)라는 새로운 위치 임베딩 방법을 제안한다. 또한 텍스트와 음성을 동시에 생성하면서 두 모달리티 간 간섭을 방지하기 위해 Thinker-Talker 아키텍처를 제안한다. 이 구조에서 Thinker는 텍스트 생성을 담당하는 대형 언어 모델이며, Talker는 Thinker의 hidden representation을 직접 활용하여 오디오 토큰을 생성하는 dual-track autoregressive 모델이다. 두 모델은 end-to-end 방식으로 학습되고 추론된다.

오디오 토큰을 스트리밍 방식으로 디코딩하기 위해 sliding-window DiT 구조를 도입하여 수용 범위를 제한하고 초기 패킷 지연을 줄였다. 실험 결과 Qwen2.5-Omni는 동일한 규모의 Qwen2.5-VL과 유사한 성능을 보이며 Qwen2-Audio보다 더 우수한 성능을 달성했다. 또한 Omni-Bench와 같은 멀티모달 벤치마크에서 최고 수준의 성능을 보였다. 특히 음성 기반 instruction following 성능이 MMLU와 GSM8K 등의 벤치마크에서 텍스트 입력과 유사한 수준에 도달했다. 음성 생성 측면에서도 streaming Talker는 기존의 streaming 및 non-streaming 방식보다 더 높은 견고성과 자연스러움을 보였다.

1 Introduction

일상 생활에서 인간은 주변의 시각 정보와 청각 정보를 동시에 인식할 수 있다. 이러한 정보를 뇌에서 처리한 뒤, 인간은 글쓰기, 음성 발화, 또는 도구와 신체 행동을 통해 반응을 표현하며, 이를 통해 세계의 다양한 존재들과 정보 교환을 수행하고 지능을 드러낸다. 최근 몇 년 동안 일반 인공지능(AGI)에 대한 가능성이 점점 더 가시화되고 있는데, 이는 주로 대규모 언어 모델(LLM)의 발전 덕분이다. 이러한 모델들은 방대한 텍스트 데이터로 학습되며, 인간이 만들어낸 고수준의 이산적 표현을 활용해 복잡한 문제 해결 능력과 빠른 학습 능력을 보여주고 있다. 또한 이해 능력 측면에서는 Language-Audio-Language Models(LALMs)와 Language-Visual-Language Models(LVLMs)가 등장하면서 LLM이 청각과 시각 능력까지 end-to-end 방식으로 확장될 수 있게 되었다. 그러나 이러한 다양한 이해 모달리티를 하나의 모델로 효율적으로 통합하고, 가능한 많은 데이터를 활용하면서, 인간과 유사하게 텍스트와 음성 스트림 형태로 응답을 제공하는 것은 여전히 중요한 도전 과제로 남아 있다.

통합된 지능형 omni-model을 개발하기 위해서는 몇 가지 핵심 요소를 신중히 고려해야 한다. 첫째, 텍스트, 이미지, 비디오, 오디오 등 다양한 모달리티를 공동으로 학습하기 위한 체계적인 방법이 필요하며, 이를 통해 서로 다른 모달리티 간의 상호 향상을 유도해야 한다. 특히 비디오 데이터에서는 오디오와 시각 신호의 시간적 동기화를 맞추는 것이 중요하다. 둘째, 서로 다른 모달리티의 출력 간 간섭을 관리해야 한다. 예를 들어 텍스트 토큰과 음성 토큰을 동시에 생성할 때, 각 출력의 학습 과정이 서로 방해하지 않도록 해야 한다. 마지막으로, 멀티모달 정보를 실시간으로 이해하고 효율적으로 음성을 스트리밍 방식으로 생성할 수 있도록 하는 아키텍처 설계가 필요하며, 이를 통해 초기 지연(latency)을 줄일 수 있어야 한다.

이 보고서에서는 여러 모달리티를 처리하고 동시에 텍스트와 자연스러운 음성 응답을 스트리밍 형태로 생성할 수 있는 단일 통합 모델 Qwen2.5-Omni를 소개한다. 첫 번째 과제를 해결하기 위해 TMRoPE(Time-aligned Multimodal RoPE)라는 새로운 위치 임베딩 방법을 제안한다. 우리는 오디오와 비디오 프레임을 시간 순서에 따라 interleaved 구조로 구성하여 비디오 시퀀스를 표현한다. 두 번째 과제를 해결하기 위해 Thinker-Talker 아키텍처를 제안한다. 이 구조에서 Thinker는 텍스트 생성을 담당하고, Talker는 스트리밍 음성 토큰 생성을 담당한다. Talker는 Thinker로부터 직접 전달되는 고수준 표현을 입력으로 사용한다. 이러한 설계는 인간이 동일한 신경 네트워크를 통해 여러 기관을 조율하여 다양한 신호를 생성하는 방식에서 영감을 얻었다. 결과적으로 Thinker-Talker 구조는 end-to-end 방식으로 공동 학습되며, 각 구성 요소는 서로 다른 신호 생성을 담당한다. 스트리밍 환경에서의 문제를 해결하고 멀티모달 신호의 실시간 이해를 위한 pre-filling을 가능하게 하기 위해, 우리는 모든 멀티모달 인코더에 block-wise 스트리밍 처리 방식을 적용하였다. 또한 스트리밍 음성 생성을 위해 음성 토큰을 생성하는 dual-track autoregressive 모델과, 이를 파형으로 변환하는 DiT 모델을 결합하여 스트리밍 오디오 생성을 가능하게 하면서 초기 지연을 최소화하였다. 이러한 설계를 통해 모델은 멀티모달 정보를 실시간으로 처리하고 텍스트와 음성 신호를 동시에 생성할 수 있다.

Qwen2.5-Omni는 동일한 규모의 Qwen2.5-VL과 비교했을 때 이미지 이해 능력에서 유사한 성능을 보이며, 오디오 능력에서는 Qwen2-Audio보다 더 뛰어난 성능을 보인다. 또한 OmniBench와 AV-Odyssey Bench와 같은 멀티모달 벤치마크에서 최고 수준의 성능을 달성했다. 특히 음성 기반 end-to-end instruction following 성능이 MMLU와 GSM8K와 같은 벤치마크에서 텍스트 입력 기반 성능과 유사한 수준에 도달하였다. 음성 생성 측면에서는 seed-tts-eval 벤치마크에서 test-zh, test-en, test-hard 데이터셋에 대해 각각 1.42%, 2.33%, 6.54%의 WER을 기록하며 MaskGCT와 CosyVoice 2보다 더 우수한 성능을 보였다.

























Reference

댓글