NL-335, Qwen2.5-Omni Technical Report, Preprint 2025
Abstract 본 보고서에서는 Qwen2.5-Omni를 소개한다. 이 모델은 텍스트, 이미지, 오디오, 비디오 등 다양한 모달리티를 인식하면서 동시에 텍스트와 자연스러운 음성 응답을 스트리밍 방식으로 생성할 수 있는 end-to-end 멀티모달 모델이다. 멀티모달 입력 정보를 스트리밍 방식으로 처리하기 위해 오디오와 비전 인코더는 block-wise processing 방식을 사용한다. 이 전략은 긴 멀티모달 시퀀스 처리에서 인식 역할은 멀티모달 인코더가 담당하고, 긴 시퀀스 모델링은 대형 언어 모델이 담당하도록 분리한다. 이러한 역할 분담은 공유 attention 메커니즘을 통해 서로 다른 모달리티 간의 융합을 효과적으로 수행하도록 한다. 비디오 입력에서 오디오와 비디오의 타임스탬프를 동기화하기 위해, 오디오와 비디오를 interleaved 방식으로 순차적으로 구성하고 TMRoPE(Time-aligned Multimodal RoPE)라는 새로운 위치 임베딩 방법을 제안한다. 또한 텍스트와 음성을 동시에 생성하면서 두 모달리티 간 간섭을 방지하기 위해 Thinker-Talker 아키텍처를 제안한다. 이 구조에서 Thinker는 텍스트 생성을 담당하는 대형 언어 모델이며, Talker는 Thinker의 hidden representation을 직접 활용하여 오디오 토큰을 생성하는 dual-track autoregressive 모델이다. 두 모델은 end-to-end 방식으로 학습되고 추론된다. 오디오 토큰을 스트리밍 방식으로 디코딩하기 위해 sliding-window DiT 구조를 도입하여 수용 범위를 제한하고 초기 패킷 지연을 줄였다. 실험 결과 Qwen2.5-Omni는 동일한 규모의 Qwen2.5-VL과 유사한 성능을 보이며 Qwen2-Audio보다 더 우수한 성능을 달성했다. 또한 Omni-Bench와 같은 멀티모달 벤치마크에서 최고 수준의 성능을 보였다. 특히 음성 기반 instruction following 성능이 MMLU와 GSM8K 등의 벤치마크에...