◼ Comment

qwen 옴니 모델로 텍스트,이미지,비디오,오디오 등을 입력으로 받고, 출력으로는 텍스트, 오디오가 가능한 모델이다
기술적으로 다른 부분은

TMRoPE 라는 Time-aligned Multimodal RoPE을 도입

텍스트, 이미지, 비디오, 오디오 각각에 대해: 시간축(time) / 공간축(spatial) 을 정렬하여 positional encoding을 수행한다.

Thinker-Talker 구조를 제안했다는 점

Thinker = multimodal LLM backbone
Talker = speech autoregressive decoder

Talker가 Thinker의 hidden representation을 직접 입력받는다
TTS의 역할이라고 봐도 될듯

사전학습

즉 학습 순서는 1) 텍스트 백본에 비전/오디오 인코더를 학습하는데 집중 -> 2) full-training -> 3) full-training w/ LC
텍스트 백본은 Qwen2.5을 사용하고,

비전 인코더는 Qwen2.5-VL,
오디오 인코더는 Whisper-large-v3을 사용

이 인코더를 통해 토큰을 기반으로 학습한 것

텍스트 → BPE 토큰
이미지 → ViT patch token (continuous embedding vector)
비디오 → frame-level token (continuous embedding vector)
오디오 → 시간 단위 representation (continuous embedding vector)

Thinker

즉 입력으로는 이미지든 오디오든 continuous하게 입력을 받고 출력으론 텍스트 토큰의 next token prediction임

Talker

출력으로 next audio code token

Pretraining에서는 Thinker, Talker 모두 Next token prediction으로 학습
Pretraining에서는 Talker loss가 Thinker loss까지 영향을 주는 형태임 (hidden state을 통해서)
사전학습의 첫 번째 단계는 데이터의 양은 공개되지 않음

텍스트-오디오 / 텍스트-이미지 쌍의 데이터

사전 학습의 두 번째 단계는 이미지 및 비디오 관련 데이터 8,000억(800B) 토큰, 오디오 관련 데이터 3,000억(300B) 토큰, 오디오가 포함된 비디오 관련 데이터 100B
사전학습의 세 번째 단계는 긴 오디오 및 긴 비디오 데이터를 통합하고 기존의 텍스트, 오디오, 이미지 및 비디오 데이터를 32,768(32k) 토큰으로 확장하여 학습을 진행합니다.

사후학습

Post-training에서 Thinker은 chat 형식으로 바뀌고 SFT식 학습? -> RL이 있는지는 모르겠음.
Post-training에서 Talker에서는 대화데이터로 SFT(NSP) 학습 -> DPO 학습 (좋은 음성 vs 나쁜 음성) -> 특정 화자 스타일 학습
Post-training에서 Thinker와 Talker은 gradient가 분리되어있는 개념임
여기서도 pretraining 처럼 next token prediction 학습임

Abstract

본 보고서에서는 Qwen2.5-Omni를 소개한다. 이 모델은 텍스트, 이미지, 오디오, 비디오 등 다양한 모달리티를 인식하면서 동시에 텍스트와 자연스러운 음성 응답을 스트리밍 방식으로 생성할 수 있는 end-to-end 멀티모달 모델이다.

멀티모달 입력 정보를 스트리밍 방식으로 처리하기 위해 오디오와 비전 인코더는 block-wise processing 방식을 사용한다. 이 전략은 긴 멀티모달 시퀀스 처리에서 인식 역할은 멀티모달 인코더가 담당하고, 긴 시퀀스 모델링은 대형 언어 모델이 담당하도록 분리한다. 이러한 역할 분담은 공유 attention 메커니즘을 통해 서로 다른 모달리티 간의 융합을 효과적으로 수행하도록 한다.

비디오 입력에서 오디오와 비디오의 타임스탬프를 동기화하기 위해, 오디오와 비디오를 interleaved 방식으로 순차적으로 구성하고 TMRoPE(Time-aligned Multimodal RoPE)라는 새로운 위치 임베딩 방법을 제안한다. 또한 텍스트와 음성을 동시에 생성하면서 두 모달리티 간 간섭을 방지하기 위해 Thinker-Talker 아키텍처를 제안한다. 이 구조에서 Thinker는 텍스트 생성을 담당하는 대형 언어 모델이며, Talker는 Thinker의 hidden representation을 직접 활용하여 오디오 토큰을 생성하는 dual-track autoregressive 모델이다. 두 모델은 end-to-end 방식으로 학습되고 추론된다.

오디오 토큰을 스트리밍 방식으로 디코딩하기 위해 sliding-window DiT 구조를 도입하여 수용 범위를 제한하고 초기 패킷 지연을 줄였다. 실험 결과 Qwen2.5-Omni는 동일한 규모의 Qwen2.5-VL과 유사한 성능을 보이며 Qwen2-Audio보다 더 우수한 성능을 달성했다. 또한 Omni-Bench와 같은 멀티모달 벤치마크에서 최고 수준의 성능을 보였다. 특히 음성 기반 instruction following 성능이 MMLU와 GSM8K 등의 벤치마크에서 텍스트 입력과 유사한 수준에 도달했다. 음성 생성 측면에서도 streaming Talker는 기존의 streaming 및 non-streaming 방식보다 더 높은 견고성과 자연스러움을 보였다.

1 Introduction

일상 생활에서 인간은 주변의 시각 정보와 청각 정보를 동시에 인식할 수 있다. 이러한 정보를 뇌에서 처리한 뒤, 인간은 글쓰기, 음성 발화, 또는 도구와 신체 행동을 통해 반응을 표현하며, 이를 통해 세계의 다양한 존재들과 정보 교환을 수행하고 지능을 드러낸다. 최근 몇 년 동안 일반 인공지능(AGI)에 대한 가능성이 점점 더 가시화되고 있는데, 이는 주로 대규모 언어 모델(LLM)의 발전 덕분이다. 이러한 모델들은 방대한 텍스트 데이터로 학습되며, 인간이 만들어낸 고수준의 이산적 표현을 활용해 복잡한 문제 해결 능력과 빠른 학습 능력을 보여주고 있다. 또한 이해 능력 측면에서는 Language-Audio-Language Models(LALMs)와 Language-Visual-Language Models(LVLMs)가 등장하면서 LLM이 청각과 시각 능력까지 end-to-end 방식으로 확장될 수 있게 되었다. 그러나 이러한 다양한 이해 모달리티를 하나의 모델로 효율적으로 통합하고, 가능한 많은 데이터를 활용하면서, 인간과 유사하게 텍스트와 음성 스트림 형태로 응답을 제공하는 것은 여전히 중요한 도전 과제로 남아 있다.

통합된 지능형 omni-model을 개발하기 위해서는 몇 가지 핵심 요소를 신중히 고려해야 한다.

첫째, 텍스트, 이미지, 비디오, 오디오 등 다양한 모달리티를 공동으로 학습하기 위한 체계적인 방법이 필요하며, 이를 통해 서로 다른 모달리티 간의 상호 향상을 유도해야 한다.

특히 비디오 데이터에서는 오디오와 시각 신호의 시간적 동기화를 맞추는 것이 중요하다.

둘째, 서로 다른 모달리티의 출력 간 간섭을 관리해야 한다.

예를 들어 텍스트 토큰과 음성 토큰을 동시에 생성할 때, 각 출력의 학습 과정이 서로 방해하지 않도록 해야 한다.

마지막으로, 멀티모달 정보를 실시간으로 이해하고 효율적으로 음성을 스트리밍 방식으로 생성할 수 있도록 하는 아키텍처 설계가 필요하며, 이를 통해 초기 지연(latency)을 줄일 수 있어야 한다.

이 보고서에서는 여러 모달리티를 처리하고 동시에 텍스트와 자연스러운 음성 응답을 스트리밍 형태로 생성할 수 있는 단일 통합 모델 Qwen2.5-Omni를 소개한다.

첫 번째 과제를 해결하기 위해 TMRoPE(Time-aligned Multimodal RoPE)라는 새로운 위치 임베딩 방법을 제안한다.

우리는 오디오와 비디오 프레임을 시간 순서에 따라 interleaved 구조로 구성하여 비디오 시퀀스를 표현한다.

두 번째 과제를 해결하기 위해 Thinker-Talker 아키텍처를 제안한다.

이 구조에서 Thinker는 텍스트 생성을 담당하고, Talker는 스트리밍 음성 토큰 생성을 담당한다.
Talker는 Thinker로부터 직접 전달되는 고수준 표현을 입력으로 사용한다.
이러한 설계는 인간이 동일한 신경 네트워크를 통해 여러 기관을 조율하여 다양한 신호를 생성하는 방식에서 영감을 얻었다.
결과적으로 Thinker-Talker 구조는 end-to-end 방식으로 공동 학습되며, 각 구성 요소는 서로 다른 신호 생성을 담당한다.

스트리밍 환경에서의 문제를 해결하고 멀티모달 신호의 실시간 이해를 위한 pre-filling을 가능하게 하기 위해, 우리는 모든 멀티모달 인코더에 block-wise 스트리밍 처리 방식을 적용하였다.

또한 스트리밍 음성 생성을 위해 음성 토큰을 생성하는 dual-track autoregressive 모델과, 이를 파형으로 변환하는 DiT 모델을 결합하여 스트리밍 오디오 생성을 가능하게 하면서 초기 지연을 최소화하였다.
이러한 설계를 통해 모델은 멀티모달 정보를 실시간으로 처리하고 텍스트와 음성 신호를 동시에 생성할 수 있다.

Qwen2.5-Omni는 동일한 규모의 Qwen2.5-VL과 비교했을 때 이미지 이해 능력에서 유사한 성능을 보이며, 오디오 능력에서는 Qwen2-Audio보다 더 뛰어난 성능을 보인다. 또한 OmniBench와 AV-Odyssey Bench와 같은 멀티모달 벤치마크에서 최고 수준의 성능을 달성했다. 특히 음성 기반 end-to-end instruction following 성능이 MMLU와 GSM8K와 같은 벤치마크에서 텍스트 입력 기반 성능과 유사한 수준에 도달하였다. 음성 생성 측면에서는 seed-tts-eval 벤치마크에서 test-zh, test-en, test-hard 데이터셋에 대해 각각 1.42%, 2.33%, 6.54%의 WER을 기록하며 MaskGCT와 CosyVoice 2보다 더 우수한 성능을 보였다.

2.1 Overview

Figure 2에서 볼 수 있듯이, Qwen2.5-Omni는 Thinker-Talker 아키텍처를 사용한다. Thinker는 인간의 뇌와 같은 역할을 하며 텍스트, 오디오, 비디오 모달리티로부터 입력을 처리하고 이해하여 고수준 표현과 해당 텍스트를 생성한다. Talker는 인간의 입과 같은 역할을 하며, Thinker가 생성한 고수준 표현과 텍스트를 스트리밍 방식으로 받아들여 음성의 이산 토큰을 자연스럽게 출력한다.

Thinker는 Transformer decoder로 구성되며, 오디오와 이미지 인코더가 함께 사용되어 정보를 추출한다. 반면 Talker는 Mini-Omni에서 영감을 받은 dual-track autoregressive Transformer decoder 구조로 설계되었다. 학습과 추론 과정에서 Talker는 Thinker로부터 직접 고차원 표현을 전달받으며, Thinker가 가진 모든 과거 컨텍스트 정보도 공유한다. 그 결과 전체 아키텍처는 하나의 통합된 단일 모델처럼 동작하며 end-to-end 학습과 추론이 가능하다.

이후의 섹션에서는 Qwen2.5-Omni가 다양한 입력 신호를 어떻게 인식하는지 설명하고, 우리가 제안한 새로운 위치 인코딩 방법인 TMRoPE를 소개한다. 이어서 텍스트와 음성 생성 과정의 세부 구조를 설명하고, 마지막으로 효율적인 스트리밍 추론을 가능하게 하기 위해 이해 및 생성 모듈에 적용된 개선 사항을 설명한다.

2.2 Perception (지각)

텍스트, 오디오, 이미지 및 비디오 (오디오 제외). Thinker는 텍스트, 오디오, 이미지 및 비디오(오디오 트랙 제외)를 입력용 일련의 숨겨진 표현(hidden representations)으로 변환하여 처리합니다. 텍스트 토큰화를 위해 우리는 151,643개의 일반 토큰으로 구성된 어휘집과 바이트 수준의 BPE(byte-pair encoding)를 적용하는 Qwen의 토크나이저를 사용합니다. 오디오 입력 및 비디오의 오디오와 관련하여, 우리는 이를 16kHz 주파수로 리샘플링하고, 25ms의 윈도우 크기와 10ms의 홉(hop) 크기를 가진 128채널 멜-스펙트로그램(mel-spectrogram)으로 변환합니다. 우리는 오디오 표현의 각 프레임이 원래 오디오 신호의 약 40ms 세그먼트에 대응하도록 Qwen2-Audio의 오디오 인코더를 채택했습니다. 또한, 약 6억 7,500만 개의 파라미터를 가진 ViT(Vision Transformer) 모델 기반의 Qwen2.5-VL 비전 인코더를 사용하여 이미지와 비디오 입력을 모두 효과적으로 처리할 수 있도록 했습니다. 이 비전 인코더는 이미지 데이터와 비디오 데이터를 모두 포함하는 혼합 훈련 방식을 사용하여 이미지 이해와 비디오 이해 능력을 동시에 보장합니다. 오디오 샘플링 속도에 맞추면서 비디오 정보를 최대한 완벽하게 보존하기 위해, 우리는 동적 프레임 속도를 사용하여 비디오를 샘플링합니다. 또한 일관성을 위해 각 이미지는 두 개의 동일한 프레임으로 처리됩니다.

비디오 및 TMROPE. 우리는 오디오와 비디오를 위한 시간 인터리빙(time-interleaving) 알고리즘과 함께 새로운 위치 인코딩 방식을 제안합니다.

그림 3에 표시된 것처럼, TMROPE는 멀티모달 입력의 3D 위치 정보를 인코딩하며, 이는 절대적인 시간적 위치가 포함된 M-ROPE(Multimodal Rotary Position Embedding)입니다. 이는 원래의 로터리 임베딩을 시간(temporal), 높이(height), 너비(width)의 세 가지 구성 요소로 분해함으로써 달성됩니다. 텍스트 입력의 경우, 이 구성 요소들은 동일한 위치 ID를 사용하여 M-ROPE가 기능적으로 1D-ROPE와 동일하게 작동하도록 합니다. 마찬가지로 오디오 입력에 대해서도 동일한 위치 ID를 사용하고, 하나의 시간 ID가 40ms에 해당하도록 절대적인 시간 위치 인코딩을 도입합니다. 이미지를 처리할 때는 각 시각적 토큰의 시간 ID는 일정하게 유지되는 반면, 이미지 내 토큰의 위치에 따라 높이와 너비 구성 요소에 서로 다른 ID가 할당됩니다. 오디오가 포함된 비디오가 입력될 때, 오디오는 프레임당 40ms마다 동일한 위치 ID로 인코딩되고, 비디오는 각 프레임마다 시간 ID가 증가하는 일련의 이미지로 처리되며, 높이와 너비 구성 요소는 이미지와 동일한 ID 할당 패턴을 따릅니다. 비디오의 프레임 속도가 고정되어 있지 않기 때문에, 우리는 각 프레임에 해당하는 실제 시간에 따라 프레임 간의 시간 ID를 동적으로 조정하여 하나의 시간 ID가 40ms에 대응하도록 합니다. 모델의 입력이 여러 모달리티를 아우르는 시나리오에서는 각 모달리티의 위치 번호가 이전 모달리티의 최대 위치 ID를 1만큼 증가시켜 초기화됩니다. TMROPE는 위치 정보 모델링을 강화하여 다양한 모달리티의 통합을 극대화함으로써 Qwen2.5-Omni가 여러 모달리티의 정보를 동시에 이해하고 분석할 수 있게 합니다.

각 모달리티에 위치 정보를 통합한 후, 우리는 표현(representations)을 순서대로 배열합니다. 모델이 시각적 정보와 청각적 정보를 동시에 수신할 수 있도록 하기 위해, 그림 3에서 보듯이 우리는 오디오가 포함된 비디오를 위해 '시간 인터리빙 방식'이라는 특별한 설계를 적용했습니다. 이 방식은 오디오가 포함된 비디오의 표현을 실제 시간에 따라 2초마다 청크(chunk)로 분할합니다. 그런 다음 2초 내에서 시각적 표현을 앞쪽에, 오디오 표현을 뒤쪽에 배치하여 오디오가 포함된 비디오의 표현을 인터리빙(교차 배치)합니다.

2.3 생성(Generation)

텍스트(Text).

텍스트는 Thinker에 의해 직접 생성됩니다. 텍스트 생성의 논리는 널리 사용되는 LLM과 근본적으로 동일하며, 어휘에 대한 확률 분포를 바탕으로 자기회귀 샘플링(autoregressive sampling)을 통해 텍스트를 생성합니다. 생성 과정에서는 다양성을 높이기 위해 반복 페널티(repetition penalty) 및 top-p 샘플링과 같은 기술을 통합할 수 있습니다.

음성(Speech).

Talker는 Thinker가 샘플링한 텍스트 토큰의 임베딩과 고수준 표현(high-level representations)을 모두 받습니다. 이러한 맥락에서 고차원 표현과 이산 샘플링 토큰의 통합은 필수적입니다. 스트리밍 알고리즘으로서 음성 생성은 전체 텍스트가 완전히 생성되기 전에 내용의 어조와 태도를 예측해야 합니다. Thinker가 제공하는 고차원 표현은 이러한 정보를 암시적으로 전달하여 더 자연스러운 스트리밍 생성 과정을 가능하게 합니다. 또한, Thinker의 표현은 음성적 유사성보다는 표현 공간(representational space)에서의 의미적 유사성을 주로 나타냅니다. 결과적으로 음성적으로 다른 단어라 하더라도 매우 유사한 고차원 표현을 가질 수 있으며, 이러한 불확실성을 제거하기 위해 샘플링된 이산 토큰을 입력할 필요가 있습니다. 우리는 qwen-tts-tokenizer라는 효율적인 음성 코덱을 설계했습니다. qwen-tts-tokenizer는 음성의 핵심 정보를 효율적으로 표현하며, 인과적 오디오 디코더(causal audio decoder)를 통해 스트리밍 방식으로 음성으로 디코딩될 수 있습니다.

2.4 스트리밍을 위한 설계

스트리밍 오디오 및 비디오 상호작용의 맥락에서, 초기 패킷 지연 시간은 시스템의 스트리밍 성능을 나타내는 중요한 지표입니다.

이 지연 시간은 다음과 같은 여러 요인의 영향을 받습니다:

1) 멀티모달 정보 입력 처리로 인해 발생하는 지연;
2) 첫 번째 텍스트 입력이 수신된 순간부터 첫 번째 음성 토큰이 출력될 때까지의 지연;
3) 첫 번째 음성 세그먼트를 오디오로 변환하는 과정의 지연;
4) 모델 크기, 연산 FLOP 등 아키텍처 자체와 관련된 고유한 지연.

프리필 지원(Support Prefilling).

청크 프리필(Chunked-prefills)은 최신 추론 프레임워크에서 널리 사용되는 메커니즘입니다. 멀티모달 상호작용에서 이를 지원하기 위해, 시간 차원을 따라 블록 단위 어텐션(block-wise attention)을 지원하도록 오디오 및 비전 인코더를 수정했습니다. 구체적으로, 오디오 인코더는 전체 오디오에 대한 전체 어텐션(full attention) 방식에서 2초 단위의 블록으로 어텐션을 수행하도록 변경되었습니다. 비전 인코더는 효율적인 학습과 추론을 위해 플래시 어텐션(flash attention)을 활용하며, 인접한 2x2 토큰을 단일 토큰으로 병합하는 간단한 MLP 층을 사용합니다. 패치 크기는 14로 설정하여 다양한 해상도의 이미지를 시퀀스로 묶을 수 있습니다.

스트리밍 코덱 생성(Streaming Codec Generation).

오디오, 특히 긴 시퀀스의 스트리밍을 원활하게 하기 위해, 현재 토큰이 접근할 수 있는 컨텍스트를 제한하는 슬라이딩 윈도우 블록 어텐션 메커니즘을 제안합니다. 구체적으로, 우리는 Flow-Matching (Lipman et al.) DiT 모델을 사용합니다. 입력 코드는 Flow-Matching을 사용하여 멜-스펙트로그램으로 변환되고, 이어서 수정된 BigVGAN (Lee et al.)을 통해 생성된 멜-스펙트로그램을 파형으로 다시 재구성합니다.

과거 블록 | 현재 블록 | 미래 블록

그림 4: 코덱에서 파형 생성(codec-to-wav)을 위한 DiT의 슬라이딩 윈도우 블록 어텐션 메커니즘 예시

그림 4에 나타난 것처럼, 코드에서 파형을 생성하기 위해 인접한 코드들을 블록으로 그룹화하고 이를 어텐션 마스크에 사용합니다. 우리는 DiT의 수용 영역(receptive field)을 2개의 과거 블록과 1개의 미래 블록을 포함하여 4개의 블록으로 제한합니다. 디코딩하는 동안 우리는 Flow Matching을 사용하여 멜-스펙트럼을 청크 단위로 생성하며, 각 코드 청크가 필요한 컨텍스트 블록에 접근할 수 있도록 보장합니다. 이 접근 방식은 컨텍스트 정보를 유지함으로써 스트리밍 출력의 품질을 향상시킵니다. 또한 우리는 BigVGAN의 고정된 수용 영역에 대해서도 이 청크 단위(chunk-by-chunk) 방식을 사용하여 스트리밍 파형 생성을 촉진합니다.

3 사전 학습 (Pre-training)

Qwen2.5-Omni는 세 단계의 학습 과정으로 구성됩니다.

첫 번째 단계에서는 LLM 파라미터를 고정하고 비전 인코더와 오디오 인코더를 훈련하는 데 집중하며, 방대한 양의 오디오-텍스트 및 이미지-텍스트 쌍을 활용하여 LLM 내부의 의미론적 이해력을 향상시킵니다.
두 번째 단계에서는 모든 파라미터의 동결을 해제하고, 보다 포괄적인 학습을 위해 더 폭넓은 멀티모달 데이터로 훈련을 진행합니다.
마지막 단계에서는 32k 길이의 시퀀스 데이터를 사용하여 복잡한 긴 시퀀스 데이터를 이해하는 모델의 능력을 향상시킵니다.

이 모델은 이미지-텍스트, 비디오-텍스트, 비디오-오디오, 오디오-텍스트 및 텍스트 코퍼스를 포함하는 다양한 유형의 데이터셋으로 사전 학습됩니다. 우리는 Qwen2-Audio (Chu et al., 2024a)에 따라 계층적 태그를 자연어 프롬프트로 교체했으며, 이를 통해 일반화 및 지시 이행 능력을 향상시킬 수 있습니다.

초기 사전 학습 단계에서 Qwen2.5-Omni의 LLM 구성 요소는 Qwen2.5 (Yang et al., 2024b)의 파라미터로 초기화되고,

비전 인코더는 Qwen2.5-VL과 동일하며,
오디오 인코더는 Whisper-large-v3 (Radford et al., 2023)로 초기화됩니다.
즉 학습 순서는 텍스트 백본에 비전/오디오 인코더를 학습하는데 집중 -> full-training -> full-training w/ LC
텍스트 백본은 Qwen2.5을 사용하고, 비전 인코더는 Qwen2.5-VL, 오디오 인코더는 Whisper-large-v3을 사용
이 인코더를 통해 토큰을 기반으로 학습한 것

텍스트 → BPE 토큰
이미지 → ViT patch token (continuous embedding vector)
비디오 → frame-level token (continuous embedding vector)
오디오 → 시간 단위 representation (continuous embedding vector)

Thinker

즉 입력으로는 이미지든 오디오든 continuous하게 입력을 받고 출력으론 텍스트 토큰의 next token prediction임

Talker

출력으로 next audio code token

Pretraining에서는 Thinker, Talker 모두 Next token prediction으로 학습

Pretraining에서는 Talker loss가 Thinker loss까지 영향을 주는 형태임 (hidden state을 통해서)

두 인코더는 고정된 LLM 상에서 개별적으로 학습되며, 두 인코더 모두 훈련 전에 각자의 어댑터를 학습하는 데 초점을 맞춥니다. 이러한 기초 학습은 모델이 시각-언어 및 오디오-언어 간의 핵심적인 상관관계와 정렬을 강력하게 이해하도록 하는 데 매우 중요합니다.

사전 학습의 두 번째 단계는 이미지 및 비디오 관련 데이터 8,000억(800B) 토큰, 오디오 관련 데이터 3,000억(300B) 토큰,

그리고 오디오가 포함된 비디오 관련 데이터 1,000억(100B) 토큰을 추가로 통합하여 상당한 진전을 이룹니다.
이 단계에서는 더 많은 양의 혼합 멀티모달 데이터와 더 다양한 작업을 도입하여 청각, 시각 및 텍스트 정보 간의 상호작용을 강화하고 이해를 심화시킵니다.

학습 효율성을 높이기 위해 이전 단계에서는 최대 토큰 길이를 8,192개로 제한했습니다.

이후 긴 오디오 및 긴 비디오 데이터를 통합하고 기존의 텍스트, 오디오, 이미지 및 비디오 데이터를 32,768(32k) 토큰으로 확장하여 학습을 진행합니다.
실험 결과에 따르면, 우리의 데이터는 긴 시퀀스 데이터를 지원하는 데 있어 상당한 개선을 보여주었습니다.

4 사후 학습 (Post-training)

4.1 데이터 형식 (Data Format)

데이터셋 형식은 다음과 같은 ChatML 형식의 예시를 따릅니다.

<im_start>user <vision_start />Video.mp4 [영상의 두 사람이 대화하고 있습니다]<vision_end>영상 속 사람들이 무슨 말을 하고 있나요?<im_end>

<im_start>assistant 두 사진은 모두 네모바지 스폰지밥입니다. 빨간 옷을 입은 사람은 안녕, 오늘 날씨는 어때?라고 말합니다. 검은 옷을 입은 사람은 안녕, 오늘 날씨는 꽤 좋아라고 대답합니다.<im_end>

<im_start>user <vision_start />Video.mp4 [영상 속 사람이 앞 사람을 묘사해 달라고 말합니다]<vision_end><im_end>

<im_start>assistant 당신 앞의 사람은 파란 셔츠 위에 갈색 자켓을 입고 안경을 쓰고 있습니다. 입을 벌리고 몰입한 듯 말하거나 무언가에 반응하는 것처럼 보입니다. 배경에는 벽걸이형 에어컨, 옷이 걸려 있는 행거, 그리고 밤의 도시 풍경이 나오는 대형 스크린이 있는 방이 보입니다. 방의 조명은 따뜻하고 아늑합니다.<im_end>

4.2 Thinker

사후 학습 단계에서는 지시 미세 조정을 위해 ChatML (OpenAI, 2022) 형식의 지시 이행 데이터를 사용합니다. 우리의 데이터셋에는 순수 텍스트 기반 대화 데이터, 시각 모달리티 대화 데이터, 오디오 모달리티 대화 데이터 및 혼합 모달리티 대화 데이터가 포함되어 있습니다.

4.3 Talker

Post-training에서 Thinker은 chat 형식으로 바뀌고 SFT식 학습? -> RL이 있는지는 모르겠음.

Post-training에서 Talker에서는 대화데이터로 SFT(NSP) 학습 -> DPO 학습 (좋은 음성 vs 나쁜 음성) -> 특정 화자 스타일 학습

Post-training에서 Thinker와 Talker은 gradient가 분리되어있는 개념임

Qwen2.5-Omni가 텍스트와 음성 응답을 동시에 생성할 수 있도록 토커(Talker)를 위한 3단계 학습 과정을 도입했습니다.

첫 번째 단계에서는 토커가 문맥의 연속성(context continuation)을 학습하도록 훈련했습니다.
두 번째 단계에서는 음성 생성의 안정성을 높이기 위해 DPO(Rafailov et al., 2023)를 활용했습니다.
세 번째 단계에서는 음성 응답의 자연스러움과 제어 가능성을 향상시키기 위해 다중 화자 지시어 미세 조정(multi-speaker instruction fine-tuning)을 적용했습니다.

In-Context Learning (ICL) 학습 단계에서는 씽커(Thinker)와 유사한 텍스트 감독을 활용하는 것 외에도, 멀티모달 맥락과 음성 응답을 포함하는 대규모 대화 데이터셋을 활용하여 다음 토큰 예측을 통한 음성 연속성 작업을 수행했습니다.
토커는 의미 표현에서 음성으로의 단조 사상(monotonic mapping)을 구축하는 법을 배우는 동시에, 운율, 감정, 악센트와 같이 맥락에 맞는 다양한 속성으로 음성을 표현하는 능력을 습득합니다.
또한, 특정 목소리가 드문 텍스트 패턴과 연관되는 것을 방지하기 위해 음색 분리(timbre disentanglement) 기법을 구현했습니다.

\mathcal{L}_{DPO}(\mathcal{P}_{\theta};\mathcal{P}_{ref})=-\mathbb{E}_{(x,y_{w},y_{l})\sim\mathcal{D}}[log~\sigma(\beta~log\frac{\mathcal{P}_{\theta}(y_{w}|x)}{\mathcal{P}_{ref}(y_{w}|x)}-\beta~log\frac{\mathcal{P}_{\theta}(y_{l}|x)}{\mathcal{P}_{ref}(y_{l}|x)})]

화자와 시나리오의 범위를 넓히기 위해 사전 학습 데이터에는 불가피하게 라벨 노이즈와 발음 오류가 포함되며, 이는 모델의 할루시네이션(hallucination)을 유발합니다.
이 문제를 완화하기 위해, 음성 생성의 안정성을 향상시키는 강화 학습 단계를 도입했습니다.
구체적으로, 참조 음성과 짝을 이루는 각 요청 및 응답 텍스트에 대해

(x,y_{w},y_{l})

삼중항 데이터로 구성된 데이터셋 D를 구축합니다.

여기서

x

는 입력 텍스트가 포함된 입력 시퀀스이며, $y_{w}$와 $y_{l}$은 각각 양호한(good) 음성과 불량한(bad) 음성 생성 시퀀스입니다.
우리는 단어 오류율(WER) 및 문장 부호 일시 중지 오류율과 관련된 보상 점수를 기준으로 샘플들의 순위를 매깁니다.
마지막으로, 앞서 언급한 기본 모델에 대해 화자 미세 조정(speaker fine-tuning)을 수행하여 토커(Talker)가 특정 목소리를 채택하고 자연스러움을 향상시킬 수 있도록 했습니다.

6 Conclusion

Qwen2.5-Omni는 텍스트 및 실시간 음성을 포함한 여러 모달리티를 이해하고 생성하도록 설계된 통합 모델입니다. 비디오 통합을 향상시키기 위해 오디오와 비디오 타이밍을 정렬하는 TMRoPE라는 새로운 위치 임베딩 방법을 도입했습니다. 당사의 Thinker-Talker 프레임워크는 서로 다른 모달리티 간의 간섭을 최소화하면서 실시간 음성 생성을 지원합니다. 또한 블록 단위 오디오/비전 인코딩 및 코드-투-웨이브(code-to-wav) 생성을 위한 슬라이딩 윈도우 메커니즘과 같은 기술을 적용했습니다. 이 혁신적인 모델은 복잡한 시청각 상호작용 및 음성 대화의 감정적 맥락에서 뛰어난 성능을 발휘합니다.

종합적인 평가에 따르면 Qwen2.5-Omni는 특히 음성 명령을 수행하는 데 있어 비슷한 크기의 단일 모달리티 모델보다 성능이 뛰어나며, 멀티모달 작업에서 최고 수준의 성능을 달성했습니다. 모델 개발 과정에서 비디오 OCR 및 오디오-비디오 협력 이해와 같이 이전 학술 연구에서 종종 간과되었던 몇 가지 중요한 문제를 확인했습니다. 이러한 과제를 해결하려면 특히 종합적인 평가 벤치마크 및 연구 데이터셋을 구축하는 데 학계와 산업계 간의 협력이 필요합니다.

우리는 Qwen2.5-Omni가 범용 인공지능(AGI)을 향한 중요한 진전을 의미한다고 믿습니다. 우리의 향후 목표에는 이미지, 비디오, 음악 등 다양한 모달리티에 걸쳐 확장된 출력 기능을 갖춘 더 강력하고 빠른 모델을 개발하는 것이 포함됩니다.

Reference

https://arxiv.org/pdf/2503.20215

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-335, Qwen2.5-Omni Technical Report, Preprint 2025