Abstract

본 연구의 이전 작업에서 우리는 대규모 언어 모델(LLM)과 chunk-aware flow matching(FM) 모델을 결합한 확장 가능한 스트리밍 음성 합성 모델인 CosyVoice 2를 제안하였으며, 낮은 지연(latency)의 양방향 스트리밍 음성 합성과 인간 수준의 품질을 달성하였다. 그러나 이러한 발전에도 불구하고 CosyVoice 2는 언어 커버리지, 도메인 다양성, 데이터 규모, 텍스트 형식, 그리고 후속 학습(post-training) 기법 측면에서 한계를 보인다.

본 논문에서는 실제 환경(in-the-wild)에서의 제로샷 다국어 음성 합성을 목표로 하는 개선된 모델 CosyVoice 3를 제안한다. CosyVoice 3는 내용 일관성(content consistency), 화자 유사도(speaker similarity), 그리고 운율 자연스러움(prosody naturalness) 측면에서 기존 모델을 능가한다.

CosyVoice 3의 주요 특징은 다음과 같다.

운율의 자연스러움을 향상시키기 위한 새로운 음성 토크나이저를 제안하며, 이는 음성 인식, 감정 인식, 언어 식별, 오디오 이벤트 탐지, 화자 분석을 포함한 지도 기반 다중 작업 학습을 통해 개발된다.
CosyVoice 3뿐 아니라 다른 LLM 기반 음성 합성 모델에도 적용 가능한 새로운 미분 가능한 보상 모델(differentiable reward model)을 제안한다.
데이터 규모 확장: 학습 데이터를 1만 시간에서 100만 시간으로 확대하고, 9개 언어와 18개의 중국 방언을 포함하여 다양한 도메인과 텍스트 형식을 포괄한다.
모델 규모 확장: 파라미터를 0.5B에서 1.5B로 증가시켜 더 큰 모델 용량을 통해 다국어 벤치마크에서 성능을 향상시킨다.

이러한 발전은 실제 환경에서의 음성 합성 기술 진전에 크게 기여한다.

1 Introduction

생성 신경망의 급속한 발전과 함께 텍스트-음성 변환(TTS) 기술은 큰 진전을 이루었으며, 합성 품질 측면에서 기존의 연결 기반(concatenative) 및 파라메트릭 방법을 능가하게 되었다. 특히, 대규모 다화자 데이터를 활용하는 제로샷 TTS 모델은 임의 화자의 음색, 운율, 스타일을 복제할 수 있으며, 특정 화자에 특화된 TTS 모델보다 우수한 성능을 보이며 인간 수준의 자연스러운 운율과 음질을 달성한다.

현재 제로샷 TTS 모델은 크게 세 가지 유형으로 나눌 수 있다. 첫째, 이산 음향 토큰을 모델링하기 위해 대규모 언어 모델(LLM)을 사용하는 방식, 둘째, 음성과 텍스트 간 내부 정렬을 자동으로 학습하는 diffusion 기반 모델, 셋째, coarse-to-fine 구조의 하이브리드 방식으로, 자기회귀 LLM이 거친 의미를 모델링한 뒤 diffusion과 같은 비자기회귀 모델이 세부 음성 특징을 생성하는 방식이다. 합성 품질, 스트리밍 적합성, 유연성 간의 trade-off를 고려할 때, 이러한 2단계 하이브리드 시스템이 산업 환경에서 주류로 자리 잡고 있다.

이전 연구에서 제안한 CosyVoice 2는 semantic token 활용 최적화, 텍스트 기반 LLM 초기화, 양방향 스트리밍 구조 설계, instruction 기반 모델링 통합을 통해 인간 수준의 합성 품질과 초저지연 양방향 스트리밍 음성 합성을 달성하였다.

그러나 CosyVoice 2는 중국어와 영어 중심의 방송 환경에서는 우수한 성능을 보이지만, 언어 커버리지, 도메인 다양성, 데이터 규모, 텍스트 형식 다양성 측면에서 한계가 있으며, 실제 환경(in-the-wild) 음성 생성으로 확장하기에는 개선 여지가 크다. 또한 모델 및 데이터의 scaling law와 음성 생성 모델에 적합한 post-training 기법에 대한 연구도 충분하지 않다.

이러한 문제를 해결하기 위해 본 논문에서는 다양한 언어와 시나리오를 포괄하는 실제 환경용 대규모 제로샷 음성 생성 모델 CosyVoice 3를 제안하며, 내용 일관성, 화자 유사도, 운율 자연스러움 측면에서 CosyVoice 2를 크게 능가한다.

본 논문의 주요 기여는 다음과 같다.

대규모 오디오 이해 언어 모델 기반의 새로운 음성 토크나이저를 제안하며, 지도 기반 다중 작업 학습을 통해 감정, 발화 스타일 등의 준언어적(paralinguistic) 정보를 효과적으로 포착한다.
음성 생성 모델에 적합한 post-training 전략을 탐색하고, DiffRO(differentiable reward optimization) 방법을 제안한다.
데이터 규모를 1만 시간에서 100만 시간으로 확장하고, 모델 크기를 0.5B에서 1.5B로 확장하여 성능 향상을 달성한다.
실제 환경 기반의 다국어 벤치마크 CV3-Eval을 구축하여 다양한 언어, 도메인, 감정, 스타일을 포괄하는 평가를 가능하게 한다.

이러한 개선을 통해 CosyVoice 3는 여러 벤치마크에서 SOTA 성능을 달성하며, 실제 환경 음성 합성으로 나아가는 중요한 진전을 이룬다.

요약

CosyVoice 3의 토크나이저는 단순한 음향 압축(codec)이 아니라, 텍스트와 정렬(aligned)된 음성 의미를 학습하는 supervised semantic tokenizer로 설계되었다. 핵심적으로 이 토크나이저는 기존 CosyVoice 2의 ASR 기반 구조를 확장하여, 대규모 음성 이해 모델인 MinMo를 백본으로 사용한다. 입력 음성은 Transformer 기반의 Voice Encoder(12-layer, RoPE 포함)를 통과해 중간 표현 (H)를 얻고, 여기에 Finite Scalar Quantization (FSQ) 모듈을 적용해 이산 토큰으로 변환한다. 이후 MinMo의 나머지 모듈(Voice Encoder2 + LLM)을 통해 해당 음성이 어떤 텍스트 토큰을 생성해야 하는지 예측하도록 학습된다. 즉, 구조적으로 “speech → discrete token → text” 경로를 가지며, 이 과정 자체가 텍스트-음성 정렬을 내재적으로 학습하는 방식이다.

학습 데이터는 단일 태스크가 아니라, 약 53만 시간 규모의 supervised multi-task 데이터셋을 사용한다. 이 데이터는 단순 ASR뿐 아니라 언어 식별(LID), 감정 인식(SER), 오디오 이벤트 탐지(AED), 화자 분석(SA)를 포함하며, 결과적으로 토크나이저가 단순 음소 수준이 아니라 paralinguistic 정보(감정, 발화 스타일 등)까지 표현하도록 유도된다. 특히 ASR 기반 학습이 포함되어 있기 때문에, 질문한 것처럼 텍스트와 align된 음성 데이터가 핵심 supervision 신호로 사용된다.

토큰화 방식은 FSQ를 통해 이루어지며, 중간 표현을 저차원 공간으로 projection한 뒤 각 차원을 ([-K, K]) 범위에서 양자화한다. 이때 생성된 벡터는 ((2K+1))-진수 인덱싱 방식으로 하나의 discrete speech token으로 변환된다. 이 토큰은 시간축 기준으로 초당 25개(25 Hz)의 토큰 밀도를 가지며, 이는 LLM이 처리 가능한 시퀀스 길이와 음성 정보 보존 사이의 균형을 맞춘 설정이다.

요약하면, CosyVoice 3 토크나이저는 (1) MinMo 기반 음성 이해 모델을 backbone으로 사용하고, (2) ASR 중심의 텍스트-정렬 supervision을 포함한 multi-task 학습으로 semantic + paralinguistic 정보를 동시에 학습하며, (3) FSQ 기반 discrete tokenization을 통해 25Hz의 speech token을 생성하는 구조다. 즉, 단순한 waveform compression이 아니라 “텍스트와 align된 의미 단위 토큰”을 생성하도록 학습된 토크나이저라는 점이 핵심이다.

Reference

https://arxiv.org/pdf/2505.17589

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

Audio-010, CosyVoice 3: Towards In-the-wild Speech Generation via Scaling-up and Post-training, Preprint 2025

Abstract

1 Introduction

요약

댓글

댓글 쓰기