Audio-016, NL-340, Scaling Open Discrete Audio Foundation Models with Interleaved Semantic, Acoustic, and Text Tokens, Preprint 2026

Abstract

현재의 오디오 언어 모델들은 대부분 텍스트 중심(text-first) 구조를 사용한다. 즉, 사전학습된 텍스트 LLM을 확장하거나 의미(semantic) 정보만 담은 오디오 토큰에 의존하기 때문에, 일반적인 오디오 모델링 능력이 제한된다. 본 논문은 대규모 오디오에 대해 다음 토큰 예측(next-token prediction)을 직접 적용하는 네이티브(native) 오디오 파운데이션 모델에 대한 체계적인 실증 연구를 제시한다. 이 모델은 의미 정보, 음향 정보(acoustic details), 그리고 텍스트를 공동으로 모델링하여, 일반적인 오디오 생성뿐 아니라 크로스모달 능력까지 지원한다. 또한 이러한 모델을 구축하기 위한 포괄적인 실험적 통찰을 제공한다.

  • (1) 데이터 소스, 텍스트 혼합 비율, 토큰 구성 등 다양한 설계 선택을 체계적으로 분석하여 검증된 학습 레시피를 확립하였다.
  • (2) 3×10^18에서 3×10^20 FLOPs 범위의 64개 모델에 대해 IsoFLOP 분석을 수행함으로써, 이산(discrete) 오디오 모델에 대한 최초의 스케일링 법칙 연구를 진행하였다. 그 결과, 최적 데이터 크기는 최적 모델 크기보다 약 1.6배 더 빠르게 증가함을 발견하였다.
  • (3) 이러한 결과를 바탕으로 1억 3500만~40억 파라미터 규모의 SODA(Scaling Open Discrete Audio) 모델군을 5000억 토큰으로 학습시켰으며, 기존 모델 및 스케일링 예측과 비교하였다. 

SODA는 다양한 오디오/텍스트 작업에 활용 가능한 유연한 백본(backbone) 역할을 하며, 동일한 통합 아키텍처를 사용해 화자 특성을 유지하는 음성-대-음성 번역(speech-to-speech translation) 작업에도 파인튜닝 가능함을 보여준다.

1. Introduction

오디오를 이해하고 생성할 수 있는 파운데이션 모델을 구축하는 것은 멀티모달 AI에서 핵심적인 과제이다. 현재 접근 방식들은 각각 뚜렷한 한계를 가진다. 

SALMONN (Tang et al., 2024)이나 Qwen3-Omni (Qwen Team, 2025b)와 같은 LLM 중심 아키텍처는 사전학습된 텍스트 LLM에 오디오 모듈을 추가한다. 이러한 방식은 instruction-following에는 효과적이지만, 일반적인 audio-to-audio 모델링을 제한하는 “semantic bottleneck”을 가진다. 

TWIST (Hassid et al., 2023)나 SpiritLM (Nguyen et al., 2025)과 같은 semantic-only speech language model은 speech-first 방식으로 학습되지만 acoustic detail을 제거하기 때문에, 고품질 이해와 생성 능력이 제한된다. 

speech-first로 먼저 학습되는 경우도 있군?

Moshi (Defossez et al., 2024)나 Llama-Mimi (Sugiura et al., 2025)와 같은 native audio model은 acoustic token을 직접 모델링하지만, 텍스트 통합 없이 특정 task에만 초점을 맞춘다. 

한편, next-token prediction은 텍스트 및 vision-language 분야에서 unified model을 가능하게 했지만 (Chameleon Team, 2024), 단일 backbone 안에서 오디오 이해와 생성을 공동으로 모델링하는 유사한 접근은 아직 제한적이다.

이러한 간극을 메우기 위해, 본 논문은 semantic, acoustic, 그리고 text token을 unified next-token prediction framework 안에서 공동 모델링하는 native audio foundation model에 대한 체계적인 실증 연구를 제시한다. 이는 LLM의 scaling study (Kaplan et al., 2020)와 유사하게 최초의 training recipe와 scaling law를 확립한다. 이러한 설계는 하나의 모델 안에서 다양한 task를 가능하게 한다: audio continuation, semantic/acoustic understanding, cross-modal capability (예: text-to-speech 및 speech-to-text), 그리고 text generation. 우리는 neural codec으로부터 얻어진 token을 utterance 단위로 interleaving하는 방식을 채택한다. 이는 word-level alignment error를 피하고 transcript가 존재하는 대규모 dataset을 활용할 수 있게 한다.

이러한 오디오 모델을 학습하는 데 있어 한 가지 도전 과제는 확립된 pretraining understanding의 부재이다. 텍스트 LLM을 위한 Chinchilla 연구 (Hoffmann et al., 2022)는 모델 크기 (N)과 학습 token 수 (D)가 동일한 비율로 scaling되어야 함을 보였다 ((N^, D^ \propto C^{0.5})). 그러나 오디오에서는 token당 정보 밀도가 훨씬 낮을 수 있기 때문에, 이러한 관계가 그대로 적용되는지는 불분명하다. 우리는 discrete audio model의 pre-training에 대해 다음 핵심 질문들을 다룬다:

  • 어떤 학습 데이터와 token 설계를 사용해야 하는가? (§4):
    우리는 speech corpus, text mixture ratio, 그리고 token composition (semantic-only vs. semantic+acoustic vs. semantic+acoustic+text)을 체계적으로 비교하여, 검증된 training recipe를 확립한다.

  • 연산 자원(compute)을 어떻게 배분해야 하며, validation loss는 신뢰할 수 있는 metric인가? (§5):
    우리는 validation loss가 downstream performance를 예측할 수 있음을 보이고, 64개의 IsoFLOP model (3 × 10^18 ~ 3 × 10^20 FLOPs)로부터 scaling law를 도출한다. 그 결과
    (D^* \propto C^{0.579}), (N^* \propto C^{0.367})
    임을 발견하였다.

  • 스케일 업은 실제로 효과가 있는가? (§6):
    우리는 SODA (Scaling Open Discrete Audio)를 학습한다. 이는 1억 3500만~40억 parameter 규모의 모델군이며, 5000억 token (최대 1.3 × 10^22 FLOPs)으로 학습된다. 또한 scaling prediction 및 기존 model과 비교한다. 우리는 text LLM으로부터 시작하는 warm-start와 scratch부터 시작하는 cold-start 학습을 비교하였고, cold-start가 더 우수하며 더 높은 학습 안정성을 제공함을 발견하였다. 또한 voice-preserving speech-to-speech translation을 단순히 next-token prediction task로 formulation하여 SODA를 fine-tuning함으로써, SODA가 유연한 backbone 역할을 할 수 있음을 추가로 검증하였다.

SODA는 오디오 및 cross-modal benchmark 전반에서 경쟁력 있는 성능을 달성하며, S2ST를 위한 fine-tuning은 그 유연성을 보여준다. 우리는 향후 연구를 촉진하기 위해 checkpoint, discrete audio data, experiment log, 그리고 code를 공개한다.

2. Related Work

2.1. Audio & Speech Foundation Models

LLM-Centric Architectures.
SALMONN (Tang et al., 2024), Llama-Omni (Fang et al., 2025), 그리고 Qwen3-Omni (Qwen Team, 2025b)와 같은 모델들은 사전학습된 text LLM으로부터 warm-start를 수행하고, 별도의 encoder/decoder module을 통해 오디오 기능을 추가한다. Backbone은 text-aligned semantic representation을 처리하며, 이로 인해 fine-grained acoustic detail이 압축되거나 손실되는 “semantic bottleneck”이 발생한다. 이러한 모델들은 instruction following에는 효과적이지만, 오디오를 native하게 생성할 수 없으며, 종종 고정된 speaker embedding을 사용하는 vocoder와 같은 별도 module에 의존한다. 따라서 end-to-end audio foundation model로서의 활용성은 제한된다.

Semantic-Only Models.
TWIST (Hassid et al., 2023), SpiritLM (Nguyen et al., 2025), VoxtLM (Maiti et al., 2024), SUTLM (Chou et al., 2023), 그리고 SIMS (Maimon et al., 2025a)와 같은 접근 방식은 discrete speech token 위에서 동작하지만 semantic token (예: HuBERT unit)에만 제한된다. VoxtLM과 SUTLM은 text BPE와 HuBERT token을 결합하여 ASR, TTS, 그리고 continuation을 control token 기반으로 지원하지만, 여전히 acoustic detail은 부족하다. SpiritLM은 token interleaving을 도입했지만 semantic content에 초점을 맞추고 있으며, acoustic understanding과 high-fidelity audio generation에 필요한 acoustic detail은 버린다.

Native Audio Models.
우리 연구와 가장 가까운 선행 연구는 discrete acoustic token을 직접 모델링하는 native model들이다. AudioLM (Borsos et al., 2023)은 semantic 및 acoustic token을 모델링하는 방식을 처음 제시했지만, hierarchical cascaded architecture에 의존하여 semantic token을 먼저 생성한 후 acoustic token을 별도의 단계에서 생성하였다. VALLE (Wang et al., 2023), CosyVoice (Du et al., 2024), Orpheus (Canopy Labs, 2025)와 같은 discrete audio model들은 TTS에서 성공을 보였다. Moshi (Defossez et al., 2024)는 real-time dialogue를 위한 full-duplex model을 도입했으며, Llama-Mimi (Sugiura et al., 2025)는 단일 Llama-3 decoder 안에서 semantic과 acoustic token을 interleaving하는 방식이 최고의 acoustic consistency를 달성함을 보였다. 그러나 이러한 연구들은 체계적인 training recipe나 scaling behavior에 대한 분석 없이 특정 speech task에 초점을 맞추고 있으며, 우리는 바로 이러한 공백을 다룬다.

















Reference

댓글