◼ Comment

참 마음에 드는 논문이다. 내가 하는것과 연관성이 깊었음
LALM을 만들때, 학습 레서피에 대한 다양한 실험 및 findings을 담은 논문이다

저자가 알고보니 selfcheckgpt, audio-judge도 쓴걸봐서 약간 최초의 연구를 좋아하는 느낌인듯

토크나이저: Mimi Tokenizer

Mimi Tokenizer가 semantic, recon-based 두 개 모두 토크나이저를 뽑아줌

모델 아키텍처: Qwen3 기반
1번째 실험: 어떤 오디오 데이터를 사용해야하는가?

후보군으로 yodas, emilia, mls
여기서 어떤 데이터를 사용해서 학습하는게 좋은지?
이 방법으로 https://arxiv.org/pdf/2406.03476 논문 방법을 활용해서 실험해봤다고 함
결과로는 emilia가 가장 좋은 TTS, yodas가 text knoweldge 제공하고, 이 둘이 상호보완적이라고 해서, 이 2개를 선택함
참고로 텍스트 데이터는 nemotron-cc을 사용

2번째 실험: 텍스트와 오디오 비율을 어떻게 할까?

여기서 관점은 오디오 성능이 우선이다.
당연히 데이터 비율에 따라 trade-off임을 보여주는데, 오디오 성능 열화가 없는 텍스트 데이터 5%, 오디오 데이터95%을 선택함
이 부분은 내 관점하고 다르긴함. 오디오 성능을 우선시하는 것이기 때문?
평가방식은 validation NLL loss인데, 이 부분은 뒤에서 설명

3번째 실험: 학습시 semantic, acoustic, text token을 같이 사용해도 되는가?

이것도 trade-off가 있다.
즉 acoustic token을 추가하면, acoustic modeling 능력은 향상되고 semantic understanding은 감소
텍스트 토큰을 추가하면 오디오 성능에 큰 영향은 없음
여기서 평가메트릭은 sBLI, sWUG, Salm, tBLI, wWUC, ASR, TTS로 좀 생소한것들이 있음
어쨌든 general 한 관점에서는 S+A+T로 가는게 낫다고 주장

4번째 실험: validaion NLL loss는 믿을만 한가?

여기서 평가 메트릭이 많으니까, 하나의 지표로 보고 싶었던거 같은데, 그걸 valdiation nll loss을 보면 된다고 주장함
nll 과 위에서 말한 평가 메트릭과 그래프를 그려봄. 전부다 정비례 관계임이 나타남
nll loss도 여러 가지가 있는데, text 토큰만 볼지, acoustic or semantic token만 볼지, 등등이 있는데, ASR/TTS 식의 인터리브드 데이터의 NLL 을 보는것이 결론임

다른 nll 또한 비례관계이긴 하다고 함

따라서 학습할때 NLL loss을 줄이는것에 집중하면 된다
하지만 비교하는 평가메트릭이 아쉽긴 함 (text benchmark 점수 이런게 아니기 때문)

5번째 실험: compute가 정해졌을때 model / training data 을 어떻게 배분?

LALM의 chinchilla 적인 실험을 시도한거 같음
기존에 C=6ND라는 식이 있음, C=compute, N=파라미터수, D=token수
Chinchilla에서는 D=20N이 근사치고, 이는 텍스트에서의 실험
여기서는 C을 고정하고 다양한 N,D로 실험했는데, N,D가 비례관계는 아니고 모델(파라미터) 스케일이 커질수록, 토큰은 점점 더 많이 필요하다고 결론내림

6번째 실험: scale-up

참고: 데이터 reply는 4 epoch 정도까지 효과가 있다고 함
모델 스케일 커질수록 성능이 좋아진다고함

7번째 실험: scratch vs cpt (qwen3)

여기서 실험 세팅은 위에서 찾은대로, 텍스트 5%, 오디오 95%임
이 세팅에서는 scratch가 더 낫다고함
cpt는 학습 불안정성을 보이며, Loss spike 발생 (내가 느낀 점과 동일함 ㄷㄷ)
여기서는 오디오 중점이기 때문에, 오디오 성능에서는 scratch가 더 낫다고 말하지만
텍스트 관점에서는 cpt해도 성능 회복이 안된다고 주장 (당연히 학습을 적게하니깐 그런거 아닌가)

8번째 실험: fine-tuning 하여 비교

백본을 random, qwen3, SODA, SODA-P로 세팅
SODA가 여기서 말한 방법을 영어 데이터로만한거고, SODA-P는 멀티링구얼 데이터로 학습했다고 보면됨
결과는 SODA-P가 제일 좋고 그 다음 SODA임
즉 다국어 데이터가 도움이 된다고 말하는데, 뭔가 이 주장은 좀더 실험이 들어갔어야 할 것으로 보임
qwen3은 텍스트 백본이니 당연히 안좋은데, random과 별반 차이 없음 (이것도 내가 느낀점과 동일함)

Abstract

현재의 오디오 언어 모델들은 대부분 텍스트 중심(text-first) 구조를 사용한다. 즉, 사전학습된 텍스트 LLM을 확장하거나 의미(semantic) 정보만 담은 오디오 토큰에 의존하기 때문에, 일반적인 오디오 모델링 능력이 제한된다. 본 논문은 대규모 오디오에 대해 다음 토큰 예측(next-token prediction)을 직접 적용하는 네이티브(native) 오디오 파운데이션 모델에 대한 체계적인 실증 연구를 제시한다. 이 모델은 의미 정보, 음향 정보(acoustic details), 그리고 텍스트를 공동으로 모델링하여, 일반적인 오디오 생성뿐 아니라 크로스모달 능력까지 지원한다. 또한 이러한 모델을 구축하기 위한 포괄적인 실험적 통찰을 제공한다.

(1) 데이터 소스, 텍스트 혼합 비율, 토큰 구성 등 다양한 설계 선택을 체계적으로 분석하여 검증된 학습 레시피를 확립하였다.
(2) 3×10^18에서 3×10^20 FLOPs 범위의 64개 모델에 대해 IsoFLOP 분석을 수행함으로써, 이산(discrete) 오디오 모델에 대한 최초의 스케일링 법칙 연구를 진행하였다. 그 결과, 최적 데이터 크기는 최적 모델 크기보다 약 1.6배 더 빠르게 증가함을 발견하였다.
(3) 이러한 결과를 바탕으로 1억 3500만~40억 파라미터 규모의 SODA(Scaling Open Discrete Audio) 모델군을 5000억 토큰으로 학습시켰으며, 기존 모델 및 스케일링 예측과 비교하였다.

SODA는 다양한 오디오/텍스트 작업에 활용 가능한 유연한 백본(backbone) 역할을 하며, 동일한 통합 아키텍처를 사용해 화자 특성을 유지하는 음성-대-음성 번역(speech-to-speech translation) 작업에도 파인튜닝 가능함을 보여준다.

1. Introduction

오디오를 이해하고 생성할 수 있는 파운데이션 모델을 구축하는 것은 멀티모달 AI에서 핵심적인 과제이다. 현재 접근 방식들은 각각 뚜렷한 한계를 가진다.

SALMONN (Tang et al., 2024)이나 Qwen3-Omni (Qwen Team, 2025b)와 같은 LLM 중심 아키텍처는 사전학습된 텍스트 LLM에 오디오 모듈을 추가한다. 이러한 방식은 instruction-following에는 효과적이지만, 일반적인 audio-to-audio 모델링을 제한하는 “semantic bottleneck”을 가진다.

TWIST (Hassid et al., 2023)나 SpiritLM (Nguyen et al., 2025)과 같은 semantic-only speech language model은 speech-first 방식으로 학습되지만 acoustic detail을 제거하기 때문에, 고품질 이해와 생성 능력이 제한된다.

speech-first로 먼저 학습되는 경우도 있군?

Moshi (Defossez et al., 2024)나 Llama-Mimi (Sugiura et al., 2025)와 같은 native audio model은 acoustic token을 직접 모델링하지만, 텍스트 통합 없이 특정 task에만 초점을 맞춘다.

한편, next-token prediction은 텍스트 및 vision-language 분야에서 unified model을 가능하게 했지만 (Chameleon Team, 2024), 단일 backbone 안에서 오디오 이해와 생성을 공동으로 모델링하는 유사한 접근은 아직 제한적이다.

이러한 간극을 메우기 위해, 본 논문은 semantic, acoustic, 그리고 text token을 unified next-token prediction framework 안에서 공동 모델링하는 native audio foundation model에 대한 체계적인 실증 연구를 제시한다. 이는 LLM의 scaling study (Kaplan et al., 2020)와 유사하게 최초의 training recipe와 scaling law를 확립한다. 이러한 설계는 하나의 모델 안에서 다양한 task를 가능하게 한다: audio continuation, semantic/acoustic understanding, cross-modal capability (예: text-to-speech 및 speech-to-text), 그리고 text generation. 우리는 neural codec으로부터 얻어진 token을 utterance 단위로 interleaving하는 방식을 채택한다. 이는 word-level alignment error를 피하고 transcript가 존재하는 대규모 dataset을 활용할 수 있게 한다.

이러한 오디오 모델을 학습하는 데 있어 한 가지 도전 과제는 확립된 pretraining understanding의 부재이다. 텍스트 LLM을 위한 Chinchilla 연구 (Hoffmann et al., 2022)는 모델 크기 (N)과 학습 token 수 (D)가 동일한 비율로 scaling되어야 함을 보였다 ((N^, D^ \propto C^{0.5})). 그러나 오디오에서는 token당 정보 밀도가 훨씬 낮을 수 있기 때문에, 이러한 관계가 그대로 적용되는지는 불분명하다. 우리는 discrete audio model의 pre-training에 대해 다음 핵심 질문들을 다룬다:

어떤 학습 데이터와 token 설계를 사용해야 하는가? (§4):
우리는 speech corpus, text mixture ratio, 그리고 token composition (semantic-only vs. semantic+acoustic vs. semantic+acoustic+text)을 체계적으로 비교하여, 검증된 training recipe를 확립한다.
연산 자원(compute)을 어떻게 배분해야 하며, validation loss는 신뢰할 수 있는 metric인가? (§5):
우리는 validation loss가 downstream performance를 예측할 수 있음을 보이고, 64개의 IsoFLOP model (3 × 10^18 ~ 3 × 10^20 FLOPs)로부터 scaling law를 도출한다. 그 결과
(D^* \propto C^{0.579}), (N^* \propto C^{0.367})
임을 발견하였다.
스케일 업은 실제로 효과가 있는가? (§6):
우리는 SODA (Scaling Open Discrete Audio)를 학습한다. 이는 1억 3500만~40억 parameter 규모의 모델군이며, 5000억 token (최대 1.3 × 10^22 FLOPs)으로 학습된다. 또한 scaling prediction 및 기존 model과 비교한다. 우리는 text LLM으로부터 시작하는 warm-start와 scratch부터 시작하는 cold-start 학습을 비교하였고, cold-start가 더 우수하며 더 높은 학습 안정성을 제공함을 발견하였다. 또한 voice-preserving speech-to-speech translation을 단순히 next-token prediction task로 formulation하여 SODA를 fine-tuning함으로써, SODA가 유연한 backbone 역할을 할 수 있음을 추가로 검증하였다.

SODA는 오디오 및 cross-modal benchmark 전반에서 경쟁력 있는 성능을 달성하며, S2ST를 위한 fine-tuning은 그 유연성을 보여준다. 우리는 향후 연구를 촉진하기 위해 checkpoint, discrete audio data, experiment log, 그리고 code를 공개한다.

2. Related Work

2.1. Audio & Speech Foundation Models

LLM-Centric Architectures.
SALMONN (Tang et al., 2024), Llama-Omni (Fang et al., 2025), 그리고 Qwen3-Omni (Qwen Team, 2025b)와 같은 모델들은 사전학습된 text LLM으로부터 warm-start를 수행하고, 별도의 encoder/decoder module을 통해 오디오 기능을 추가한다. Backbone은 text-aligned semantic representation을 처리하며, 이로 인해 fine-grained acoustic detail이 압축되거나 손실되는 “semantic bottleneck”이 발생한다. 이러한 모델들은 instruction following에는 효과적이지만, 오디오를 native하게 생성할 수 없으며, 종종 고정된 speaker embedding을 사용하는 vocoder와 같은 별도 module에 의존한다. 따라서 end-to-end audio foundation model로서의 활용성은 제한된다.

Semantic-Only Models.
TWIST (Hassid et al., 2023), SpiritLM (Nguyen et al., 2025), VoxtLM (Maiti et al., 2024), SUTLM (Chou et al., 2023), 그리고 SIMS (Maimon et al., 2025a)와 같은 접근 방식은 discrete speech token 위에서 동작하지만 semantic token (예: HuBERT unit)에만 제한된다. VoxtLM과 SUTLM은 text BPE와 HuBERT token을 결합하여 ASR, TTS, 그리고 continuation을 control token 기반으로 지원하지만, 여전히 acoustic detail은 부족하다. SpiritLM은 token interleaving을 도입했지만 semantic content에 초점을 맞추고 있으며, acoustic understanding과 high-fidelity audio generation에 필요한 acoustic detail은 버린다.

Native Audio Models.
우리 연구와 가장 가까운 선행 연구는 discrete acoustic token을 직접 모델링하는 native model들이다. AudioLM (Borsos et al., 2023)은 semantic 및 acoustic token을 모델링하는 방식을 처음 제시했지만, hierarchical cascaded architecture에 의존하여 semantic token을 먼저 생성한 후 acoustic token을 별도의 단계에서 생성하였다. VALLE (Wang et al., 2023), CosyVoice (Du et al., 2024), Orpheus (Canopy Labs, 2025)와 같은 discrete audio model들은 TTS에서 성공을 보였다. Moshi (Defossez et al., 2024)는 real-time dialogue를 위한 full-duplex model을 도입했으며, Llama-Mimi (Sugiura et al., 2025)는 단일 Llama-3 decoder 안에서 semantic과 acoustic token을 interleaving하는 방식이 최고의 acoustic consistency를 달성함을 보였다. 그러나 이러한 연구들은 체계적인 training recipe나 scaling behavior에 대한 분석 없이 특정 speech task에 초점을 맞추고 있으며, 우리는 바로 이러한 공백을 다룬다.

2.2. Scaling Laws for Foundation Models

LLM pre-training에 대해, Kaplan et al. (2020)은 모델 크기가 데이터보다 더 빠르게 scaling되어야 한다는 power-law 관계 ((N \propto C^{0.73}))를 처음으로 제시하였다. 이후 Chinchilla 연구 (Hoffmann et al., 2022)는 이를 수정하여, compute-optimal text LLM에서는 모델 크기와 학습 token 수가 동일한 비율로 scaling되어야 함을 보였다 ((N^, D^ \propto C^{0.5})).

최근 연구들은 scaling law를 오디오 도메인으로 확장하려 시도했지만, semantic-only model에 초점을 맞추고 있다는 한계를 가진다. Cuervo & Marxer (2024)와 Maimon et al. (2025a) 모두 semantic token (HuBERT unit)에만 분석을 제한하였으며, 이는 일반적인 speech/audio modeling에 필요한 acoustic detail을 사실상 제거하는 것이다. Maimon et al. (2025a)은 textless 접근을 취한 Cuervo & Marxer (2024)보다 발전하여, text interleaving이 학습을 가속화함을 보여주었지만, 그들의 방법론은 각 compute budget당 모델 수가 너무 적어 신뢰할 수 있는 IsoFLOP curve fitting ((N^* \text{ vs } D^*))을 수행할 수 없었다. 또한 두 연구 모두 cross-modal capability (예: ASR 및 TTS skill)의 scaling behavior를 조사하지 않았으며, 이는 scale이 증가함에 따라 audio skill이 어떻게 emergent하는지에 대한 이해의 공백으로 남아 있다.

3. Experimental Setup

Model Architecture:
우리는 decoder-only Transformer를 Qwen3 architecture (Qwen Team, 2025a) 기반으로 학습한다. 이 구조는 학습 안정성을 향상시키기 위해 Llama에 QK-Norm을 추가한 것이며, random initialization(cold-start)으로 학습한다.¹

우리는 높은 reconstruction quality와 semantic-acoustic separation 특성을 가진 Mimi (Defossez et al., 2024)를 사용하여 오디오를 discretize한다.

Mimi Tokenizer을 통해 recon-based / semantic-based 토큰을 뽑을 수 있나본데?
여기서 첫 번째 codebook은 semantic content를, 나머지 codebook들은 acoustic detail을 담당한다.
Mimi는 12.5 Hz의 neural codec이며, 우리는 처음 8개의 RVQ codebook(초당 100 token)을 사용한다.

Audio token은 flatten되어 text와 utterance 단위에서 interleave된다(Figure 1(c) 참조).

또한 각 instance마다 audio-first와 text-first variant를 모두 사용한다. Orpheus(TTS용)나 Llama-Mimi(audio continuation용) 같은 task-specific model과 달리, 이러한 interleaving은 모델이 다음 네 가지 capability를 학습할 수 있게 하는 범용 구조를 제공한다:

(1) audio continuation,
(2) text continuation,
(3) audio→text,
(4) text→audio.

Training Data:
Speech data로는 utterance-level transcription이 존재하는 가장 큰 공개 corpus들을 선택하였다:

(1) Yodas (Li et al., 2023): 100개 이상의 언어에 걸친 50만 시간 이상의 데이터셋이며, 이 중 약 16만 5천 시간의 영어 데이터를 사용한다.
(2) Emilia (He et al., 2024): 10만 1천 시간 규모의 다양한 spontaneous speech corpus이며, 이 중 약 14만 시간의 영어 데이터를 사용한다.
(3) MLS (Pratap et al., 2020): 4만 5천 시간 규모의 audiobook speech corpus.

Text-only data로는 LLM pre-training에 널리 사용되는 대규모 웹 corpus인 Nemotron-CC (Su et al., 2025)를 사용한다.

Section 4에서 이러한 선택들을 ablation하며, 전체 데이터 통계는 Appendix B에 제시되어 있다.

Evaluation:
우리는 다음 네 가지 범주에 대해 평가를 수행한다:

(1) Speech semantic knowledge (sBLIMP, sWUGGY),
(2) Speech acoustic knowledge (Salmon),
(3) Text knowledge (tBLIMP, tWUGGY, HellaSwag),
(4) Cross-modal skill (LibriSpeech 기반 ASR, seed-tts-eval 기반 TTS).

평가 세부사항은 Appendix C에 제공되어 있다.

SODA-Preliminary:
초기 탐색으로서, 우리는 utterance-level interleaved discrete audio token 위에 vanilla transformer를 학습했을 때 의미 있는 capability가 나타나는지를 먼저 검증하였다. 이를 위해 SODA-prelim이라는 6억 parameter 모델을 학습하였으며, Yodas의 8개 언어 데이터를 사용해 총 5000억 multilingual token으로 학습하였다. 이 multilingual setup은 다른 대규모 corpus를 처리하기 전에 Yodas에서 사용 가능한 학습 데이터를 최대화하기 위해 선택되었다. 결과는 joint semantic-acoustic-text modeling이 functional cross-modal skill(ASR, TTS)과 강한 acoustic understanding을 만들어냄을 보여주었지만, semantic understanding과 text knowledge에서는 한계가 있음을 드러냈다(전체 세부사항은 Appendix D.1 참조). 표준 benchmark들이 영어 능력에 초점을 맞추고 있기 때문에, 이후 실험(§4)에서는 multilingual effect를 분리하기 위해 English-only data를 사용한다.

4. What Data and Token Types Do We Use?

Scaling analysis를 수행하기 전에, 우리는 다음 질문들에 답하기 위해 실증적 조사를 수행한다:

어떤 speech corpus가 가장 효과적인가? 얼마나 많은 text-only data를 포함해야 하는가?
어떤 token composition(semantic, acoustic, text)이 최적인가?
이러한 연구는 scaling law가 단순히 sub-optimal baseline이 아니라 잘 최적화된 설정을 반영하도록 보장한다.

각 subsection은 해당 질문에 맞추어진 서로 다른 experimental setup을 사용한다(근거는 Appendix D.2 참조). Data source의 효과를 분리하기 위해, 모든 실험은 English-only data를 사용한다.

4.1. What Speech Data Works the Best?

Question:
어떤 speech data를 학습에 사용해야 하는가? SODA-prelim (§3)을 기반으로, 우리는 더 나은 training recipe를 찾기 위해 사용 가능한 corpus들을 비교한다.

Setup:
전체 학습 run을 사용하여 data source를 비교하는 것은 비용이 너무 크다. 최근 연구에서는 annealing experiment를 통해, pre-training의 learning rate decay phase 동안 서로 다른 data mixture를 평가함으로써 훨씬 적은 비용으로 data source의 상대적 품질을 신뢰성 있게 예측할 수 있음을 보였다 (Blakeney et al., 2024). 우리는 이 접근을 채택한다. 즉, SODA-prelim의 stable phase에서 분기(branch)하여 annealing 동안 speech dataset들을 비교한다.

우리는 §3에서 소개한 세 가지 speech corpus—Yodas, Emilia, 그리고 MLS—를 평가한다.

Findings:
전체 결과는 Table 5 (Appendix D.3)에 있으며, 여기서는 핵심 결과만 요약한다. Semantic 및 acoustic task 전반에서 세 corpus 모두 유사한 결과를 보였다. 그러나 MLS는 curated audiobook corpus임에도 불구하고 cross-modal 성능이 매우 낮았다: ASR-WER은 92.6%, TTS-WER은 35.7%까지 악화되었다. 우리는 그 원인을 다음과 같이 해석한다:
(i) 대소문자와 punctuation이 없는 transcript가 standard text와 distribution mismatch를 일으키고,
(ii) 길이가 고정된 10–20초 chunk가 길이 다양성을 제공하지 못하기 때문이다.

Emilia와 Yodas 사이에서는 서로 보완적인 강점이 나타났다. Emilia는 가장 좋은 TTS 결과를 달성한 반면, Yodas는 더 나은 text knowledge를 제공하였다. 또한, scratch부터 학습한 소규모 모델(150M, 10B token) 실험에서도 Magnusson et al. (2025)와 일치하게 동일한 결과가 확인되었다. 따라서 우리는 최종적으로 Yodas + Emilia 조합을 선택한다.

음 근데, 저 방법이 뭔지는 모르겠어서 참고는 해야겠지만, 그냥 yodas, emilia가 쉬워서 그런거 아닌가? 이런 생각도 드는데

4.2. How Much Text-Only Data Should We Include?

Question:
SODA-prelim에서 관찰된 낮은 semantic understanding 및 general knowledge 성능(Appendix D.1 참조)을 고려할 때, noisy speech transcript 외에 high-quality text data를 함께 학습시킴으로써 이러한 capability를 향상시킬 수 있을까? 가능하다면, 최적의 비율은 얼마인가?

텍스트와 오디오 비율을 어떻게 해야할까?

Setup:
소규모 실험(150M, 10B token)이 §4.1의 고비용 annealing 실험과 유사한 결과를 보였기 때문에, 우리는 text ratio sweep을 위해 이 setup을 채택한다. 비율은 0%에서 50%까지 변화시키며, 여기서 X% text란 token의 X%를 Nemotron에서, 나머지 (100−X)%를 Yodas에서 샘플링함을 의미한다.

근데 이러면 텍스트보다 오디오 비율이 많은 세팅아닌가?

Findings:
Figure 2는 audio 성능과 text 성능 사이의 trade-off를 보여준다(우리는 §5.1에서 NLL이 downstream performance의 신뢰할 수 있는 predictor임을 검증한다). Text NLL의 경우, 소량의 text를 추가하는 것만으로도 큰 향상이 나타난다(0%에서 2.5%로 갈 때 NLLtext가 급격히 감소). 이후 text ratio가 증가함에 따라 성능은 계속 향상된다.

여기서는 성능을 벤치마크로 찍는 것이 아니라, validation data에 대한 NLL (next token prediction)을 재는 것으로 대체하는데.. 이게 성능과 꼭 비례하는 것은 아닐텐데

반면 Audio NLL은 text 비율이 5%까지는 성능 저하가 없으며(0% baseline과 동일 수준), 그 이후부터 성능이 악화된다. 따라서 우리는 audio 성능 저하 없이 text knowledge 향상을 최대화하는 5%를 선택한다. 물론 text/reasoning capability를 더 중요시하는 경우에는 audio skill 저하를 감수하고 더 높은 비율을 사용할 수도 있다. Downstream metric에 대한 전체 결과는 Figure 5 (Appendix D.4)에 제시되어 있다.

이후 모든 실험에서는 pre-training mixture를 다음과 같이 고정한다:
5% Text (Nemotron) + 95% Speech (Yodas/Emilia).

이 관점은 오디오 성능이 저하가 안되는 최적의 세팅을 찾으려고 한 것. 근데 보통 텍스트 데이터가 오디오보다 훨씬 데이터가 많은 세팅 아닌가?

4.3. What Is a Good Token Composition?

Question:
Interleaved audio 및 text token, 그리고 semantic 및 acoustic audio token의 조합이 audio benchmark에 어떤 영향을 미치는가?

Setup:
우리는 3 × 10^20 FLOPs의 고정된 compute budget(1.7B model, 30B data)과 speech data로 Yodas(Nemotron 제외)를 사용하여 세 가지 token type(Figure 1 참조)을 ablation한다. 세 가지 token configuration은 다음과 같다:
(1) Semantic-only: 첫 번째 Mimi codebook만 사용
(2) Semantic+Acoustic: 최대 8개의 Mimi codebook 사용(audio only)
(3) Semantic+Acoustic+Text: transcript(text)를 audio token과 utterance 단위에서 interleave

Findings:
Table 1은 trade-off를 보여준다.

Acoustic token을 추가하면 acoustic modeling 능력은 향상된다(Salmon: 67.3% → 70.1%). 그러나 semantic understanding은 감소한다(sBLIMP: 58.6% → 50.9%). Text token을 interleave하는 것은 이러한 metric에 추가적인 큰 영향을 주지는 않지만, audio-only model(우리의 S+A variant 또는 Llama-Mimi)에서는 불가능했던 cross-modal capability(ASR/TTS)와 text capability를 가능하게 만든다.

여기서도 텍스트 토큰을 추가한게 오디오 성능에 크게 악영향이 없었다는거 같음?
근데 여기서는 성능 메트릭은 아래와 같음. 생소하긴함

sBLIMP

“The cat sleeps”
“The cat sleep”
중 어느 쪽 likelihood가 더 높은지.
랜덤 baseline = 50%

sWUGGY

진짜 단어 vs 가짜 단어:
oscillation
odenacia
중 실제 단어 likelihood가 더 높은지.

Salmon

이건 semantic이 아니라:

speaker consistency
room acoustics
background noise
같은 acoustic property를 보는 benchmark입니다.

예:

중간에 화자가 바뀌었는지
noise 특성이 깨졌는지

tBLIMP / tWUGGY

위 speech benchmark의 text 버전.
즉: 문법 / lexical knowledge

Semantic-only model은 semantic understanding에서는 뛰어나지만, high-fidelity understanding 및 generation에 필요한 acoustic detail이 부족하다. 우리의 목표는 general-purpose backbone이므로, 우리는 unified backbone 안에서 더 넓은 capability를 얻기 위해 semantic 성능의 일부 손실을 감수하고 S+A+T 구성을 채택한다.

S+A+T가 모든 상황에서 최고는 아니라는 것, 하지만 general purpose에서는 제일 낫다고 주장

5. How Should We Allocate Compute?

이 섹션에서는 다음 질문들을 다룬다: validation loss는 discrete audio model에서 신뢰할 수 있는 metric인가?

위에서 가진 질문에 대한 궁금증을 scaling raw 상황에서 살펴보자는 것

모델 크기와 학습 데이터 사이에 compute를 어떻게 배분해야 하는가? Text LLM의 scaling law는 잘 연구되어 있지만 (Kaplan et al., 2020; Hoffmann et al., 2022; Grattafiori et al., 2024; Bi et al., 2024), discrete audio model에 대한 이러한 분석은 존재하지 않는다. 우리는 discrete audio model에 대한 최초의 scaling law 연구를 수행하며, audio token의 낮은 정보 밀도(텍스트는 약 4 token/sec, audio는 100 token/sec)가 compute-optimal allocation에 어떤 영향을 미치는지를 조사한다.

Compute-optimal allocation을 결정하기 위해, 우리는 3 × 10^18에서 3 × 10^20 FLOPs 범위의 7개 compute budget에 걸쳐 64개 모델을 학습하는 IsoFLOP sweep을 수행한다. 각 compute budget (C)에 대해, 서로 다른 크기의 모델(77M~4.2B parameter)을 학습하며, dataset 크기 (D)는 (C \approx 6ND)를 만족하도록 조정한다. Hyperparameter는 Held et al. (2025)의 기존 scaling law 연구를 따른다.

5.1. Is Validation Loss a Reliable Metric?

Question:
IsoFLOP analysis를 수행하기 전에, 우리는 held-out audio data에 대한 validation loss (NLL)가 discrete audio model을 평가하는 신뢰할 수 있는 metric인지 확인한다. 만약 그렇다면, 이후 실험들은 NLL 최소화에 집중할 수 있다.

Setup:
우리는 LibriSpeech dev-clean의 speech utterance에 대해 NLL을 계산하고, 서로 다른 크기와 training configuration을 가진 64개 모델에 대해 NLL과 downstream task performance 간의 상관관계를 분석한다. 결과는 Figure 3에 제시되어 있으며, 전체 결과는 Figures 6 및 7 (Appendix E)에 제공된다.

Findings:
모든 compute budget과 model size 전반에서, validation NLL은 downstream performance와 강한 rank correlation (Spearman ρ)을 보인다.

진짜 그럴까..? 전반적인 비례관계이긴 하네. validation NLL을 통해 그래프 그려보는것도 괜찮을거 같긴한데

여기서 NLL_x 이렇게 x(=숫자)로 여러 개에대해 측정했는데
NLL 종류 의미
NLL_1 audio+text의 모든 token
NLL_2 audio token만
NLL_3 semantic token만
NLL_5 text token만
NLL_6 pure text corpus
인데, 모든 NLL이 다 관계있지만 여기선 ASR 형태 데이터의 NLL을 주요 지표로 삼는다는것 같음

NLL 종류	의미
NLL_1	audio+text의 모든 token
NLL_2	audio token만
NLL_3	semantic token만
NLL_5	text token만
NLL_6	pure text corpus

Cross-modal skill의 경우, NLL은 ASR ((\rho \approx 0.95)) 및 TTS quality (TTS-WER: (\rho \approx 0.96), TTS-SIM: (\rho = 0.99))를 매우 잘 예측하며, 거의 선형적인 개선 관계를 보인다. 그러나 loss 값이 낮아질수록 개선 속도는 둔화되며, 가장 높은 compute budget(3 × 10^20 FLOPs)의 결과들은 regression line보다 나쁜 성능을 보인다.

Semantic 및 acoustic understanding(Salmon, sBLIMP, sWUGGY)의 경우 개선 속도는 느리다. NLL이 4.0에서 3.4로 감소할 때 Salmon은 68.5%에서 70.5%로, sWUGGY는 54%에서 58%로 향상된다. Salmon에서는 초기 saturation 징후가 관찰되는데, 가장 높은 compute budget(3 × 10^20 FLOPs)의 모델들이 대부분 regression line 아래에 위치하여 acoustic understanding이 diminishing return 구간에 도달하고 있음을 시사한다. sBLIMP의 경우 성능은 여전히 emergence 이전 단계에 머물러 있으며(49.3% → 50.0%, 거의 random baseline인 50% 수준), 현재 scale에서는 충분히 informative하지 않다.

Text knowledge task(tBLIMP, tWUGGY, HellaSwag; Figure 7 참조)의 경우, NLL은 강한 상관관계((\rho > 0.8))를 보이며, speech understanding보다 더 뚜렷한 개선을 보인다. NLL이 4.0에서 3.4로 감소할 때 tWUGGY는 62%에서 69%로, tBLIMP는 64%에서 거의 70%까지 향상되며, 아직 saturation 징후는 보이지 않는다. HellaSwag ((\rho = 0.89))는 emergence pattern을 보이는데, NLL 4.0~3.6 구간에서는 거의 개선이 없지만, NLL이 3.6에서 3.4로 감소할 때 정확도가 25%에서 32%로 급격히 상승한다.

하고자 하는 말은, ASR / TTS 데이터의 validation NLL이 감소하면, 오디오 및 텍스트 성능이 향상된다는 것임
근데 여기서 오디오 및 텍스트 성능의 벤치마크가 sBLIMP, tBLIMP 이런것인데 이게 전형적인 지표인지도 의문이고, 이것도 NLL로 선택하는거라 correlation이 높은건 당연함
오디오 성능은 WER을 봐서 그렇다 쳐도
텍스트 성능은 보통 MMLU 성능 이런걸 봐야하는거 아닌가 싶음 (이 논문의 한계)

Choice of NLL Metric:
우리의 interleaved format에서는 validation NLL을 계산하는 여러 방법이 가능하다(예: audio-first data의 모든 token, audio-only token, text-only token 등). 서로 다른 variant들은 유사한 correlation을 보였지만, 우리는 audio+text data의 모든 token에 대한 NLL을 주요 metric으로 선택한다. 이는 가장 단순한 방식(모든 token에 대한 standard NLL)이며, speech 및 text task 모두에 대해 가장 균형 잡힌 correlation을 제공하기 때문이다(Appendix E의 Table 6 참조).

Extrapolation to Larger Scale:
우리는 final SODA run(Figure 3의 colored point)을 포함하여 이러한 NLL–performance trend가 IsoFLOP regime을 넘어 larger scale에서도 유지되는지 검증한다. 이 모델들은 더 높은 compute budget으로 학습되었으며(§6), 대체로 extrapolated regression line을 따른다. 이는 larger scale에서도 NLL이 신뢰할 수 있는 proxy임을 확인해준다. Task별 extrapolation pattern은 §6에서 자세히 논의한다.

5.2. What Is Compute-Optimal for Discrete Audio?

Question:
Validation loss가 신뢰할 수 있는 metric임을 확인했으므로, 이제 loss를 최소화하기 위해 compute를 model size (N)과 training data (D) 사이에 어떻게 배분해야 하는가?

Setup:
Figure 4a는 각 compute budget에 대해 validation loss와 model size (N)의 관계를 보여준다.

우리는 Chinchilla의 방법론(Hoffmann et al., 2022)을 따라, 관측된 점들에 대해 다음과 같은 quadratic function을 fitting한다:

L = a(\log N)^2 + b(\log N) + c

그리고 이 곡선의 최소점에서 compute-optimal model size (N^)를 찾는다. 마찬가지로 Figure 4b는 validation loss와 training token 수 (D)의 관계를 보여주며, compute-optimal token count (D^)도 동일한 방식으로 결정된다.

Findings.
각각의 7개 compute budget에서 compute-optimal ((N^, D^))를 찾은 뒤, 우리는 다음과 같은 power-law를 fitting한다:

N^* = a_N C^{b_N}

D^* = a_D C^{b_D}

이를 통해 discrete audio에 대한 scaling law를 도출하였으며(Figure 4c), 결과는 다음과 같다:

이 exponent들은 Chinchilla의 scaling law ((N^, D^ \propto C^{0.5}))와 다르며, data가 model size보다 더 빠르게 scaling됨을 의미한다. 그러나 최근 text LLM 연구에서도 유사한 경향이 보고되었다. Llama3 (Grattafiori et al., 2024)는 data scaling exponent로 0.53을 보고하였고, DeepSeek (Bi et al., 2024)는 data quality에 따라 0.42~0.55 범위의 exponent를 발견하였다. DeepSeek 연구는 더 높은 data exponent를 training data의 낮은 information density를 나타내는 신호로 해석한다. 우리의 exponent ((D^* \propto C^{0.579})) 역시 이러한 해석과 일치하며, 초당 100 token을 사용하는 discrete audio token이 text보다 token당 더 적은 정보를 담고 있어, 동일한 수준의 학습을 위해 더 많은 data가 필요함을 시사한다.

또한 우리는 IsoFLOP curve가 더 큰 scale에서 평평해지는(flatten) 경향이 있음을 주목한다(Grattafiori et al., 2024). 따라서 우리의 비교적 작은 scale regime(≤ 3 × 10^20 FLOPs)이 더 높은 exponent에 영향을 주었을 가능성도 있다. 우리가 아는 한, 이는 discrete audio model에 대한 최초의 scaling analysis이며, tokenizer 설계 및 token rate에 따라 exponent가 어떻게 달라지는지에 대한 향후 연구의 기반을 제공한다.³

Optimal Token-to-Parameter Ratio.
이러한 비대칭성은 optimal token-to-parameter ratio ((D^/N^))가 상수가 아니라 scale과 함께 증가함을 의미한다. 우리의 projection에 따르면:

10^20 FLOPs에서는 parameter당 약 13 token,
10^23 FLOPs에서는 parameter당 약 58 token

이 optimal하다.

Chinchilla 연구는 parameter당 20 token이라는 상수 비율을 제안했지만, 후속 replication 연구(Besiroglu et al., 2024)는 이 추정이 부정확하며 실제로는 text model에서 compute가 증가할수록 ratio가 감소한다고 보고하였다. 이에 비해, discrete audio에서 ratio가 증가한다는 우리의 결과는 qualitatively 다른 scaling behavior를 나타낸다.

섹션 5.2에서는 discrete audio language model에서 주어진 연산량(compute)을 모델 크기와 데이터 크기 사이에 어떻게 배분하는 것이 가장 효율적인지를 분석한다. 일반적으로 학습 연산량은 모델 크기 (N)과 데이터 크기 (D)의 곱으로 생각할 수 있기 때문에, 같은 compute budget 안에서는 “큰 모델 + 적은 데이터”와 “작은 모델 + 많은 데이터” 사이의 trade-off가 존재한다. 기존 Chinchilla 연구에서는 텍스트 LLM의 경우 모델 크기와 데이터 크기를 비슷한 비율로 함께 증가시키는 것이 compute-optimal하다고 알려져 있었다.

그러나 본 논문은 discrete audio token의 특성이 text token과 다르기 때문에 scaling behavior 역시 달라질 수 있다고 본다. 논문에서 사용하는 audio representation은 초당 약 100개의 token을 생성하는 반면, 일반적인 text는 초당 약 4 token 수준이다. 즉 오디오는 훨씬 많은 token으로 표현되지만, token 하나가 담고 있는 정보량은 상대적으로 작다. 저자들은 이를 “낮은 information density”라고 해석한다.

이를 검증하기 위해 저자들은 64개의 모델을 다양한 compute budget에서 학습시키는 IsoFLOP 실험을 수행하였다. 같은 FLOPs 안에서 모델 크기와 데이터 크기를 다르게 조합해가며 validation NLL이 가장 낮아지는 지점을 찾았고, 그 결과 discrete audio model에서는 데이터 크기를 모델 크기보다 더 빠르게 증가시키는 것이 효율적이라는 결론을 얻었다. 실제 scaling law 결과는 다음과 같다:

N^* \propto C^{0.367}

D^* \propto C^{0.579}

이는 compute가 증가할수록 모델 크기보다 데이터 양을 더 적극적으로 늘려야 함을 의미한다. 즉 텍스트 LLM에서는 “모델과 데이터를 함께 키우는 것”이 중요했다면, discrete audio LM에서는 “모델을 크게 만드는 것보다 훨씬 많은 데이터를 학습시키는 것”이 더 중요하다는 의미에 가깝다.

또한 이 결과는 optimal token-to-parameter ratio가 scale에 따라 증가한다는 점도 보여준다. 기존 Chinchilla에서는 parameter당 약 20개의 token이 적절하다고 알려져 있었지만, 이 논문에서는 audio LM의 경우 scale이 커질수록 parameter당 더 많은 token이 필요하다고 분석한다. 저자들은 이를 통해 discrete audio model이 text LLM보다 훨씬 더 data-hungry한 특성을 가진다고 해석한다.

C ≈ 6ND 라는 식이 있는데,

N∗: 특정 compute budget에서의 최적 모델 크기(parameter 수)**
D∗: 특정 compute budget에서의 최적 데이터 양(token 수)**
C: 총 학습 compute(FLOPs)
친칠라에서는 D=20N 공식이 있었는데, 여기서는 비례관계가 아니라, 모델 키우면 데이터는 훨씬더 많이 늘려야한다 라는 것

6. 스케일 업은 효과가 있는가?

이 섹션에서는 다음 질문들을 다룬다: 스케일 업이 경쟁력 있는 성능으로 이어지는가? 텍스트 LLM으로부터 학습을 시작해야 하는가, 아니면 처음부터 학습해야 하는가?

내가 하고자 하는 관찰이군

§4의 레시피와 §5의 스케일링 분석에 기반하여, 우리는 135M에서 4B 파라미터 규모까지의 SODA(Scaling Open Discrete Audio)를 학습시키고, 이를 우리의 스케일링 예측 및 기존 음성 언어 모델들과 비교 평가한다.

6.1. 설정과 과학습(Over-Training)

학습 데이터:

§4의 레시피를 따라, 우리는 95%의 음성 코퍼스(Yodas + Emilia)와 5%의 Nemotron 텍스트 코퍼스(§3)를 사용하여 학습한다. 이는 약 125B + 125B = 250B 토큰의 인터리브된 음성 데이터(audio-first 및 text-first 포맷)를 생성하며, 총 500B 토큰(약 4 epoch)에 해당한다. 이전 연구는 데이터 반복 사용이 LLM 사전학습에서 최대 4 epoch까지 여전히 효과적임을 보여주었다(Muennighoff et al., 2023).

이런 연구도 있었군?

모델 크기와 과학습:

우리는 135M, 600M, 1.7B, 4B 파라미터 규모의 모델들을 모두 500B 토큰으로 학습시킨다. 우리의 스케일링 법칙은 compute-optimal 토큰 수를 정의하지만, 실제 추론 사용에서는 특히 우리의 100 tokens/sec 속도가 대형 모델의 속도를 느리게 만들 수 있기 때문에, (D^*)를 초과하여 학습된 모델이 더 유리하다.

이는 서로 다른 과학습(over-training) 비율을 초래한다:

135M: 약 (940\times D^*)
600M: 약 (90\times) (Llama3와 유사)
1.7B: 약 (18\times) (Llama2와 유사)
4B: 약 (4.5\times) (compute-optimal에 근접)

4B 모델을 500B 토큰으로 학습시키는 것은 (1.3 \times 10^{22}) FLOPs(약 v5p-256 TPU에서 1주일)에 도달한다. 자세한 over-training 분석은 Appendix F를 참조하라.

6.2. SODA의 성능은 얼마나 좋은가?

6.2.1. 우리의 설계 선택은 도움이 되는가?

SODA-600M-base와 SODA-600M-prelim(둘 다 600M 파라미터이며 500B 토큰으로 학습됨)을 비교함으로써, §4에서의 우리의 설계 선택들—영어 전용 데이터로의 전환과 데이터 혼합을 포함하여—이 측정 가능한 개선을 가져왔음을 검증한다.

Table 2는 SODA-600M-base가 모든 지표에서 개선되었음을 보여준다.

pretrained model 성능

특히 ASR-WER은 22.0%에서 10.2%로 감소했고, TTS-WER은 9.2%에서 7.6%로 감소했으며, TTS-SIM은 0.516에서 0.555로 증가했다. 의미 이해(sWUGGY: 57.8% → 58.9%)와 텍스트 지식(tWUGGY: 71.3% → 73.1%) 역시 향상되었다. 이러한 전반적인 성능 향상은 §4에서 정립한 개선된 레시피를 반영한다.

6.2.2. 스케일이 커질수록 성능은 향상되는가?

우리는 다운스트림 태스크 성능이 스케일에 따라 어떻게 향상되는지를 분석하며, §5.1의 NLL 상관관계 분석을 최종 SODA 실험(Table 2 및 Figure 3)과 연결한다.

과학습(over-training) 상황에서의 validation loss 예측은 Appendix F를 참조하라.

교차 모달 태스크(ASR, TTS)는 Figure 3에서 강한 NLL 상관관계((\rho > 0.95))와 함께 초기 포화 징후를 보였다. 최종 실험 결과는 이를 확인한다. ASR-WER은 135M 모델에서 28.1%였던 것이 4B 모델에서는 5.0%까지 극적으로 감소했지만, 모든 최종 실험 포인트들은 회귀선(regression line) 위에 위치하여, 스케일 증가에 따라 수익 체감(diminishing returns)이 나타남을 보여준다. TTS 평가 역시 유사한 패턴을 따른다.

음향 이해(acoustic understanding, Salmon)는 최고 compute budget에서 이미 포화 양상을 보였으며, 모든 모델 크기에서 약 70% 수준에 머문다(135M에서 70.0%, 4B에서 70.4%). 최종 실험 결과들은 Figure 3의 회귀선 아래에 위치하며, 이는 포화를 확인해준다. 즉, 음향 능력은 모델 용량보다는 토크나이저 및/또는 데이터 품질에 의해 제한되는 것으로 보인다.

의미 이해(semantic understanding)는 emergent 특성을 보인다. Figure 3의 IsoFLOP 모델들에서는 sWUGGY와 sBLIMP의 향상이 느리게 나타났지만, 최종 SODA 실험들은 회귀선 위에 위치한다. sWUGGY는 135M에서 56.3%였던 것이 4B에서 61.8%로 향상되었고, sBLIMP는 50.1%에서 52.4%로 향상되었다. 이는 더 큰 스케일에서 emergent behavior와 가속된 성능 향상이 나타남을 시사한다.

텍스트 지식(text knowledge)은 가장 강한 emergence를 보인다. Figure 3의 분석은 이미 NLL < 3.6 구간에서 급격한 향상이 나타나는 emergence 패턴을 암시했으며, 최종 실험은 이를 확인한다. 정확도는 135M에서 28.7%였던 것이 4B에서는 52.6%까지 증가했으며, 최종 실험 포인트들은 회귀선보다 훨씬 위에 위치한다.

6.2.3. SODA는 다른 모델들과 비교했을 때 어떠한가?

SpiritLM은 semantic-only 토큰(HuBERT)을 사용하며, 강한 의미 이해 성능(sBLIMP: 58.3%, sWUGGY: 69.0%)을 달성하지만 더 약한 음향 모델링 성능(Salmon: 57.2–67.1%)을 보인다. 우리의 인터리브 방식에서는 SODA의 의미 점수가 더 낮지만, Table 1(§4.3)에서 보여주었듯이, (3 \times 10^{20}) FLOPs 규모의 semantic-only SODA 변형은 sBLIMP 58.6%, sWUGGY 72.1%를 달성하여 SpiritLM 두 변형 모두를 능가한다. 이는 semantic-acoustic trade-off가 근본적인 한계가 아니라 설계 선택임을 보여준다. 그러나 semantic-only 모델들—SpiritLM이든 우리의 semantic-only 변형이든—은 실제 활용 측면에서 한계를 가진다. 이들은 주로 “무엇을 말하는가”만 모델링할 뿐 “어떻게 말하는가”는 모델링하지 못하며, 일반적인 오디오 능력에 필요한 음향적 세부 정보를 결여하고 있다. 이는 Table 2에서 극도로 낮은 TTS-SIM 점수로 드러난다.

Llama-Mimi는 audio-only 시퀀스를 모델링함으로써 가장 높은 음향 점수(Salmon: 73.6%)를 달성한다. SODA의 음향 점수는 더 낮지만, 우리의 ablation(Table 1)은 인터리브된 텍스트 토큰을 추가해도 이 능력이 저하되지 않음을 보여준다(Salmon: 70.1% → 70.4%). 이는 성능 차이가 모델 설계보다는 학습 데이터 차이에서 기인함을 시사한다. 그럼에도 불구하고 Llama-Mimi는 ASR이나 TTS를 수행할 수 없기 때문에 cross-modal capability가 전혀 없다. 우리의 utterance-level interleaving은 SODA를 보다 범용적인 foundation model로 만들며, 하나의 통합 모델 안에서 오디오 이해와 speech↔text 태스크를 모두 수행할 수 있게 한다.

6.3. 처음부터 학습해야 하는가, 아니면 Warm-Start 해야 하는가?

질문:

많은 discrete audio 모델들(예: TWIST, CSM)은 사전학습된 텍스트 LLM으로부터 초기화된다. 이러한 warm-start 전략이 처음부터 학습하는(cold-start) 것보다 이점을 제공하는가?

설정:

우리는 600M 및 1.7B 규모에서 warm-start(Qwen3-0.6B/1.7B-base로부터 초기화)와 cold-start를 비교하며, 500B 토큰으로 학습한다. 우리는 최종 평가 결과뿐 아니라 학습 과정 전체의 trajectory도 제공하며, warm-start와 cold-start를 Appendix G의 Table 8 및 Figure 11에서 비교한다.

학습 안정성에 대한 참고:

Warm-Start는 불안정성을 보이며, 예측 불가능한 loss spike가 발생한다(600M 모델에서는 135K step 부근에서 큰 spike가 발생하며 ASR 성능이 21%에서 34%로 악화됨; Figure 10 참조).

반면 Cold-Start는 학습 전반에 걸쳐 부드러운 성능 향상을 보인다.

내가 발견한 것과 똑같구만!?

Cross-Modal Skills:

Cold-Start는 가장 초기 checkpoint부터 ASR에서 Warm-Start를 능가하며, 이 우위를 끝까지 유지한다. 1.7B 모델의 경우, Cold-Start는 10K step 시점에서 19.7% WER을 달성하는 반면 Warm-Start는 29.2%이며, 학습 종료 시점에는 그 차이가 7.0% 대 17.3%로 더 벌어진다. 이는 warm-start가 audio→text mapping 학습을 방해할 수 있음을 시사한다. TTS의 경우에는 초기에는 Cold-Start가 더 좋지만 Warm-Start가 이후 따라잡으며, 최종적으로 두 방법 모두 유사한 품질(약 6.5–7.5% WER, 약 0.56 SIM)에 도달한다.

Speech Understanding:

Salmon(약 70%)과 sWUGGY(약 60%)는 두 초기화 방식 모두에서 유사한 학습 trajectory를 보이며, 이러한 오디오 능력은 초기화 방식과 무관하게 학습됨을 시사한다.

Text Knowledge:

Warm-Start는 시작 시점부터 상당한 이점을 가진다(10K step 기준: tWUGGY 75.4% 대 69.6%, HellaSwag 40.5% 대 29.9%). 중요한 점은, Cold-Start가 500B 토큰을 학습한 이후에도 이를 따라잡지 못한다는 것이다(최종 tWUGGY: 74.7% 대 79.2%, HellaSwag: 44.5% 대 47.1%). 이는 LLM 사전학습에서 얻어진 텍스트 지식이 오디오 중심 학습만으로는 완전히 회복되지 않음을 의미한다.

권고 사항:

학습 불안정성과 ASR 성능 저하를 고려할 때, 우리는 일반적인 오디오 능력을 위한 기본 레시피로 Cold-Start를 권장한다. 그러나 복잡한 추론이나 지식이 필요한 능력의 경우에는 Warm-Start의 텍스트 지식 이점이 더 중요할 수 있다. 미래 연구에서는 cold-start pretraining 이후 text-enriched fine-tuning을 수행하는 hybrid 접근 또한 고려할 수 있다.

6.4. 새로운 Audio-to-Audio 태스크를 SODA 파인튜닝을 통해 Next-Token Prediction으로 정식화할 수 있는가?

질문:

SODA가 새로운 오디오 태스크를 위한 유연한 backbone 역할을 할 수 있는가? 이를 검증하기 위해 우리는 voice-preserving speech-to-speech translation(S2ST)을 파인튜닝한다. 이는 번역된 음성이 원래 화자의 목소리를 유지해야 하는 audio→audio 태스크이다.

기존 연구들은 특수한 구조를 사용한다. 예를 들어, Translatotron2(Jia et al., 2022a)는 speech encoder, phoneme decoder, spectrogram synthesizer, 그리고 공유 speaker embedding을 필요로 한다. 반면 SODA는 이러한 요소들을 전혀 필요로 하지 않는다. 우리는 단지 S2ST를 인터리브된 next-token prediction 형식(source audio → source text → target text → target audio)으로 구성하며, 다른 모든 태스크와 동일한 decoder-only transformer를 사용한다.

설정:

우리는 CVSS-T(Jia et al., 2022b)로 파인튜닝한다. 이는 다국어 voice-preserving S2ST 코퍼스(21개 언어 → 영어)이며, target speech는 source speaker의 목소리를 유지하도록 합성된다. 우리는 600M 모델들을 비교한다:

SODA: SODA-600M(영어 전용 사전학습)으로부터 초기화
SODA-P: SODA-prelim(다국어 사전학습, §3 참조)으로부터 초기화
Qwen3: Qwen3-0.6B로부터 초기화
Scratch: 랜덤 초기화

우리는 각 언어에서 200개의 hold-out example을 사용하여 평가하며, 번역 품질을 위한 ASR-BLEU와 음성 보존을 위한 speaker similarity(SIM)를 측정한다. 자세한 내용은 Appendix H를 참조하라.

SODA가 처음부터 영어 데이터로만 text, audio 학습
SODA-P는 처음부터 멀티링구얼로 text, audio 학습
그리고 이 백본뒤에 multilingual finetuning을 해서 평가한것
즉 pretrained model을 평가한게 아니라, SFT 하고 평가한것임

SODA-Prelim은 전체적인 레시피와 영어 성능은 더 약했음에도 불구하고, multilingual Yodas(en, es, fr, de, th, ar, hi, zh)로 사전학습되었다.

결과:

Table 3은 오디오 사전학습이 핵심적임을 보여준다. SODA는 Scratch 대비 BLEU에서 3–4배 더 높은 성능을 보이며, 음성 보존 성능도 크게 향상된다(SIM: 0.466 대 0.349). 텍스트 전용 사전학습(Qwen3)은 BLEU 측면에서 Scratch 대비 거의 향상을 제공하지 못하며, 이는 단순한 모델 규모가 아니라 오디오 사전학습 자체가 성능 향상의 원인임을 확인해준다.

흥미롭게도 SODA-P는 영어 benchmark에서는 더 약한 backbone임에도 불구하고(Table 2), SODA보다 더 좋은 성능을 보인다. 이는 multilingual 사전학습이 source language에 대한 ASR 능력을 이미 학습했기 때문이며, SODA는 그러한 능력이 부족하다.

이는 약간 분석이 필요할거 같긴한데?

이는 관련 학습 데이터를 포함시키면 task-specific skill이 향상될 수 있음을 보여준다. 참고로, 기존 연구들은 SIM 약 0.30–0.41(Labiausse et al., 2025), 그리고 관련 benchmark에서 es/fr/de에 대해 ASR-BLEU 약 30%(Zheng et al., 2025)를 보고했지만, 평가 프로토콜 차이로 인해 직접 비교는 어렵다.

핵심 요약:

ASR/TTS 및 audio continuation에 사용된 동일한 decoder-only transformer와 NTP objective가 voice-preserving S2ST도 직접 지원할 수 있으며, 이는 SODA가 유연한 backbone임을 검증한다. 또한 개별적인 skill은 아키텍처 변경 없이 task-specific 데이터를 추가함으로써 강화될 수 있다.

7. 결론

합리적인 수준의 데이터와 연산 자원이 주어진다면, 본 연구는 다음 질문에 답한다: 광범위한 능력을 달성하기 위해 discrete audio 모델을 next-token prediction(NTP) 방식으로 어떻게 학습시킬 것인가? 우리는 여섯 가지 핵심 결과를 제시한다:

text-only 데이터를 추가하면 오디오 성능 저하 없이 텍스트 지식이 향상된다.
acoustic token을 추가하면 고충실도(high-fidelity) 생성이 가능해지지만 semantic understanding은 감소한다. 향후 연구는 이러한 trade-off를 어떻게 균형 있게 조절할지 탐구해야 한다.
optimal data 규모는 모델 크기보다 1.6배 더 빠르게 증가하며, 이는 LLM 연구에서 논의된 낮은 정보 밀도(lower information density)와 일치한다.
NLL은 더 큰 스케일에서도 downstream performance를 신뢰성 있게 예측한다.
오디오 태스크에서는 warm-start보다 cold-start가 더 우수하다.
능력들은 서로 다르게 스케일링된다. cross-modal 및 acoustic skill은 포화되는 반면, semantic understanding과 text knowledge는 가속적인 성능 향상을 보인다.

Reference

https://arxiv.org/pdf/2602.16687

Audio-016, NL-340, Scaling Open Discrete Audio Foundation Models with Interleaved Semantic, Acoustic, and Text Tokens, Preprint 2026