Audio-018, Llama-Mimi: Exploring the Limits of Flattened Speech Language Modeling, Preprint 2025

1. 텍스트와 오디오가 동시에 되는 모델을 학습한 게 맞나?

부분적으로만 맞다.
이 논문은 speech language model(SpeechLM) 을 다루지만, 실제로는 오디오 토큰만 직접 모델링한다. 텍스트 토큰과 오디오 토큰을 함께 넣는 멀티모달 LM은 아니다.

논문에서 모델 입력은 다음 순서의 audio discrete token sequence이다.

  • Mimi codec이 만든 semantic token

  • Mimi codec이 만든 acoustic token

  • 이를 flatten해서 하나의 시퀀스로 Transformer decoder에 입력

즉:

  • 입력: 오디오 → discrete audio tokens

  • 출력: 다음 audio token prediction → 최종적으로 오디오 waveform 복원

이다.

다만 backbone 자체는 pretrained Llama 3를 사용한다. 따라서:

  • backbone은 원래 텍스트 LM

  • 하지만 본 논문 학습에서는 audio token vocabulary를 추가해 speech generation에 사용

한 구조다.

지원하는 입출력은:

타입지원 여부
Audio inputO
Audio outputO
Text input논문에서 직접 지원한다고 설명 안 함
Text output논문에서 직접 지원한다고 설명 안 함

논문은 speech continuation task 중심이다.
즉 “오디오 prompt → 이어지는 오디오 생성”을 다룬다.


2. 학습할 때 텍스트와 오디오 모두 discrete token으로 변환해서 next token prediction 했나?

아니다.
논문 기준으로는 오디오만 discrete token으로 변환해서 next-token prediction을 수행한다.

논문 핵심은:

  1. Mimi codec이 waveform을 RVQ discrete token으로 변환

  2. 이를 flatten

  3. autoregressive next-token prediction 수행

이다.

모델 objective는 표준 causal LM objective다.
즉:

[
p(y_t \mid y_{<t})
]

형태의 next token prediction이다.

어떤 토크나이저를 썼나?

텍스트 tokenizer는 사실상 안 쓰였다.
오디오 tokenizer로는:

  • Mimi neural audio codec

  • RVQ(Residual Vector Quantization) 기반

  • codebook size 2048

  • 최대 32 quantizer 지원

을 사용했다.

특징:

  • 첫 번째 quantizer → semantic token

  • 나머지 quantizer → acoustic token

이다.

논문 실험에서는:

  • Q=4 quantizer 사용

  • 결과적으로 50 tokens/sec 생성

했다.


3. 모델 학습 순서

전체 흐름

학습 순서는 대략:

  1. pretrained text LLM(Llama 3) 준비

  2. Mimi tokenizer로 오디오를 discrete token화

  3. Llama vocabulary 확장(audio token 추가)

  4. audio token sequence로 autoregressive training

  5. speech continuation 평가

이다.


텍스트 백본에서 텍스트&오디오 데이터를 학습했는가?

아니다.

정확히는:

  • backbone은 pretrained text LM

  • 이후 논문 학습은 audio token 데이터로 진행

이다.

논문에:

  • “backbone Transformers are initialized from pretrained checkpoints”

  • “parameters of Mimi are kept frozen”

라고 명시돼 있다.

즉:

  • 텍스트 pretraining은 기존 Llama가 이미 수행

  • 본 논문에서는 speech token 학습만 추가 수행

했다.


처음부터 텍스트&오디오 데이터를 함께 학습했는가?

아니다.

처음부터 multimodal co-training한 것이 아니라:

  • 이미 학습된 text LM(Llama)

    • audio token vocabulary 확장

    • speech token continual training

구조다.


각 학습 단계에서 텍스트와 오디오 데이터 비율 및 양

텍스트 데이터 비율은 논문에 없다.

오디오 데이터는:

  • Libri-Light

  • The People’s Speech

  • VoxPopuli

  • Emilia

영어 subset 사용.

총량:

  • 약 240k hours audio

이다.

텍스트 데이터 양:

  • 없음

  • 논문에서 추가 텍스트 학습 언급 없음


post-training 하는가?

명시적인 RLHF/post-training 단계는 없다.

논문에서 언급된 것은:

  • standard LM training

  • ablation

  • evaluation

뿐이다.

instruction tuning이나 preference optimization 같은 내용은 없다.


4. 오디오 데이터는 어떤 형태인가?

plain audio인가?

거의 그렇다.

논문은 speech corpora의 waveform을 Mimi로 tokenization해서 사용한다.

즉 기본 데이터 형태는:

  • raw speech waveform

이다.


ASR처럼 text-audio pair인가?

논문에서는 그렇게 사용했다고 설명하지 않는다.

중요한 점:

  • linguistic evaluation은 존재

  • semantic token은 존재

  • 하지만 supervised transcript conditioning은 설명 없음

이다.

즉:

  • ASR pair supervised training보다는

  • self-supervised speech token modeling에 가깝다.

또한 evaluation에서 Whisper로 transcription을 사용하는 부분은 있지만, 이는 평가용이다.


5. 모델 평가를 어떻게 하는가?

각 학습 스테이지마다 평가하나?

논문에는 그런 설명 없다.

최종 학습된 모델 기준 평가만 제시한다:

  • Llama-Mimi-1.3B

  • CSM-1.3B

  • Llama-Mimi-8B

등.

stage-wise evaluation은 없다.


텍스트와 오디오 벤치마크 모두 평가하나?

그렇다.

오디오/음향 평가

SALMon benchmark:

  • acoustic consistency

  • acoustic-semantic alignment

사용.

추가로:

  • speaker similarity

  • Audiobox-Aesthetics

평가도 수행.


언어 평가

  • sWUGGY

  • sBLIMP

  • T-StoryCloze

사용.

흥미로운 점:

  • linguistic evaluation 시 perplexity는 semantic token에 대해서만 계산

한다고 명시돼 있다.


Generation 평가

speech continuation 생성 후:

  • speaker consistency

  • spoken content quality

평가.

spoken content quality는:

  • Whisper Turbo로 transcription

  • GPT-4o judge

를 사용했다.


6. 논문의 동기 및 기여점

동기

기존 SpeechLM은 RVQ token 구조 때문에 보통 hierarchical architecture를 사용했다.

예:

  • temporal transformer

  • depth transformer

를 분리.

하지만 논문은:

NLP는 점점 single decoder transformer로 단순화되는데,
speech에서도 hierarchical 구조 없이 가능한가?

라는 문제를 제기한다.

즉 핵심 동기는:

  • SpeechLM의 구조적 inductive bias 제거

  • single-transformer speech modeling 가능성 검증

이다.


핵심 기여점

논문 기여는 크게 4개다.

  1. RVQ multi-level token을 flatten해서 단일 sequence로 modeling

    • hierarchical transformer 제거

    • single decoder-only Transformer 사용

  2. Mimi + Llama 기반 flattened SpeechLM 제안

    • Llama-Mimi architecture

  3. 동일 조건에서 hierarchical model(CSM)과 controlled comparison 수행

    • flattening이 실제로 더 좋은지 실험

  4. trade-off 분석

    • acoustic fidelity ↑

    • linguistic efficiency ↓

를 체계적으로 보여줌.

특히 논문 핵심 결론은:

  • flattened architecture는 acoustic quality에는 강함

  • 하지만 sequence length 증가 때문에 linguistic modeling은 약해질 수 있음

이다.

Reference

댓글