Audio-018, Llama-Mimi: Exploring the Limits of Flattened Speech Language Modeling, Preprint 2025
1. 텍스트와 오디오가 동시에 되는 모델을 학습한 게 맞나?
부분적으로만 맞다.
이 논문은 speech language model(SpeechLM) 을 다루지만, 실제로는 오디오 토큰만 직접 모델링한다. 텍스트 토큰과 오디오 토큰을 함께 넣는 멀티모달 LM은 아니다.
논문에서 모델 입력은 다음 순서의 audio discrete token sequence이다.
Mimi codec이 만든 semantic token
Mimi codec이 만든 acoustic token
이를 flatten해서 하나의 시퀀스로 Transformer decoder에 입력
즉:
입력: 오디오 → discrete audio tokens
출력: 다음 audio token prediction → 최종적으로 오디오 waveform 복원
이다.
다만 backbone 자체는 pretrained Llama 3를 사용한다. 따라서:
backbone은 원래 텍스트 LM
하지만 본 논문 학습에서는 audio token vocabulary를 추가해 speech generation에 사용
한 구조다.
지원하는 입출력은:
| 타입 | 지원 여부 |
|---|---|
| Audio input | O |
| Audio output | O |
| Text input | 논문에서 직접 지원한다고 설명 안 함 |
| Text output | 논문에서 직접 지원한다고 설명 안 함 |
논문은 speech continuation task 중심이다.
즉 “오디오 prompt → 이어지는 오디오 생성”을 다룬다.
2. 학습할 때 텍스트와 오디오 모두 discrete token으로 변환해서 next token prediction 했나?
아니다.
논문 기준으로는 오디오만 discrete token으로 변환해서 next-token prediction을 수행한다.
논문 핵심은:
Mimi codec이 waveform을 RVQ discrete token으로 변환
이를 flatten
autoregressive next-token prediction 수행
이다.
모델 objective는 표준 causal LM objective다.
즉:
[
p(y_t \mid y_{<t})
]
형태의 next token prediction이다.
어떤 토크나이저를 썼나?
텍스트 tokenizer는 사실상 안 쓰였다.
오디오 tokenizer로는:
Mimi neural audio codec
RVQ(Residual Vector Quantization) 기반
codebook size 2048
최대 32 quantizer 지원
을 사용했다.
특징:
첫 번째 quantizer → semantic token
나머지 quantizer → acoustic token
이다.
논문 실험에서는:
Q=4 quantizer 사용
결과적으로 50 tokens/sec 생성
했다.
3. 모델 학습 순서
전체 흐름
학습 순서는 대략:
pretrained text LLM(Llama 3) 준비
Mimi tokenizer로 오디오를 discrete token화
Llama vocabulary 확장(audio token 추가)
audio token sequence로 autoregressive training
speech continuation 평가
이다.
텍스트 백본에서 텍스트&오디오 데이터를 학습했는가?
아니다.
정확히는:
backbone은 pretrained text LM
이후 논문 학습은 audio token 데이터로 진행
이다.
논문에:
“backbone Transformers are initialized from pretrained checkpoints”
“parameters of Mimi are kept frozen”
라고 명시돼 있다.
즉:
텍스트 pretraining은 기존 Llama가 이미 수행
본 논문에서는 speech token 학습만 추가 수행
했다.
처음부터 텍스트&오디오 데이터를 함께 학습했는가?
아니다.
처음부터 multimodal co-training한 것이 아니라:
이미 학습된 text LM(Llama)
audio token vocabulary 확장
speech token continual training
구조다.
각 학습 단계에서 텍스트와 오디오 데이터 비율 및 양
텍스트 데이터 비율은 논문에 없다.
오디오 데이터는:
Libri-Light
The People’s Speech
VoxPopuli
Emilia
영어 subset 사용.
총량:
약 240k hours audio
이다.
텍스트 데이터 양:
없음
논문에서 추가 텍스트 학습 언급 없음
post-training 하는가?
명시적인 RLHF/post-training 단계는 없다.
논문에서 언급된 것은:
standard LM training
ablation
evaluation
뿐이다.
instruction tuning이나 preference optimization 같은 내용은 없다.
4. 오디오 데이터는 어떤 형태인가?
plain audio인가?
거의 그렇다.
논문은 speech corpora의 waveform을 Mimi로 tokenization해서 사용한다.
즉 기본 데이터 형태는:
raw speech waveform
이다.
ASR처럼 text-audio pair인가?
논문에서는 그렇게 사용했다고 설명하지 않는다.
중요한 점:
linguistic evaluation은 존재
semantic token은 존재
하지만 supervised transcript conditioning은 설명 없음
이다.
즉:
ASR pair supervised training보다는
self-supervised speech token modeling에 가깝다.
또한 evaluation에서 Whisper로 transcription을 사용하는 부분은 있지만, 이는 평가용이다.
5. 모델 평가를 어떻게 하는가?
각 학습 스테이지마다 평가하나?
논문에는 그런 설명 없다.
최종 학습된 모델 기준 평가만 제시한다:
Llama-Mimi-1.3B
CSM-1.3B
Llama-Mimi-8B
등.
stage-wise evaluation은 없다.
텍스트와 오디오 벤치마크 모두 평가하나?
그렇다.
오디오/음향 평가
SALMon benchmark:
acoustic consistency
acoustic-semantic alignment
사용.
추가로:
speaker similarity
Audiobox-Aesthetics
평가도 수행.
언어 평가
sWUGGY
sBLIMP
T-StoryCloze
사용.
흥미로운 점:
linguistic evaluation 시 perplexity는 semantic token에 대해서만 계산
한다고 명시돼 있다.
Generation 평가
speech continuation 생성 후:
speaker consistency
spoken content quality
평가.
spoken content quality는:
Whisper Turbo로 transcription
GPT-4o judge
를 사용했다.
6. 논문의 동기 및 기여점
동기
기존 SpeechLM은 RVQ token 구조 때문에 보통 hierarchical architecture를 사용했다.
예:
temporal transformer
depth transformer
를 분리.
하지만 논문은:
NLP는 점점 single decoder transformer로 단순화되는데,
speech에서도 hierarchical 구조 없이 가능한가?
라는 문제를 제기한다.
즉 핵심 동기는:
SpeechLM의 구조적 inductive bias 제거
single-transformer speech modeling 가능성 검증
이다.
핵심 기여점
논문 기여는 크게 4개다.
RVQ multi-level token을 flatten해서 단일 sequence로 modeling
hierarchical transformer 제거
single decoder-only Transformer 사용
Mimi + Llama 기반 flattened SpeechLM 제안
Llama-Mimi architecture
동일 조건에서 hierarchical model(CSM)과 controlled comparison 수행
flattening이 실제로 더 좋은지 실험
trade-off 분석
acoustic fidelity ↑
linguistic efficiency ↓
를 체계적으로 보여줌.
특히 논문 핵심 결론은:
flattened architecture는 acoustic quality에는 강함
하지만 sequence length 증가 때문에 linguistic modeling은 약해질 수 있음
이다.
Reference

댓글
댓글 쓰기