Audio-015, Step-Audio 2 Technical Report, Preprint 2025
텍스트와 오디오가 동시에 되는 모델을 학습한게 맞지?
모델이 지원하는 입력과 출력은 무엇인지
맞다. Step-Audio 2는 “end-to-end multi-modal large language model”로 설계되었고, 입력으로 raw audio를 직접 받고 출력으로 텍스트 토큰과 오디오 토큰을 함께 생성한다.
구체적인 구조는 다음과 같다.
입력:
raw audio
latent audio feature 형태로 encoder+adaptor를 거쳐 LLM decoder에 들어감
출력:
interleaved discrete text/audio token sequence
이후 audio detokenizer가 waveform으로 복원
논문은 다음처럼 설명한다.
audio encoder → adaptor → LLM decoder → audio detokenizer 구조
LLM decoder가 “discrete text and audio tokens”를 함께 생성
output audio token은 detokenizer를 통해 waveform 생성
즉:
input modality: audio
output modality:
text
speech(audio waveform)
또한:
speech-to-text
speech-to-speech
speech translation
audio understanding
paralinguistic understanding
등을 모두 지원한다.
학습할때 텍스트와 오디오 모두 discrete token으로 변환해서 next token prediction한게 맞는지?
어떤 토크나이저를 썼는지
부분적으로 맞다.
텍스트는 일반적인 LLM token sequence이고, 출력 오디오는 discrete audio token으로 변환해서 language modeling에 통합했다.
논문에서 명확히 밝힌 점:
output은 “interleaved sequence of discrete text and audio tokens”
audio tokenizer는 “CosyVoice 2 tokenizer” 사용
즉 오디오 생성 측면에서는:
speech → discrete audio token
text token과 interleave
autoregressive next-token prediction
형태로 학습했다고 볼 수 있다.
다만 중요한 점은:
입력 오디오는 discrete token으로 직접 넣지 않는다.
입력은 pretrained audio encoder의 latent feature이다.
즉 구조적으로는:
입력:
raw audio
→ continuous latent feature
출력:
discrete text token
discrete audio token
이다.
따라서 “텍스트와 오디오를 모두 discrete token으로 바꿔서 unified next-token prediction했다”는 표현은 출력 측면에서는 맞지만, 입력 오디오까지 discrete token 기반이라고 보기는 어렵다.
토크나이저:
audio tokenizer: CosyVoice 2 tokenizer
text tokenizer:
논문에 명시 없음
textual LLM의 tokenizer를 그대로 사용한 것으로 보이나 구체 모델명/토크나이저는 없음
모델 학습 순서를 설명해봐.
텍스트 백본에서 텍스트&오디오 데이터를 학습했는지
처음부터 텍스트&오디오 데이터를 학습했는지
각 학습순서에서 텍스트와 오디오 데이터 비율 및 양은 어떻게 되는지
post-training도 하는지?
전체적으로:
text LLM으로 초기화
adaptor alignment
multimodal continual pretraining
SFT
RL
순서다.
(1) 초기화
“initialized with a textual LLM”
즉:
pure text backbone에서 시작
처음부터 audio-text joint model로 학습한 것은 아니다
(2) Stage 1: adaptor alignment
100B tokens의 ASR 데이터 사용.
이 단계 특징:
audio encoder frozen
LLM frozen
adaptor만 학습
목적:
speech/text feature alignment
즉:
audio latent feature를 text LLM 공간에 맞추는 단계다.
(3) Stage 2: audio token extension
이후:
textual LLM tokenizer에 6.6K audio token 추가
학습 데이터:
128B text
128B audio
audio 구성:
80B TTS
32B speech-to-speech conversation
16B text-speech interleaved continuation
즉 이 단계부터:
text+audio joint autoregressive modeling
(4) Main pretraining
추가로 800B token 학습.
구성:
400B text
audio:
42B ASR
120B TTS
8B speech-to-text translation
30B text-to-speech translation
5B speech-to-text continuation
45B text-speech interleaved continuation
150B speech-to-speech conversation
즉:
상당히 speech conversation 중심으로 scaling
(5) Cooldown / high-quality stage
추가 200B token.
구성:
100B high-quality text
나머지 audio task mixture
포함:
multilingual ASR
TTS
paralinguistic understanding
speech translation
synthesized speech conversation
또한:
50k unique speakers로 diversity 확보
(6) SFT (post-training)
있다.
4B token 규모 multi-task supervised fine-tuning 수행.
포함 task:
ASR
audio captioning
paralinguistic understanding
TTS
speech translation
speech conversation
tool calling
reasoning-centric datasets
(7) RL (post-training)
있다.
multi-stage PPO + GRPO 수행.
목표:
reasoning efficiency
audio understanding
speech interaction 개선
즉 전체 파이프라인은:
text LLM
→ adaptor alignment
→ multimodal continual pretraining
→ SFT
→ RL
이다.
오디오 데이터라고 하는 것은 어떤 형태인지?
단순히 plain 오디오 데이터인지
ASR 처럼 텍스트-오디오 쌍인지
둘 다 포함된다.
논문에서 사용한 audio data는 매우 heterogeneous하다.
포함된 데이터:
ASR
TTS
speech-to-speech conversation
speech translation
audio understanding
paralinguistic understanding
synthesized conversation
등이다.
즉 단순 plain audio만은 아니다.
특징별로 보면:
(1) text-audio paired data
대표적:
ASR
TTS
translation
audio captioning
dialogue scripts
(2) speech-to-speech data
input/output 모두 speech
interleaved text-speech continuation 포함
(3) synthetic conversation data
textual dialogue script 생성
emotion/speaking style instruction 삽입
conversation synthesis pipeline으로 speech 생성
(4) audio understanding data
AudioSet
AudioCaps
environmental sound
vocal sound
등 사용
즉 speech뿐 아니라:
non-speech sound
environmental audio
music
까지 포함된다.
따라서:
단순 raw audio only 학습이 아니라
다양한 supervision이 포함된 multimodal paired training이다.
모델 평가를 어떻게 하는지
각 학습 스테이지에서 모델 평가가 따로 이뤄지는지 / 최종 모델만 평가하는지
텍스트와 오디오 벤치마크에 대해 모두 평가되는지
논문에서는 최종 모델 중심 평가만 제시한다.
즉:
pretraining 중간 stage별 ablation/eval은 거의 없음
SFT 후 vs RL 후 비교도 없음
최종 Step-Audio 2 결과 위주
이다.
평가 task는 매우 다양하다.
(1) ASR 평가
multilingual benchmark
Chinese dialect
accented Mandarin
등
(2) Paralinguistic understanding
gender
age
timbre
emotion
speaking style
rhythm
등 11개 dimension
(3) Audio understanding
MMAU benchmark
sound/speech/music 평가
(4) Speech translation
CoVoST2
CVSS
(5) Tool calling
speech-based tool invocation benchmark
(6) Speech-to-speech conversation
URO-Bench
반면:
pure text-only benchmark(MMLU, GSM8K 등)
평가는 없다.
논문은 textual capability preservation을 언급하지만 실제 text benchmark 결과는 제공하지 않는다.
논문의 동기 및 기여점은 뭐야
핵심 동기는 기존 audio LLM의 한계를 해결하는 것이다.
논문이 지적하는 기존 문제:
speech semantic만 주로 이해
paralinguistic 정보 활용 부족
text-only output인 경우 많음
expressive speech response 부족
hallucination
timbre/style control 부족
주요 기여점은:
(1) 진짜 end-to-end speech interaction
audio token generation을 language modeling 안에 통합
speech input → speech output 직접 처리
(2) text/audio interleaved generation
discrete text/audio token을 unified autoregressive modeling
(3) paralinguistic understanding 강화
emotion
speaking style
timbre
prosody
등 이해 및 생성 강화
(4) reasoning + RL 결합
audio reasoning에 RL 적용
CoT 기반 speech interaction 강화
(5) audio search tool 도입
timbre/style switching 가능
voice retrieval 기반 generation
(6) 대규모 멀티스테이지 학습
680B text token
8M hours audio data
(7) 광범위한 audio benchmark SOTA
ASR
audio understanding
speech translation
speech conversation
등에서 strong result 제시
Reference

댓글
댓글 쓰기