Audio-015, Step-Audio 2 Technical Report, Preprint 2025

  1. 텍스트와 오디오가 동시에 되는 모델을 학습한게 맞지?

  • 모델이 지원하는 입력과 출력은 무엇인지

맞다. Step-Audio 2는 “end-to-end multi-modal large language model”로 설계되었고, 입력으로 raw audio를 직접 받고 출력으로 텍스트 토큰과 오디오 토큰을 함께 생성한다.

구체적인 구조는 다음과 같다.

  • 입력:

    • raw audio

    • latent audio feature 형태로 encoder+adaptor를 거쳐 LLM decoder에 들어감

  • 출력:

    • interleaved discrete text/audio token sequence

    • 이후 audio detokenizer가 waveform으로 복원

논문은 다음처럼 설명한다.

  • audio encoder → adaptor → LLM decoder → audio detokenizer 구조

  • LLM decoder가 “discrete text and audio tokens”를 함께 생성

  • output audio token은 detokenizer를 통해 waveform 생성

즉:

  • input modality: audio

  • output modality:

    • text

    • speech(audio waveform)

또한:

  • speech-to-text

  • speech-to-speech

  • speech translation

  • audio understanding

  • paralinguistic understanding
    등을 모두 지원한다.

  1. 학습할때 텍스트와 오디오 모두 discrete token으로 변환해서 next token prediction한게 맞는지?

  • 어떤 토크나이저를 썼는지

부분적으로 맞다.

텍스트는 일반적인 LLM token sequence이고, 출력 오디오는 discrete audio token으로 변환해서 language modeling에 통합했다.

논문에서 명확히 밝힌 점:

  • output은 “interleaved sequence of discrete text and audio tokens”

  • audio tokenizer는 “CosyVoice 2 tokenizer” 사용

즉 오디오 생성 측면에서는:

  • speech → discrete audio token

  • text token과 interleave

  • autoregressive next-token prediction

형태로 학습했다고 볼 수 있다.

다만 중요한 점은:

  • 입력 오디오는 discrete token으로 직접 넣지 않는다.

  • 입력은 pretrained audio encoder의 latent feature이다.

즉 구조적으로는:

입력:

  • raw audio
    → continuous latent feature

출력:

  • discrete text token

  • discrete audio token

이다.

따라서 “텍스트와 오디오를 모두 discrete token으로 바꿔서 unified next-token prediction했다”는 표현은 출력 측면에서는 맞지만, 입력 오디오까지 discrete token 기반이라고 보기는 어렵다.

토크나이저:

  • audio tokenizer: CosyVoice 2 tokenizer

  • text tokenizer:

    • 논문에 명시 없음

    • textual LLM의 tokenizer를 그대로 사용한 것으로 보이나 구체 모델명/토크나이저는 없음

  1. 모델 학습 순서를 설명해봐.

  • 텍스트 백본에서 텍스트&오디오 데이터를 학습했는지

  • 처음부터 텍스트&오디오 데이터를 학습했는지

  • 각 학습순서에서 텍스트와 오디오 데이터 비율 및 양은 어떻게 되는지

  • post-training도 하는지?

전체적으로:

  • text LLM으로 초기화

  • adaptor alignment

  • multimodal continual pretraining

  • SFT

  • RL

순서다.

(1) 초기화

“initialized with a textual LLM”

즉:

  • pure text backbone에서 시작

  • 처음부터 audio-text joint model로 학습한 것은 아니다

(2) Stage 1: adaptor alignment

100B tokens의 ASR 데이터 사용.

이 단계 특징:

  • audio encoder frozen

  • LLM frozen

  • adaptor만 학습

목적:

  • speech/text feature alignment

즉:
audio latent feature를 text LLM 공간에 맞추는 단계다.

(3) Stage 2: audio token extension

이후:

  • textual LLM tokenizer에 6.6K audio token 추가

학습 데이터:

  • 128B text

  • 128B audio

audio 구성:

  • 80B TTS

  • 32B speech-to-speech conversation

  • 16B text-speech interleaved continuation

즉 이 단계부터:

  • text+audio joint autoregressive modeling

(4) Main pretraining

추가로 800B token 학습.

구성:

  • 400B text

  • audio:

    • 42B ASR

    • 120B TTS

    • 8B speech-to-text translation

    • 30B text-to-speech translation

    • 5B speech-to-text continuation

    • 45B text-speech interleaved continuation

    • 150B speech-to-speech conversation

즉:

  • 상당히 speech conversation 중심으로 scaling

(5) Cooldown / high-quality stage

추가 200B token.

구성:

  • 100B high-quality text

  • 나머지 audio task mixture

포함:

  • multilingual ASR

  • TTS

  • paralinguistic understanding

  • speech translation

  • synthesized speech conversation

또한:

  • 50k unique speakers로 diversity 확보

(6) SFT (post-training)

있다.

4B token 규모 multi-task supervised fine-tuning 수행.

포함 task:

  • ASR

  • audio captioning

  • paralinguistic understanding

  • TTS

  • speech translation

  • speech conversation

  • tool calling

  • reasoning-centric datasets

(7) RL (post-training)

있다.

multi-stage PPO + GRPO 수행.

목표:

  • reasoning efficiency

  • audio understanding

  • speech interaction 개선

즉 전체 파이프라인은:

text LLM
→ adaptor alignment
→ multimodal continual pretraining
→ SFT
→ RL

이다.

  1. 오디오 데이터라고 하는 것은 어떤 형태인지?

  • 단순히 plain 오디오 데이터인지

  • ASR 처럼 텍스트-오디오 쌍인지

둘 다 포함된다.

논문에서 사용한 audio data는 매우 heterogeneous하다.

포함된 데이터:

  • ASR

  • TTS

  • speech-to-speech conversation

  • speech translation

  • audio understanding

  • paralinguistic understanding

  • synthesized conversation
    등이다.

즉 단순 plain audio만은 아니다.

특징별로 보면:

(1) text-audio paired data
대표적:

  • ASR

  • TTS

  • translation

  • audio captioning

  • dialogue scripts

(2) speech-to-speech data

  • input/output 모두 speech

  • interleaved text-speech continuation 포함

(3) synthetic conversation data

  • textual dialogue script 생성

  • emotion/speaking style instruction 삽입

  • conversation synthesis pipeline으로 speech 생성

(4) audio understanding data

  • AudioSet

  • AudioCaps

  • environmental sound

  • vocal sound
    등 사용

즉 speech뿐 아니라:

  • non-speech sound

  • environmental audio

  • music
    까지 포함된다.

따라서:

  • 단순 raw audio only 학습이 아니라

  • 다양한 supervision이 포함된 multimodal paired training이다.

  1. 모델 평가를 어떻게 하는지

  • 각 학습 스테이지에서 모델 평가가 따로 이뤄지는지 / 최종 모델만 평가하는지

  • 텍스트와 오디오 벤치마크에 대해 모두 평가되는지

논문에서는 최종 모델 중심 평가만 제시한다.

즉:

  • pretraining 중간 stage별 ablation/eval은 거의 없음

  • SFT 후 vs RL 후 비교도 없음

  • 최종 Step-Audio 2 결과 위주

이다.

평가 task는 매우 다양하다.

(1) ASR 평가

  • multilingual benchmark

  • Chinese dialect

  • accented Mandarin

(2) Paralinguistic understanding

  • gender

  • age

  • timbre

  • emotion

  • speaking style

  • rhythm
    등 11개 dimension

(3) Audio understanding

  • MMAU benchmark

  • sound/speech/music 평가

(4) Speech translation

  • CoVoST2

  • CVSS

(5) Tool calling

  • speech-based tool invocation benchmark

(6) Speech-to-speech conversation

  • URO-Bench

반면:

  • pure text-only benchmark(MMLU, GSM8K 등)
    평가는 없다.

논문은 textual capability preservation을 언급하지만 실제 text benchmark 결과는 제공하지 않는다.

  1. 논문의 동기 및 기여점은 뭐야

핵심 동기는 기존 audio LLM의 한계를 해결하는 것이다.

논문이 지적하는 기존 문제:

  • speech semantic만 주로 이해

  • paralinguistic 정보 활용 부족

  • text-only output인 경우 많음

  • expressive speech response 부족

  • hallucination

  • timbre/style control 부족

주요 기여점은:

(1) 진짜 end-to-end speech interaction

  • audio token generation을 language modeling 안에 통합

  • speech input → speech output 직접 처리

(2) text/audio interleaved generation

  • discrete text/audio token을 unified autoregressive modeling

(3) paralinguistic understanding 강화

  • emotion

  • speaking style

  • timbre

  • prosody
    등 이해 및 생성 강화

(4) reasoning + RL 결합

  • audio reasoning에 RL 적용

  • CoT 기반 speech interaction 강화

(5) audio search tool 도입

  • timbre/style switching 가능

  • voice retrieval 기반 generation

(6) 대규모 멀티스테이지 학습

  • 680B text token

  • 8M hours audio data

(7) 광범위한 audio benchmark SOTA

  • ASR

  • audio understanding

  • speech translation

  • speech conversation
    등에서 strong result 제시

Reference

댓글