Audio-014, Step-Audio: Unified Understanding and Generation in Intelligent Speech Interaction, Preprint 2025
1. 텍스트와 오디오 통합 모델 여부 및 입출력
통합 모델 여부: 네, 맞습니다. 텍스트와 오디오(음성)의 이해 및 생성을 하나의 130B 파라미터 모델 내에서 통합적으로 처리하는 구조입니다.
지원하는 입출력:
입력: 오디오(음성), 텍스트, 이미지(Step-Omni의 일부로서 이미지 데이터도 포함하여 학습됨)를 지원합니다.
출력: 텍스트와 오디오 토큰을 출력하며, 오디오 토큰은 별도의 스피치 디코더를 통해 실제 음성 파형(Waveform)으로 변환됩니다.
2. 토큰화 및 예측 방식
예측 방식: 맞습니다. 오디오를 이산적인 토큰(Discrete token)으로 변환하여 Next Token Prediction 방식으로 학습합니다.
사용된 토크나이저: Dual-codebook 프레임워크를 사용합니다.
Linguistic Tokenizer: Paraformer 인코더 출력을 사용하여 언어적 특징(음소 등)을 추출하며, 코드북 사이즈는 1024, 속도는 16.7Hz입니다.
Semantic Tokenizer: Cosy Voice의 토크나이저를 사용하여 의미 및 음향적 특성을 추출하며, 코드북 사이즈는 4096, 속도는 25Hz입니다.
이 두 토큰은 2:3 비율로 교차(interleaving)되어 모델에 입력됩니다.
3. 모델 학습 순서 및 데이터 비율
학습은 기존의 텍스트 기반 LLM인 Step-1을 백본으로 하여 3단계의 Continual Pretraining을 거칩니다.
Pre-training
Stage 1: 텍스트 모델의 어휘집에 5,120개의 오디오 토큰을 추가하고 이미지 인코더를 결합합니다. 오디오:텍스트:이미지 = 2:1:1 비율로 학습하며, 이때 오디오는 순수 오디오 컨티뉴에이션(Pure audio continuation) 작업만 수행합니다. (1.2T 토큰 학습)
Stage 2: 오디오-텍스트 교차(Interleaved) 데이터를 추가합니다. 데이터 비율은 여전히 오디오:텍스트:이미지 = 2:1:1이지만, 오디오 데이터 내에서 '순수 오디오'와 '오디오-텍스트 교차' 데이터 비중을 1:1로 구성합니다. (800B 토큰 학습)
Stage 3: ASR 및 TTS 데이터를 추가로 통합합니다. 데이터 비율은 오디오:텍스트:이미지 = 4:3:3으로 조정되며, 오디오 데이터 내에서 순수 오디오, 교차 데이터, ASR, TTS 데이터의 비율을 1:1:1:1로 설정합니다.
Post-training (Fine-tuning 및 Alignment)
사전 학습이 끝난 모델은 단순히 다음에 올 토큰을 잘 예측할 뿐, 사용자의 복잡한 명령을 따르거나 안전하게 대화하는 법은 모릅니다. 이를 해결하기 위해 두 가지 핵심 과정을 거칩니다.
SFT (Supervised Fine-Tuning):
질문과 답변이 정렬된 양질의 데이터를 학습합니다.
특히 "Step-Audio-Chat" 버전을 만들기 위해 추론, 창의적 글쓰기, 감정적 공감 등이 포함된 멀티모달 지시어 데이터를 사용합니다.
이 단계에서 Tool Calling(외부 도구 사용)이나 Role-playing(역할극) 능력이 강화됩니다.
RLHF (Reinforcement Learning from Human Feedback):
인간의 선호도에 맞춰 모델의 답변을 최적화합니다.
모델이 더 유익하고, 진실되며, 무해한 답변을 오디오와 텍스트로 생성하도록 미세 조정합니다.
4. 오디오 데이터의 형태
데이터 종류: 단순히 한 가지 형태가 아닌 여러 형태를 모두 사용합니다.
Plain 오디오: 오디오 컨티뉴에이션을 위한 대규모 오디오 데이터(1.1T 토큰).
텍스트-오디오 쌍: ASR(음성-텍스트 쌍, 105B 토큰) 및 TTS(텍스트-음성 쌍, 113B 토큰) 데이터를 모두 포함합니다.
오디오-텍스트 교차 데이터: 텍스트와 오디오가 번갈아 나타나는 데이터(350B 토큰)도 사용됩니다.
5. 모델 평가 방식
평가 시점: 논문에는 각 스테이지별 개별 평가 수치보다는 최종적인 모델의 성능과 특정 기능(TTS 등)에 대한 평가가 주로 기술되어 있습니다. 다만, 학습 과정에서 Loss 수치 등을 통해 Dual-codebook의 효용성을 검증하는 과정이 포함되어 있습니다.
평가 범위: 텍스트와 오디오 벤치마크 모두에서 평가됩니다.
텍스트: LLAMA Question, TrivialQA 등 기존 텍스트 기반 벤치마크에서 성능 향상을 확인했습니다.
오디오: 자체 구축한 StepEval-Audio-360 벤치마크를 통해 논리 추론, 창의성, 감정 조절 등 9가지 차원에서 인간 평가를 진행했습니다.
6. 논문의 동기 및 기여점
동기: 기존 오픈소스 모델들이 음성 데이터 수집 비용이 높고, 감정이나 방언 등 미세한 제어가 어려우며, 모델의 지능(도구 사용 등)이 제한적이라는 점을 해결하고자 했습니다. 특히 이해와 생성 프로세스가 분리되어 발생하는 시스템 복잡도와 오류 전파를 줄이려 했습니다.
기여점:
이해와 생성을 통합한 130B 규모의 단일 멀티모달 모델 제시.
고품질 음성 데이터를 스스로 생성하여 학습에 활용하는 Generative Speech Data Engine 도입.
방언, 감정, 노래(Singing), 랩(RAP) 등을 미세하게 조정할 수 있는 정밀 제어 시스템.
실시간 인터랙션을 위한 추론 최적화(Speculative Response Generation 등) 및 도구 호출(ToolCall) 능력 강화.
Reference
댓글
댓글 쓰기