Audio-015, Step-Audio 2 Technical Report, Preprint 2025
1. 모델 지원 입력 및 출력 텍스트와 오디오 동시 학습 여부: 맞습니다. 텍스트와 오디오 데이터를 통합하여 학습한 엔드투엔드(end-to-end) 멀티모달 대규모 언어 모델입니다. 지원 입력: 가공되지 않은 원시 오디오(Raw Audio)와 텍스트 를 직접 입력으로 받습니다. 지원 출력: 이산 텍스트(Discrete Text) 토큰 과 이산 오디오(Discrete Audio) 토큰 이 섞인 시퀀스를 출력합니다. 이를 통해 텍스트 답변과 음성 답변을 동시에 생성할 수 있습니다. 2. 토큰 변환 및 토크나이저 넥스트 토큰 예측(Next Token Prediction): 맞습니다. 오디오를 이산 토큰으로 변환하여 언어 모델링(Language Modeling) 과정에 통합함으로써 다음 토큰을 예측하는 방식으로 학습되었습니다. 사용된 토크나이저: 오디오 토크나이저로는 Cosy Voice 2 의 토크나이저를 채택하여 사용했습니다. 텍스트와 오디오 토큰은 고정된 비율로 인터리빙(Interleaving, 교차 배치)되어 처리됩니다. 3. 모델 학습 순서 및 데이터 구성 학습은 크게 세 단계의 사전 학습(Pre-training)과 이후 미세 조정 단계로 진행됩니다. 학습 시작점: 처음부터 텍스트와 오디오를 같이 학습하는 것이 아니라, 기존의 텍스트 전용 LLM(Textual LLM)에서 시작 하여 계속적 사전 학습(Continual Pre-training)을 진행했습니다. 단계별 순서 및 데이터: 어댑터 정렬: 오디오 엔코더와 LLM은 동결한 채 1,000억(100B) 토큰의 ASR(음성 인식) 데이터로 어댑터만 학습시켜 특성 공간을 맞춥니다. 오디오 토큰 확장 학습: 텍스트 LLM의 어휘 사전에 6.6K개의 오디오 토큰을 추가한 후, 텍스트 1,280억(128B) 토큰과 오디오 1,280억 토큰(TTS, 음성 대화 등 포함)을 1:1 비율로 학습합니다. 메인 사전 학습: 8,000억(800B) 토큰의 추가 데이터를 학습하며, 여기에는 4,000억 토큰의 텍...