Audio-015, Step-Audio 2 Technical Report, Preprint 2025

1. 모델 지원 입력 및 출력

  • 텍스트와 오디오 동시 학습 여부: 맞습니다. 텍스트와 오디오 데이터를 통합하여 학습한 엔드투엔드(end-to-end) 멀티모달 대규모 언어 모델입니다.

  • 지원 입력: 가공되지 않은 원시 오디오(Raw Audio)와 텍스트를 직접 입력으로 받습니다.

  • 지원 출력: 이산 텍스트(Discrete Text) 토큰이산 오디오(Discrete Audio) 토큰이 섞인 시퀀스를 출력합니다. 이를 통해 텍스트 답변과 음성 답변을 동시에 생성할 수 있습니다.

2. 토큰 변환 및 토크나이저

  • 넥스트 토큰 예측(Next Token Prediction): 맞습니다. 오디오를 이산 토큰으로 변환하여 언어 모델링(Language Modeling) 과정에 통합함으로써 다음 토큰을 예측하는 방식으로 학습되었습니다.

  • 사용된 토크나이저: 오디오 토크나이저로는 Cosy Voice 2의 토크나이저를 채택하여 사용했습니다. 텍스트와 오디오 토큰은 고정된 비율로 인터리빙(Interleaving, 교차 배치)되어 처리됩니다.

3. 모델 학습 순서 및 데이터 구성

학습은 크게 세 단계의 사전 학습(Pre-training)과 이후 미세 조정 단계로 진행됩니다.

  • 학습 시작점: 처음부터 텍스트와 오디오를 같이 학습하는 것이 아니라, 기존의 텍스트 전용 LLM(Textual LLM)에서 시작하여 계속적 사전 학습(Continual Pre-training)을 진행했습니다.

  • 단계별 순서 및 데이터:

    1. 어댑터 정렬: 오디오 엔코더와 LLM은 동결한 채 1,000억(100B) 토큰의 ASR(음성 인식) 데이터로 어댑터만 학습시켜 특성 공간을 맞춥니다.

    2. 오디오 토큰 확장 학습: 텍스트 LLM의 어휘 사전에 6.6K개의 오디오 토큰을 추가한 후, 텍스트 1,280억(128B) 토큰과 오디오 1,280억 토큰(TTS, 음성 대화 등 포함)을 1:1 비율로 학습합니다.

    3. 메인 사전 학습: 8,000억(800B) 토큰의 추가 데이터를 학습하며, 여기에는 4,000억 토큰의 텍스트와 ASR, TTS, 번역, 대화 등 다양한 조합의 오디오 데이터가 포함됩니다.

    4. 마무리(Cooldown): 2,000억 토큰의 고품질 데이터를 사용하여 모델을 안정화합니다. 텍스트 1,000억 토큰과 다국어 ASR, 파라언어 정보 이해 등을 포함한 오디오 데이터를 활용합니다.

  • Post-training: 사전 학습 이후 대규모 다작업 지도 미세 조정(SFT)과 두 단계의 PPO(Proximal Policy Optimization) 및 GRPO(Group Relative Policy Optimization)를 포함한 강화 학습(RL) 과정을 거칩니다.

4. 오디오 데이터의 형태

  • 데이터 형태: 단순한 오디오 데이터뿐만 아니라 목적에 맞는 다양한 쌍(Pair) 형태를 가집니다.

  • 포함된 데이터: ASR(텍스트-오디오 쌍), TTS(텍스트-오디오 쌍), 음성 간 번역(S2ST), 음성 대화 데이터, 그리고 오디오 캡셔닝을 위한 환경음과 설명 쌍 등이 모두 포함됩니다. 특히 강화 학습을 위해 단계별 추론 과정(Reasoning traces)이 포함된 데이터셋도 구축하여 사용했습니다.

5. 모델 평가 방식

  • 평가 시점: 최종 모델에 대해 광범위한 벤치마크 평가를 수행한 결과가 보고서에 제시되어 있습니다. (각 학습 스테이지별 개별 평가 여부는 명시되지 않음)

  • 평가 범위: 텍스트와 오디오 벤치마크 모두에서 평가됩니다. 다국어 음성 인식(ASR), 오디오 이해(MMAU), 음성 번역(CoVoST 2, CVSS), 그리고 모델의 감정이나 톤 이해를 측정하는 자체 벤치마크(StepEval-Audio-Paralinguistic) 등을 통해 종합적으로 평가합니다.

6. 논문의 동기 및 기여점

  • 동기: 기존 모델들이 음성의 의미(Semantic) 정보에만 치중하여 감정이나 스타일 같은 파라언어(Paralinguistic) 정보를 놓치거나, 음성 대화 시 할루시네이션(환각) 및 제한된 음색 선택의 문제를 겪는 것을 해결하고자 했습니다.

  • 기여점:

    • 이산 오디오 토큰 생성을 언어 모델링에 통합하여 진정한 엔드투엔드 음성 대화를 구현했습니다.

    • 추론 중심의 강화 학습을 도입하여 오디오 이해 및 상호작용 능력을 높였습니다.

    • 음성 모델 최초로 RAG(검색 증강 생성)와 웹 검색, 오디오 검색 등 외부 도구 호출 기능을 통합하여 답변의 신뢰성을 높이고 음색 전환을 가능하게 했습니다.

Reference

댓글