Audio-013, GLM-4-Voice: Towards Intelligent and Human-Like End-to-End Spoken Chatbot, Preprint 2024

1. 텍스트와 오디오 동시 학습 및 입출력 텍스트와 오디오 동시 학습 여부 : 맞습니다. 대규모 음성-텍스트 데이터를 함께 사용하여 사전 학습을 진행했습니다. 지원하는 입력과 출력 : 음성과 텍스트 입력을 모두 이해할 수 있으며, 출력 역시 텍스트와 음성(토큰 단위)을 모두 생성할 수 있는 엔드 투 엔드(End-to-End) 구조입니다. 2. 토큰화 및 학습 방식 Next Token Prediction : 맞습니다. 음성을 이산 토큰(Discrete tokens)으로 변환하여 텍스트 토큰과 함께 다음 토큰을 예측하는 방식으로 학습되었습니다. 사용된 토크나이저 : Whisper-large-v3 모델을 기반으로 한 12.5Hz 단일 코드북(Single-codebook) 음성 토크나이저 를 사용했습니다. 이는 175bps의 매우 낮은 비트레이트로 음성을 효율적으로 표현합니다. 3. 모델 학습 순서 및 데이터 비율 학습 순서 : 초기화 : 기존의 텍스트 전용 모델인 GLM-4-9B 에서 시작했습니다. 처음부터 음성과 텍스트를 같이 학습한 것이 아니라, 성능이 검증된 텍스트 백본 모델의 어휘집(Vocabulary)을 확장하여 음성 학습을 이어간 방식입니다. Stage 1 (사전 학습) : 1조 개(1 Trillion)의 토큰을 학습했습니다. Stage 2 (미세 조정) : 고품질의 대화형 음성 데이터로 지도 미세 조정(SFT)을 진행했습니다. 데이터 비율 및 양 (Stage 1 기준) : 텍스트 데이터 : 약 30% (샘플링 비율 고정) 음성-텍스트 교차 데이터 (Interleaved) : 전체 학습량의 대부분을 차지 (약 4,550억 토큰 이상) 비지도 음성 데이터 (Unsupervised) : 약 70만 시간 (2,790억 토큰) 지도 학습 데이터 (ASR + TTS) : 약 310억 토큰 4. 음성 데이터의 형태 데이터 형태 : 단순히 한 종류가 아니라 세 가지 형태를 섞어서 사용했습니다. 비지도 음성 데이터 : 레이블이 없는 순수 음성 데이터 (의사 레이블링 ...