Audio-013, GLM-4-Voice: Towards Intelligent and Human-Like End-to-End Spoken Chatbot, Preprint 2024
1. 텍스트와 오디오 동시 학습 및 입출력
텍스트와 오디오 동시 학습 여부: 맞습니다. 대규모 음성-텍스트 데이터를 함께 사용하여 사전 학습을 진행했습니다.
지원하는 입력과 출력: 음성과 텍스트 입력을 모두 이해할 수 있으며, 출력 역시 텍스트와 음성(토큰 단위)을 모두 생성할 수 있는 엔드 투 엔드(End-to-End) 구조입니다.
2. 토큰화 및 학습 방식
Next Token Prediction: 맞습니다. 음성을 이산 토큰(Discrete tokens)으로 변환하여 텍스트 토큰과 함께 다음 토큰을 예측하는 방식으로 학습되었습니다.
사용된 토크나이저: Whisper-large-v3 모델을 기반으로 한 12.5Hz 단일 코드북(Single-codebook) 음성 토크나이저를 사용했습니다. 이는 175bps의 매우 낮은 비트레이트로 음성을 효율적으로 표현합니다.
3. 모델 학습 순서 및 데이터 비율
학습 순서:
초기화: 기존의 텍스트 전용 모델인 GLM-4-9B에서 시작했습니다. 처음부터 음성과 텍스트를 같이 학습한 것이 아니라, 성능이 검증된 텍스트 백본 모델의 어휘집(Vocabulary)을 확장하여 음성 학습을 이어간 방식입니다.
Stage 1 (사전 학습): 1조 개(1 Trillion)의 토큰을 학습했습니다.
Stage 2 (미세 조정): 고품질의 대화형 음성 데이터로 지도 미세 조정(SFT)을 진행했습니다.
데이터 비율 및 양 (Stage 1 기준):
텍스트 데이터: 약 30% (샘플링 비율 고정)
음성-텍스트 교차 데이터 (Interleaved): 전체 학습량의 대부분을 차지 (약 4,550억 토큰 이상)
비지도 음성 데이터 (Unsupervised): 약 70만 시간 (2,790억 토큰)
지도 학습 데이터 (ASR + TTS): 약 310억 토큰
4. 음성 데이터의 형태
데이터 형태: 단순히 한 종류가 아니라 세 가지 형태를 섞어서 사용했습니다.
비지도 음성 데이터: 레이블이 없는 순수 음성 데이터 (의사 레이블링 사용).
음성-텍스트 쌍(Parallel): ASR(음성 인식) 및 TTS(음성 합성) 데이터 세트.
교차 데이터(Interleaved): 텍스트 코퍼스에서 합성해 만든 음성과 텍스트가 뒤섞인 형태.
5. 모델 평가 방식
평가 시점: 사전 학습된 베이스 모델과 미세 조정을 거친 채팅 모델을 각각 평가했습니다.
평가 범위: 텍스트와 음성 벤치마크 모두에서 평가가 이루어졌습니다.
베이스 모델: 음성 언어 모델링(StoryCloze 등), 음성 질의응답(TriviaQA 등), ASR, TTS 성능을 평가했습니다.
채팅 모델: 일반적인 질의응답 능력(GPT-4o 기반 평가), 음성 품질(UTMOS), 텍스트-음성 정렬(WER) 등을 평가했습니다.
6. 논문의 동기 및 기여점
동기: 기존의 음성 챗봇은 '음성 인식 -> 텍스트 처리 -> 음성 합성'의 파이프라인 방식을 사용하여 지연 시간이 길고 감정 표현이 제한적이었습니다. 이를 해결하기 위해 인간처럼 자연스럽고 실시간 소통이 가능한 엔드 투 엔드 모델을 만들고자 했습니다.
기여점:
낮은 비트레이트의 효율적인 음성 토크나이저 제안.
텍스트 모델의 지식을 음성으로 효과적으로 전이하기 위한 1조 토큰 규모의 대규모 학습 수행.
지연 시간을 획기적으로 줄이기 위해 텍스트와 음성을 번갈아 생성하는 'Streaming Thoughts' 템플릿 도입.
중국어와 영어를 모두 지원하는 고성능 음성 챗봇 모델의 오픈 소스화.
Reference
댓글
댓글 쓰기