Audio-013, GLM-4-Voice: Towards Intelligent and Human-Like End-to-End Spoken Chatbot, Preprint 2024

1. 텍스트와 오디오 동시 학습 및 입출력

  • 텍스트와 오디오 동시 학습 여부: 맞습니다. 대규모 음성-텍스트 데이터를 함께 사용하여 사전 학습을 진행했습니다.

  • 지원하는 입력과 출력: 음성과 텍스트 입력을 모두 이해할 수 있으며, 출력 역시 텍스트와 음성(토큰 단위)을 모두 생성할 수 있는 엔드 투 엔드(End-to-End) 구조입니다.

2. 토큰화 및 학습 방식

  • Next Token Prediction: 맞습니다. 음성을 이산 토큰(Discrete tokens)으로 변환하여 텍스트 토큰과 함께 다음 토큰을 예측하는 방식으로 학습되었습니다.

  • 사용된 토크나이저: Whisper-large-v3 모델을 기반으로 한 12.5Hz 단일 코드북(Single-codebook) 음성 토크나이저를 사용했습니다. 이는 175bps의 매우 낮은 비트레이트로 음성을 효율적으로 표현합니다.

3. 모델 학습 순서 및 데이터 비율

  • 학습 순서:

    • 초기화: 기존의 텍스트 전용 모델인 GLM-4-9B에서 시작했습니다. 처음부터 음성과 텍스트를 같이 학습한 것이 아니라, 성능이 검증된 텍스트 백본 모델의 어휘집(Vocabulary)을 확장하여 음성 학습을 이어간 방식입니다.

    • Stage 1 (사전 학습): 1조 개(1 Trillion)의 토큰을 학습했습니다.

    • Stage 2 (미세 조정): 고품질의 대화형 음성 데이터로 지도 미세 조정(SFT)을 진행했습니다.

  • 데이터 비율 및 양 (Stage 1 기준):

    • 텍스트 데이터: 약 30% (샘플링 비율 고정)

    • 음성-텍스트 교차 데이터 (Interleaved): 전체 학습량의 대부분을 차지 (약 4,550억 토큰 이상)

    • 비지도 음성 데이터 (Unsupervised): 약 70만 시간 (2,790억 토큰)

    • 지도 학습 데이터 (ASR + TTS): 약 310억 토큰

4. 음성 데이터의 형태

  • 데이터 형태: 단순히 한 종류가 아니라 세 가지 형태를 섞어서 사용했습니다.

    • 비지도 음성 데이터: 레이블이 없는 순수 음성 데이터 (의사 레이블링 사용).

    • 음성-텍스트 쌍(Parallel): ASR(음성 인식) 및 TTS(음성 합성) 데이터 세트.

    • 교차 데이터(Interleaved): 텍스트 코퍼스에서 합성해 만든 음성과 텍스트가 뒤섞인 형태.

5. 모델 평가 방식

  • 평가 시점: 사전 학습된 베이스 모델과 미세 조정을 거친 채팅 모델을 각각 평가했습니다.

  • 평가 범위: 텍스트와 음성 벤치마크 모두에서 평가가 이루어졌습니다.

    • 베이스 모델: 음성 언어 모델링(StoryCloze 등), 음성 질의응답(TriviaQA 등), ASR, TTS 성능을 평가했습니다.

    • 채팅 모델: 일반적인 질의응답 능력(GPT-4o 기반 평가), 음성 품질(UTMOS), 텍스트-음성 정렬(WER) 등을 평가했습니다.

6. 논문의 동기 및 기여점

  • 동기: 기존의 음성 챗봇은 '음성 인식 -> 텍스트 처리 -> 음성 합성'의 파이프라인 방식을 사용하여 지연 시간이 길고 감정 표현이 제한적이었습니다. 이를 해결하기 위해 인간처럼 자연스럽고 실시간 소통이 가능한 엔드 투 엔드 모델을 만들고자 했습니다.

  • 기여점:

    • 낮은 비트레이트의 효율적인 음성 토크나이저 제안.

    • 텍스트 모델의 지식을 음성으로 효과적으로 전이하기 위한 1조 토큰 규모의 대규모 학습 수행.

    • 지연 시간을 획기적으로 줄이기 위해 텍스트와 음성을 번갈아 생성하는 'Streaming Thoughts' 템플릿 도입.

    • 중국어와 영어를 모두 지원하는 고성능 음성 챗봇 모델의 오픈 소스화.

Reference

댓글