Audio-021, Voxtlm: unified decoder-only models for consolidating speech recognition/synthesis and speech/text continuation tasks, ICASSP 2024
아래 답변은 업로드된 VoxtLM: Unified Decoder-only Models for Consolidating Speech Recognition, Synthesis and Speech, Text Continuation Tasks 기준이다. 1. 텍스트와 오디오가 동시에 되는 모델을 학습한 게 맞나? 맞다. VoxtLM은 텍스트와 오디오를 하나의 decoder-only LM 안에서 함께 다루는 unified speech-text model 이다. 다만 “raw waveform을 그대로 넣고 바로 텍스트/오디오를 출력한다”기보다는, 오디오는 먼저 discrete speech token 으로 변환해서 텍스트 토큰과 같은 LM vocabulary 안에서 처리한다. 모델이 지원하는 입력과 출력은 네 가지 태스크로 정리된다. 태스크 입력 condition 출력 prediction TextLM 텍스트 이어지는 텍스트 SpeechLM speech token 이어지는 speech token ASR speech token 텍스트 TTS 텍스트 speech token → waveform 복원 즉, 모델 입장에서는 입력과 출력이 모두 Voxt vocabulary 안의 token sequence 이고, 이 vocabulary 안에 text token과 speech token이 같이 들어간다. 생성된 speech token은 별도의 speech token decoder, 즉 HiFi-GAN 기반 decoder를 통해 다시 waveform으로 변환된다. 2. 텍스트와 오디오 모두 discrete token으로 변환해서 next token prediction 한 게 맞나? 거의 맞다. 정확히는 텍스트는 원래 discrete text token , 오디오는 HuBERT 기반 semantic speech token 으로 변환한 뒤, 둘을 합친 vocabulary에서 autoregressive next-token prediction 으로 학습한다. 오디오 토크나이저는 다음과 ...