Audio-007, SpeechT5: Unified-Modal Encoder-Decoder Pre-Training for Spoken Language Processing, ACL 2022

Abstract T5(Text-To-Text Transfer Transformer) 모델이 자연어 처리 분야의 사전학습(pre-trained) 모델에서 성공을 거둔 것에 영감을 받아, 우리는 자기지도학습 기반 음성/텍스트 표현 학습을 위한 인코더-디코더 사전학습(unified-modal encoder-decoder pre-training) 프레임워크인 SpeechT5 를 제안한다. SpeechT5 프레임워크는 공유 인코더-디코더 네트워크(shared encoder-decoder network) 와 6개의 모달리티별(음성/텍스트) 전처리(pre-net) 및 후처리(post-net) 로 구성된다. 입력된 음성 또는 텍스트는 먼저 pre-net을 통해 전처리되며, 그 다음 공유 인코더-디코더 네트워크가 시퀀스-투-시퀀스 변환(sequence-to-sequence transformation) 을 수행한다. 이후 post-net이 디코더의 출력을 기반으로 음성 또는 텍스트 형태의 출력을 생성한다. 대규모의 라벨 없는 음성 및 텍스트 데이터를 활용하여 SpeechT5를 사전학습함으로써, 우리는 음성과 텍스트 모두에 대해 향상된 모델링 능력을 가지는 통합 모달 표현(unified-modal representation) 을 학습하도록 한다. 텍스트와 음성 정보를 동일한 의미 공간(semantic space)에 정렬하기 위해, 우리는 크로스모달 벡터 양자화(cross-modal vector quantization) 방법을 제안한다. 이 방법은 인코더와 디코더 사이의 인터페이스로서, 음성/텍스트 상태와 잠재(latent) 단위를 무작위로 혼합한다. 광범위한 평가 결과는 제안된 SpeechT5 프레임워크가 다양한 음성 언어 처리(spoken language processing) 작업에서 우수함을 보여준다. 이에는 자동 음성 인식(ASR), 음성 합성(TTS), 음성 번역(ST), 음성 변환(VC), 음성 향상(SE), 화자 식별(SID) 등이 포함된다....