NL-334, AudioPaLM: A Large Language Model That Can Speak and Listen, Preprint 2023
동기
최근 대규모 언어 모델(LLM)은 텍스트 생성과 이해에서 뛰어난 성능을 보이지만, 음성 처리 시스템은 여전히 ASR, MT, TTS와 같은 여러 모듈을 연결한 파이프라인 구조로 구성되는 경우가 많다. 이러한 방식은 오류가 단계적으로 누적되거나 화자 음색, 억양과 같은 부언어적(paralinguistic) 정보를 충분히 보존하지 못하는 한계가 있다. 또한 기존 음성 모델은 텍스트 LLM이 가진 방대한 언어 지식과 번역 능력을 직접 활용하기 어렵다. 이 논문은 이러한 문제를 해결하기 위해 텍스트와 음성을 하나의 모델에서 동일한 방식으로 처리할 수 있는 통합 멀티모달 언어 모델 AudioPaLM을 제안한다.
모델 구조
AudioPaLM은 decoder-only Transformer 기반의 언어 모델로 설계되며, 텍스트 토큰과 음성 토큰을 동일한 시퀀스 형태로 처리한다. 핵심 아이디어는 음성을 discrete audio token으로 변환하여 텍스트 토큰과 동일한 vocabulary 공간에서 모델링하는 것이다. 이를 위해 기존 텍스트 LLM인 PaLM 또는 PaLM-2의 embedding matrix에 새로운 오디오 토큰을 추가하여 vocabulary를 확장하고, 텍스트와 오디오 토큰이 하나의 autoregressive 시퀀스로 생성되도록 한다. 이러한 구조 덕분에 모델은 입력과 출력에서 텍스트와 음성을 자유롭게 섞어 사용할 수 있으며, 음성 인식, 음성 합성, 음성 번역과 같은 다양한 작업을 하나의 모델에서 수행할 수 있다.
음성 토큰화와 오디오 생성 방식
원시 음성은 먼저 음성 표현 모델(w2v-BERT 또는 USM)을 이용해 embedding을 추출한 뒤, k-means 기반 quantization을 통해 discrete token으로 변환된다. 이렇게 생성된 오디오 토큰은 약 25Hz 속도로 생성되는 시퀀스이며 약 1024개의 vocabulary를 가진다. 모델이 생성한 오디오 토큰은 이후 AudioLM의 후속 단계 또는 SoundStorm 모델을 이용해 SoundStream 토큰으로 변환되고, 최종적으로 neural codec decoder를 통해 실제 waveform 음성으로 복원된다. 이러한 구조는 텍스트 LLM의 시퀀스 모델링 능력을 그대로 활용하면서도 자연스러운 음성을 생성할 수 있도록 한다.
데이터와 학습 데이터 구성
학습에는 다양한 다국어 음성-텍스트 데이터셋이 사용된다. 대표적으로 CoVoST2, CVSS, VoxPopuli, CommonVoice, Conversational EsEn, YouTube ASR 데이터 등이 사용되며, 일부 텍스트 번역 데이터(WMT/TED)는 TTS를 이용해 음성 데이터로 확장하여 학습에 활용한다. 또한 PaLM-2를 활용해 텍스트 번역을 생성하고 이를 다시 음성으로 합성하여 추가적인 speech-to-speech 데이터도 생성한다. 이러한 데이터 혼합(training mixture)을 통해 모델은 다양한 언어와 작업을 동시에 학습하게 된다.
학습 방식
모델은 하나의 통합된 학습 프레임워크에서 여러 작업을 동시에 학습한다. 주요 작업은 ASR(음성→텍스트), AST(음성→번역 텍스트), S2ST(음성→번역 음성), TTS(텍스트→음성), MT(텍스트→번역 텍스트)이다. 각 작업은 입력 앞에 [ASR French], [S2ST English French] 같은 task prefix를 붙여 구분하며, 모델은 동일한 autoregressive 방식으로 결과를 생성한다. 또한 복잡한 작업을 수행할 때 중간 결과를 함께 출력하도록 하는 combined task training을 사용하여 성능을 향상시켰다. 예를 들어 S2ST 작업에서 먼저 ASR 결과와 번역 텍스트를 생성한 후 최종 음성을 생성하도록 학습할 수 있다.
핵심 실험 결과
실험 결과 AudioPaLM은 여러 음성 번역 및 음성 인식 벤치마크에서 기존 모델보다 우수한 성능을 보였다. 특히 CoVoST2 음성 번역(AST)과 CVSS 음성-음성 번역(S2ST)에서 기존 시스템보다 높은 BLEU 점수를 달성했으며, ASR에서도 경쟁력 있는 성능을 보였다. 또한 학습 중 보지 못한 언어 조합에서도 음성 번역을 수행하는 zero-shot translation 능력을 확인하였다. 음성 품질 평가에서도 MOS와 화자 유사도 측면에서 Translatotron 2보다 높은 결과를 기록했으며, 번역된 음성에서도 원래 화자의 음색을 유지하는 voice transfer 능력을 보여주었다.
Speech Translation 및 Speech Recognition 성능
논문에서는 AudioPaLM의 성능을 음성 번역(AST), 음성-음성 번역(S2ST), 음성 인식(ASR) 세 가지 주요 작업에서 평가하였다. CoVoST2 AST 벤치마크에서 AudioPaLM 8B 모델은 BLEU 35.4를 기록하여 기존 Whisper Large-v2(29.1) 등 기존 모델보다 높은 성능을 보였고, PaLM-2 기반 AudioPaLM-2 8B 모델은 BLEU 37.8까지 향상되었다. 또한 CVSS 음성-음성 번역(S2ST)에서도 AudioPaLM 8B S2ST 모델이 ASR-BLEU 32.5를 기록하며 Translatotron 2 기반 시스템보다 높은 성능을 보였다. 음성 인식(VoxPopuli ASR)에서는 기존 최고 모델보다 약간 낮거나 비슷한 수준의 WER을 기록하며 경쟁력 있는 성능을 보였다. 이러한 결과는 하나의 모델이 여러 음성 작업을 동시에 수행하면서도 기존 특화 모델과 경쟁 가능한 성능을 달성할 수 있음을 보여준다.
Zero-shot Speech Translation 능력
AudioPaLM은 학습 과정에서 보지 못한 언어 조합에서도 음성 번역을 수행하는 zero-shot 능력을 평가하였다. FLEURS 데이터셋을 이용한 실험에서 AudioPaLM-2 모델은 AST 데이터가 존재하는 언어 그룹에서는 평균 BLEU 28.6을 기록했고, 번역 데이터 없이 ASR 데이터만 존재하는 언어에서도 BLEU 20.7을 기록하였다. 특히 후자의 경우 모델이 해당 언어 쌍에 대한 번역 데이터를 전혀 보지 않았음에도 번역을 수행할 수 있었는데, 이는 PaLM-2가 가진 텍스트 번역 능력이 음성 입력에도 전이되었기 때문으로 해석된다. 이러한 결과는 텍스트 LLM의 언어 지식이 음성 영역으로 효과적으로 전달될 수 있음을 보여준다.
생성 음성 품질과 화자 보존 평가
논문은 음성 번역 모델의 품질을 단순 번역 정확도뿐 아니라 생성 음성의 자연스러움과 화자 보존 능력에서도 평가하였다. CVSS-T 데이터셋을 사용해 MOS 기반 음질 평가와 화자 유사도 평가를 수행한 결과, AudioPaLM은 기존 Translatotron 2보다 높은 음질 점수와 화자 유사도를 기록하였다. 특히 subjective MOS 평가에서 AudioPaLM은 4.44의 음질 점수를 기록해 비교 모델보다 높은 자연스러움을 보였으며, 화자 유사도 평가에서도 높은 점수를 기록하여 번역된 음성에서도 원래 화자의 음색을 유지할 수 있음을 보여주었다.
멀티태스크 학습 효과
논문은 여러 음성 작업을 함께 학습하는 것이 성능에 미치는 영향도 분석하였다. CoVoST2 데이터셋을 이용한 실험에서 AST 작업만 학습했을 때 BLEU 16.0이었던 모델이 ASR 작업을 함께 학습했을 경우 BLEU 18.5로 향상되었다. 이는 ASR 작업이 음성과 텍스트 간 대응 관계를 학습하는 데 도움을 주어 음성 번역 성능을 높였기 때문으로 해석된다. 또한 복잡한 작업을 여러 단계로 나누어 출력하는 combined task training을 적용했을 때도 번역 성능이 추가적으로 향상되는 결과를 보였다.
사전학습 모델 초기화 효과
텍스트 LLM 초기화가 음성 작업 성능에 미치는 영향도 실험적으로 확인하였다. 동일한 모델 구조를 사용하되 하나는 PaLM 8B 체크포인트로 초기화하고 다른 하나는 무작위 초기화로 학습한 결과, PaLM 초기화를 사용한 모델은 AST BLEU 18.4, ASR WER 40.2를 기록했지만 scratch 모델은 BLEU 6~7 수준에 머물렀다. 이는 텍스트 LLM의 언어 지식이 음성 작업 성능 향상에 큰 역할을 한다는 것을 보여주는 결과이다.
토큰화 방식과 데이터 규모의 영향
음성 토큰화 방식과 학습 데이터 규모 역시 모델 성능에 큰 영향을 미쳤다. w2v-BERT 기반 토큰보다 USM 기반 토큰이 더 높은 성능을 보였고, 특히 ASR loss를 활용해 학습된 USM-v2 토큰이 가장 높은 성능을 기록하였다. 또한 학습 데이터의 규모를 늘릴수록 음성 번역 성능이 지속적으로 향상되는 경향이 확인되었다. 이는 음성 토큰의 표현 품질과 대규모 데이터가 통합 speech-text 모델의 성능을 결정하는 중요한 요소임을 보여준다.
주요 기여(Contribution)
이 논문의 주요 기여는 다음과 같다. 첫째, 텍스트와 음성을 동일한 토큰 시퀀스로 처리하는 통합 speech-text LLM 구조를 제안하였다. 둘째, 기존 텍스트 LLM의 사전학습 지식을 활용해 음성 작업 성능을 향상시키는 방법을 보여주었다. 셋째, 하나의 모델에서 ASR, TTS, 음성 번역, 음성-음성 번역 등을 동시에 수행하는 멀티태스크 학습 프레임워크를 제시하였다. 넷째, 음성 번역에서 화자 음색을 유지하는 고품질 음성 생성 능력을 실험적으로 입증하였다.
결론
결론적으로 AudioPaLM은 텍스트 LLM을 기반으로 음성과 텍스트를 하나의 토큰 시퀀스로 모델링함으로써, 음성 이해와 음성 생성을 동시에 수행할 수 있는 통합 언어 모델을 제시한다. 이 접근은 텍스트 기반 LLM이 가진 언어 지식과 번역 능력을 음성 영역으로 확장할 수 있음을 보여주며, 향후 음성-텍스트 통합 모델 연구의 중요한 방향성을 제시한다. 또한 음성 토큰화 방식과 평가 벤치마크의 발전이 앞으로 중요한 연구 과제로 남아 있음을 지적하며 연구를 마무리한다.
Reference
댓글
댓글 쓰기