Audio-008, Moshi: a speech-text foundation model for real-time dialogue, Preprint 2024
Abstract
본 논문에서는 음성-텍스트 기반의 기초 모델이자 전이중(Full-Duplex) 음성 대화 프레임워크인 "Moshi"를 소개한다. 기존의 음성 대화 시스템은 일반적으로 독립적인 구성 요소들, 예를 들어 음성 활동 감지(VAD), 음성 인식(ASR), 텍스트 기반 대화 시스템, 텍스트 음성 합성(TTS) 등의 파이프라인을 기반으로 구축되어 있다.
- 이러한 프레임워크는 실제 대화의 경험을 충분히 재현할 수 없다. 우선, 복잡한 구조로 인해 상호작용 간에 수 초의 지연(latency)이 발생한다.
- 둘째, 텍스트가 대화의 중간 매개체로 사용되면서 감정이나 비언어적 음향과 같이 의미에 영향을 주는 비언어적 정보가 상실된다.
- 마지막으로 기존 시스템은 화자 교대(speaker turn)를 기준으로 세그먼트를 분할하여 발화 중첩(overlapping speech), 끼어들기(interruption), 맞장구(interjection) 등을 반영하지 못한다.
Moshi는 음성 대화를 "음성-음성 생성(speech-to-speech generation)"이라는 형태로 접근하여 위의 문제들을 통합적으로 해결한다.
Moshi는 텍스트 언어 모델을 기반으로 신경 오디오 코덱(neural audio codec)의 잔차 양자화(residual quantizer) 토큰으로 음성을 생성하며, 자체 발화와 사용자 발화를 병렬 스트림으로 각각 모델링한다. 이를 통해 명시적인 화자 교대의 개념을 제거하고, 임의적인 대화 역동성을 효과적으로 모델링할 수 있다.
또한 이전 연구에서 제안된 계층적 의미-음향 토큰 생성을 확장하여 오디오 토큰 이전에 시간 정렬된 텍스트 토큰을 먼저 예측하는 "Inner Monologue(내적 독백)" 방식을 제안한다. 이 방법은 생성된 음성의 언어적 품질을 크게 향상시킬 뿐만 아니라, 스트리밍 형태의 음성 인식 및 텍스트 음성 합성까지 가능함을 보여준다.
그 결과 Moshi 모델은 최초의 실시간 전이중(full-duplex) 음성 기반 대규모 언어 모델(LLM)로, 이론적으로는 160ms, 실제로는 200ms의 지연(latency)을 달성하였다. 본 모델은 github.com/kyutai-labs/moshi에서 사용할 수 있다.
주요 키워드: 음성, 텍스트, 멀티모달, 파운데이션 모델, 음성 대화
1 소개(Introduction)
음성 인터페이스는 Alexa, Siri, Google 어시스턴트와 같은 초기 대화 시스템에서 사용하기 편리한 인터페이스를 제공해왔다. 일반적으로 사용자가 특정 "웨이크 워드(wake word)"를 발화하면, 자동 음성 인식(ASR) 시스템이 이후 사용자의 요청을 전사(transcription)한다. 이어서 자연어 이해(NLU) 파이프라인이 전사된 요청을 구조화된 포맷으로 변환하고, 자연어 생성(NLG)을 통해 텍스트 기반의 응답을 만든다. 최종적으로 텍스트 음성 변환(TTS) 시스템이 생성된 답변을 사용자에게 전달하는 방식이다. 이러한 프로세스는 특정 행동을 실행하거나 특정 사실을 검색하는 등 짧고 제한적인 상호작용에 대해서는 효과적이었으나, 최근 대규모 언어 모델(LLM)의 등장으로 인해 보다 개방적이고 다중턴(multi-turn)을 요구하는 대화로 음성 인터페이스의 역할을 확장하는 과제가 떠올랐다.
이 도전 과제를 해결하기 위한 하나의 방법은 LLM을 통해 NLU와 NLG를 수행하고, ASR과 TTS는 각각 사용자의 음성 입력과 시스템의 음성 출력을 담당하는 인터페이스로 사용되는 것이다.
- 현재 세대의 음성 기반 대화 시스템인 Gemini나 ChatGPT 같은 시스템들이 이 프레임워크를 기반으로 만들어졌다.
- LLM앞뒤에 모듈을 붙여서 만들었었다고? 이렇게 했다고 공개한적이 있었나보네
하지만 이런 인터페이스들이 제공하는 경험은 여전히 자연스러운 실제 대화와는 거리가 있다.
- 우선, 많은 구성 요소로 이루어진 복잡한 파이프라인으로 인해 지연(latency)이 축적되며, 결과적으로 보통 수 초 정도의 긴 지연이 발생한다.
- 이는 수백 밀리초(ms) 내로 이루어지는 자연스러운 인간의 대화와는 매우 다르다.
- 둘째로, 언어 이해와 생성이 텍스트 영역에서 이루어지므로, 텍스트로 표현되지 않은 모든 정보는 모델에 의해 무시된다.
- 여기에는 감정이나 억양과 같은 준언어적 정보(paralinguistic information)와, 주변의 음향 이벤트와 같은 비언어적 정보(non-speech audio)들이 포함된다.
- 마지막으로, 이러한 모델들은 근본적으로 턴(turn)을 기반으로 설계되었으며, 대화를 명확하게 정의된 단일 화자 세그먼트의 연속으로 간주한다.
- 이 패러다임은 텍스트 기반의 대화에는 적합하지만, 발화 중첩(overlapping speech)이나 끼어들기, 맞장구(backchanneling, 예를 들어 “OK”, “알겠어요” 등의 끼어들지 않는 짧은 발화)와 같은 음성 기반 대화의 주요 측면을 충분히 모델링하지 못한다.
- 실제로 발화 중첩은 전체 발화 시간의 약 10~20%를 차지한다는 연구 결과도 있다.
- latency가 생김
- 텍스트로 표현못하는 정보들이 존재
- 중간에 끼어들기가 힘들어짐
본 논문에서는 이러한 문제점들—즉 지연 문제, 텍스트 기반 정보 병목현상(information bottleneck), 턴 기반 모델링의 한계—를 해결하기 위한 음성-텍스트 기초 모델이자 실시간 음성 대화 시스템인 Moshi를 소개한다.
Moshi는 텍스트 기반 대규모 언어 모델(LLM)을 기반으로 작은 규모의 오디오 언어 모델(audio language model)을 추가한 구조로 설계되었으며, 오디오 언어 모델은 이산적인(discrete) 오디오 단위를 입력받고 예측한다.
이를 통해 입력을 이해하고 출력을 생성하는 작업이 오디오 영역에서 직접 이루어지므로 텍스트 기반의 정보 병목 현상을 제거할 수 있으며, 기반이 되는 텍스트 LLM이 가진 지식과 추론 능력은 여전히 활용할 수 있다. 또한 본 논문은 기존의 오디오 언어 모델 연구를 확장하여 스트리밍(streaming)이 가능한 계층적 아키텍처를 설계하였다.
이 모델의 이론적인 지연은 160ms로, 10개 언어에 대해 측정된 자연스러운 대화의 평균 응답 시간인 230ms보다 더 짧다.
텍스트 기반 LLM에다가 오디오 토큰을 넣어서 추가학습한거 같고, 이 때 streaming이 가능한 구조로 제안함. 일반적으로 자연스러운 응답시간은 230ms인가봄. 이 모델은 160ms임
나아가 본 논문은 최초의 다중 스트림(multi-stream) 오디오 언어 모델을 제안하는데, 이 모델은 입력 오디오 스트림(사용자 음성)과 출력 오디오 스트림(Moshi의 음성)을 두 개의 병렬 토큰 스트림으로 명시적으로 모델링한다. 이를 통해 명시적인 화자 교대 개념을 제거하고, 중첩 발화나 끼어들기를 포함한 자연스러운 대화 역동성을 반영하는 방식으로 모델을 학습할 수 있다. 그 결과, 개발된 Moshi 모델은 최초의 완전한 전이중(full-duplex), 즉 항상 듣고 항상 음성(발화 또는 침묵)을 생성하는 실시간 대화형 LLM이 되었다.
본 논문의 주요 기여점을 다음과 같이 요약한다:
-
먼저, 공개 영어 데이터 2.1T 토큰으로 사전 학습된 70억 파라미터의 텍스트 LLM인 Helium을 제안한다. (3.2절에서 모델 구조 및 학습법, 4.1절에서 사전 학습 데이터 수집 및 필터링 방법 설명)
-
오디오를 이산적인(discrete) 토큰으로 변환하여 다시 복원할 수 있는 Mimi라는 신경 오디오 코덱(neural audio codec)을 개발하였다. 이는 Moshi에서 예측하는 오디오 토큰의 생성을 담당한다. (3.3절에서 Mimi 모델 구조와 학습법, 5.2절에서 세부적인 Ablation 연구)
-
계층적이고 스트리밍 가능한 방식으로 오디오 토큰을 예측하기 위해 Helium 모델에 작은 규모의 Transformer를 추가한 Moshi라는 새로운 오디오 언어 모델 구조를 제안하였다. 이를 통해 스트리밍 형태로 음성 품질 및 오디오 일관성을 기존 비스트리밍 모델을 능가하는 성능으로 실현했다. 또한 다중 스트림 구조를 통해 복잡한 전이중 대화의 손쉬운 처리 방식을 구현하였다. (3.4절에서 구조 설명)
-
오디오 토큰 이전에 시간 정렬된 텍스트 토큰을 예측함으로써 생성된 음성의 사실성과 언어적 품질을 크게 개선하는 "Inner Monologue(내적 독백)" 방식을 제안하였다. 이를 통해 Moshi는 비언어적 정보를 처리하면서도, 동시에 텍스트 출력을 생성할 수 있다. (3.4.4절에서 소개 및 설명)
-
Moshi의 텍스트 이해, 음성 품질, 오디오 품질 및 음성 기반 질의응답 성능에 대해 여러 방면으로 평가를 수행하여 우수성을 입증하였다. (5절의 실험에서 보고됨)
이 논문에서 제안하는 Moshi 모델은 온라인 데모로 직접 체험할 수 있다(https://moshi.chat).
Reference
댓글
댓글 쓰기