Audio-012, Spirit LM: Interleaved Spoken and Written Language Model, TACL 2025

1. 모델 지원 입력 및 출력

  • 텍스트와 오디오 동시 지원: 맞습니다. SPIRIT LM은 텍스트와 음성을 자유롭게 섞어서 처리할 수 있는 파운데이션 멀티모달 언어 모델입니다.

  • 입력 및 출력: 텍스트 시퀀스, 음성 시퀀스, 그리고 이 둘이 단어 단위로 뒤섞인(interleaved) 시퀀스를 입력으로 받을 수 있으며, 동일하게 텍스트나 음성 토큰을 출력할 수 있습니다.

2. 토큰화 및 학습 방식

  • Discrete Token 변환: 맞습니다. 음성과 텍스트를 모두 이산 토큰(discrete tokens)으로 변환하여 Next Token Prediction 방식으로 학습합니다.

  • 사용된 토크나이저:

    • 텍스트: Llama 2의 기본 BPE(Byte Pair Encoding) 토크나이저를 사용합니다.

    • 오디오:

      • BASE 버전: HuBERT를 사용하여 음성 유닛(phonetic units)으로 변환합니다.

      • EXPRESSIVE 버전: HuBERT 유닛에 더해 Pitch(VQ-VAE) 토큰과 Style(K-means) 토큰을 함께 사용합니다.

3. 모델 학습 순서 및 데이터 구성

  • 학습 순서: 처음부터 새로 학습하는 것이 아니라, 이미 텍스트로 사전 학습된 Llama 2 (7B) 모델을 백본으로 삼아 음성 모달리티를 확장하는 연속 사전 학습(Continuous Pre-training) 방식을 취합니다.

  • 데이터 비율 및 양:

    • 전체 규모: 약 100B 토큰 또는 100K 스텝 동안 학습되었습니다.

    • 데이터 구성:

      • Text-only: 300B 토큰 (Llama 학습 데이터 중 코드 등 음성과 무관한 데이터 제외).

      • Speech-only: 약 460K 시간 (약 30B 음성 토큰).

      • Speech+Text (Aligned): 약 110K 시간 (약 7B 음성 토큰 + 1.5B 텍스트 토큰).

    • 샘플링 비율: 학습 시 각 모달리티(텍스트 전용, 음성 전용, 인터리빙 데이터)를 배치 내에서 대략 동일한 횟수로 보도록 샘플링 가중치를 조정했습니다.

4. 오디오 데이터의 형태

  • 데이터 종류: 두 가지 형태를 모두 사용합니다.

    • Plain 오디오: 대규모 음성 전용(Speech-only) 데이터셋을 사용합니다.

    • 텍스트-오디오 쌍 (Aligned): 단어 수준에서 텍스트와 음성이 정렬된 데이터를 사용하여 인터리빙(Interleaving) 학습을 진행합니다. 이는 모델이 텍스트와 음성 간의 정렬(alignment)을 배우고 교차 모달리티 전이(transfer) 능력을 갖추게 하는 핵심 요소입니다.

5. 모델 평가 방식

  • 평가 시점: 논문에서는 주로 연속 사전 학습이 완료된 최종 모델에 대해 제로샷(Zero-shot) 및 퓨샷(Few-shot) 성능을 평가합니다. 다만, 학습 과정에서 인터리빙 데이터 양에 따른 성능 변화를 분석하는 절제 실험(Ablation Study)을 별도로 수행했습니다.

  • 평가 벤치마크: 텍스트와 오디오 모두에 대해 광범위하게 평가됩니다.

    • 음성/텍스트 공통: sWUGGY(어휘), sBLIMP(문법), StoryCloze(의미 이해).

    • 텍스트 전용: MMLU (5-shot).

    • 교차 모달리티: S→T Storycloze, T→S Storycloze, ASR(음성 인식), TTS(음성 합성), Intent Classification.

    • 감성 보존: 새로 제안된 STSP(Speech-Text Sentiment Preservation) 벤치마크를 통해 모달리티를 넘나들며 감성이 잘 유지되는지 평가합니다.

테이블 11에 Fisher 데이터에 대한 WER이 있는데 35,36점 수준

6. 논문의 동기 및 기여점

  • 동기: 기존의 음성 생성 방식은 텍스트 LLM과 ASR/TTS를 연결하는 파이프라인 구조여서 음성의 풍부한 표현력(감정, 톤 등)이 손실되는 문제가 있었습니다. 이를 해결하기 위해 텍스트의 의미적 능력과 음성의 표현력을 동시에 갖춘 단일 모델을 만들고자 했습니다.

  • 기여점:

    1. 텍스트와 음성을 자유롭게 섞어서 처리할 수 있는 파운데이션 모델 SPIRIT LM 제시.

    2. 음성-텍스트 간 교차 모달리티 및 퓨샷(Few-shot) 학습 능력이 있음을 증명.

    3. 음성의 음고와 스타일 정보를 통합한 EXPRESSIVE 버전을 통해 감정 및 스타일 보존 능력 강화.

    4. 음성-텍스트 감정 보존 성능을 측정하기 위한 새로운 벤치마크(STSP) 제안.

Reference

댓글