Audio-011, SpeechGPT: Empowering Large Language Models with Intrinsic Cross-Modal Conversational Abilities, Findings of EMNLP 2023
1. 텍스트와 오디오 동시 지원 여부 및 입출력
네, 맞습니다. SpeechGPT는 텍스트와 오디오(음성)를 동시에 인식하고 생성할 수 있는 고유한 교차 모달 능력을 갖춘 모델입니다.
지원 입력: 텍스트, 음성(이산적 토큰 형태)
지원 출력: 텍스트, 음성(이산적 토큰 형태)
모델은 이를 통해 음성-음성 대화, 음성-텍스트 변환(ASR), 텍스트-음성 변환(TTS) 등 다양한 교차 모달 작업을 수행할 수 있습니다.
2. 학습 방식 및 토크나이저
네, 맞습니다. 음성 신호를 이산적 토큰(Discrete tokens)으로 변환하여 텍스트 토큰과 동일한 방식으로 Next token prediction을 통해 학습했습니다.
음성 토크나이저: HuBERT (정확히는 mHuBERT) 모델을 사용하여 연속적인 음성 신호를 이산적인 단위(Unit)로 변환했습니다.
어휘집 확장: 기존 LLM의 텍스트 어휘집에 이러한 음성 단위 토큰들을 추가하여 통합된 어휘집을 구성했습니다.
3. 모델 학습 순서 및 데이터 구성
학습은 처음부터 오디오를 동시에 배운 것이 아니라, 기존의 텍스트 기반 LLM(LLaMA)을 백본으로 하여 3단계로 진행되었습니다.
1단계: Modality-Adaptation Pre-training (모달리티 적응 사전학습)
목적: LLM이 음성 단위(Unit)를 이해하도록 학습.
데이터: 라벨이 없는(Unpaired) 순수 음성 데이터인 LibriLight (6만 시간)를 사용했습니다.
2단계: Cross-modal Instruction Fine-Tuning (교차 모달 지시어 미세조정)
목적: 음성과 텍스트 간의 관계를 정렬하여 지시어를 따르는 능력 배양.
데이터: ASR 데이터셋(Gigaspeech, Common Voice, LibriSpeech)에서 추출한 900만 개의 음성-텍스트 쌍과 기존 텍스트 지시어 데이터(moss-002-sft)를 섞어서 사용했습니다. 구체적인 혼합 비율은 명시되어 있지 않으나, 두 데이터를 섞어 학습했다고 기술되어 있습니다.
3단계: Chain-of-Modality Instruction Fine-Tuning (양식 사슬 지시어 미세조정)
목적: 음성 입력을 받아 텍스트로 '생각'하고 음성으로 응답하는 복합 능력 강화.
데이터: 37,969개의 사중주(음성 지시, 텍스트 지시, 텍스트 응답, 음성 응답) 데이터를 활용해 LoRA 방식으로 학습했습니다.
4. 오디오 데이터의 형태
학습 단계별로 데이터의 형태가 다릅니다.
1단계: 단순히 라벨이 없는 Plain 오디오 데이터입니다. (다음 음성 토큰을 예측하는 방식)
2단계: ASR 데이터셋을 기반으로 한 음성-텍스트 쌍(Speech-Text pairs)입니다. 이를 통해 텍스트와 음성 간의 정렬을 학습합니다.
3단계: 음성 입력-텍스트 사고-음성 출력 형태의 복합적인 지시어 데이터셋입니다.
5. 모델 평가 방식
평가 시점: 논문에서는 각 스테이지별 개별 평가 수치보다는, 최종적인 SpeechGPT의 성능을 검증하는 데 집중하고 있습니다.
평가 항목: 텍스트 작업, 음성-텍스트 교차 모달 작업, 음성 대화 작업 등 광범위한 영역을 평가합니다.
평가 방식: 주로 휴먼 평가(Human Evaluation)와 사례 분석(Case Study)을 통해 모델이 얼마나 도움 되고(Helpful), 정직하며(Honest), 무해한지(Harmless)를 측정했습니다. 기존의 정량적 텍스트 벤치마크 점수 외에도 음성 대화의 정확성을 평가하는 데 중점을 두었습니다.
6. 논문의 동기 및 기여점
동기: 기존의 음성-언어 모델들은 대부분 ASR이나 TTS를 별도로 연결한 Cascade(직렬 연결) 방식이라 모달리티 간 지식 전이가 어렵고, 감정이나 억양 같은 부가 정보가 손실되며, 진정한 의미의 교차 모달 이해가 부족하다는 한계를 극복하고자 했습니다.
기여점:
SpeechGPT 제안: 음성을 직접 인식하고 생성할 수 있는 최초의 본질적 교차 모달 LLM을 구축했습니다.
SpeechInstruct 데이터셋 구축: 음성-텍스트 교차 모달 지시어 학습을 위한 대규모 데이터셋을 최초로 구축하고 공개했습니다.
Chain-of-Modality 기법: 모델이 음성 입력을 받아 내부적으로 텍스트 과정을 거쳐 다시 음성으로 내뱉는 복합적인 사고 과정을 도입했습니다.
Reference
댓글
댓글 쓰기