Audio-002, HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Unit, TASLP 2021

Abstract

자기 지도(self-supervised) 방식의 음성 표현 학습은 세 가지 고유한 문제에 직면한다:
(1) 각 입력 발화에는 여러 개의 음향 단위가 존재한다,
(2) 사전학습 단계에서는 입력 음향 단위에 대한 사전(lexicon)이 존재하지 않는다,
(3) 음향 단위의 길이가 가변적이며 명시적인 분절(boundary)이 없다.

이 세 가지 문제를 해결하기 위해, 우리는 HuBERT(Hidden-Unit BERT) 라는 자기 지도 음성 표현 학습 방식을 제안한다. HuBERT는 오프라인 클러스터링 단계를 통해 정렬된 목표 레이블을 생성하고, 이를 BERT와 유사한 예측 손실(prediction loss)에 활용한다. 핵심 아이디어는 마스킹된 영역에 대해서만 예측 손실을 적용하여, 모델이 연속적인 입력으로부터 음향 모델과 언어 모델을 동시에 학습하도록 강제하는 것이다.

HuBERT는 할당된 클러스터 레이블의 내재적 품질보다는 비지도 클러스터링 단계의 일관성(consistency) 에 크게 의존한다. 우리는 100개의 클러스터를 가진 단순한 k-means 교사 모델로 시작하여 두 번의 클러스터링 반복을 수행한다. 그 결과, HuBERT는 Librispeech(960시간)과 Libri-light(60,000시간) 벤치마크에서 10분, 1시간, 10시간, 100시간, 960시간 미세조정(fine-tuning) 세트 모두에서 최첨단인 wav2vec 2.0과 동일하거나 더 나은 성능을 달성한다.

매개변수가 10억 개(1B)에 달하는 대형 모델을 사용할 경우, HuBERT는 더 어려운 dev-other와 test-other 평가 세트에서 상대적 WER(word error rate)을 각각 최대 19%와 13% 감소시키는 성과를 보였다.

Index Terms—Self-supervised learning, BERT





















Reference

댓글