Audio-005, Whisper: Robust Speech Recognition via Large-Scale Weak Supervision, OpenAI 2022

Abstract 우리는 인터넷 상의 대규모 오디오에 대한 전사를 단순히 예측하도록 훈련된 음성 처리 시스템의 능력을 연구한다. 68만 시간 규모의 다국어·다중 과제 감독으로 학습하면, 이렇게 만들어진 모델은 표준 벤치마크에서 잘 일반화되며, 어떤 데이터셋별 미세조정(fine-tuning)도 없이 제로샷 전이 설정에서 기존의 완전 감독 방식 결과와 종종 경쟁한다. 인간과 비교했을 때, 이들 모델은 정확도와 견고성에서 인간 수준에 근접한다. 우리는 강인한 음성 처리를 위한 후속 연구의 토대가 되도록 모델과 추론 코드를 공개한다. 1. Introduction 음성 인식의 발전은 Wav2Vec 2.0(Baevski et al., 2020)로 대표되는 비지도 사전학습 기법의 등장으로 활력을 얻었다. 이러한 방법들은 사람의 라벨 없이 원시 오디오에서 직접 학습하기 때문에, 대규모의 비라벨 음성 데이터를 효과적으로 활용할 수 있으며, 학습 데이터를 100만 시간 규모까지 신속히 확장해왔다(Zhang et al., 2021). 이는 전통적인 학술용 지도 데이터셋이 대략 1천 시간 수준인 것과 대조적이다. 표준 벤치마크에 대해 미세조정(fine-tuning)을 수행하면, 특히 데이터가 적은 설정에서 이 접근법은 최신 성능을 향상시켰다. 이렇게 사전학습된 오디오 인코더는 고품질의 음성 표현을 학습하지만, 순수 비지도 방식이기 때문에 그 표현을 사용 가능한 출력으로 사상하는 동등한 성능의 디코더가 없다. self-supervised 인코더만으로는 “representation은 좋지만 usable output(텍스트 등)”으로 바로 쓸 수 없음 그래서 supervised fine-tuning을 해야 하고, 그게 연구/실무에서 병목이 된다는 점을 강조하는 거예요. 그 결과, 실제로 음성 인식과 같은 작업을 수행하려면 미세조정 단계가 필요하다. 이는 여전히 숙련된 실무자가 필요한 복잡한 과정일 수 있어, 활용성과 영향력을 제한한다. 또한 미세조정을 요구하는 데에는...