Audio-005, Whisper: Robust Speech Recognition via Large-Scale Weak Supervision, OpenAI 2022

이미지
Abstract 우리는 인터넷 상의 대규모 오디오에 대한 전사를 단순히 예측하도록 훈련된 음성 처리 시스템의 능력을 연구한다. 68만 시간 규모의 다국어·다중 과제 감독으로 학습하면, 이렇게 만들어진 모델은 표준 벤치마크에서 잘 일반화되며, 어떤 데이터셋별 미세조정(fine-tuning)도 없이 제로샷 전이 설정에서 기존의 완전 감독 방식 결과와 종종 경쟁한다. 인간과 비교했을 때, 이들 모델은 정확도와 견고성에서 인간 수준에 근접한다. 우리는 강인한 음성 처리를 위한 후속 연구의 토대가 되도록 모델과 추론 코드를 공개한다.  1. Introduction 음성 인식의 발전은 Wav2Vec 2.0(Baevski et al., 2020)로 대표되는 비지도 사전학습 기법의 등장으로 활력을 얻었다. 이러한 방법들은 사람의 라벨 없이 원시 오디오에서 직접 학습하기 때문에, 대규모의 비라벨 음성 데이터를 효과적으로 활용할 수 있으며, 학습 데이터를 100만 시간 규모까지 신속히 확장해왔다(Zhang et al., 2021). 이는 전통적인 학술용 지도 데이터셋이 대략 1천 시간 수준인 것과 대조적이다. 표준 벤치마크에 대해 미세조정(fine-tuning)을 수행하면, 특히 데이터가 적은 설정에서 이 접근법은 최신 성능을 향상시켰다. 이렇게 사전학습된 오디오 인코더는 고품질의 음성 표현을 학습하지만, 순수 비지도 방식이기 때문에 그 표현을 사용 가능한 출력으로 사상하는 동등한 성능의 디코더가 없다.  self-supervised 인코더만으로는 “representation은 좋지만 usable output(텍스트 등)”으로 바로 쓸 수 없음 그래서 supervised fine-tuning을 해야 하고, 그게 연구/실무에서 병목이 된다는 점을 강조하는 거예요. 그 결과, 실제로 음성 인식과 같은 작업을 수행하려면 미세조정 단계가 필요하다. 이는 여전히 숙련된 실무자가 필요한 복잡한 과정일 수 있어, 활용성과 영향력을 제한한다. 또한 미세조정을 요구하는 데에는...

Audio-004, EnCodec: High Fidelity Neural Audio Compression, TMLR 2023

이미지
◼ Comment 개인적으로는 SoundStream하고 거의 유사한거 같은데, 엔트로피 인코딩이 추가된 점이 있는거 같음 나머지는 거의 똑같은데? 비스트리밍 압축까지 고려한정도라고 할까? 두 논문 ( SoundStream [2021] vs. EnCodec [2022] )은 둘 다 **Residual Vector Quantization(RVQ)**와 end-to-end 학습 을 기반으로 한 뉴럴 오디오 코덱이지만, 몇 가지 중요한 차이가 있습니다. 🔑 주요 차이점 1. 모델 아키텍처 SoundStream : 완전 합성곱(convolutional) 기반 인코더/디코더 . causal convolution만 사용 → 실시간 스트리밍에 초점. RVQ 적용 + quantizer dropout 기법으로 단일 모델이 다양한 비트레이트(3–18 kbps) 지원 . 선택적으로 FiLM conditioning 을 넣어 노이즈 억제(denoising) 기능 도 지원. EnCodec : Conv 기반 인코더/디코더 + LSTM (시퀀스 모델링 강화). 스트리밍 / 비스트리밍 모드 모두 제공. RVQ 기반 다중 코드북(최대 32개, 각 1024개 벡터). 선택적으로 Transformer 기반 언어 모델 을 붙여 엔트로피 코딩 → 대역폭 추가 절감 (25–40%). 2. 손실 함수 설계 SoundStream : 복원 손실 (다중 스케일 스펙트럼 L1/L2) + 적대적 손실 (waveform/STFT discriminator). adversarial + feature matching loss 사용. 목표: rate–distortion–perceptual tradeoff. EnCodec : 시간 + 주파수 도메인 복원 손실 (멀티스케일 멜 스펙트로그램 기반). MS-STFT 단일 판별기 만 사용 (간단하지만 효과적). Loss balancer 도입 → 각 손실...