Audio-006, CLAP: Contrastive Language-Audio Pretraining, 2022
ABSTRACT
대조 학습(contrastive learning)은 다중 모달 표현 학습 분야에서 눈에 띄는 성과를 보여왔다. 본 논문에서는 오디오 데이터를 자연어 설명과 결합하여 오디오 표현을 개발하는 대조 언어-오디오 사전학습(contrastive language-audio pretraining) 파이프라인을 제안한다.
이를 위해,
- 첫째, 우리는 서로 다른 데이터 소스에서 수집된 633,526개의 오디오-텍스트 쌍으로 구성된 대규모 데이터셋 LAION-Audio-630K를 공개한다.
- 둘째, 다양한 오디오 인코더와 텍스트 인코더를 고려하여 대조 언어-오디오 사전학습 모델을 구축한다. 모델 설계에 특징 융합(feature fusion) 메커니즘과 키워드-캡션 보강(keyword-to-caption augmentation) 기법을 도입하여 가변 길이 오디오 입력을 처리하고 성능을 향상시킨다.
- 셋째, 우리는 텍스트-오디오 검색(text-to-audio retrieval), 제로샷 오디오 분류(zero-shot audio classification), 지도 학습 오디오 분류(supervised audio classification) 세 가지 작업을 통해 모델을 종합적으로 평가한다.
Reference
댓글
댓글 쓰기