Audio-006, CLAP: Contrastive Language-Audio Pretraining, 2022

ABSTRACT

대조 학습(contrastive learning)은 다중 모달 표현 학습 분야에서 눈에 띄는 성과를 보여왔다. 본 논문에서는 오디오 데이터를 자연어 설명과 결합하여 오디오 표현을 개발하는 대조 언어-오디오 사전학습(contrastive language-audio pretraining) 파이프라인을 제안한다. 

이를 위해, 

  • 첫째, 우리는 서로 다른 데이터 소스에서 수집된 633,526개의 오디오-텍스트 쌍으로 구성된 대규모 데이터셋 LAION-Audio-630K를 공개한다. 
  • 둘째, 다양한 오디오 인코더와 텍스트 인코더를 고려하여 대조 언어-오디오 사전학습 모델을 구축한다. 모델 설계에 특징 융합(feature fusion) 메커니즘키워드-캡션 보강(keyword-to-caption augmentation) 기법을 도입하여 가변 길이 오디오 입력을 처리하고 성능을 향상시킨다. 
  • 셋째, 우리는 텍스트-오디오 검색(text-to-audio retrieval), 제로샷 오디오 분류(zero-shot audio classification), 지도 학습 오디오 분류(supervised audio classification) 세 가지 작업을 통해 모델을 종합적으로 평가한다. 
그 결과, 제안한 모델은 텍스트-오디오 검색에서 탁월한 성능을 보였으며, 오디오 분류 과제에서는 제로샷 환경에서 최첨단(state-of-the-art) 성능을 달성하고, 비 제로샷 환경에서도 기존 모델과 유사한 성능을 기록하였다. LAION-Audio-630K 데이터셋제안한 모델은 모두 공개되어 있다.
















Reference

댓글