◼ Comment

이 논문은 거의 CLIP과 똑같은 것 같음
학습 데이터는 텍스트-오디오 쌍을 모아야함

LAION-Audio-630K 란 데이터를 공개

키워드-투-텍스트 모델을 통해, 생성된 텍스트를 오디오 설명 레이블 텍스트로 사용
이 데이터는 여러 소스를 합친것으로, 일부 레이블은 키워드만 있기 때문에 위 방식으로 데이터 확장한것으로 보면됨 (원래부터 텍스트 레이블이 있는 경우도 존재하는 듯)
공개한 데이터는 4300 시간정도 되고, 인간 활동(human activities), 자연 소리(natural sounds), 오디오 효과(audio effects)을 포함함

이전에 공개된 오픈된 데이터를 사용해서도 실험하였음

학습 방식

학습 과정은 CLIP과 거의 유사한듯
식 1,2,3와 그림을 보면 직관적 이해 가능
여기서 사용되는 오디오, 텍스트 인코더는 기존에 학습된 모델들 사용
오디오 길이는 되게 다양한 세팅인가봄

따라서 가변 오디오 길이를 피쳐로 뽑기위해 3.2섹션에서 설명을함
고정 길이(d)보다 짧은 입력이 들어오면 반복해서 생성하고 패딩해서 고정길이를 맞춤
고정길이보다 긴 입력이 들어오면, 다운 샘플링하여 전역 입력 1xd, 앞,중간,뒤 1/3 지점으로 짜르고 d만큼 무작위로 잘라서 3xd해서 총 4xd 입력을 만들고, 이를 conv 태워서 하나의 특성으로 만듬

다운스트림 테스크

기본적으로 CLIP과 같이 제로샷 검색에 활용 가능
학습 데이터가 있을때는 layer 붙여서 fine-tune하여 사용할 수 있음
표 4의 결과에 따르면, 본 연구의 모델은 **모든 제로샷 오디오 분류 데이터셋에서 새로운 SOTA(state-of-the-art)**를 달성하였다.

ABSTRACT

대조 학습(contrastive learning)은 다중 모달 표현 학습 분야에서 눈에 띄는 성과를 보여왔다. 본 논문에서는 오디오 데이터를 자연어 설명과 결합하여 오디오 표현을 개발하는 대조 언어-오디오 사전학습(contrastive language-audio pretraining) 파이프라인을 제안한다.

이를 위해,

첫째, 우리는 서로 다른 데이터 소스에서 수집된 633,526개의 오디오-텍스트 쌍으로 구성된 대규모 데이터셋 LAION-Audio-630K를 공개한다.
둘째, 다양한 오디오 인코더와 텍스트 인코더를 고려하여 대조 언어-오디오 사전학습 모델을 구축한다. 모델 설계에 특징 융합(feature fusion) 메커니즘과 키워드-캡션 보강(keyword-to-caption augmentation) 기법을 도입하여 가변 길이 오디오 입력을 처리하고 성능을 향상시킨다.
셋째, 우리는 텍스트-오디오 검색(text-to-audio retrieval), 제로샷 오디오 분류(zero-shot audio classification), 지도 학습 오디오 분류(supervised audio classification) 세 가지 작업을 통해 모델을 종합적으로 평가한다.

그 결과, 제안한 모델은 텍스트-오디오 검색에서 탁월한 성능을 보였으며, 오디오 분류 과제에서는 제로샷 환경에서 최첨단(state-of-the-art) 성능을 달성하고, 비 제로샷 환경에서도 기존 모델과 유사한 성능을 기록하였다. LAION-Audio-630K 데이터셋과 제안한 모델은 모두 공개되어 있다.

1. 서론 (INTRODUCTION)

오디오는 텍스트·이미지와 더불어 전 세계에서 가장 흔한 정보 유형 가운데 하나다. 그러나 다양한 오디오 과제들은 대개 세밀한 주석(annotaton)을 요구하기 때문에, 노동집약적인 수집 과정을 거쳐야 하고 그 결과 이용 가능한 오디오 데이터의 양이 제한된다. 따라서 많은 오디오 작업에서 대량의 감독(supervision)에 의존하지 않고도 유효한 오디오 표현을 설계하는 일은 여전히 도전 과제다.

대조 학습(contrastive learning) 패러다임은 인터넷에서 수집한 대규모의 노이즈 있는 데이터를 학습하는 데에 성공적인 해법으로 자리잡았다.

최근 제안된 CLIP (Contrastive Language–Image Pretraining) [1]은 텍스트와 이미지를 공통 잠재 공간으로 사영하여 양자 간의 대응을 학습한다.

학습은 정답인 이미지–텍스트 쌍을 양성(positive) 샘플로, 그 외를 음성(negative)으로 간주하는 방식으로 이루어진다.
단일 모달 데이터로 학습하는 것과 달리, CLIP은 주석에 구애받지 않고, 도메인 외 분포(out-of-domain)인 ImageNet 변형들에서도 제로샷 환경에서 높은 정확도를 달성하는 등 견고함을 보였다.
또한 텍스트-이미지 검색과 텍스트 기반 캡셔닝 같은 다운스트림 작업에서도 큰 성공을 거두었다.

시각 영역과 유사하게, 오디오와 자연어에도 서로 겹치는 정보가 존재한다.

예를 들어 오디오 이벤트 분류 과제에서는 특정 사건에 대한 몇 가지 텍스트 설명을 해당 오디오에 매핑할 수 있다.
이러한 텍스트 설명들은 유사한 의미를 공유하므로, 관련 오디오와 함께 학습하면 크로스모달 정보를 담은 오디오 표현을 형성할 수 있다.
아울러 이런 모델을 학습하는 데에는 단순히 오디오–텍스트 쌍만 있으면 되므로 수집 또한 용이하다.
오디오-텍스트 쌍을 모아야하는게 용이한건가?

최근 연구들 [3–9]은 텍스트-오디오 검색(text-to-audio retrieval) 작업을 위한 언어–오디오 대조 사전학습 모델의 초기 형태를 제시했다. 예컨대 [6]은 오디오 인코더로 PANN[10], 텍스트 인코더로 BERT[11]를 사용하고 여러 손실 함수를 실험하여 텍스트-오디오 검색 성능을 평가했다. [5]는 여기에 HTSAT[12]와 RoBERTa[13]를 인코더 목록에 더해 성능을 끌어올렸다. 이어서 [4]는 학습된 표현이 오디오 분류라는 다운스트림 작업에서 유효함을 조사했다.

이 밖에도 AudioCLIP[3]이나 WaveCLIP[9]처럼 대조적 이미지–오디오(또는 이미지–오디오–언어) 사전학습에 초점을 맞춘 연구들이 있다. 이러한 모델들은 오디오 도메인에서의 대조 학습에 큰 잠재력이 있음을 보여준다.

그럼에도 불구하고, 현재의 연구들이 언어–오디오 대조 학습의 잠재력을 충분히 끌어냈다고 보긴 어렵다.

첫째, 앞서 언급한 모델들은 상대적으로 작은 데이터셋에서 학습되었으며, 이는 학습을 위한 **대규모 데이터 수집 및 보강(augmentation)**의 필요성을 시사한다.
둘째, 기본적인 언어–오디오 대조 아키텍처를 결정하는 데 핵심인 오디오/텍스트 인코더 선택과 하이퍼파라미터 설정에 대한 충분한 탐색이 부족했다.
셋째, 특히 트랜스포머 기반 오디오 인코더는 가변 길이 오디오를 처리하는 데 어려움을 겪으며, 이를 다루는 해법이 필요하다.
넷째, 대다수 언어–오디오 모델 연구는 텍스트-오디오 검색에만 초점을 맞추고, 학습된 오디오 표현의 다운스트림 과제에서의 성능 평가는 소홀히 했다. 표현 모델로서, 더 다양한 다운스트림 과제에 대한 일반화 능력을 밝혀낼 필요가 있다.

본 논문은 위의 문제의식에 따라 데이터셋, 모델 설계, 실험 설정을 다음과 같이 개선한다.

LAION-Audio-630K 공개: 총 633,526개의 오디오–텍스트 쌍으로 구성된, 현존 최대 규모의 공개 오디오 캡션 데이터셋을 공개한다. 학습을 돕기 위해 **키워드-캡션 모델(keyword-to-caption)**을 사용하여 AudioSet[14]의 레이블을 해당 캡션으로 확장(보강)한다. 이 데이터셋은 다른 오디오 과제에도 기여할 수 있다.
대조 언어–오디오 사전학습 파이프라인 구축: 오디오 인코더 2종과 텍스트 인코더 3종을 선정해 평가한다. 또한 특징 융합(feature fusion) 메커니즘을 적용해 성능을 끌어올리고, 모델이 가변 길이 입력을 처리하도록 한다.
종합 실험: 텍스트-오디오 검색, 제로샷 오디오 분류, 지도학습 오디오 분류의 세 과제를 통해 모델을 평가한다. 데이터셋 규모 확대, 키워드-캡션 보강, 특징 융합이 서로 다른 관점에서 모델 성능을 향상시킴을 보인다. 그 결과, 텍스트-오디오 검색 및 오디오 분류에서 최첨단(SOTA) 성능을 달성하며, 지도학습 설정에서도 기존 모델에 견줄 만한 성능을 보인다.

아울러 LAION-Audio-630K와 제안 모델 모두를 공개한다.

즉 느끼기엔 CLIP처럼, 이미지-텍스트 / 이미지-오디오 등에 관한 연구는 있는데, 텍스트-오디오에 관한 대조학습은 연구가 딱히 없었나봄.
물론 비슷한 연구는 있었던거 같고 데이터가 얼마 있지도 않았고, 가변 길이를 처리하기 어려운 단점이 있었던거 같음

2. LAION-AUDIO-630K와 학습 데이터셋

2.1. LAION-Audio-630K

우리는 LAION-Audio-630K라는 대규모 오디오-텍스트 데이터셋을 수집하였다. 이 데이터셋은 총 633,526 쌍으로 이루어져 있으며, 전체 길이는 4,325.39 시간에 달한다. 여기에는 인간 활동(human activities), 자연 소리(natural sounds), 오디오 효과(audio effects) 등이 포함되어 있으며, 공개적으로 접근 가능한 웹사이트 8곳에서 가져온 데이터로 구성되어 있다.

이 데이터셋은 오디오 파일과 그에 상응하는 텍스트 설명을 다운로드하여 수집하였다. 우리의 지식으로는, LAION-Audio-630K는 현재 공개된 것 중 가장 큰 오디오-텍스트 데이터셋이며, 기존의 오디오-텍스트 데이터셋보다 한 차원 더 큰 규모를 가진다. 이러한 비교는 **표 1 (Table 1)**에서 확인할 수 있다.

Clotho: 오디오 전체에 대해 5개의 캡션 제공
AudioCaps: 오디오 전체에 대해 1개의 캡션 제공
SoundDescs: 오디오 전체 단위 설명 제공
AudioSet: 캡션이 없고 단순히 **레이블(tag)**만 있음 → 이 논문에서는 keyword-to-caption 기법으로 문장형 설명으로 확장

2.2. 학습 데이터셋 (Training Dataset)

모델 성능이 데이터셋의 크기와 유형에 따라 어떻게 확장되는지를 실험하기 위해, 본 논문에서는 소규모에서 대규모까지 세 가지 학습 데이터셋 설정을 사용한다. 이 설정은 다음 세 가지 데이터셋을 포함한다:

AudioCaps + Clotho (AC+CL) [15,17]
약 5만 5천 개의 오디오–텍스트 쌍 학습 샘플을 포함한다.
LAION-Audio-630K (LA.)
약 63만 개의 오디오–텍스트 쌍으로 이루어져 있다.
AudioSet [14]
약 190만 개의 오디오 샘플을 포함하지만, 각 샘플에는 **레이블(label)**만 존재한다.

이 데이터셋들을 처리하는 과정에서, 우리는 평가용 데이터셋과 겹치는 모든 데이터를 제거하였다. 학습 데이터셋에 대한 더 자세한 내용은 온라인 부록(appendix)에서 확인할 수 있다.

여기서 만든 데이터랑 아닌 데이터로 구분지어서 학습해서 비교하는 듯

2.3. 데이터셋 형식과 전처리 (Dataset Format and Preprocessing)

본 연구에서 사용된 모든 오디오 파일은 **모노 채널(mono channel)**로 변환되었고, 48kHz 샘플레이트의 FLAC 포맷으로 전처리되었다.

레이블이나 태그만 제공되는 데이터셋의 경우, 우리는 해당 레이블을 캡션(caption)으로 확장하였다. 이때 두 가지 방식을 사용했다:

템플릿(template) 기반:
"The sound of label-1, label-2, ..., and label-n" 형식으로 레이블을 문장으로 변환한다.
키워드-캡션 모델(keyword-to-caption model) 기반:
(세부 내용은 섹션 3.5에서 설명) 레이블을 캡션으로 변환한다.

이를 통해 더 많은 데이터를 대조 언어-오디오 사전학습 모델의 학습에 활용할 수 있었다.

최종적으로, 모든 데이터셋을 결합하면 텍스트 캡션이 있는 오디오 샘플의 총 개수는 250만 개에 달하게 된다.

다음은 원문의 “3. MODEL ARCHITECTURE” 중, “3.1. Contrastive Language-Audio Pretraining”까지(3.2 직전) 빠짐없는 번역입니다.

3. 모델 아키텍처

3.1. 대조적 언어-오디오 사전학습

그림 1은 우리가 제안하는 대조적 언어-오디오 인코더 모델의 전체 구조를 보여준다.

CLIP [1]과 유사하게, 우리는 오디오 데이터 (X^a_i)와 텍스트 데이터 (X^t_i) 입력을 각각 처리하는 두 개의 인코더를 둔다.

이 두데이터가 쌍임
두 데이터를 인코더를 태워서 아래처럼 embedding을 얻는다

여기서 ((X^a_i, X^t_i))는 인덱스 (i)에 해당하는 하나의 오디오-텍스트 쌍이다. 오디오 임베딩 (E^a_i)와 텍스트 임베딩 (E^t_i)는 각각 오디오 인코더 (f_{\text{audio}}(\cdot))와 텍스트 인코더 (f_{\text{text}}(\cdot))를 거친 뒤, 다음의 프로젝션 계층을 통해 얻는다:

오디오/텍스트 프로젝션 계층은 ReLU [18] 활성화를 사용하는 2층 다층 퍼셉트론(MLP)으로, 인코더 출력을 동일한 차원 (D)로 사상한다(즉, (E^a_i, E^t_i \in \mathbb{R}^D)).

모델은 오디오와 텍스트 임베딩 쌍 사이의 대조 학습 패러다임으로 학습되며, [1]과 동일한 손실 함수를 따른다:

여기서 (\tau)는 손실 스케일링을 위한 학습 가능한 온도(temperature) 매개변수다. 두 로그 항은 각각 오디오→텍스트, 텍스트→오디오 로짓을 고려한다. (N)은 보통 전체 데이터 수이지만, 학습 단계에서는 모든 데이터의 전체 행렬을 한 번에 계산할 수 없으므로 배치 경사 하강법으로 모델을 업데이트하며 이때 (N)은 배치 크기를 의미한다.

학습 배치가 N이라 보면되고, N개의 텍스트-오디오 쌍이 있다.
같은 쌍끼리의 유사도가 높아져야하고, 다른 쌍과는 유사도가 낮아져야한다
텍스트 기준으로 보냐, 오디오 기준으로 보냐에 따라 식(3)처럼 텀이 두개 생긴다
식(3)은 근데 objective을 말한 것 같다, loss라면 식에 -을 붙여야한다

모델을 학습한 뒤에는, 그림 1 및 아래 하위절에 나열된 바와 같이 임베딩 ((E^a, E^t))을 다양한 작업에 사용할 수 있다.

3.2. 추론 단계의 다운스트림 작업

텍스트-대-오디오 검색
대상 오디오 임베딩 (E_{a_p}) 는 (M)개의 텍스트 임베딩 집합 (E_t={E_{t_1}, \ldots, E_{t_M}}) 가운데에서 코사인 유사도를 이용해 가장 가까운 텍스트 임베딩 (E_{t_q}) 를 찾아 최적의 매칭을 결정한다.

텍스트-오디오 임베딩끼리 가까운거 찾는 식으로 검색 가능

제로샷 오디오 분류
(M)개의 오디오 클래스 (C={C_1,\ldots,C_M}) 가 주어졌을 때, 이에 대응하는 (M)개의 프롬프트 텍스트 (X_t={X_{t_1}, \ldots, X_{t_M}}) 를 구성할 수 있다(예: “the sound of class-name”).

위처럼, 오디오 분류를 위한 클래스 별로 텍스트를 구성
클래스중에 자동차소리가 있다고 하면, the sound of car 이라고 텍스트를 구성해서 오디오와 임베딩 유사도를 계산하는 것
가장 가까운 프롬프트에 해당하는 클래스로 분류할 수 있다는 것

주어진 오디오 (X_{a_p}) 에 대해, 임베딩 간 코사인 유사도를 계산하여 (X_t) 중 최적 매칭 (X_{t_q}) 를 결정한다.

대조적 언어-오디오 사전학습을 사용하면, 분류 과제를 텍스트-대-오디오 검색 과제로 변환할 수 있으므로 범주에 제약이 없는(즉, 제로샷) 장점이 있다.

지도 오디오 분류

모델 학습 후, 주어진 오디오 (X_{a_p}) 의 임베딩 (E_{a_p}) 는 뒤쪽에 투영층을 추가하고 파인튜닝함으로써 고정된 범주의 분류 과제로 매핑할 수 있다(즉, 비 제로샷 설정).

학습 데이터가 있다면, 뒤쪽에 layer 붙여서 학습 가능

3.3. 오디오 인코더와 텍스트 인코더

오디오 인코더.
우리는 다섯 가지 다른 오디오 인코더를 연구하였다: CNN14 (Kong et al., 2020), ResNet38 (Kong et al., 2020), AST (Gong et al., 2021), PSLA (Wang et al., 2021), 그리고 YAMNet (Google, 2022). CNN14와 ResNet38은 공개된 사전학습된 가중치를 사용하여 Audioset에서 학습되었다. AST는 오디오 스펙트로그램 트랜스포머로, 공개된 사전학습된 모델은 없지만, 우리는 공개된 코드를 사용하여 AST를 처음부터 학습하였다. PSLA는 사전학습된 모델을 제공하며, YAMNet 역시 TensorFlow Hub에서 제공되는 사전학습된 모델이다. 우리는 모델이 다른 오디오 인코더와 함께 작동할 수 있는지를 비교하고, 이 인코더들이 최종 성능에 어떤 영향을 미치는지 분석하였다.

텍스트 인코더.
텍스트 인코더로는 BERT (Devlin et al., 2019)와 RoBERTa (Liu et al., 2019)를 채택하였다. BERT의 경우, base와 large 버전을 실험하였고, RoBERTa의 경우도 base와 large 버전을 실험하였다. 텍스트 인코더는 영어 말뭉치에서 사전학습된 모델을 그대로 사용하였다.

멀티모달 프레임워크 통합.
텍스트 인코더와 오디오 인코더는 모두 대조적 학습 프레임워크에서 결합된다. 이 과정에서, 서로 다른 인코더 조합이 다양한 다운스트림 태스크에서 모델 성능에 어떤 영향을 미치는지 비교·분석하였다.

텍스트 인코더의 출력 차원은 각각 L_CLIP = 512, L_BERT = 768, L_RoBERT a = 768입니다. ReLU 활성화[18]를 사용한 2계층 MLP를 모두 적용하여 오디오 및 텍스트 출력을 모두 512차원으로 매핑합니다. 이는 대조 학습 패러다임으로 학습할 때 오디오/텍스트 표현의 크기입니다.

오디오, 텍스트 인코더를 scratch부터 학습하는게 아니라 따로 학습한 인코더로부터 이어서 학습하는 개념

3.4. 가변 길이 오디오를 위한 특성 융합

RGB 이미지 데이터는 크기를 일정한 해상도로 쉽게 조정할 수 있지만, 오디오는 본질적으로 길이가 가변적이다. 전통적으로는 전체 오디오를 인코더에 입력한 뒤, 프레임별 혹은 청크별 임베딩의 평균을 산출하여 최종 출력을 얻는다(즉, slice & vote 방식). 그러나 이 방법은 긴 오디오에 대해 계산 효율성이 떨어진다.

이에 우리는 그림 1의 왼쪽에서 보이듯이, 전역적인(coarse) 정보와 무작위로 샘플링된 지역(local) 정보를 결합하여 일정한 계산량으로 다양한 길이의 오디오 입력을 학습과 추론에 활용할 수 있도록 하였다.

구체적으로, 입력 길이가 (T) 초이고 고정 청크 길이가 (d=10) 초일 때:

(T <= d): 입력을 반복하여 늘린 뒤 0으로 패딩한다. 예를 들어, 3초짜리 입력은 (3 \times 3 = 9)초로 반복된 후 1초의 0으로 패딩된다.
(T > d): 입력을 (T)초에서 (d)초로 다운샘플링하여 전역 입력으로 사용한다. 동시에 입력의 앞 1/3, 중간 1/3, 뒤 1/3 구간에서 각각 10초짜리 세 개의 클립을 무작위로 잘라 지역 입력으로 활용한다. 이렇게 얻은 (4 $\times$ d) 길이의 입력을 오디오 인코더의 첫 번째 계층에 넣어 초기 특성을 추출한다. 이후 세 개의 지역 특성은 2D-합성곱 계층을 거쳐 하나의 특성으로 통합된다.
고정 길이(d)보다 짧은 입력이 들어오면 반복해서 생성하고 패딩해서 고정길이를 맞춤
고정길이보다 긴 입력이 들어오면, 다운 샘플링하여 전역 입력 1xd, 앞,중간,뒤 1/3 지점으로 짜르고 d만큼 무작위로 잘라서 3xd해서 총 4xd 입력을 만들고, 이를 conv 태워서 하나의 특성으로 만듬

마지막으로, 전역 특성 (X_a^{global}) 과 지역 특성 (X_a^{local}) 은 어텐션 기반 특성 융합(AFF, Attentional Feature Fusion) 을 통해 다음과 같이 결합된다:

여기서 (\alpha = f_{AFF}(X_a^{global}, X_a^{local})) 는 두 입력으로부터 학습되는 융합 계수이다.

이 방식은 단순한 slice & vote에 비해 훈련 시간을 절약할 수 있으며, 긴 오디오를 더 효율적으로 처리하면서도 표현력을 높여준다.

3.5. Keyword-to-Caption Augmentation

2.1절에서 언급했듯, 일부 데이터셋에는 해당 오디오의 합리적인 라벨이나 태그가 키워드 형태로 존재한다.

그림 1의 오른쪽에 말한 바와 같이, 우리는 이러한 키워드를 바탕으로 사전학습된 언어 모델 T5 [22] 를 사용해 캡션을 생성했다.

또한 산출된 문장에 대해 후처리 단계에서 디바이어싱(de-biasing) 을 수행한다. 예컨대 성별 편향을 줄이기 위해 “woman”과 “man”을 ‘person’으로 치환한다. 지면 제약으로 인해, 해당 증강의 예시는 온라인 부록에 제시한다.

4. EXPERIMENTS

다음 절에서는 제안한 모델에 대해 세 가지 실험을 수행한다. 먼저 서로 다른 오디오·텍스트 인코더로 학습하여, 가장 적절한 기준(baseline) 조합을 찾는다. 그다음, 제안 기법의 유효성을 검증하기 위해 특성 융합(feature fusion) 과 키워드→캡션 증강(keyword-to-caption augmentation) 을 포함한 다양한 데이터셋 규모에서 모델을 학습한다. 앞의 두 실험에서는 오디오→텍스트와 텍스트→오디오 검색에서 재현율(Recall) 과 평균정밀도(mAP) 로 성능을 평가한다. 마지막으로, 최적 모델을 사용해 제로샷 및 지도(supervised) 오디오 분류 실험을 수행하여 다운스트림 과제에 대한 일반화 능력을 평가한다.

4.1. 하이퍼파라미터 및 학습 세부사항

학습 과정에서 우리는 배치 크기 768, 옵티마이저로 Adam을 사용하였다.
학습률(learning rate)은 1e-4로 설정하고, cosine learning rate schedule을 적용하였다.
모든 모델은 NVIDIA A100 GPU 32GB × 8개 환경에서 학습되었으며,
AudioCaps 데이터셋의 경우 약 5시간, LAION-Audio-630K 데이터셋의 경우 약 3일 동안 학습이 진행되었다.

오디오 입력은 32kHz로 리샘플링하였고, 로그 멜 스펙트로그램(log-Mel spectrogram) 으로 변환하였다.
프레임 크기(frame size)는 1024, 홉 크기(hop size)는 320, 멜 필터 개수는 64개로 설정하였다.
모델은 대조적 손실(InfoNCE loss) 로 학습되었으며,
오디오 임베딩과 텍스트 임베딩의 코사인 유사도(cosine similarity) 를 기반으로
긍정(positive) 쌍의 유사도를 극대화하고 부정(negative) 쌍의 유사도를 최소화하였다.

추론 시에는 배치 정규화(batch normalization)와 드롭아웃(dropout)이 비활성화된 상태로 진행되었으며,
각 실험은 3회 반복 후 평균값을 결과로 보고하였다.

4.2. 텍스트-오디오 검색 (Text-to-Audio Retrieval)

오디오 및 텍스트 인코더
우선 텍스트-오디오 검색(task)에서 가장 좋은 오디오 인코더와 텍스트 인코더 조합을 찾기 위한 실험을 진행하였다.
3.3절에서 설명한 두 개의 오디오 인코더와 세 개의 텍스트 인코더를 조합하여 실험했으며, 이들 모두 [5, 7, 8]과 동일하게 사전학습(pretrained)된 체크포인트에서 불러왔다.
이 실험에서는 AudioCaps와 Clotho 데이터셋(약 5.5만 쌍의 데이터)만을 이용해 학습을 진행하였고, 오디오→텍스트(A→T) 및 텍스트→오디오(T→A) 검색에서의 mAP@10을 보고하였다.

표 2의 결과에 따르면, 오디오 인코더로는 HTSAT이 PANN보다 더 좋은 성능을 보였으며, 텍스트 인코더로는 RoBERTa가 BERT보다 우수한 성능을 나타냈다.
텍스트와 오디오의 각기 다른 인코더를 고르는게 한계일 수도 있긴할듯

반면 CLIP transformer는 매우 낮은 성능을 보였다.
이는 이전 연구 [4, 8]에서의 텍스트 인코더 선택 결과와 일치한다. 추가적으로, CLIP transformer 모델의 학습 손실 수렴 과정을 분석한 결과, RoBERTa는 과적합이 적은 반면 CLIP transformer는 과적합이 심해 일반화 성능이 낮다는 것을 확인하였다.

데이터셋 규모 (Dataset Scale)
따라서 본 연구에서는 HTSAT-RoBERTa 조합을 최적 모델로 선택하고, 텍스트-오디오 검색 실험의 종합 평가를 표 3에 제시하였다.

이때 [7, 8]에서 사용된 동일한 평가 지표(recall@K)를 적용하였다.

훈련 데이터셋의 규모를 점진적으로 증가시키며 실험을 진행하였다.
“AudioCaps + Clotho”에서 “LAION-Audio-630K(LA.)”로 확장했을 때, AudioCaps 평가셋의 성능은 향상되지 않았으나 Clotho 평가셋에서는 향상되는 결과를 얻었다.
이는 [7]의 MMT 모델과 [5]의 CLAP-HTSAT 비교 결과와 유사하다.
그 이유는 AudioCaps 데이터가 오디오 인코더의 사전학습 데이터인 AudioSet과 유사한 오디오를 포함하고 있기 때문이다.
따라서 모델이 다른 출처의 데이터를 더 많이 학습할수록 일반화 성능은 높아지지만 AudioSet 분포에서 멀어지므로 AudioCaps 성능은 하락하고 Clotho 성능은 상승하게 된다.
즉, 서로 다른 유형의 오디오에 대한 성능 사이에 **trade-off(균형)**가 존재함을 보여준다.

Keyword-to-Caption 및 Feature Fusion
모델에 Feature Fusion 메커니즘과 **Keyword-to-Caption 증강(augmentation)**을 추가했을 때, 둘 다 성능 향상에 기여함을 확인하였다.
특히 Feature Fusion은 Clotho 데이터셋에서 효과적이었는데, 그 이유는 Clotho에 10초 이상의 긴 오디오가 많이 포함되어 있기 때문이다.
또한 AudioSet을 학습 데이터에 추가했을 때, 단순한 template 기반 텍스트 프롬프트나 Keyword-to-Caption 증강 방식을 사용하더라도 AudioCaps에서는 성능이 향상되고 Clotho에서는 감소하는 경향을 보였다.
이는 앞서 언급한 AudioCaps-Clotho 간 성능 trade-off를 다시 확인시켜 준다.
또한 Keyword-to-Caption 증강이 단순한 템플릿 방식보다 대부분의 지표에서 더 나은 성능을 보였다.

결과적으로, 제안한 최적 모델은 텍스트-오디오 검색(task)에서 기존 방법들을 대부분의 지표에서 능가하였다.
특히 AudioCaps에서 R@1 = 36.7%, **Clotho에서 R@1 = 18.2%**를 달성하였다.
이는 **대규모 데이터셋(LAION-Audio-630K 및 AudioSet + Keyword-to-Caption 증강)**과 Feature Fusion이 모델의 성능 향상에 효과적임을 보여준다.

4.3. 제로샷 및 지도 오디오 분류 (Zero-shot and Supervised Audio Classification)

제로샷 오디오 분류 (Zero-shot Audio Classification)
모델의 **일반화 성능(generalization)**과 **강건성(robustness)**을 평가하기 위해, 이전 실험에서 성능이 가장 좋았던 세 가지 모델을 대상으로 제로샷 오디오 분류 실험을 수행하였다.
실험은 세 가지 오디오 분류 데이터셋 — ESC-50 [27], VGGSound [28], UrbanSound8K (US8K) [29] — 에서 진행되었으며, **top-1 정확도(accuracy)**를 성능 지표로 사용하였다.

각 오디오 샘플에 대해, 해당 클래스 레이블을 "This is a sound of <label>.” 형태의 텍스트 프롬프트로 변환하여 **오디오-텍스트 검색(audio-to-text retrieval)**을 수행함으로써 분류를 진행하였다.

즉, 오디오 입력과 각 클래스 텍스트 간의 유사도를 비교하여 가장 높은 유사도를 가지는 클래스를 예측하는 방식이다.
representation 뽑는데도 사용될 수 있는 전략이지만, 위와 같이 기본적으로 검색에 바로 활용하기 쉬운 형태이긴 한듯

또한, 훈련 데이터와 평가 데이터 사이에 중복되는 샘플이 존재함을 발견하였기에, 모든 중복 샘플을 제거한 후 남은 전체 데이터셋에서 제로샷 평가를 수행하였다.

지도 오디오 분류 (Supervised Audio Classification)
지도 학습 기반 오디오 분류는 오디오 인코더를 FSD50K [30] 및 VGGSound 데이터셋에서 **파인튜닝(fine-tuning)**하여 수행하였다.
ESC-50 및 UrbanSound8K에서는 데이터 중복 문제로 인해 결과의 공정한 비교가 어렵기 때문에 지도 학습 실험은 진행하지 않았다.
특히 FSD50K에서는 모델의 성능을 평가하기 위해 mAP(mean average precision) 지표를 사용하였다.

결과 (Results)

표 4의 결과에 따르면, 본 연구의 모델은 **모든 제로샷 오디오 분류 데이터셋에서 새로운 SOTA(state-of-the-art)**를 달성하였다.

이는 제안된 모델이 **보지 못한 데이터(unseen data)**에 대해서도 높은 일반화 능력을 가지고 있음을 보여준다.

Keyword-to-Caption 증강은 텍스트 임베딩 공간을 ‘풍부하게(enrich)’ 만들어
VGGSound 및 US8K에서 큰 성능 향상을 가져왔다.
Feature Fusion은 단지 가변 길이 입력(variable-length input)을 처리할 수 있게 하는 것뿐만 아니라,
기존 모델보다 더 나은 성능을 달성하였다.
지도 학습된 오디오 분류 결과 또한 VGGSound 데이터셋에서 기존 SOTA를 초과하였고,
FSD50K에서는 SOTA에 근접한 성능을 보였다.

이러한 결과는 제안된 모델이 대조 학습(contrastive learning) 과정에서
효율적인 오디오 표현(audio representation)을 성공적으로 학습했음을 입증한다.

5. 결론 및 향후 연구 (Conclusion and Future Work)

본 논문에서는 대규모 오디오-텍스트 데이터셋과 기존 언어-오디오 대조 학습(contrastive learning) 패러다임에 대한 개선 방안을 제안하였다.

우리는 LAION-Audio-630K와 Keyword-to-Caption 증강이 적용된 AudioSet, 그리고 Feature Fusion 메커니즘이 모델의 오디오 이해(audio understanding)와 다양한 태스크에서의 성능 향상에 효과적임을 보였다.
또한 이러한 방법이 **가변 길이(variable-length)**의 오디오 데이터를 처리하는 데에도 효율적인 학습을 가능하게 함을 확인하였다.

향후 연구로는 더 대규모의 데이터셋을 수집하여 학습에 활용하고, 본 연구에서 학습한 표현(representation)을 오디오 합성(audio synthesis) 및 **오디오 분리(audio separation)**와 같은
더 다양한 다운스트림 태스크로 확장하는 것을 계획하고 있다.

Reference

https://arxiv.org/pdf/2211.06687

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

Audio-006, CLAP: Contrastive Language-Audio Pretraining, Preprint 2022