Audio-007, SpeechT5: Unified-Modal Encoder-Decoder Pre-Training for Spoken Language Processing, ACL 2022

이미지
Abstract T5(Text-To-Text Transfer Transformer) 모델이 자연어 처리 분야의 사전학습(pre-trained) 모델에서 성공을 거둔 것에 영감을 받아, 우리는 자기지도학습 기반 음성/텍스트 표현 학습을 위한 인코더-디코더 사전학습(unified-modal encoder-decoder pre-training) 프레임워크인 SpeechT5 를 제안한다. SpeechT5 프레임워크는 공유 인코더-디코더 네트워크(shared encoder-decoder network) 와 6개의 모달리티별(음성/텍스트) 전처리(pre-net) 및 후처리(post-net) 로 구성된다. 입력된 음성 또는 텍스트는 먼저 pre-net을 통해 전처리되며, 그 다음 공유 인코더-디코더 네트워크가 시퀀스-투-시퀀스 변환(sequence-to-sequence transformation) 을 수행한다. 이후 post-net이 디코더의 출력을 기반으로 음성 또는 텍스트 형태의 출력을 생성한다. 대규모의 라벨 없는 음성 및 텍스트 데이터를 활용하여 SpeechT5를 사전학습함으로써, 우리는 음성과 텍스트 모두에 대해 향상된 모델링 능력을 가지는 통합 모달 표현(unified-modal representation) 을 학습하도록 한다. 텍스트와 음성 정보를 동일한 의미 공간(semantic space)에 정렬하기 위해, 우리는 크로스모달 벡터 양자화(cross-modal vector quantization) 방법을 제안한다.   이 방법은 인코더와 디코더 사이의 인터페이스로서, 음성/텍스트 상태와 잠재(latent) 단위를 무작위로 혼합한다. 광범위한 평가 결과는 제안된 SpeechT5 프레임워크가 다양한 음성 언어 처리(spoken language processing) 작업에서 우수함을 보여준다. 이에는 자동 음성 인식(ASR), 음성 합성(TTS), 음성 번역(ST), 음성 변환(VC), 음성 향상(SE), 화자 식별(SID) 등이 포함된다....

Audio-006, CLAP: Contrastive Language-Audio Pretraining, Preprint 2022

이미지
◼ Comment 이 논문은 거의 CLIP과 똑같은 것 같음 학습 데이터는 텍스트-오디오 쌍을 모아야함 LAION-Audio-630K 란 데이터를 공개 키워드-투-텍스트 모델을 통해, 생성된 텍스트를 오디오 설명 레이블 텍스트로 사용 이 데이터는 여러 소스를 합친것으로, 일부 레이블은 키워드만 있기 때문에 위 방식으로 데이터 확장한것으로 보면됨 (원래부터 텍스트 레이블이 있는 경우도 존재하는 듯) 공개한 데이터는 4300 시간정도 되고, 인간 활동(human activities), 자연 소리(natural sounds), 오디오 효과(audio effects)을 포함함 이전에 공개된 오픈된 데이터를 사용해서도 실험하였음 학습 방식 학습 과정은 CLIP과 거의 유사한듯 식 1,2,3와 그림을 보면 직관적 이해 가능 여기서 사용되는 오디오, 텍스트 인코더는 기존에 학습된 모델들 사용 오디오 길이는 되게 다양한 세팅인가봄 따라서 가변 오디오 길이를 피쳐로 뽑기위해 3.2섹션에서 설명을함 고정 길이(d)보다 짧은 입력이 들어오면 반복해서 생성하고 패딩해서 고정길이를 맞춤  고정길이보다 긴 입력이 들어오면, 다운 샘플링하여 전역 입력 1xd, 앞,중간,뒤 1/3 지점으로 짜르고 d만큼 무작위로 잘라서 3xd해서 총 4xd 입력을 만들고, 이를 conv 태워서 하나의 특성으로 만듬 다운스트림 테스크 기본적으로 CLIP과 같이 제로샷 검색에 활용 가능 학습 데이터가 있을때는 layer 붙여서 fine-tune하여 사용할 수 있음 표 4의 결과에 따르면, 본 연구의 모델은 **모든 제로샷 오디오 분류 데이터셋에서 새로운 SOTA(state-of-the-art)**를 달성하였다. ABSTRACT 대조 학습(contrastive learning)은 다중 모달 표현 학습 분야에서 눈에 띄는 성과를 보여왔다. 본 논문에서는 오디오 데이터를 자연어 설명과 결합하여 오디오 표현을 개발하는 대조 언어-오디오 사전학습(contrastive language-audio pr...

Audio-005, Whisper: Robust Speech Recognition via Large-Scale Weak Supervision, OpenAI 2022

이미지
◼ Comment pretraining / sft 이런식으로 단계를 나누지 말고 한번에 학습하자 와이? self-supervised 인코더만으로는 실제 사용가능한 출력으로 활용하기 어렵기 때문 (hubert 이런거 말하는듯)   본 연구에서는 이 격차를 해소하여, 약한 감독 기반 음성 인식을 다음 차원으로 확장해 68만 시간 규모의 라벨된 오디오 데이터로 학습한다.  총 68만 시간 중 11만7천 시간은 96개 다른 언어를 포함하며, 데이터셋에는 X→en 번역 데이터 12만5천 시간도 포함된다. 충분히 큰 모델의 경우, 다국어·다중 과제의 공동 학습에는 손해가 없을 뿐 아니라 오히려 이점이 있음을 확인했다. Transformer encoder decoder 구조임 그림보면, 구조가 특별히 다른게 없어보이긴함 데이터 형식 <|startoftranscript|>  : 모델이 출력을 시작한다는 신호. <|nospeech|>  : 주어진 오디오 구간(30초 세그먼트)에  음성이 없는 경우  예측하는 토큰. <|transcribe|>  :  동일 언어로 전사(transcription)  해야 한다는 지시. <|translate|>  :  영어로 번역(translation)  해야 한다는 지시. <|notimestamps|>  : 타임스탬프를 포함하지 말라는 옵션. (반대로 타임스탬프 모드를 켜면  <|t0.00|> ,  <|t1.20|>  같은 토큰이 함께 생성됨) <|startoftranscript|><|ko|><|transcribe|><|notimestamps|> 안녕하세요, 반갑습니다. <|endoftranscript|> <|startoftranscript|><|en|><...