Audio 009, Resurfacing Paralinguistic Awareness in Large Audio Language Models
Abstract 대규모 오디오 언어 모델(LALMs)은 음성 모달리티를 통해 인간과의 상호작용을 확장하며, 사용자 맥락을 암묵적으로 나타내는 준언어적(paralinguistic) 단서로 인해 큰 상호작용 잠재력을 지닌다. 그러나 현재의 콘텐츠 중심 패러다임 위에서 구축된 LALMs는 이러한 준언어적 단서를 대체로 무시하고, 질의 내용에만 기반하여 응답하는 경향이 있다. 본 연구에서는 LALMs에서 준언어적 인식을 복원하기 위해, 준언어적 레이어와 의미 이해 레이어를 공동으로 식별하는 다섯 가지 다양한 레이어별 분석을 제안한다. 이러한 분석을 바탕으로, LALMs에 준언어적 인식 능력을 부여하기 위한 paralinguistic-enhanced fine-tuning (PE-FT) 프로토콜을 제안한다. 이는 (1) 선택적 레이어 파인튜닝과 (2) 보조적인 이중 수준 분류 헤드를 포함한다. 실험 결과, PE-FT 프로토콜은 준언어적 인식을 효율적이고 효과적으로 복원하며, 모든 레이어를 파인튜닝하는 전략보다도 더 우수한 성능을 보임을 확인하였다. 1. Introduction 대규모 언어 모델(LLMs) [1, 2]의 전례 없는 상호작용 능력을 기반으로, 대규모 오디오 언어 모델(LALMs) [3, 4, 5, 6, 7]은 음성 이해까지 그 능력을 확장하여 보다 자연스러운 상호작용을 가능하게 한다. 텍스트 기반 상호작용과 비교할 때, 음성 입력은 질의 내용 자체를 넘어 추가적인 사용자 맥락(예: 나이, 성별, 감정)을 전달하며, 이는 사용자의 준언어적 특성에 따라 적절하고 공감적인 응답을 생성하는 기반이 된다. 예를 들어, 사용자가 “오늘 또 비가 오네”라고 말했을 때, LALMs는 사용자의 감정 상태(예: 기쁨 또는 슬픔)에 따라 공감적인 응답을 생성해야 한다. 그러나 현재의 LALMs는 대부분 LLM의 상호작용 프로토콜을 그대로 계승하여, 콘텐츠 중심의 이해와 응답에 초점을 맞추고 이러한 준언어적 단서를 충분히 활용하지 못하고 있다. LALMs에서...