Audio 009, Resurfacing Paralinguistic Awareness in Large Audio Language Models
Abstract
대규모 오디오 언어 모델(LALMs)은 음성 모달리티를 통해 인간과의 상호작용을 확장하며, 사용자 맥락을 암묵적으로 나타내는 준언어적(paralinguistic) 단서로 인해 큰 상호작용 잠재력을 지닌다. 그러나 현재의 콘텐츠 중심 패러다임 위에서 구축된 LALMs는 이러한 준언어적 단서를 대체로 무시하고, 질의 내용에만 기반하여 응답하는 경향이 있다. 본 연구에서는 LALMs에서 준언어적 인식을 복원하기 위해, 준언어적 레이어와 의미 이해 레이어를 공동으로 식별하는 다섯 가지 다양한 레이어별 분석을 제안한다. 이러한 분석을 바탕으로, LALMs에 준언어적 인식 능력을 부여하기 위한 paralinguistic-enhanced fine-tuning (PE-FT) 프로토콜을 제안한다. 이는 (1) 선택적 레이어 파인튜닝과 (2) 보조적인 이중 수준 분류 헤드를 포함한다. 실험 결과, PE-FT 프로토콜은 준언어적 인식을 효율적이고 효과적으로 복원하며, 모든 레이어를 파인튜닝하는 전략보다도 더 우수한 성능을 보임을 확인하였다.
1. Introduction
대규모 언어 모델(LLMs) [1, 2]의 전례 없는 상호작용 능력을 기반으로, 대규모 오디오 언어 모델(LALMs) [3, 4, 5, 6, 7]은 음성 이해까지 그 능력을 확장하여 보다 자연스러운 상호작용을 가능하게 한다. 텍스트 기반 상호작용과 비교할 때, 음성 입력은 질의 내용 자체를 넘어 추가적인 사용자 맥락(예: 나이, 성별, 감정)을 전달하며, 이는 사용자의 준언어적 특성에 따라 적절하고 공감적인 응답을 생성하는 기반이 된다.
예를 들어, 사용자가 “오늘 또 비가 오네”라고 말했을 때, LALMs는 사용자의 감정 상태(예: 기쁨 또는 슬픔)에 따라 공감적인 응답을 생성해야 한다. 그러나 현재의 LALMs는 대부분 LLM의 상호작용 프로토콜을 그대로 계승하여, 콘텐츠 중심의 이해와 응답에 초점을 맞추고 이러한 준언어적 단서를 충분히 활용하지 못하고 있다.
LALMs에서 준언어적 인식의 부재는 공감적 상호작용을 약화시킬 뿐만 아니라, 잠재적인 안전 문제를 초래할 수 있으며, 특히 아동 안전(child safety) 시나리오는 거의 간과되어 왔다. 불법적이거나 비윤리적인 콘텐츠에 초점을 맞춘 기존의 안전 문제 [8, 9, 10, 11, 12]와 달리, 아동 안전 문제는 준언어적 단서가 전달하는 암묵적 사용자 맥락을 LALMs가 무시함으로써 발생하며, 그 결과 아동에게 부적절한 응답을 생성하게 된다. 구체적으로, 아동 사용자가 성인에게는 안전하지만 아동에게는 위험할 수 있는 활동(예: 전기 안전)에 대해 질문할 경우, LALMs는 준언어적 인식의 부재로 인해 성인 사용자에게 제공하는 것과 동일한 단계별 안내를 제공한다. 이는 아동이 성인 감독 없이 이러한 활동을 시도하도록 유도할 수 있으며, 결과적으로 신체적 위험을 초래할 수 있다.
- 기본적으로 성인에게 제공하는 답변식으로 작동하기 때문에, 아동이 질문했을때 LALMs가 위험을 초래할 수 있다는 것
- 하지만 제대로된 LALMs은 목소리로부터 아동임을 알 수 있기 때문에, 이러한 위험을 회피해야한다?
본 논문에서는 이러한 아동 안전 시나리오에서 출발하여, LALMs에서 세 가지 준언어적 범주에 걸쳐 준언어적 인식을 복원하는 것을 목표로 한다. 최근 준언어적 인식을 고려한 LALMs 연구 [13, 14, 15]가 진행되고 있음에도 불구하고, 기존 방법들은 구별력 있는 준언어적 평가가 부족하거나 감정 인식에만 초점을 맞추는 경우가 많다. 준언어적 인식의 핵심은 준언어적 신호와 의미 이해를 통합하는 데 있다. 따라서 우리는 먼저 다섯 가지 다양한 레이어별 분석을 통해 LALMs 내에서 준언어적 레이어와 의미 이해 레이어를 공동으로 식별한다. 이러한 통찰을 바탕으로, 우리는 Paralinguistic-Enhanced Fine-Tuning (PE-FT) 프로토콜을 제안하며, 이는 (1) 선택적 레이어 파인튜닝과 (2) 보조적인 이중 수준 분류 헤드를 포함한다. 또한 구별력 있는 준언어적 평가가 부재한 문제를 해결하기 위해, LALMs의 준언어적 인식을 평가하기 위한 표준 지표로 paralinguistic-aware score (PA-score)와 paralinguistic-aware rate (PA-rate)를 제안한다. 본 논문의 기여는 다음과 같다:
- 우리의 지식 범위 내에서, 본 연구는 LALMs에서 아동 안전 문제를 처음으로 도입한 연구이다. 우리는 일곱 가지 아동 안전 주제를 정의하고 이에 따라 수작업으로 샘플을 구성하였다. 이를 통해 아동 사용자에 대한 잠재적 위험을 완화하기 위한 정규 평가 항목으로 아동 안전 문제가 활용되기를 기대한다.
- 우리는 다섯 가지 다양한 레이어별 분석을 도입하여 준언어적 레이어와 의미 이해 레이어를 공동으로 식별한다. 이러한 분석은 준언어적 신호와 의미 이해를 연결하는 기반을 제공하며, 향후 준언어적 인식 연구에 대한 통찰을 제공한다.
- 우리는 효과적인 PE-FT 프로토콜을 제안하여, LALMs에서 세 가지 준언어적 범주(즉, 나이, 성별, 감정)에 걸친 준언어적 인식을 효율적으로 복원한다. Qwen2.5-Omni와 Kimi-Audio [5, 6]에 대한 실험 결과, PE-FT는 모든 레이어를 파인튜닝하는 방식보다도 더 효과적으로 준언어적 인식 성능을 향상시킴을 보여준다. 또한, LALMs의 준언어적 인식 향상을 통해 아동 안전 문제 역시 완화됨을 확인하였다.
2. Related Work
Paralinguistic-safety in LALMs. 우리와 가장 유사한 안전 시나리오는 SS-Risk [16]이다. 이 연구는 준언어적 요소에 의해 유발되는 위험을 분류하는 taxonomy를 제안하고, 이를 통해 LALMs의 위험 탐지 능력을 평가한다. SS-Risk에서는 LALMs가 상호작용 주체가 아니라 단순한 위험 탐지기로만 사용된다. SS-Risk와 마찬가지로, 본 논문에서 제안하는 아동 안전 문제 역시 준언어적 인식의 부재에서 비롯된다. 따라서 우리는 LALMs에서 준언어적 인식을 복원하는 것을 목표로 하며, 이를 통해 특정 작업에 대한 추가적인 튜닝 없이도 아동 안전 문제를 효과적으로 완화할 수 있다.
Paralinguistic-aware LALMs. 초기의 준언어적 인식을 고려한 LALMs 연구들은 주로 명시적인 준언어적 라벨을 예측한 뒤, 이를 음성 또는 해당 전사 텍스트와 함께 백본 LLM에 입력하여 공감적인 응답을 생성하는 방식에 의존한다 [17, 18, 19]. 이후에는 감정 단서를 음성 이해와 함께 정렬하기 위한 다양한 멀티스테이지 프레임워크가 제안되었으며 [20, 21, 22], 최근 연구인 ReEmpathy [14]는 자기 반성적 교대 추론(self-reflective alternating inference)을 도입하여 공감적 상호작용을 크게 향상시켰다. 그러나 이러한 발전에도 불구하고, 대부분의 연구는 감정 인식에만 초점을 맞추고 있다. GOAT-SLM [15]은 감정을 넘어선 준언어적 인식을 도입했지만, 해당 연구의 감정 샘플은 콘텐츠 기반으로 구성되어 있어 감정 상태가 내용만으로도 추론 가능하다. ParaS2S [13]는 세 가지 준언어적 범주에 대해 LALMs에 준언어적 인식을 부여하기 위한 강화학습(RL) 프레임워크를 제안하였다. 그러나 이 방법은 오디오 중심의 평가에 의존하기 때문에, LALMs의 준언어적 인식을 평가할 수 있는 구별력 있는 지표가 부족하며, 학습 가능한 오디오 합성 모듈이 없는 LALMs(예: Qwen2.5-Omni [5])에는 일반화하기 어렵다. 따라서 우리는 LALMs의 준언어적 인식을 평가하기 위한 지표로 PA-score와 PA-rate를 제안하고, 다양한 레이어별 분석에서 얻은 통찰을 바탕으로 직관적이면서도 효율적이고 효과적인 PE-FT 프로토콜을 제안하여 LALMs에서 준언어적 인식을 복원한다.
3. Child-safety Dataset
우리는 아동 안전 문제를, 준언어적 단서가 나타내는 암묵적인 사용자 맥락(즉, 나이)을 LALMs가 무시함으로써, 의도치 않게 아동 사용자에게 부적절한 응답을 생성하는 현상으로 정의한다.
- 유사한 아동 안전 문제는 LLM에서도 존재하지만, 음성 입력을 사용하는 LALMs는 이러한 위험을 완화할 잠재력을 지니고 있음에도 불구하고, 준언어적 단서는 여전히 충분히 활용되지 않고 있다.
- 또한 LALMs가 실제 환경에 점점 더 많이 배포됨에 따라, 아동 사용자가 이러한 모델과 상호작용하는 진입 장벽은 더욱 낮아지고 있다.
- 아동이 LALMs를 안전하게 사용할 수 있도록 지원하기 위해, 우리는 LALMs 평가를 위한 아동 안전 데이터셋을 구축한다.
Data Collection. 먼저, 우리는 아동 사용자가 성인에게는 안전하지만, 성인의 감독이 없는 상황에서는 아동에게 잠재적으로 위험할 수 있는 질의를 할 수 있는 7가지 일상 시나리오를 정의한다. 이러한 안전 시나리오의 예시는 Table 1에 제시되어 있다. 이후 우리는 샘플 세트를 수작업으로 생성하고, 두 명의 저자가 다음 기준에 따라 추가적으로 주석(annotation)을 수행한다: (1) 샘플의 내용만으로는 사용자의 연령대를 추론할 수 없어야 한다; (2) 질의에 포함된 활동은 아동이 감독 없이 수행할 경우 심각한 신체적 위험을 초래할 수 있어야 한다. 반면 성인은 지침에 따라 이러한 활동을 수행할 수 있는 능력을 가진다. 마지막으로, 각 시나리오마다 10개의 대표 샘플을 선정하여 총 70개의 샘플을 구성하고, 이를 기반으로 합성 음성을 생성한다.
- 시나리오가 이상한것 같지도 않고, 제작 과정이 이상하다기보다는 총 샘플이 너무 적은거 같은데...
- 위처럼 초기 샘플은 사람이 만들고, 이를 통해 LLM으로 증강하는 식은 어땟을가 싶긴한데..
Synthesising Speech. 잠재적인 윤리적 문제를 방지하기 위해, 우리는 상용 텍스트-투-스피치(TTS) 시스템을 활용하여 오디오 샘플을 생성한다. 비현실적인 음성(예: 만화 스타일)을 제외하고, 11명의 아동 화자를 포함하는 아동 음성 목록을 구성한다. 이후 전체 사용 가능한 음성 중에서 무작위로 11명의 성인 화자를 선택한다. §6에서 설명한 데이터 구성 방식과 일관되게, 각 텍스트 샘플에 대해 하나의 아동 음성과 하나의 성인 음성을 무작위로 선택하여 각각 아동 및 성인 오디오 녹음을 생성한다. 이렇게 생성된 오디오 형식의 아동 안전 데이터셋은 준언어적 인식 평가 세트(§6)에 포함된다.
- 즉 70개의 사나리오 샘플, 각 샘플당 아동,성인 음성 하나씩 선택하여 총 140개의 아동 안전 샘플을 만들었다는거 같음
4. Layer-wise Analysis
본 섹션에서는, 내부 표현을 통해 Qwen2.5-Omni와 Kimi-Audio [5, 6]에서 준언어적 레이어와 의미 이해 레이어를 공동으로 식별하기 위해 다섯 가지 다양한 레이어별 분석을 제안하며, 이를 통해 준언어적 신호와 의미를 연결하는 기반을 마련한다.
먼저, 세 가지 준언어적 분류 과제에 대한 프로빙(probing)을 수행하여 레이어 전반에 걸친 준언어적 신호의 표현을 탐색한다 (§4.1). 다음으로, 의도 분류(Intent Classification, IC) 프로브와 연령 인식 분석을 도입하여 의미 이해 레이어를 공동으로 식별한다 (§4.2). 마지막으로, logit lens를 활용하여 생성 레이어를 분석하고 관련 없는 레이어를 제외한다 (§4.3).
4.1. Paralinguistic probe
레이어 표현 내에 풍부한 준언어적 신호가 존재하여 준언어적 인식을 지원할 수 있는지를 조사하기 위해, 우리는 세 가지 준언어적 범주에 대해 선형 프로빙(linear probing)을 수행한다.
구체적으로, 각 준언어적 범주에 대해, 준언어적 인식 학습 데이터셋(§6에서 설명됨)에서 일부를 무작위로 선택하여 해당 프로빙 데이터셋을 구성하며, 각 속성(attribute)은 100개의 샘플을 포함한다.
- 이후 각 오디오는 LALMs에 입력되어, 각 트랜스포머 레이어 출력에서 오디오 hidden state를 평균 풀링(mean-pooling)하여 레이어 표현을 얻는다 [23].
각 준언어적 범주에 대해, 우리는 레이어 표현을 입력으로 사용하는 별도의 선형 분류기를 이용하여 속성 분류 과제(예: 연령 범주에서 아동 vs. 성인 예측)를 수행함으로써, 준언어적 신호의 강도를 정량화한다 [23]. 우리는 샘플링 과정을 세 번 반복하고, 세 번의 실행에 대한 평균 분류 정확도를 보고한다.
Figure 1에 나타난 결과에서, Qwen2.5-Omni와 Kimi-Audio는 세 가지 준언어적 분류 과제 전반에 걸쳐 일관된 레이어별 패턴을 보인다. 음영 처리된 초기 레이어 구간(레이어 0–6)은 비교적 안정적이고 높은 정확도를 유지하며, 이는 해당 레이어들이 선형적으로 잘 분리 가능한 강한 준언어적 신호를 유지하고 있음을 의미한다.
그러나 레이어 7에서 눈에 띄는 성능 하락이 관찰되며, 이후 정확도는 지속적으로 감소하여 결국 거의 무작위 수준에 도달한다. 우리는 이러한 패턴이 현재의 콘텐츠 중심 모달리티 튜닝 프로토콜이 화자 불변(speaker-invariant) 표현을 강조하면서 준언어적 신호를 억제하기 때문이라고 해석한다.
따라서 우리는 레이어 0–6을 준언어적 정보가 두드러지는 레이어(paralinguistic-salient layers)로 잠정적으로 식별한다.
뒤에 섹션에서 말하는 데이터로 다음과 같이 있다.
- age → child vs adult
- gender → male vs female
- emotion → 6 classes
이걸 100개 가져와서, 이로 학습하고 테스트했다는 것. 만약 layer가 이를 구분하는 feature을 뽑지 못한다면, 제대로 학습이 안될 것이기 때문이다.
- 여러 timestep token의 hidden representation이 있기 때문에, 이를 평균 풀링 해서 feature로 사용했다는 것
- layer 6까지는 잘 분리하는 편인데, layer 7부터는 거의 무작위 수준이라고 함 (Figure 2 보면 될듯)
Reference
댓글
댓글 쓰기