◼ Comment

LALM의 한계로 현재, 입력 오디오의 정보를 활용하지 못하고 있다는 것

대표적으로 음성이 아동인지, 성인인지에 따라 답변이 나가는 방식이 달라야 한다.
똑같은 요청이여도 아동에게는 위험할 수 있기 때문이다

먼저 LALM이 이러한 paralinguistic을 어디서 구분하는지 분석을 시도함

Layer 별로 linear probing을 하여 어떤 layer가 paralinguistic을 인식할 수 있는지 확인해보았더니
paralinguistic는 0~6 layer에서 잘 분리하고
semantic은 7~14 layer에서 잘 분리하고
15 layer부터는 이러한 능력이 없다고 함
추가적으로 IC cosine 유사도를 통해 해당 layer들이 paralinguistic/semantic 정보를 구분할 수 있다는 추가적인 정보를 제공함
근데 여기서 probing에 사용된 데이터는 어떤것이지?

실험은, layer 0~14만 학습 / layer 15+는 freeze 해서 selective하게 layer을 학습하여 준언어적 인식을 부여한다는 것

여기서 ADCH라고 multi-task 학습처럼, 카테고리 분류 학습하는 loss을 걸어줌
결론은 full fine-tuning 하는것보다 해당 layer만 학습하는 것이 더욱 성능이 좋아짐을 보여줌
근데 그렇다면 15 layer 이후는 왜 존재하는가? 준언어적 인식에 도움이 안된다면 이것을 학습안하는게 전반적인 성능에 도움이 되는 것인가?

요약

본 논문은 Large Audio Language Models(LALMs)이 음성에 포함된 준언어적 정보(예: 나이, 성별, 감정)를 충분히 활용하지 못하고, 주로 콘텐츠 중심으로 응답한다는 문제를 지적한다. 이를 분석하기 위해 다양한 layer-wise probing을 수행하여, 초기 레이어(0–6)는 paralinguistic 정보를, 중간 레이어(7–14)는 semantic 이해를 담당하며, 이후 레이어는 주로 token prediction을 위한 contextualization에 기여함을 보인다. 이러한 분석을 바탕으로, paralinguistic 정보와 semantic 이해를 효과적으로 결합하기 위해 일부 레이어(0–14)만 선택적으로 학습하는 selective-layer fine-tuning과 auxiliary dual-level classification head(ADCH)를 포함한 PE-FT 방법을 제안한다.

장점

문제 정의가 명확하며, 특히 child-safety와 연결하여 paralinguistic awareness의 실질적 중요성을 설득력 있게 제시한다. 또한 다양한 layer-wise 분석을 통해 paralinguistic 정보와 semantic 정보가 레이어별로 어떻게 분리되어 나타나는지를 일관되게 보여주며, 이러한 분석을 기반으로 단순하지만 직관적인 방법론(Selective-layer fine-tuning)을 제안하였다. 제안 방법은 구조적으로 복잡하지 않으면서도 all-layer tuning 대비 더 나은 성능을 달성하며, 학습에 포함되지 않은 시나리오(예: child-safety)에서도 성능이 향상되는 점에서 단순한 과적합이 아니라 일반적인 능력 개선 가능성을 시사한다.

단점

Selective-layer fine-tuning이 all-layer tuning보다 효과적이라는 결과는 흥미롭지만, 이에 대한 이론적 설명은 충분하지 않다. 특히 일부 레이어만 학습하는 것이 더 나은 이유와 레이어 15 이후의 역할에 대한 분석이 제한적이다. 또한 본 방법은 layer-wise probing과 logit lens 분석을 기반으로 설계되어 직관적이지만, 기존 분석 기법의 연장선에 머무르는 측면이 있어 방법론적 novelty는 다소 제한적으로 보인다. 더불어 selective tuning이 일반 성능이나 다른 다운스트림 태스크에 미치는 영향에 대한 분석이 부족하며, 일부 성능 저하를 고려할 때 전반적인 trade-off에 대한 논의가 필요하다.

Minor 단점

또한 probing 데이터 구성, 샘플링 방식, 프롬프트 및 데이터 생성 과정 등의 세부 설정이 충분히 구체적으로 제시되지 않아 재현성 측면에서 아쉬움이 있다.

Abstract

대규모 오디오 언어 모델(LALMs)은 음성 모달리티를 통해 인간과의 상호작용을 확장하며, 사용자 맥락을 암묵적으로 나타내는 준언어적(paralinguistic) 단서로 인해 큰 상호작용 잠재력을 지닌다. 그러나 현재의 콘텐츠 중심 패러다임 위에서 구축된 LALMs는 이러한 준언어적 단서를 대체로 무시하고, 질의 내용에만 기반하여 응답하는 경향이 있다. 본 연구에서는 LALMs에서 준언어적 인식을 복원하기 위해, 준언어적 레이어와 의미 이해 레이어를 공동으로 식별하는 다섯 가지 다양한 레이어별 분석을 제안한다. 이러한 분석을 바탕으로, LALMs에 준언어적 인식 능력을 부여하기 위한 paralinguistic-enhanced fine-tuning (PE-FT) 프로토콜을 제안한다. 이는 (1) 선택적 레이어 파인튜닝과 (2) 보조적인 이중 수준 분류 헤드를 포함한다. 실험 결과, PE-FT 프로토콜은 준언어적 인식을 효율적이고 효과적으로 복원하며, 모든 레이어를 파인튜닝하는 전략보다도 더 우수한 성능을 보임을 확인하였다.

1. Introduction

대규모 언어 모델(LLMs) [1, 2]의 전례 없는 상호작용 능력을 기반으로, 대규모 오디오 언어 모델(LALMs) [3, 4, 5, 6, 7]은 음성 이해까지 그 능력을 확장하여 보다 자연스러운 상호작용을 가능하게 한다. 텍스트 기반 상호작용과 비교할 때, 음성 입력은 질의 내용 자체를 넘어 추가적인 사용자 맥락(예: 나이, 성별, 감정)을 전달하며, 이는 사용자의 준언어적 특성에 따라 적절하고 공감적인 응답을 생성하는 기반이 된다.

예를 들어, 사용자가 “오늘 또 비가 오네”라고 말했을 때, LALMs는 사용자의 감정 상태(예: 기쁨 또는 슬픔)에 따라 공감적인 응답을 생성해야 한다. 그러나 현재의 LALMs는 대부분 LLM의 상호작용 프로토콜을 그대로 계승하여, 콘텐츠 중심의 이해와 응답에 초점을 맞추고 이러한 준언어적 단서를 충분히 활용하지 못하고 있다.

LALMs에서 준언어적 인식의 부재는 공감적 상호작용을 약화시킬 뿐만 아니라, 잠재적인 안전 문제를 초래할 수 있으며, 특히 아동 안전(child safety) 시나리오는 거의 간과되어 왔다. 불법적이거나 비윤리적인 콘텐츠에 초점을 맞춘 기존의 안전 문제 [8, 9, 10, 11, 12]와 달리, 아동 안전 문제는 준언어적 단서가 전달하는 암묵적 사용자 맥락을 LALMs가 무시함으로써 발생하며, 그 결과 아동에게 부적절한 응답을 생성하게 된다. 구체적으로, 아동 사용자가 성인에게는 안전하지만 아동에게는 위험할 수 있는 활동(예: 전기 안전)에 대해 질문할 경우, LALMs는 준언어적 인식의 부재로 인해 성인 사용자에게 제공하는 것과 동일한 단계별 안내를 제공한다. 이는 아동이 성인 감독 없이 이러한 활동을 시도하도록 유도할 수 있으며, 결과적으로 신체적 위험을 초래할 수 있다.

기본적으로 성인에게 제공하는 답변식으로 작동하기 때문에, 아동이 질문했을때 LALMs가 위험을 초래할 수 있다는 것
하지만 제대로된 LALMs은 목소리로부터 아동임을 알 수 있기 때문에, 이러한 위험을 회피해야한다?

본 논문에서는 이러한 아동 안전 시나리오에서 출발하여, LALMs에서 세 가지 준언어적 범주에 걸쳐 준언어적 인식을 복원하는 것을 목표로 한다. 최근 준언어적 인식을 고려한 LALMs 연구 [13, 14, 15]가 진행되고 있음에도 불구하고, 기존 방법들은 구별력 있는 준언어적 평가가 부족하거나 감정 인식에만 초점을 맞추는 경우가 많다. 준언어적 인식의 핵심은 준언어적 신호와 의미 이해를 통합하는 데 있다. 따라서 우리는 먼저 다섯 가지 다양한 레이어별 분석을 통해 LALMs 내에서 준언어적 레이어와 의미 이해 레이어를 공동으로 식별한다. 이러한 통찰을 바탕으로, 우리는 Paralinguistic-Enhanced Fine-Tuning (PE-FT) 프로토콜을 제안하며, 이는 (1) 선택적 레이어 파인튜닝과 (2) 보조적인 이중 수준 분류 헤드를 포함한다. 또한 구별력 있는 준언어적 평가가 부재한 문제를 해결하기 위해, LALMs의 준언어적 인식을 평가하기 위한 표준 지표로 paralinguistic-aware score (PA-score)와 paralinguistic-aware rate (PA-rate)를 제안한다. 본 논문의 기여는 다음과 같다:

우리의 지식 범위 내에서, 본 연구는 LALMs에서 아동 안전 문제를 처음으로 도입한 연구이다. 우리는 일곱 가지 아동 안전 주제를 정의하고 이에 따라 수작업으로 샘플을 구성하였다. 이를 통해 아동 사용자에 대한 잠재적 위험을 완화하기 위한 정규 평가 항목으로 아동 안전 문제가 활용되기를 기대한다.
우리는 다섯 가지 다양한 레이어별 분석을 도입하여 준언어적 레이어와 의미 이해 레이어를 공동으로 식별한다. 이러한 분석은 준언어적 신호와 의미 이해를 연결하는 기반을 제공하며, 향후 준언어적 인식 연구에 대한 통찰을 제공한다.
우리는 효과적인 PE-FT 프로토콜을 제안하여, LALMs에서 세 가지 준언어적 범주(즉, 나이, 성별, 감정)에 걸친 준언어적 인식을 효율적으로 복원한다. Qwen2.5-Omni와 Kimi-Audio [5, 6]에 대한 실험 결과, PE-FT는 모든 레이어를 파인튜닝하는 방식보다도 더 효과적으로 준언어적 인식 성능을 향상시킴을 보여준다. 또한, LALMs의 준언어적 인식 향상을 통해 아동 안전 문제 역시 완화됨을 확인하였다.

2. Related Work

Paralinguistic-safety in LALMs. 우리와 가장 유사한 안전 시나리오는 SS-Risk [16]이다. 이 연구는 준언어적 요소에 의해 유발되는 위험을 분류하는 taxonomy를 제안하고, 이를 통해 LALMs의 위험 탐지 능력을 평가한다. SS-Risk에서는 LALMs가 상호작용 주체가 아니라 단순한 위험 탐지기로만 사용된다. SS-Risk와 마찬가지로, 본 논문에서 제안하는 아동 안전 문제 역시 준언어적 인식의 부재에서 비롯된다. 따라서 우리는 LALMs에서 준언어적 인식을 복원하는 것을 목표로 하며, 이를 통해 특정 작업에 대한 추가적인 튜닝 없이도 아동 안전 문제를 효과적으로 완화할 수 있다.

Paralinguistic-aware LALMs. 초기의 준언어적 인식을 고려한 LALMs 연구들은 주로 명시적인 준언어적 라벨을 예측한 뒤, 이를 음성 또는 해당 전사 텍스트와 함께 백본 LLM에 입력하여 공감적인 응답을 생성하는 방식에 의존한다 [17, 18, 19]. 이후에는 감정 단서를 음성 이해와 함께 정렬하기 위한 다양한 멀티스테이지 프레임워크가 제안되었으며 [20, 21, 22], 최근 연구인 ReEmpathy [14]는 자기 반성적 교대 추론(self-reflective alternating inference)을 도입하여 공감적 상호작용을 크게 향상시켰다. 그러나 이러한 발전에도 불구하고, 대부분의 연구는 감정 인식에만 초점을 맞추고 있다. GOAT-SLM [15]은 감정을 넘어선 준언어적 인식을 도입했지만, 해당 연구의 감정 샘플은 콘텐츠 기반으로 구성되어 있어 감정 상태가 내용만으로도 추론 가능하다. ParaS2S [13]는 세 가지 준언어적 범주에 대해 LALMs에 준언어적 인식을 부여하기 위한 강화학습(RL) 프레임워크를 제안하였다. 그러나 이 방법은 오디오 중심의 평가에 의존하기 때문에, LALMs의 준언어적 인식을 평가할 수 있는 구별력 있는 지표가 부족하며, 학습 가능한 오디오 합성 모듈이 없는 LALMs(예: Qwen2.5-Omni [5])에는 일반화하기 어렵다. 따라서 우리는 LALMs의 준언어적 인식을 평가하기 위한 지표로 PA-score와 PA-rate를 제안하고, 다양한 레이어별 분석에서 얻은 통찰을 바탕으로 직관적이면서도 효율적이고 효과적인 PE-FT 프로토콜을 제안하여 LALMs에서 준언어적 인식을 복원한다.

3. Child-safety Dataset

우리는 아동 안전 문제를, 준언어적 단서가 나타내는 암묵적인 사용자 맥락(즉, 나이)을 LALMs가 무시함으로써, 의도치 않게 아동 사용자에게 부적절한 응답을 생성하는 현상으로 정의한다.

유사한 아동 안전 문제는 LLM에서도 존재하지만, 음성 입력을 사용하는 LALMs는 이러한 위험을 완화할 잠재력을 지니고 있음에도 불구하고, 준언어적 단서는 여전히 충분히 활용되지 않고 있다.
또한 LALMs가 실제 환경에 점점 더 많이 배포됨에 따라, 아동 사용자가 이러한 모델과 상호작용하는 진입 장벽은 더욱 낮아지고 있다.
아동이 LALMs를 안전하게 사용할 수 있도록 지원하기 위해, 우리는 LALMs 평가를 위한 아동 안전 데이터셋을 구축한다.

Data Collection. 먼저, 우리는 아동 사용자가 성인에게는 안전하지만, 성인의 감독이 없는 상황에서는 아동에게 잠재적으로 위험할 수 있는 질의를 할 수 있는 7가지 일상 시나리오를 정의한다. 이러한 안전 시나리오의 예시는 Table 1에 제시되어 있다. 이후 우리는 샘플 세트를 수작업으로 생성하고, 두 명의 저자가 다음 기준에 따라 추가적으로 주석(annotation)을 수행한다: (1) 샘플의 내용만으로는 사용자의 연령대를 추론할 수 없어야 한다; (2) 질의에 포함된 활동은 아동이 감독 없이 수행할 경우 심각한 신체적 위험을 초래할 수 있어야 한다. 반면 성인은 지침에 따라 이러한 활동을 수행할 수 있는 능력을 가진다. 마지막으로, 각 시나리오마다 10개의 대표 샘플을 선정하여 총 70개의 샘플을 구성하고, 이를 기반으로 합성 음성을 생성한다.

시나리오가 이상한것 같지도 않고, 제작 과정이 이상하다기보다는 총 샘플이 너무 적은거 같은데...
위처럼 초기 샘플은 사람이 만들고, 이를 통해 LLM으로 증강하는 식은 어땟을가 싶긴한데..

Synthesising Speech. 잠재적인 윤리적 문제를 방지하기 위해, 우리는 상용 텍스트-투-스피치(TTS) 시스템을 활용하여 오디오 샘플을 생성한다. 비현실적인 음성(예: 만화 스타일)을 제외하고, 11명의 아동 화자를 포함하는 아동 음성 목록을 구성한다. 이후 전체 사용 가능한 음성 중에서 무작위로 11명의 성인 화자를 선택한다. §6에서 설명한 데이터 구성 방식과 일관되게, 각 텍스트 샘플에 대해 하나의 아동 음성과 하나의 성인 음성을 무작위로 선택하여 각각 아동 및 성인 오디오 녹음을 생성한다. 이렇게 생성된 오디오 형식의 아동 안전 데이터셋은 준언어적 인식 평가 세트(§6)에 포함된다.

즉 70개의 사나리오 샘플, 각 샘플당 아동,성인 음성 하나씩 선택하여 총 140개의 아동 안전 샘플을 만들었다는거 같음

4. Layer-wise Analysis

본 섹션에서는, 내부 표현을 통해 Qwen2.5-Omni와 Kimi-Audio [5, 6]에서 준언어적 레이어와 의미 이해 레이어를 공동으로 식별하기 위해 다섯 가지 다양한 레이어별 분석을 제안하며, 이를 통해 준언어적 신호와 의미를 연결하는 기반을 마련한다.

먼저, 세 가지 준언어적 분류 과제에 대한 프로빙(probing)을 수행하여 레이어 전반에 걸친 준언어적 신호의 표현을 탐색한다 (§4.1). 다음으로, 의도 분류(Intent Classification, IC) 프로브와 연령 인식 분석을 도입하여 의미 이해 레이어를 공동으로 식별한다 (§4.2). 마지막으로, logit lens를 활용하여 생성 레이어를 분석하고 관련 없는 레이어를 제외한다 (§4.3).

4.1. Paralinguistic probe

레이어 표현 내에 풍부한 준언어적 신호가 존재하여 준언어적 인식을 지원할 수 있는지를 조사하기 위해, 우리는 세 가지 준언어적 범주에 대해 선형 프로빙(linear probing)을 수행한다.

구체적으로, 각 준언어적 범주에 대해, 준언어적 인식 학습 데이터셋(§6에서 설명됨)에서 일부를 무작위로 선택하여 해당 프로빙 데이터셋을 구성하며, 각 속성(attribute)은 100개의 샘플을 포함한다.

이후 각 오디오는 LALMs에 입력되어, 각 트랜스포머 레이어 출력에서 오디오 hidden state를 평균 풀링(mean-pooling)하여 레이어 표현을 얻는다 [23].

각 준언어적 범주에 대해, 우리는 레이어 표현을 입력으로 사용하는 별도의 선형 분류기를 이용하여 속성 분류 과제(예: 연령 범주에서 아동 vs. 성인 예측)를 수행함으로써, 준언어적 신호의 강도를 정량화한다 [23]. 우리는 샘플링 과정을 세 번 반복하고, 세 번의 실행에 대한 평균 분류 정확도를 보고한다.

Figure 1에 나타난 결과에서, Qwen2.5-Omni와 Kimi-Audio는 세 가지 준언어적 분류 과제 전반에 걸쳐 일관된 레이어별 패턴을 보인다. 음영 처리된 초기 레이어 구간(레이어 0–6)은 비교적 안정적이고 높은 정확도를 유지하며, 이는 해당 레이어들이 선형적으로 잘 분리 가능한 강한 준언어적 신호를 유지하고 있음을 의미한다.

그러나 레이어 7에서 눈에 띄는 성능 하락이 관찰되며, 이후 정확도는 지속적으로 감소하여 결국 거의 무작위 수준에 도달한다. 우리는 이러한 패턴이 현재의 콘텐츠 중심 모달리티 튜닝 프로토콜이 화자 불변(speaker-invariant) 표현을 강조하면서 준언어적 신호를 억제하기 때문이라고 해석한다.

따라서 우리는 레이어 0–6을 준언어적 정보가 두드러지는 레이어(paralinguistic-salient layers)로 잠정적으로 식별한다.

뒤에 섹션에서 말하는 데이터로 다음과 같이 있다.

age → child vs adult
gender → male vs female
emotion → 6 classes

이걸 100개 가져와서, 이로 학습하고 테스트했다는 것. 만약 layer가 이를 구분하는 feature을 뽑지 못한다면, 제대로 학습이 안될 것이기 때문이다.

여러 timestep token의 hidden representation이 있기 때문에, 이를 평균 풀링 해서 feature로 사용했다는 것
Paralinguistic 정보는 layer 6까지는 잘 분리하는 편인데, layer 7부터는 거의 무작위 수준이라고 함 (Figure 2 보면 될듯)

4.2. Semantic understanding probe

우리는 의미 이해 레이어를 공동으로 식별하기 위해 세 가지 레이어별 분석을 도입한다. 준언어적 프로빙과 동일하게, 각 레이어 출력의 오디오 hidden state를 평균 풀링(mean-pooling)하여 레이어 표현을 얻는다.

4.2.1. IC probe

의도 분류(Intent Classification, IC)는 모델의 의미 이해 능력을 평가하기 위한 표준 과제이다. 따라서 우리는 Fluent Speech Commands 데이터셋 [24]을 사용하여 LALMs에 대한 의미적 프로빙을 수행한다.

레이어 전반에 걸친 의미 신호를 보다 세밀하게 드러내기 위해, 우리는 [25]의 설정을 따른다. 구체적으로, 원본 데이터셋의 1%를 무작위로 샘플링하여 학습(train) 분할을 구성하고, 이후 학습 분할과 텍스트 내용이 겹치지 않도록 하여 dev 및 test 분할을 구성한다.

준언어적 프로빙과 동일하게, 우리는 레이어 표현을 입력으로 사용하는 선형 분류기를 이용하여 실험을 수행한다. 샘플링 및 분할 과정을 다섯 번 반복하고, 다섯 번의 실행에 대한 평균 정확도를 보고한다.

Figure 2에 나타난 결과는 Qwen2.5-Omni와 Kimi-Audio 모두에서 매우 일관된 레이어별 경향을 보인다. 초기 레이어(레이어 0–6)에서는 프로빙 정확도가 낮은 수준에 머무르다가, 레이어 7에서 급격한 상승이 나타난다. Figure 1과 Figure 2에서 레이어 7에서 관찰되는 대비되는 동시에 동기화된 변화는, 인코딩되는 정보의 전환을 시사한다. 즉, 콘텐츠 중심의 의미 이해가 지배적이 되기 시작하며, 동시에 준언어적 신호는 점진적으로 억제된다.

이후 레이어 15부터 정확도가 뚜렷하게 감소하는데, 이는 레이어 14가 의미 이해 레이어의 상한 경계일 수 있음을 시사한다. 따라서 우리는 레이어 7–14를 의미 이해 레이어로 가정하며, 이후의 분석은 추가적인 관점에서 이를 뒷받침하는 경험적 근거를 제공한다.

4.1에서 말하는 Paralinguistic 와 달리 semantic (intent) 정보는 중간(7) layer부터 형성되다가 15부터 다시 감소함

4.2.2. IC cosine similarity

IC 데이터셋에는 내용 차이는 거의 없지만 서로 다른 의도 레이블을 가지는 의도 쌍들이 포함되어 있다 (예: activate light bathroom vs. deactivate light bathroom). 이러한 의도 쌍 내 샘플들은 어휘 수준에서는 매우 유사하지만, 서로 반대되는 작업 의도를 가지므로, 레이어 표현에서 의미적 차이를 분리하여 분석할 수 있게 한다.

우리는 IC 데이터셋에서 이러한 의도 쌍들의 집합을 다음과 같이 정의한다:

( P = {(I_1, I'_1), (I_2, I'_2), \dots, (I_K, I'_K)} ),

여기서 ( I_k )와 ( I'_k )는 내용 차이는 최소이지만 서로 반대되는 의도 레이블을 가지는 두 의도를 의미한다. 각 의도 ( I_k )에 대해,

( I_k = {s_{k,1}, s_{k,2}, \dots, s_{k,N_k}} ),
( I'k = {s'{k,1}, s'{k,2}, \dots, s'{k,N'_k}} ),

여기서 ( s_{k,j} )와 ( s'_{k,j} )는 각각 ( I_k )와 ( I'_k )에 속하는 샘플을 나타낸다. 각 샘플에 대해, 우리는 레이어 ( l )에서의 표현을 ( h^{(l)}(\cdot) )로 정의한다.

먼저, 같은 의도를 공유하는 샘플들 간 표현 유사도를 측정하기 위해, 레이어 ( l )에서의 within-intent cosine similarity ( C^{(l)} )를 계산한다:

( C^{(l)}k = \frac{1}{N_k^2} \sum{1 \le m < n \le N_k} \cos(h^{(l)}(s_{k,m}), h^{(l)}(s_{k,n})) ),

( C^{(l)} = \frac{1}{K} \sum_{k=1}^{K} C^{(l)}_k )

다음으로, 최소한의 어휘 차이를 가지면서 서로 반대되는 의도를 가진 샘플 간 유사도를 측정하기 위해, 레이어 ( l )에서의 cross-intent cosine similarity ( C'^{(l)} )를 계산한다:

( C'^{(l)}k = \frac{1}{N_k N'k} \sum{m=1}^{N_k} \sum{n=1}^{N'k} \cos(h^{(l)}(s{k,m}), h^{(l)}(s'_{k,n})) ),

( C'^{(l)} = \frac{1}{K} \sum_{k=1}^{K} C'^{(l)}_k )

마지막으로, 레이어 ( l )에서의 코사인 유사도 차이를 다음과 같이 정의한다:

( \Delta^{(l)} = C^{(l)} - C'^{(l)} )

직관적으로, 의미 정보가 지배적인 레이어에서는 같은 의도 내 유사도 ( C^{(l)} )는 높고, 서로 다른 의도 간 유사도 ( C'^{(l)} )는 낮게 나타난다. 반대로, 의미 정보가 약한 레이어에서는 어휘적 유사성이 높기 때문에 ( C^{(l)} )와 ( C'^{(l)} )의 값이 서로 비슷하게 나타난다. 따라서 ( \Delta^{(l)} )가 클수록 해당 레이어에 더 풍부한 의미 정보가 존재함을 의미한다.

Figure 3에서 확인할 수 있듯이, ( \Delta^{(l)} )는 레이어 7에서 급격히 증가하며, 레이어 14까지 높은 값을 유지한다. 이러한 관찰은 레이어 7–14가 의미 이해 단계에 해당한다는 추가적인 경험적 근거를 제공한다.

Delta가 커지면 의미를 잘 구분하는 layer라는건데, 0~6은 작고, 7~14는 크다는 것

4.2.3. Age-aware cosine similarity

실제 상호작용 시나리오에서의 의미 이해를 추가로 분석하기 위해, 우리는 §3에서 소개한 아동 안전 데이터셋을 사용하여 연령 인식 코사인 유사도 분석을 수행한다. 이 데이터셋에서는 질의가 성인에게는 안전하지만 아동에게는 잠재적으로 위험할 수 있다.

현재 LALMs에는 준언어적 인식이 부족하기 때문에, 우리는 각 질의에 대해 연령 선언을 앞에 추가하여 네 가지 연령 조건 변형을 구성한다: (1) 나는 여섯 살입니다, (2) 나는 일곱 살입니다, (3) 나는 스물아홉 살입니다, (4) 나는 서른 살입니다. 이를 통해 모델이 연령 조건을 고려한 의미 이해를 수행하도록 명시적으로 유도한다.

이후, 우리는 Google TTS의 화자 한 명을 무작위로 선택하여, 데이터셋의 각 샘플에 대해 네 가지 연령 조건 변형을 모두 동일한 화자로 음성 합성한다. 각 레이어에서, 우리는 동일한 샘플의 네 가지 연령 조건 변형 간 모든 쌍에 대해 코사인 유사도를 계산하고, 각 연령 쌍에 대해 데이터셋 전체에 걸친 평균 코사인 유사도를 구한다.

또한 비교를 위해, 연령 선언이 없는 원본 오디오 샘플(§3의 아동 안전 데이터셋)을 포함한다. 이 경우 각 텍스트 질의는 아동 화자와 성인 화자가 각각 발화한 두 개의 오디오로 구성된다. 우리는 이러한 아동-성인 오디오 쌍 간의 레이어별 평균 코사인 유사도를 계산한다.

Figure 4에서 레이어별 연령 인식 코사인 유사도를 확인할 수 있다. 동일 연령 그룹 내 쌍(예: 6세 vs 7세, 29세 vs 30세)의 경우, 코사인 유사도는 모든 레이어에서 높고 거의 일정하게 유지된다. 이는 동일 연령 그룹 내에서는 서로 다른 연령 선언에 대해서도 모델이 일관된 의미 이해를 유지함을 의미한다.

반면, 서로 다른 연령 그룹 간 쌍(예: 6세 vs 30세)의 경우, 레이어 7에서 코사인 유사도가 뚜렷하게 감소하며, 레이어 14에서 국소 최소값에 도달한다. 이는 이전 레이어 분석 결과와 일관된다. 즉, 성인에게는 답변 가능하지만 아동에게는 답변을 제한해야 하는 등 서로 다른 응답 전략을 지원하기 위해, 모델이 레이어 7부터 서로 구별되는 의미 이해를 형성하기 시작함을 의미한다.

즉 입력에 텍스트로 연령 정보가 주어지는 경우, 모델이 semantic하게 연령 정보를 구분할 수 있다고 보면 됨

비교를 위해, 연령 선언이 없는 설정(즉, 아동 vs 성인 화자)에서는, 의미적으로는 분리되어야 하는 레이어 7–14 구간에서 오히려 코사인 유사도가 지속적으로 증가한다. 이는 현재의 콘텐츠 중심 모델이 화자 불변성을 유지하기 위해 준언어적 신호를 억제하고, 화자의 나이를 의미 이해에 반영하지 않음을 보여준다.

하지만 텍스트가 아니라, 음성으로 연령 정보를 주게 되면, layer에서 이런 것을 구분하지 못하고 있음을 보여준다

4.3. Logit lens

Figure 3과 Figure 4에서, 깊은 레이어는 의미 이해 레이어에서 관찰된 경향과 유사한 패턴을 보인다. 예를 들어, 비교적 큰 코사인 유사도 차이와 연령 인식 코사인 유사도의 감소가 나타난다. 우리는 이러한 패턴이 다음 토큰 예측을 지원하기 위한 질의별 문맥 특징(query-specific contextual features)의 형성에 기인한다고 해석한다.

이 가설을 검증하기 위해, 우리는 IC 데이터셋에 대해 logit lens를 수행한다. 구체적으로, 각 샘플에 대해 각 레이어 출력의 마지막 hidden state를 수집하여 레이어 표현으로 사용한다. 이후 이 표현을 예측 헤드에 입력하여 어휘 분포를 얻고, 토큰 예측 순위를 계산한다. 우리는 각 레이어에서 상위 3개의 토큰을 후보 예측으로 간주하고, 해당 레이어의 후보에 최종 레이어의 top-1 예측 토큰이 포함되어 있으면 해당 레이어의 예측을 정답으로 판단한다.

Figure 5에서 각 레이어의 평균 logit lens 정확도를 보고한다(정확도가 0인 레이어는 제외). Qwen2.5-Omni의 경우, 중간 레이어에서 logit lens 정확도가 약 40%에 도달한 뒤, 레이어 21 이후부터 더욱 증가하여 점진적으로 100%에 가까워진다. Kimi-Audio는 레이어 19부터 0이 아닌 logit lens 정확도를 보이며, 이후 레이어 21에서 급격히 증가하여 빠르게 100%에 도달한다.

직관적으로, 서로 다른 의미를 가진 질의는 서로 다른 응답 전략을 유도한다. 이러한 결과는 모델이 깊은 레이어에서 의미 이해를 바탕으로 다음 토큰 예측을 위한 질의별 문맥 정보를 형성하고 있음을 시사하며, 이로 인해 중간 레이어에서 관찰된 패턴과 유사한 경향이 나타난다.

👉 “중간 layer는 의미를 이해하고,
👉 마지막 layer는 이미 답을 거의 확정한다”

5. Paralinguistic-enhanced Fine-tuning

레이어별 분석에서 얻은 통찰을 바탕으로, 우리는 직관적이면서도 효율적이고 효과적인 방식으로 LALMs에서 준언어적 인식을 복원하기 위한 paralinguistic-enhanced fine-tuning (PE-FT) 프로토콜을 제안한다. 이 프로토콜은 (1) 선택적 레이어 파인튜닝과 (2) 보조적인 이중 수준 분류 헤드로 구성된다.

Selective-layer Fine-tuning

준언어적 인식의 핵심은 동일한 콘텐츠에 대해 서로 다른 준언어적 속성에 따라 다른 의미 이해를 도출하는 것이다. §4에서 논의했듯이, 레이어 0–6은 풍부한 준언어적 신호를 인코딩하고, 레이어 7–14는 의미 이해 레이어로 작용한다. 그러나 현재의 LALMs에서는 초기 레이어의 준언어적 신호가 점진적으로 억제되고, 중간 레이어는 콘텐츠 중심의 의미 이해를 강하게 반영하여, 결과적으로 준언어적 인식이 결여된다.

따라서 우리는 준언어적 레이어와 의미 이해 레이어(즉, 레이어 0–14)를 함께 파인튜닝하고, 나머지 레이어는 고정(freeze)한다. 이를 통해 준언어적 신호와 의미를 연결한다. 이러한 선택적 레이어 설계는 모델이 암묵적인 사용자 맥락을 의미 이해에 반영하도록 유도하면서도, 파라미터 효율성을 유지할 수 있게 한다.

또한 우리는 동일한 중립적 콘텐츠를 가지면서 화자의 속성만 다른 쌍(pair) 샘플을 구성하여, LALMs가 준언어적 단서를 결합한 상태에서 질의의 의미를 이해하도록 강제한다. 우리는 LALMs에 대해 표준 supervised fine-tuning (SFT)을 수행하며, cross-entropy loss ( L_{SFT} )를 최적화한다.

layer 0~14만 학습 / layer 15+는 freeze 하겠다는것

Auxiliary Dual-level Classification Head

레이어 표현에서 준언어적 신호를 더욱 강화하기 위해, 우리는 보조적인 이중 수준 분류 헤드(Auxiliary Dual-level Classification Head, ADCH)를 도입한다. ADCH는 (1) 카테고리 분류 헤드와 (2) 세 개의 개별 속성 분류 헤드로 구성된다.

각 학습 샘플에는 두 가지 레이블이 부여된다(§6 참고):
(1) 해당 질의가 어떤 준언어적 카테고리와 관련되는지를 나타내는 primary label ( y_{cate} \in {age, gender, emotion} )
(2) 해당 카테고리 내에서의 화자 속성을 나타내는 secondary label ( y_{attr} )

예를 들어, “고장난 전등을 고치는 방법을 알려줄 수 있나요?”는 연령에 따라 응답이 달라지는 질의이므로 age로 라벨링되며, 화자의 연령 속성은 child 또는 adult가 된다.

우리는 레이어 14 출력의 오디오 hidden state를 평균 풀링하여 얻은 표현 ( h^{(14)}_i )를 ADCH에 입력하여, primary와 secondary 레이블을 예측한다.

카테고리 분류 손실은 다음과 같이 정의된다:

[
L_{cate} = - \frac{1}{|B|} \sum_{i \in B} \log P(y_{cate,i} \mid h^{(14)}i; \theta{cate})
]

여기서 ( \theta_{cate} )는 카테고리 헤드의 파라미터를 의미한다.

속성 분류의 경우, 세 개의 카테고리별 헤드 ( \theta_{age}, \theta_{gender}, \theta_{emotion} )를 사용하며, 각 샘플은 자신의 primary label에 해당하는 헤드로 전달된다. 속성 분류 손실은 다음과 같다:

[
L_{attr} = - \frac{1}{|B|} \sum_{i \in B} \log P(y_{attr,i} \mid h^{(14)}i; \theta{y_{cate,i}})
]

최종적으로, PE-FT의 전체 손실 함수는 다음과 같이 정의된다:

[
L(\theta) = L_{SFT} + \lambda (L_{cate} + L_{attr})
]

여기서 ( \theta )는 학습 가능한 레이어와 ADCH의 파라미터를 의미한다. 실제 구현에서는 ( \lambda = 0.5 )로 설정하며, ADCH는 추론 시에는 제거된다.

(1) category

age / gender / emotion 중 뭐냐

(2) attribute

child vs adult
male vs female
happy vs sad

이 2개를 구분하도록 학습함으로써 representation 안에 paralinguistic 정보가 남도록 함

전체 loss = SFT + aux loss

6. Experiments

본 섹션에서는 제안한 PE-FT 프로토콜을 LALMs에 적용하고, 준언어적 인식을 평가하여 레이어별 분석에서 얻은 통찰을 추가적으로 검증한다. 먼저 실험 설정과 준언어적 인식 평가를 위한 지표를 설명하고 (§6.1), 이후 Qwen2.5-Omni와 Kimi-Audio에 대한 주요 결과를 보고한다 (§6.2). 마지막으로 PE-FT에 대한 ablation 실험과 다양한 분석을 수행한다 (§6.3).

6.1. Setup

Models

레이어별 분석 결과(§4)를 기반으로, 우리는 PE-FT 프로토콜을 널리 사용되며 성능이 우수한 두 LALM에 적용한다: Qwen2.5-Omni [5]와 Kimi-Audio [6]. 이전의 LALMs(예: Qwen-Audio, Qwen2-Audio [3, 4])와 비교하여, 이 두 모델은 음성 기반 상호작용을 더 잘 지원하도록 설계되어, 보다 짧고 대화적인 응답을 생성한다.

파인튜닝 단계에서는 LALM의 LLM 모듈에 LoRA 어댑터 [26]를 적용하고, 모든 파인튜닝 설정에서 오디오 인코더는 고정(freeze)한다. 우리는 batch size 128, learning rate 8e-5로 10 epoch 동안 파인튜닝을 수행한다. 모든 실험은 두 개의 A100 GPU에서 수행되며, 파인튜닝에는 약 70분이 소요된다.

Dataset

ParaS2S [13]의 데이터셋이 공개되지 않았기 때문에, 우리는 해당 논문의 데이터 수집 파이프라인을 참고하고 이를 개선하여 PE-FT에 사용할 소규모 학습 데이터를 구축한다.

먼저 GPT-4.1의 프롬프트 템플릿을 정교하게 수정하여 텍스트 샘플을 생성하며, 데이터 품질과 다양성을 향상시키기 위해 다음 두 가지 원칙을 따른다:
(1) 질의 내용만으로는 사용자의 준언어적 속성을 추론할 수 없어야 한다
(2) 사용자의 준언어적 속성에 따라 응답 전략이 근본적으로 달라져야 한다

다음으로, 각 준언어적 카테고리에서 불법적이거나 비윤리적인 샘플을 생성할 가능성이 있는 주제(예: Privacy & Security)나, 편향을 강화할 수 있는 주제(예: 성별 카테고리에서의 Fashion, Beauty, Grooming)를 제거하여 주제 구성을 정제한다.

그 후 GPT-4.1을 사용하여 각 준언어적 카테고리(age, gender, emotion)에 대해 1500개의 텍스트 샘플을 생성한다. 각 샘플의 카테고리는 primary label로 사용된다.

각 텍스트 샘플에 대해, 서로 다른 준언어적 속성을 가진 화자가 발화한 두 개의 오디오를 생성한다(예: age 카테고리에서는 child vs adult). 이때 화자의 준언어적 속성은 해당 오디오의 secondary label로 사용된다.

연령 카테고리의 경우 Typecast TTS를 사용하여 11명의 아동 화자와 11명의 성인 화자의 음성을 생성한다. 성별 카테고리는 Google TTS를 사용하여 10명의 여성 화자와 9명의 남성 화자를 사용한다. 감정 카테고리는 gpt-4o-mini-tts-2025-03-20을 사용하며, “매우 {감정 상태}로 말하라”는 지시를 통해 happy, surprised, sad, angry, disgusted, fearful의 6가지 감정을 생성하고, 총 13명의 화자를 사용한다.

이 과정을 통해 총 9000개의 오디오 샘플로 구성된 학습 데이터를 구축한다. 마지막으로, 각 오디오의 텍스트 내용과 해당 준언어적 속성을 조건으로 하여 GPT-4.1이 적절한 응답을 생성하도록 요청하고, 이를 SFT의 목표 응답으로 사용한다.

Evaluation

학습 데이터 구성 방식에 기반하여, 우리는 대응되는 평가 데이터셋을 구축한다. 각 준언어적 카테고리에 대해, 사람 주석을 통해 200개의 텍스트 샘플을 수집하고, 각 텍스트에 대해 서로 다른 사용자 맥락을 반영한 두 개의 오디오를 생성하여 총 1200개의 오디오 샘플을 구성한다(아동 안전 데이터셋 포함).

이 중 성별 카테고리의 일부 샘플(100개 텍스트, 200개 오디오)은 편향을 강화할 수 있는 주제를 포함하므로 공개하지 않고, 결과 보고에도 포함하지 않는다.

기존의 ParaS2S score [13]는 응답 품질, 표현 방식, 음성 톤을 함께 평가하는 오디오 중심 지표이지만, 응답이 실제로 준언어적 속성을 반영하는지를 직접적으로 평가하지 못하며, 오디오 합성 모듈이 학습 불가능한 모델에는 적용하기 어렵다.

따라서 우리는 두 가지 새로운 지표를 제안한다:

PA-score: 각 응답에 대해 GPT-4.1이 판단한 점수
- 1: 사용자 속성을 적절히 반영
- 0: 일반적인 응답 (속성 미반영)
- -1: 잘못된 속성 반영
[
PA\text{-}score = \frac{1}{N} \sum_{i=1}^{N} r_i
]
PA-rate: 속성을 반영한 응답의 비율
[
PA\text{-}rate = \frac{1}{N} \sum_{i=1}^{N} \mathbf{1}(r_i = 1) \times 100%
]

또한, 응답의 일반적인 품질을 평가하기 위해 ParaS2S score를 함께 사용하며, 모델의 전반적인 성능을 평가하기 위해 VoiceBench [27]의 helpfulness score(HS)를 추가로 보고한다.

input: 어린아이 목소리 audio
output: "이건 위험할 수 있으니까 어른에게 도움을 요청하는 게 좋아."
input: 성인 목소리 audio
output: "먼저 전원을 차단하고, 전구를 분리한 뒤..."

6.2. Main results

우리는 Table 2에 PE-FT의 주요 결과를 보고한다.

기본 모델(vanilla)인 Qwen2.5-Omni와 Kimi-Audio의 경우, PA-score와 PA-rate 모두 거의 무작위 수준에 가까운 성능을 보인다. 특히 PA-score가 0에 가까운 값에 머무르는데, 이는 원래 모델들이 준언어적 인식을 거의 갖고 있지 않으며, 주로 오디오의 내용만을 기반으로 응답하고 있음을 의미한다.

Qwen2.5-Omni의 경우, 전체 레이어를 파인튜닝하는 방식(레이어 0–27)만으로도 기본 모델 대비 상당한 성능 향상이 나타나지만, 감정(emotion) 항목에서는 PA-score가 0.393에 그치는 등 여전히 한계가 있다. 주목할 점은, 학습 가능한 파라미터 수를 줄인 선택적 레이어 파인튜닝(레이어 0–14, ADCH 없이)이 오히려 전체 레이어 학습보다 더 나은 성능을 보였다는 점이다. 이 설정에서 age와 emotion에 대해 각각 0.96과 0.46의 PA-score를 달성하였다.

여기에 ADCH를 포함한 전체 PE-FT 설정(레이어 0–14 + ADCH)을 적용하면, gender와 emotion 성능이 추가로 향상되어 각각 0.965와 0.503의 PA-score를 달성한다. age 성능은 ADCH 없이 학습했을 때보다 소폭 감소하지만, 전체적으로 세 가지 준언어적 범주에서 가장 균형 잡힌 성능을 보인다.

Kimi-Audio의 경우, PE-FT는 age와 gender 사이에서 더 나은 균형을 제공한다. 세 가지 파인튜닝 설정 모두 emotion에서 유사한 성능을 보이며, PA-rate는 일관되게 80% 이상을 유지한다. 그러나 전체 레이어 학습에서는 age PA-score가 0.89에 머무른다. 선택적 레이어 학습은 age와 gender 성능을 각각 0.915와 0.97까지 향상시킨다.

PE-FT는 age PA-score를 0.915에서 0.94로 추가 향상시키고, PA-rate를 97%까지 끌어올리면서도 gender 성능은 소폭 감소하는 데 그친다. 결과적으로, 세 가지 범주 간에서 가장 좋은 균형을 달성한다.

두 모델 모두에서, 세 가지 파인튜닝 방식은 ParaS2S score를 크게 향상시키며, 특히 age와 gender에서 텍스트 기반 베이스라인에 근접한 성능을 보인다. 그러나 ParaS2S score는 응답의 전반적인 품질을 측정할 뿐이며, 세 가지 파인튜닝 설정 간 값이 크게 차이나지 않는다는 점은, 세밀한 준언어적 인식을 평가하기 위해서는 PA-score와 PA-rate와 같은 구별력 있는 지표가 필요함을 강조한다.

VoiceBench의 helpfulness score(HS) 기준으로 보면, 모든 파인튜닝 모델은 기본 모델 대비 약간의 성능 감소를 보인다. 그러나 전체 레이어 학습이나 선택적 레이어 학습과 비교했을 때, PE-FT는 HS 성능 저하를 최소화하면서 모델의 전반적인 능력을 가장 잘 유지한다.

0–14 layer만 학습하는 것이 full tuning보다 더 효과적이다?
근데 성능차이가 크다고 보긴 어려운거 같지만, 대신 효율 측면에서는 좋은듯
ADCH는 전반적으로 성능을 개선하며, 특히 emotion 같은 어려운 task에서 중요하다 (일부 경우 age에서 slight trade-off 존재)
0-14는 고정하고, 15-27 Layer만 학습한것도 비교해봐야할거 같은데? -> 뒤에서 실험함

6.3. Ablations and analysis

The Effectiveness of Selective-layer Fine-tuning

우리는 먼저 §4의 다섯 가지 다양한 레이어별 분석을 통해 준언어적 레이어(레이어 0–6)와 의미 이해 레이어(레이어 7–14)를 식별하였고, 그에 따라 레이어 0–14를 함께 파인튜닝하는 것이 준언어적 신호를 질의 의미에 효율적이고 효과적으로 주입하여 LALMs의 준언어적 인식을 복원할 수 있다고 가정하였다. 이러한 선택적 튜닝의 효과를 검증하기 위해, 다양한 레이어 범위에 대한 ablation을 수행하였다. 결과는 Table 3에 보고하였다.

Qwen2.5-Omni의 경우, 깊은 레이어(예: 레이어 15–27)를 파인튜닝하면 age와 gender에서는 중간 수준의 준언어적 인식 성능에 도달할 수 있지만, emotion에서는 실패하여 PA-score가 0에 가까운 수준에 머문다. 반면 Kimi-Audio에서는 깊은 레이어 파인튜닝이 세 가지 범주 모두에서 완전히 실패하며, 심지어 기본 모델보다 더 나쁜 성능을 보이기도 한다. 이에 반해, 준언어적 레이어만 파인튜닝하는 경우와 의미 레이어만 파인튜닝하는 경우는 모두 경쟁력 있는 성능을 보이며, 레이어 0–14를 함께 파인튜닝하는 조합이 최적이라는 것을 확인할 수 있다.

The Effectiveness of ADCH

Table 2의 주요 결과는 ADCH를 포함한 PE-FT 설정이, 선택적 레이어만 학습하는 설정보다 더 우수한 준언어적 인식 성능을 보인다는 점을 보여준다. 이를 추가로 검증하기 위해, 우리는 ADCH를 포함한 여러 레이어 범위 튜닝 실험을 수행하였고, 그 결과를 Table 4에 보고하였다.

Qwen2.5-Omni와 Kimi-Audio 모두에서, ADCH를 포함한 설정은 거의 모든 범주에서 더 나은 성능을 달성하였으며, 특히 emotion 범주에서 효과가 크다. 우리는 이를, emotion 과제가 age나 gender보다 더 어려운 과제이기 때문이라고 해석한다. emotion은 더 많은 준언어적 속성(6개의 감정 상태)을 포함하므로, ADCH가 표현 내의 미묘한 감정 신호를 분리하는 데 더 중요한 역할을 하게 되며, 결과적으로 준언어적 인식을 향상시킨다.

The Position of ADCH

우리의 PE-FT 프로토콜에서는, ADCH를 레이어 14에 배치하여 모든 학습 가능한 레이어 전반에 걸쳐 준언어적 신호를 강화한다. 이 설계의 효과를 검증하기 위해, 우리는 네 가지 후보 위치를 평가하였다: 준언어적 레이어의 시작과 끝(레이어 0, 6), 그리고 의미 이해 레이어의 시작과 끝(레이어 7, 14)이다.

Table 5에서 보이듯이, ADCH를 레이어 14에 두는 것이 두 모델 모두에서 세 가지 범주 전반에 걸쳐 가장 경쟁력 있거나 최상의 성능을 달성한다. 특히 레이어 14 설정은 emotion 범주에서 큰 향상을 보인다. ADCH의 효과에 대한 앞선 분석과 일관되게, 우리는 이 성능 향상이 더 강한 감정 관련 감독 신호가 학습 가능한 모든 레이어에 걸쳐 전파될 수 있기 때문이라고 해석하며, 그 결과 모델의 준언어적 인식 능력이 더욱 효과적으로 향상된다고 본다.

0-27중 0~6: paralinguistic / 7~14: semantic layer면 나머지 layer은 무엇을 담당하는가?
모델을 full finetuning하는게 그래도 더 좋아야 하는거 아닌가?

Child-safety Evaluation

우리는 두 기본 모델과 각 모델의 PE-FT 버전에 대해 아동 안전 평가를 수행하였다. §3의 아동 안전 데이터셋에서 아동 화자가 발화한 오디오 샘플만을 사용하고, 모델의 PA-rate를 보고하였다.

원래의 Qwen2.5-Omni와 Kimi-Audio의 PA-rate는 각각 7.14%와 4.29%로, 아동 안전 측면에서 심각한 취약성을 보인다. 이러한 질의에 대한 부적절한 응답은 아동 사용자가 위험한 활동을 스스로 수행하도록 유도할 수 있으며, 심각한 신체적 위해로 이어질 수 있다.

반면 Qwen2.5-Omni와 Kimi-Audio에 PE-FT를 적용한 후에는, PA-rate가 각각 97.14%와 98.57%에 도달한다. 주목할 점은, 이러한 아동 안전 샘플이 PE-FT 학습 세트에는 포함되지 않았다는 것이다. 이는 모델이 일단 준언어적 인식을 획득하면, 보지 못한 상호작용 주제에도 그 능력을 일반화하여, 직접적인 주제별 정렬 없이도 사용자 맥락에 맞춰 응답 전략을 조정할 수 있음을 보여준다.

t-SNE Visualisation

우리는 준언어적 인식을 반영한 의미 이해를 추가적으로 탐색하기 위해, Qwen2.5-Omni와 Kimi-Audio의 레이어 14(의미 이해 레이어)의 표현 공간을 t-SNE [28]로 시각화하였다. 평가 세트에서 레이어 14 출력의 오디오 hidden state를 평균 풀링하여 레이어 표현을 수집하였다.

Figure 6에서 보이듯이, 원래 모델의 표현 공간은 세 가지 준언어적 카테고리에 대응하는 세 개의 거친 클러스터를 형성한다. 이러한 패턴은 데이터셋이 카테고리별 질의 주제를 중심으로 구성되었기 때문이며, 원래 모델도 콘텐츠 중심 의미를 조직하는 능력은 가지고 있음을 시사한다. 그러나 각 거친 클러스터 내부에서는 서로 다른 준언어적 속성을 가진 샘플들이 여전히 강하게 섞여 있어, 모델이 서로 다른 화자 맥락에 의해 유도되는 세밀한 의미를 분리하지 못하고 있음을 보여준다.

반면 PE-FT 모델의 경우 표현 공간이 크게 재구성된다. 각 카테고리 내부에서 서로 다른 준언어적 속성을 가진 샘플들이 더 명확한 하위 클러스터를 형성하며, 이는 준언어적 인식을 반영한 의미 이해가 형성되었음을 의미한다. emotion의 경우 age와 gender만큼 구분이 뚜렷하지는 않지만, 여전히 클러스터링되는 경향을 보이며, 이는 PE-FT가 LALMs에서 준언어적 인식을 복원하는 데 효과적임을 추가로 보여준다.

Generalisability to Unseen Speakers

화자 일반화 성능을 평가하기 위해, 우리는 gender 범주에서 두 가지 설정을 도입하였다.
(1) cross-category seen speakers: 학습 중 등장하긴 했지만 다른 카테고리에서만 등장한 화자를 사용하는 경우
(2) cross-category unseen speakers: 다른 카테고리에서 사용된 TTS 시스템을 사용하되, 새로운 화자를 도입하는 경우

구체적으로, setting 1에서는 학습 세트에 이미 사용된 화자들로 gender-category 샘플을 생성하기 위해 gpt-4o-mini-tts-2025-03-20을 사용하였다. setting 2에서는 동일한 샘플을 Typecast를 사용하여 새롭게 선택한 10명의 화자로 합성하였다. 결과는 Table 6에 보고하였다.

Qwen2.5-Omni는 두 설정 모두에서 90% 이상의 PA-rate를 유지하며 경쟁력 있는 일반화 성능을 보인다. 반면 Kimi-Audio는 PA-rate가 각각 68.5%와 75.0%로 크게 감소한다. 그러나 이러한 결과도 여전히 Kimi-Audio의 기본 성능(12.5%)보다는 훨씬 높은 수준이다.

우리는 이러한 제한된 일반화 성능의 원인을, 기본 Kimi-Audio에서 gender 신호가 상대적으로 약하기 때문이라고 해석한다. Figure 1에서 보이듯이, Kimi-Audio의 gender probing 정확도는 Qwen2.5-Omni보다 그리고 Kimi-Audio의 다른 범주보다 더 빠르게 감소한다. 이는 Kimi-Audio가 학습한 gender 신호가 학습에 사용된 화자들에 더 크게 의존하고 있으며, 그 결과 새로운 화자에 대해 덜 일반화된다는 점을 시사한다=

학습하지 않은 task에도 generalization됨. child-safety 데이터는 학습에 안 씀. 그런데도 성능 올랐다

7. Conclusion

본 연구에서는 다섯 가지 다양한 레이어별 분석을 수행하여, Qwen2.5-Omni와 Kimi-Audio에서 준언어적 레이어와 의미 이해 레이어를 다양한 관점에서 일관된 경험적 증거를 통해 공동으로 식별하였다. 이러한 통찰을 바탕으로, 우리는 PE-FT를 제안하여 준언어적 인식을 효율적이고 효과적으로 복원하였으며, 동시에 레이어별 분석 결과를 뒷받침하는 추가적인 실험적 증거를 제시하였다.

실험 결과, PE-FT는 세 가지 준언어적 범주 전반에서 전체 레이어 파인튜닝보다 일관되게 더 우수한 성능을 보였으며, 아동 안전 문제 역시 효과적으로 완화하는 것으로 나타났다. 레이어 경계는 LALMs마다 다를 수 있지만, 본 연구의 레이어별 분석 파이프라인은 향후 준언어적 인식 연구에 유용한 통찰을 제공할 잠재력을 지닌다.

8. Limitations

본 연구에서의 성별(gender) 처리는 의도적으로 단순화되어 있으며, 현실 세계에서의 성별의 복잡성을 충분히 반영하지 못한다. 구체적으로, 우리는 실험에서 성별을 이분법적인 생물학적 범주로 간주하고, 이를 음성의 발화 특성만을 기반으로 추론한다.

이로 인해 두 가지 한계가 존재한다:
(1) 음성 단서는 개인이 스스로 인식하는 성별과 반드시 일치하지 않을 수 있다
(2) 음성 특성은 개인 간에 크게 다를 수 있다

또한 우리는 응답 차이가 생물학적 차이 또는 종교적·문화적 규범에서 비롯되는 경우로 연구 범위를 제한한다. 따라서 본 연구의 성별 설정은 연구 목적을 위한 단순화된 실험적 추상화로 이해되어야 한다.

Reference

https://arxiv.org/pdf/2603.11947

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

Audio 009, Resurfacing Paralinguistic Awareness in Large Audio Language Models