Audio-022, From Text to Talk: Audio-Language Model Needs Non-Autoregressive Joint Training, ICLR 2026
ABSTRACT
최근 대규모 언어 모델(LLM)의 발전은 멀티모달 시나리오, 특히 음성-음성(S2S) 대화 시스템으로 그 능력을 확장하려는 큰 관심을 불러일으켰다. 그러나 오디오와 텍스트가 교차된 입력을 처리하는 기존 멀티모달 모델들은 자기회귀(AR) 방식에 의존하며, 텍스트는 주로 목표-목표 관계에 의존하는 반면 오디오는 주로 소스-목표 관계에 의존한다는 점을 간과한다.
본 연구에서는 Text-to-Talk(TtT)를 제안한다. TtT는 하나의 Transformer 안에서 AR 텍스트 생성과 비자기회귀(NAR) 오디오 확산을 통합한 통합 오디오-텍스트 프레임워크이다. 우리는 흡수형 이산 확산(absorbing discrete diffusion)의 임의 순서 AR 특성을 활용하여 텍스트와 오디오를 위한 통합 학습 목적을 제공한다.
이러한 하이브리드 생성 패러다임을 지원하기 위해, 우리는 텍스트에는 인과적 디코딩을 강제하면서 오디오 구간 내부에서는 양방향 모델링을 허용하는 모달리티 인식 어텐션 메커니즘을 설계한다. 또한 학습과 테스트 사이의 불일치를 줄이기 위한 세 가지 학습 전략을 추가로 도입한다.
추론 시 TtT는 블록 단위 확산을 사용하여 오디오를 병렬로 합성하면서도, 가변 길이 출력을 유연하게 처리한다. 오디오 질의응답(Audio-QA), 자동 음성 인식(ASR), 자동 오디오 캡션(AAC), S2S 벤치마크에서의 포괄적인 실험 결과, TtT는 강력한 AR 및 NAR 베이스라인을 일관되게 능가하였다. 추가적인 절제 실험과 학습 전략 분석 역시 각 구성 요소의 기여를 확인해준다. 코드와 데이터는 공개되어 있다.
목표-목표라는것은 생성되는 토큰끼리의 연관성이 깊다는 것이고, 소스-목표는 처음에 주어진 컨텍스트(소스)가 중요하다는 것. 즉 오디오는 매 생성되는 앞의 토큰들보다 소스가 더 중요하다는 의미
1 INTRODUCTION
최근 대규모 언어 모델(LLM)의 성공은 다양한 모달리티에 걸쳐 정보를 처리하고 생성할 수 있는 범용 멀티모달 대규모 언어 모델(MLLM)로의 패러다임 전환을 촉진하였다. 이 중에서도 음성-음성(S2S) 대화 시스템은 자연스러운 인간-AI 상호작용을 가능하게 하는 핵심 구성 요소로 부상하였다.
기존 시스템은 일반적으로 이 문제를 자동 음성 인식(ASR), LLM 기반 응답 생성, 텍스트-음성 변환(TTS) 합성으로 이루어진 계단식 파이프라인으로 분해한다. 이러한 방식은 어느 정도 효과적이지만, 모듈식 설계로 인해 각 모듈 사이에서 지연 시간이 누적되고 오류가 전파된다. 이는 자연스러운 상호작용과 실제 활용 가능성을 저해한다.
이에 대응하여 Moshi, GLM-4-Voice, VITA-Audio와 같은 최근의 end-to-end 접근법들은 하나의 모델 안에서 음성 이해와 생성을 통합하고자 하였다. 이러한 모델들은 일반적으로 텍스트-오디오 토크나이저 학습, 교차된 데이터 구성, 텍스트-오디오 정렬, 태스크 중심 지도 미세조정 등을 포함하는 다단계 파이프라인을 통해 학습된다. Figure 1에 나타난 것처럼, 이러한 방법들은 교차된 텍스트와 음성 토큰을 자기회귀(AR) 방식으로 생성한 뒤, 별도의 뉴럴 코덱 또는 확산 기반 디코더를 통해 연속적인 오디오 파형으로 복원하는 것을 목표로 한다.
그러나 이러한 새로운 패러다임은 근본적인 문제에 직면한다.
Figure 1에서 보이듯이, 우리는 기존 접근법들이 하나의 언어 모델을 사용해 텍스트와 오디오 토큰을 모두 자기회귀적으로 생성하고, 두 모달리티에 동일한 AR 학습 목적을 적용한다는 점에서 근본적인 불일치가 있음을 지적한다. 이러한 동일한 목적 함수는 두 모달리티의 생성 과정에 존재하는 중요한 차이를 간과한다.
텍스트 생성은 본질적으로 강한 목표-목표 의존성을 가지는 순차적 인과 구조를 따른다. 즉, 각 토큰은 이전에 생성된 토큰들에 명시적으로 조건화된다. 따라서 잘못된 토큰 예측은 AR 모델의 노출 편향 때문에 이후 오류로 전파될 수 있다. 반면 오디오 토큰 생성은 주로 소스-목표 의존성에 의해 결정된다. 즉, 오디오 출력은 이전 오디오 토큰보다는 소스 텍스트에 주로 조건화된다. 구체적으로, 현재 비자기회귀(NAR) 구간 안에서 오디오 토큰 생성은 이전 오디오 토큰이 잘못 예측되었더라도 소스 텍스트에 충실해야 한다. 따라서 오디오 생성에 순수한 AR 목적을 적용하면 불필요한 순차적 제약이 생기고, 학습 동역학이 비효율적이 되며, 오류 전파가 확대될 수 있다.
=> 이게 논문에서 제안하는 방법론의 동기인듯. 오디오는 AR로 하면 오류가 전파될 수 있기 때문에 NAR로 소스에 충실하도록 해야한다.
이 문제는 오디오 모델링의 소스 의존적 특성과 더 잘 맞는 NAR 생성 전략을 채택함으로써 상당히 완화될 수 있다. 최근 이산 확산(discrete diffusion)은 이산 시퀀스 모델링에서 AR을 대체할 수 있는 유망한 방법으로 부상하였다. 경험적 성능 향상뿐 아니라, 최근 이론 연구는 흡수형 이산 확산(absorbing discrete diffusion)이 깨끗한 토큰의 조건부 분포를 모델링하는 것으로 해석될 수 있으며, 임의 순서 AR 목적과 밀접하게 연결되어 있음을 보여준다. 이는 다음과 같은 연구 질문을 제기한다. AR과 NAR 생성을 결합한 통합 모델이 텍스트와 오디오 모두에 동일한 AR 목적을 적용함으로써 발생하는 불일치를 완화할 수 있는가?
본 논문에서는 Text-to-Talk(TtT)를 제안한다. TtT는 사전학습된 LLM으로 초기화된 단일 Transformer 안에서 AR 텍스트 생성과 NAR 오디오 확산을 통합하는 통합 오디오-텍스트 MLLM이다. 텍스트 구간은 표준 AR cross-entropy 목적 함수로 학습되고, 오디오 구간은 NAR 이산 확산 과정으로 모델링된다. 추론 시 모델은 특수 제어 토큰에 따라 AR 디코딩 전략과 NAR 디코딩 전략을 동적으로 전환한다.
- 텍스트는 기존대로 Next token prediction loss로 학습하고 오디오는 dffusion으로 학습조져보자?
- 근데 이렇게 하면 멀티턴이 자연스럽게 될 수 있나? 싱글턴 구조인거 같긴한데
요약하면, 본 연구의 기여는 다음과 같다.
첫째, 우리는 텍스트와 오디오 모달리티 사이의 의존 구조에 존재하는 근본적인 비대칭성을 식별하고 정식화한다. 흡수형 이산 확산의 임의 순서 AR 특성을 활용하여, 우리의 공동 학습 목적이 원하는 결합 분포의 음의 로그 가능도에 대한 상한을 제공함을 증명하는 통합 이론 프레임워크를 제시한다.
둘째, 우리는 AR 텍스트 생성과 이산 확산 기반 오디오 합성을 사전학습된 LLM으로 초기화된 단일 Transformer 안에 자연스럽게 통합하는 하이브리드 AR-NAR MLLM을 제안한다. 이 설계는 기본 LLM의 추론 및 instruction-following 능력을 보존하면서도 효율적인 병렬 오디오 생성을 가능하게 한다.
셋째, 우리는 하이브리드 AR-NAR 학습에서 발생하는 본질적인 train-test 불일치를 해결하기 위해 세 가지 원칙적인 학습 전략을 도입한다. 이를 통해 안정적인 학습과 강건한 내용 인식 기반 가변 길이 생성을 가능하게 하며, 학습 조건과 추론 조건 사이의 간극을 줄인다.
넷째, Audio-QA, ASR, AAC, S2S 벤치마크 전반에 걸친 광범위한 실험을 통해 TtT가 강력한 AR 및 NAR 베이스라인을 일관되게 능가함을 보인다. 이는 하이브리드 AR-NAR 프레임워크의 장점을 보여준다.
2 PRELIMINARY AND NOTATION
이 절에서는 교차된 오디오-텍스트 시퀀스에 대한 기본 표기법을 정의하고, 본 프레임워크에서 사용하는 두 가지 핵심 생성 패러다임인 자기회귀(AR) 모델링과 흡수형 이산 확산(absorbing discrete diffusion)을 간략히 설명한다. 이들은 3장에서 제안하는 방법의 이론적 기반이 된다.
Tokens, Vocabulary, and Interleaved Layout
우리는 길이가 (L)인 교차된 이산 텍스트-오디오 시퀀스 ($x = (x^1, \ldots, x^L)$)를 고려한다. 이때 통합 이산 vocabulary는 다음과 같이 정의된다.
여기서 ($x^l \in V$)는 교차 시퀀스 (x)의 (l)번째 토큰을 의미한다. ($V_{\text{text}}$)와 ($V_{\text{audio}}$)는 각각 텍스트 토큰과 오디오 토큰을 위한 이산 vocabulary이고, (S)는 특수 토큰 집합이다. 여기에는 오디오 시작 토큰 ($\langle SOA \rangle$), 오디오 종료 토큰 ($\langle EOA \rangle$), 시퀀스 종료 토큰 ($\langle EOS \rangle$), 그리고 흡수형 마스크 토큰 ([M])이 포함된다.
시퀀스 (x)는 텍스트 구간과 오디오 구간이 번갈아 등장하는 구조를 가진다.
여기서 (M)은 텍스트-오디오 구간 쌍의 개수를 의미하고, ($m \in {1, \ldots, M}$)은 (m)번째 쌍을 가리킨다. 전체 길이는 다음을 만족한다.
각 구간은 다음과 같이 정의된다.
이는 텍스트 토큰을 의미한다. 이는 양자화된 오디오 토큰을 의미한다.
하나의 Transformer를 다음과 같이 둔다.
[
f_\theta : V^L \rightarrow \mathbb{R}^{L \times d}
]
또한 공유 출력 헤드 (W \in \mathbb{R}^{d \times |V|})를 사용해 각 위치마다 전체 vocabulary (V)에 대한 logit을 생성한다. 이 출력 헤드는 일반적으로 입력 embedding과 weight tying된다.
AR Modeling
AR 모델은 chain rule에 따라 시퀀스 (x = (x^1, \ldots, x^L))의 결합 확률을 조건부 확률들의 곱으로 분해한다.
[
p(x) = \prod_{i=1}^{L} p(x^i | x^{<i})
]
여기서
[
x^{<i} = (x^1, \ldots, x^{i-1})
]
는 (i)번째 토큰 이전의 토큰들을 의미한다. 이 방식은 생성 과정에 순차적이고 인과적인 구조를 부여한다. 자세한 설명은 Appendix A.3.1을 참고한다.
Absorbing Discrete Diffusion
흡수형 이산 확산 모델은 시퀀스 생성을 위한 비자기회귀(NAR) 패러다임이다. 이 모델은 깨끗한 시퀀스의 토큰을 점진적으로 특수 흡수 마스크 상태 ([M])로 바꾸어 손상시키는 forward process와, 손상된 입력으로부터 원래 시퀀스를 복원하는 learned reverse process로 구성된다.
Ou et al. (2024)의 핵심 통찰은 학습 목적이 깨끗한 데이터의 시간 독립적인 조건부 확률을 모델링하는 형태로 단순화된다는 점이다. 구체적으로, 손상된 위치에서 토큰 (v)를 unmasking하는 score는 다음과 같이 주어진다.
[
\frac{
p_t(\ldots, \hat{x}^i = v, \ldots)
}{
p_t(\ldots, x^i = [M], \ldots)
}
\frac{e^{-\bar{\sigma}(t)}}{1 - e^{-\bar{\sigma}(t)}}
\cdot
p_0(v | x_{\text{vis}})
]
여기서 (i \in {1, \ldots, L})는 (x^i = [M])인 손상된 위치를 나타낸다. (\hat{x})는 (x)와 동일하지만 (i)번째 위치만 (v)로 설정된 시퀀스를 의미한다. (p_t(\cdot))는 시간 (t)에서의 forward corruption process의 marginal distribution이고, (p_0(\cdot))는 깨끗한 데이터 분포이다. (x_{\text{vis}})는 손상된 시퀀스에서 보이는, 즉 마스킹되지 않은 토큰들과 그 위치를 의미하며, (\bar{\sigma}(t))는 누적 corruption schedule이다.
이 denoising formulation은 정확히 임의 순서 AR 모델, 즉 AO-ARM(any-order autoregressive model)의 목적 함수와 같다. 이는 마스킹되지 않은 임의의 context가 주어졌을 때 토큰을 예측하는 방식이다.
Ou et al. (2024)가 보인 것처럼, diffusion 학습 목적은 수학적으로 AO-ARM 목적과 동등하다. 이 목적은 가능한 모든 시퀀스 순열에 대해 예측 손실을 평균낸다.
[
L_{AO}(x_0) =
\mathbb{E}{\pi \sim U\pi}
\sum_{l=1}^{L}
-\log q_\theta(x^{\pi(l)}_0 | x^{\pi(<l)}_0)
]
여기서 (x_0 = (x^1_0, \ldots, x^L_0))는 깨끗한 토큰 시퀀스이다. (\pi)는 ({1, \ldots, L})의 모든 순열에 대한 uniform distribution (U_\pi)에서 샘플링된다. (\pi(l))은 순열에서 (l)번째 위치의 index를 의미하고, (\pi(<l) = {\pi(1), \ldots, \pi(l-1)})은 (l)번째 단계 이전에 공개된 index 집합을 의미한다. (q_\theta(\cdot | \cdot))는 (\theta)로 parameterize된 AO-ARM이다.
따라서 흡수형 이산 확산 모델을 학습하는 것은 어떤 순서로도 동작할 수 있는 강력한 AR 모델 ensemble을 학습하는 것과 동등하다. 자세한 내용은 Appendix A.3.2에 제시되어 있다.
Reference


댓글
댓글 쓰기