◼ Comment

LALM에 대한 새로운 학습 방식을 제안한 것. AR와 NAR을 섞어서 학습
discrete token으로만 학습하는 것
텍스트 부분은 기존대로 AR로 학습
오디오 부분이 이제 diffusion 스타일로 학습하는 것

근데 실제로 보면 BERT style이랑 거의 똑같
밑에 부분 학습 메커니즘을 보면 됨
즉 오디오 spans에서는 양방향 attention이 일어나는 것
예전에 uniLM인가? 그거랑 비슷한 컨셉인듯
Text span:

이전 context + 현재 text prefix만 봄
=> causal attention
=> next-token AR loss

Audio span:

이전 context는 봄
같은 audio span 내부는 서로 봄
미래 span은 못 봄
=> span 내부 bidirectional attention
=> masked-token denoising loss

내가 궁금했던 것은 그럼 이게 뭐가 diffusion 이지?

이것은 생성할때 다르게 작동한다.
논문에서는 이거를 block-wise masked diffusion generation 라고 함.
오디오 부분을 생성해야하는 상황: context <SOA> [M] [M] [M] [M] ... [M]

step 1:

[M] [M] [M] [M] [M] [M] [M] [M]
-> confidence 높은 2개만 확정
[M] a2 [M] [M] a5 [M] [M] [M]

step 2:

다시 forward
-> 몇 개 더 확정
a1 a2 [M] a4 a5 [M] [M] a8

step 3:

다시 forward
-> 나머지 확정
a1 a2 a3 a4 a5 a6 a7 a8

여기서 [M] fixed length는 하이퍼 파라미터 개념인데, 32를 사용한다고 함

LLaDA 에서 쓰이는 방식? 이라고함

ABSTRACT

최근 대규모 언어 모델(LLM)의 발전은 멀티모달 시나리오, 특히 음성-음성(S2S) 대화 시스템으로 그 능력을 확장하려는 큰 관심을 불러일으켰다. 그러나 오디오와 텍스트가 교차된 입력을 처리하는 기존 멀티모달 모델들은 자기회귀(AR) 방식에 의존하며, 텍스트는 주로 목표-목표 관계에 의존하는 반면 오디오는 주로 소스-목표 관계에 의존한다는 점을 간과한다.

본 연구에서는 Text-to-Talk(TtT)를 제안한다. TtT는 하나의 Transformer 안에서 AR 텍스트 생성과 비자기회귀(NAR) 오디오 확산을 통합한 통합 오디오-텍스트 프레임워크이다. 우리는 흡수형 이산 확산(absorbing discrete diffusion)의 임의 순서 AR 특성을 활용하여 텍스트와 오디오를 위한 통합 학습 목적을 제공한다.

이러한 하이브리드 생성 패러다임을 지원하기 위해, 우리는 텍스트에는 인과적 디코딩을 강제하면서 오디오 구간 내부에서는 양방향 모델링을 허용하는 모달리티 인식 어텐션 메커니즘을 설계한다. 또한 학습과 테스트 사이의 불일치를 줄이기 위한 세 가지 학습 전략을 추가로 도입한다.

추론 시 TtT는 블록 단위 확산을 사용하여 오디오를 병렬로 합성하면서도, 가변 길이 출력을 유연하게 처리한다. 오디오 질의응답(Audio-QA), 자동 음성 인식(ASR), 자동 오디오 캡션(AAC), S2S 벤치마크에서의 포괄적인 실험 결과, TtT는 강력한 AR 및 NAR 베이스라인을 일관되게 능가하였다. 추가적인 절제 실험과 학습 전략 분석 역시 각 구성 요소의 기여를 확인해준다. 코드와 데이터는 공개되어 있다.

목표-목표라는것은 생성되는 토큰끼리의 연관성이 깊다는 것이고, 소스-목표는 처음에 주어진 컨텍스트(소스)가 중요하다는 것. 즉 오디오는 매 생성되는 앞의 토큰들보다 소스가 더 중요하다는 의미

1 INTRODUCTION

최근 대규모 언어 모델(LLM)의 성공은 다양한 모달리티에 걸쳐 정보를 처리하고 생성할 수 있는 범용 멀티모달 대규모 언어 모델(MLLM)로의 패러다임 전환을 촉진하였다. 이 중에서도 음성-음성(S2S) 대화 시스템은 자연스러운 인간-AI 상호작용을 가능하게 하는 핵심 구성 요소로 부상하였다.

기존 시스템은 일반적으로 이 문제를 자동 음성 인식(ASR), LLM 기반 응답 생성, 텍스트-음성 변환(TTS) 합성으로 이루어진 계단식 파이프라인으로 분해한다. 이러한 방식은 어느 정도 효과적이지만, 모듈식 설계로 인해 각 모듈 사이에서 지연 시간이 누적되고 오류가 전파된다. 이는 자연스러운 상호작용과 실제 활용 가능성을 저해한다.

이에 대응하여 Moshi, GLM-4-Voice, VITA-Audio와 같은 최근의 end-to-end 접근법들은 하나의 모델 안에서 음성 이해와 생성을 통합하고자 하였다. 이러한 모델들은 일반적으로 텍스트-오디오 토크나이저 학습, 교차된 데이터 구성, 텍스트-오디오 정렬, 태스크 중심 지도 미세조정 등을 포함하는 다단계 파이프라인을 통해 학습된다. Figure 1에 나타난 것처럼, 이러한 방법들은 교차된 텍스트와 음성 토큰을 자기회귀(AR) 방식으로 생성한 뒤, 별도의 뉴럴 코덱 또는 확산 기반 디코더를 통해 연속적인 오디오 파형으로 복원하는 것을 목표로 한다.

그러나 이러한 새로운 패러다임은 근본적인 문제에 직면한다.

Figure 1에서 보이듯이, 우리는 기존 접근법들이 하나의 언어 모델을 사용해 텍스트와 오디오 토큰을 모두 자기회귀적으로 생성하고, 두 모달리티에 동일한 AR 학습 목적을 적용한다는 점에서 근본적인 불일치가 있음을 지적한다. 이러한 동일한 목적 함수는 두 모달리티의 생성 과정에 존재하는 중요한 차이를 간과한다.

텍스트 생성은 본질적으로 강한 목표-목표 의존성을 가지는 순차적 인과 구조를 따른다. 즉, 각 토큰은 이전에 생성된 토큰들에 명시적으로 조건화된다. 따라서 잘못된 토큰 예측은 AR 모델의 노출 편향 때문에 이후 오류로 전파될 수 있다. 반면 오디오 토큰 생성은 주로 소스-목표 의존성에 의해 결정된다. 즉, 오디오 출력은 이전 오디오 토큰보다는 소스 텍스트에 주로 조건화된다. 구체적으로, 현재 비자기회귀(NAR) 구간 안에서 오디오 토큰 생성은 이전 오디오 토큰이 잘못 예측되었더라도 소스 텍스트에 충실해야 한다. 따라서 오디오 생성에 순수한 AR 목적을 적용하면 불필요한 순차적 제약이 생기고, 학습 동역학이 비효율적이 되며, 오류 전파가 확대될 수 있다.

=> 이게 논문에서 제안하는 방법론의 동기인듯. 오디오는 AR로 하면 오류가 전파될 수 있기 때문에 NAR로 소스에 충실하도록 해야한다.

이 문제는 오디오 모델링의 소스 의존적 특성과 더 잘 맞는 NAR 생성 전략을 채택함으로써 상당히 완화될 수 있다. 최근 이산 확산(discrete diffusion)은 이산 시퀀스 모델링에서 AR을 대체할 수 있는 유망한 방법으로 부상하였다. 경험적 성능 향상뿐 아니라, 최근 이론 연구는 흡수형 이산 확산(absorbing discrete diffusion)이 깨끗한 토큰의 조건부 분포를 모델링하는 것으로 해석될 수 있으며, 임의 순서 AR 목적과 밀접하게 연결되어 있음을 보여준다. 이는 다음과 같은 연구 질문을 제기한다. AR과 NAR 생성을 결합한 통합 모델이 텍스트와 오디오 모두에 동일한 AR 목적을 적용함으로써 발생하는 불일치를 완화할 수 있는가?

본 논문에서는 Text-to-Talk(TtT)를 제안한다. TtT는 사전학습된 LLM으로 초기화된 단일 Transformer 안에서 AR 텍스트 생성과 NAR 오디오 확산을 통합하는 통합 오디오-텍스트 MLLM이다. 텍스트 구간은 표준 AR cross-entropy 목적 함수로 학습되고, 오디오 구간은 NAR 이산 확산 과정으로 모델링된다. 추론 시 모델은 특수 제어 토큰에 따라 AR 디코딩 전략과 NAR 디코딩 전략을 동적으로 전환한다.

텍스트는 기존대로 Next token prediction loss로 학습하고 오디오는 dffusion으로 학습조져보자?
근데 이렇게 하면 멀티턴이 자연스럽게 될 수 있나? 싱글턴 구조인거 같긴한데

요약하면, 본 연구의 기여는 다음과 같다.

첫째, 우리는 텍스트와 오디오 모달리티 사이의 의존 구조에 존재하는 근본적인 비대칭성을 식별하고 정식화한다. 흡수형 이산 확산의 임의 순서 AR 특성을 활용하여, 우리의 공동 학습 목적이 원하는 결합 분포의 음의 로그 가능도에 대한 상한을 제공함을 증명하는 통합 이론 프레임워크를 제시한다.

둘째, 우리는 AR 텍스트 생성과 이산 확산 기반 오디오 합성을 사전학습된 LLM으로 초기화된 단일 Transformer 안에 자연스럽게 통합하는 하이브리드 AR-NAR MLLM을 제안한다. 이 설계는 기본 LLM의 추론 및 instruction-following 능력을 보존하면서도 효율적인 병렬 오디오 생성을 가능하게 한다.

셋째, 우리는 하이브리드 AR-NAR 학습에서 발생하는 본질적인 train-test 불일치를 해결하기 위해 세 가지 원칙적인 학습 전략을 도입한다. 이를 통해 안정적인 학습과 강건한 내용 인식 기반 가변 길이 생성을 가능하게 하며, 학습 조건과 추론 조건 사이의 간극을 줄인다.

넷째, Audio-QA, ASR, AAC, S2S 벤치마크 전반에 걸친 광범위한 실험을 통해 TtT가 강력한 AR 및 NAR 베이스라인을 일관되게 능가함을 보인다. 이는 하이브리드 AR-NAR 프레임워크의 장점을 보여준다.

2 PRELIMINARY AND NOTATION

이 절에서는 교차된 오디오-텍스트 시퀀스에 대한 기본 표기법을 정의하고, 본 프레임워크에서 사용하는 두 가지 핵심 생성 패러다임인 자기회귀(AR) 모델링과 흡수형 이산 확산(absorbing discrete diffusion)을 간략히 설명한다. 이들은 3장에서 제안하는 방법의 이론적 기반이 된다.

Tokens, Vocabulary, and Interleaved Layout

우리는 길이가 (L)인 교차된 이산 텍스트-오디오 시퀀스 ($x = (x^1, \ldots, x^L)$)를 고려한다. 이때 통합 이산 vocabulary는 다음과 같이 정의된다.

여기서 ($x^l \in V$)는 교차 시퀀스 (x)의 (l)번째 토큰을 의미한다. ($V_{\text{text}}$)와 ($V_{\text{audio}}$)는 각각 텍스트 토큰과 오디오 토큰을 위한 이산 vocabulary이고, (S)는 특수 토큰 집합이다. 여기에는 오디오 시작 토큰 ($\langle SOA \rangle$), 오디오 종료 토큰 ($\langle EOA \rangle$), 시퀀스 종료 토큰 ($\langle EOS \rangle$), 그리고 흡수형 마스크 토큰 ([M])이 포함된다.

시퀀스 (x)는 텍스트 구간과 오디오 구간이 번갈아 등장하는 구조를 가진다.

여기서 (M)은 텍스트-오디오 구간 쌍의 개수를 의미하고, ($m \in {1, \ldots, M}$)은 (m)번째 쌍을 가리킨다. 전체 길이는 다음을 만족한다.

각 구간은 다음과 같이 정의된다.

이는 텍스트 토큰을 의미한다. 이는 양자화된 오디오 토큰을 의미한다.

하나의 Transformer를 다음과 같이 둔다.

또한 공유 출력 헤드 (W \in \mathbb{R}^{d \times |V|})를 사용해 각 위치마다 전체 vocabulary (V)에 대한 logit을 생성한다. 이 출력 헤드는 일반적으로 입력 embedding과 weight tying된다.

AR Modeling

AR 모델은 chain rule에 따라 시퀀스 (x = (x^1, \ldots, x^L))의 결합 확률을 조건부 확률들의 곱으로 분해한다.

여기서

는 (i)번째 토큰 이전의 토큰들을 의미한다. 이 방식은 생성 과정에 순차적이고 인과적인 구조를 부여한다. 자세한 설명은 Appendix A.3.1을 참고한다.

Absorbing Discrete Diffusion

흡수형 이산 확산 모델은 시퀀스 생성을 위한 비자기회귀(NAR) 패러다임이다. 이 모델은 깨끗한 시퀀스의 토큰을 점진적으로 특수 흡수 마스크 상태 ([M])로 바꾸어 손상시키는 forward process와, 손상된 입력으로부터 원래 시퀀스를 복원하는 learned reverse process로 구성된다.

Ou et al. (2024)의 핵심 통찰은 학습 목적이 깨끗한 데이터의 시간 독립적인 조건부 확률을 모델링하는 형태로 단순화된다는 점이다. 구체적으로, 손상된 위치에서 토큰 (v)를 unmasking하는 score는 다음과 같이 주어진다.

왼쪽텀 의미는 분모는 i번째 토큰이 [M]일때의 확률, 분자는 해당 토큰이 v일때의 확률

즉 i번째 토큰 [M]이 v토큰으로 예측됐을때의 확률 비율이라 보면됨

오른쪽텀도 같은 의미인데 다르게 표현한 것

x_vis는 i번째 토큰말고 다른 위치의 토큰이 given이고 이때 i번째 토큰이 v토큰일 확률을 의미하는 것
앞에 곱해지는 것은 time scalar인데 어느 시간대에 이 토큰을 맞출 것이냐에 대한 개념인듯

여기서 (i \in {1, \ldots, L})는 (x^i = [M])인 손상된 위치를 나타낸다. (\hat{x})는 (x)와 동일하지만 (i)번째 위치만 (v)로 설정된 시퀀스를 의미한다. (p_t(\cdot))는 시간 (t)에서의 forward corruption process의 marginal distribution이고, (p_0(\cdot))는 깨끗한 데이터 분포이다. (x_{\text{vis}})는 손상된 시퀀스에서 보이는, 즉 마스킹되지 않은 토큰들과 그 위치를 의미하며, (\bar{\sigma}(t))는 누적 corruption schedule이다.

이 denoising formulation은 정확히 임의 순서 AR 모델, 즉 AO-ARM(any-order autoregressive model)의 목적 함수와 같다. 이는 마스킹되지 않은 임의의 context가 주어졌을 때 토큰을 예측하는 방식이다.

Ou et al. (2024)가 보인 것처럼, diffusion 학습 목적은 수학적으로 AO-ARM 목적과 동등하다. 이 목적은 가능한 모든 시퀀스 순열에 대해 예측 손실을 평균낸다.

여기서 (x_0 = (x^1_0, \ldots, x^L_0))는 깨끗한 토큰 시퀀스이다. (\pi)는 ({1, \ldots, L})의 모든 순열에 대한 uniform distribution (U_\pi)에서 샘플링된다. (\pi(l))은 순열에서 (l)번째 위치의 index를 의미하고, (\pi(<l) = {\pi(1), \ldots, \pi(l-1)})은 (l)번째 단계 이전에 공개된 index 집합을 의미한다. (q_\theta(\cdot | \cdot))는 (\theta)로 parameterize된 AO-ARM이다.

따라서 흡수형 이산 확산 모델을 학습하는 것은 어떤 순서로도 동작할 수 있는 강력한 AR 모델 ensemble을 학습하는 것과 동등하다. 자세한 내용은 Appendix A.3.2에 제시되어 있다.

학습 메커니즘

먼저 큰 그림을 알고 가면 좋을 것 같다.

데이터로는 text-audio pair가 있는 대화 데이터라고 해보자.

학습 sequence: T1 T2 T3 <SOA> A1 [M] A2 [M] <EOA> T4 T5 <SOA> B1 [M] B2 <EOA>

여기서 PPM(Prefix Preservation Masking) 이라 해서 이전 입력에 대해서는 마스킹을 복원한 데이터도 일부 만든다.

좀 더 정확히는 PPM은 일부 training sample에서 cutoff span $m$ 을 고르고, 그 이전 audio span $A_{<m}$ 은 mask하지 않고 clean하게 유지한다. 그리고 $A_{\ge m}$ 에 대해서만 NAR diffusion loss를 적용한다.

즉 T1 T2 T3 <SOA> A1 A2 A3 A4 <EOA> T4 T5 <SOA> B1 [M] B2 <EOA> 형태의 데이터도 있다.
30% 샘플: PPM 적용
70% 샘플: 일반 audio masking 방식

텍스트 부분은 그대로 들어가고 오디오 부분은 <SOA>, <EOA>로 감싸지고 오디오 부분에서는 일부 토큰이 [M]로 마스킹 된다.

AR text loss:

T1 -> T2
T2 -> T3
T3 -> <SOA>
T4 -> T5
T5 -> <SOA>

텍스트 부분은 Next token Prediction으로 학습이 알던대로 된다.

Audio diffusion loss:

[M] 위치에서 원래 audio token 복원
경우에 따라 <EOA>도 audio span의 일부로 diffusion 대상이 될 수 있음

인퍼런스할때는

텍스트를 autoregressive하게 학습하닥, <SOA>가 나오면 fixed length의 [M]을 넣어서 diffusion으로 오디오 토큰들을 생성한다.
생성된 오디오 토큰중에 <EOA>가 없으면, 다시 fixed length [M]을 넣어서 생성
이러다가 <EOA>나오면 중지
즉 인퍼런스할때는 앞의 오디오 토큰들이 기본적으로 다 예측된 상태이다.
train/test mismatch을 위해서 PRM이 적용된 것

3 JOINT TEXT-AR & AUDIO-NAR MODEL

이 절에서는 제안하는 모델을 소개한다. 이 모델은 단일 통합 Transformer architecture 안에서 텍스트를 위한 AR 생성과 오디오를 위한 discrete diffusion을 통합한다.

3.1 AR MODELING FOR TEXT

우리는 고정된 표준 AR 순서를 사용하여 텍스트 생성을 모델링한다. (\pi_{\text{text}})를 sequence 안의 모든 텍스트 토큰 위치에 대한 자연스러운 left-to-right permutation이라고 하자. 즉,

3.2 ABSORBING DISCRETE DIFFUSION FOR AUDIO SPANS

Section 2에서 정립한 이론적 기반을 바탕으로, 우리는 absorbing discrete diffusion을 audio span

에 적용한다. 이러한 설계 선택은 dependency structure의 근본적인 차이와 잘 맞는다. 즉, audio token은 source-target dependency, 다시 말해 source text에 대한 conditioning이 강하므로 diffusion의 any-order AR 특성에 적합하다. 반면 text token은 target-target causal dependency를 따르므로 standard AR modeling으로 처리하는 것이 더 적합하다.

Audio-specific Corruption and Denoising

각 training sample에 대해, 우리는 masking level

을 sampling하고, 각 audio token을 확률 (\lambda)로 독립적으로 mask한다. 반면 모든 text token은 보존한다. 이 과정은 audio span에는 original token과 mask token ([M])이 섞여 있지만, text span은 그대로 유지되는 corrupted sequence를 만든다.

모든 audio span에 대해 효율적인 parallel training을 가능하게 하기 위해, 우리는 sequence 안의 모든 audio span (A_m)에 masking operation을 적용한다. 즉, audio span들을 순차적으로 처리하지 않는다. 이러한 parallel masking strategy는 denoising objective의 time-independent 특성, 즉 Eq. 1을 활용하면서 training efficiency를 크게 향상시킨다.

Training Objective for Audio Generation

모델은 모든 audio span의 masked position에 대해 원래 audio token을 예측하도록 학습된다. 이를 위해 (\lambda)-denoising cross-entropy loss를 최소화한다. Ou et al. (2024)에서 논의된 것처럼, 이 objective는 수학적으로 any-order AR objective와 equivalent하며, AO-ARM 형태로 다음과 같이 표현될 수 있다.

여기서 (\pi_m)은 audio span (A_m) 안의 position들에 대한 random permutation이고,

는 permuted order에서 position (j)보다 앞에 나타나는 audio token들을 의미한다.

이 formulation은 audio generation objective가 각 audio token을 예측하도록 학습한다는 점을 명시적으로 보여준다. 이때 조건으로는 같은 span 안의 다른 token들 중 임의의 subset과 text로부터 오는 full cross-modal context가 사용된다. 바로 이 any-order AR 특성이 inference 시 parallel generation을 가능하게 한다.

식 3이 사실 이 논문의 핵심이라고 생각함

식 3은 AO(any-order)-ARM(Autoregressive Model)의 관점으로 표현한 것

설명을 하자면 m번째 발화의 오디오 토큰을 맞추는 상황이라고 보면 된다

따라서 given이 T<=m, A<m 으로 이전의 텍스트와 오디오 토큰들은 주어지는 것
그리고 m번째 발화 오디오 토큰이 실제로는 여러개 일 것이다.

m=2로 T1,A1,T2,A2라고 하자.

T1,A1,A2는 주어지는 것이고
A2=[a2,1,a2,2,a2,3,a2,4]로 4개의 토큰이 있다고 하자.
auto regressive하게 순서대로 맞추는 것은 아니고, random order 순서대로 맞춘다.
이 순서를 π2=[3,1,4,2] 라고 하면, 3번째 토큰부터 맞춘다는 것
즉 qθ(a2,3 | T≤2,A<2) 가 첫번째로 예측되도록 loss가 걸림
그 다음은 qθ(a2,1 | T≤2,A<2,a2,3)가 예측되고 순서대로
qθ(a2,4∣T≤2,A<2,a2,3,a2,1), $q_{θ} (a_{2, 2} ∣ T_{\leq 2}, A_{< 2}, a_{2, 3}, a_{2, 1}, a_{2, 4})가 예측된다$
이 각각의 negative log likelihood을 더한 것인 −logqθ(a2,3∣...)−logqθ(a2,1∣...)−logqθ(a2,4∣...)−logqθ(a2,2∣...)가 최종 loss라 보면 됨

하지만 실제 학습시에는, AO-ARM 식대로 학습되는 것은 아니고 diffusion 방식으로 학습됨

위 설명에서 A2=[[M],a2,2,[M],a2,4]로 2개를 마스킹 씌우고 a2,1과 a2,3을 동시에 맞추도록 학습을 한다.
qθ(a2,1∣T≤2,A<2,a2,2,a2,4) ,qθ(a2,3∣T≤2,A<2,a2,2,a2,4) 2개를 동시에 학습하는 형태이다.
실제로 마스킹을 2개가 아니라 여러 개 씌울 수 있고, 해당 상황에 대해 평균을 내는 것 = AO-ARM 방식대로 학습하는 것과 동일한 효과라고 수학적으로 증명되어있다고 함
실제 학습시 각 발화에서 모든 마스킹 경우의 수를 고려하는 것은 아니고, 마스킹 레벨은 [0,1]에서 랜덤으로 뽑는 것

3.3 MULTIMODAL FACTORIZATION AND UNIFIED OBJECTIVE

Section 3.1에서 텍스트를 위한 AR modeling을, Section 3.2에서 오디오를 위한 discrete diffusion을 정립했으므로, 이제 이 두 패러다임이 어떻게 하나의 probabilistic framework 안에서 통합될 수 있는지 formalize한다. 핵심 통찰은 각 modality의 서로 다른 dependency structure를 활용하는 것이다. 즉, text의 causal nature를 보존하면서 audio span 내부에서는 flexible ordering을 허용하는 partial-order factorization을 사용한다.

text token은 강한 target-target dependency를 가지므로 causal ordering이 필요하다. 반면 audio token은 주로 해당 text와의 source-target relationship에 의존한다. 이는 각 audio span (A_m) 안의 token들이 적절한 cross-modal context

에 condition되는 한, 어떤 순서로든 생성될 수 있음을 시사한다.

우리는 이러한 직관을 token position에 대한 partial order를 사용하여 formalize한다. 집합 (V) 위의 partial order는 reflexive, antisymmetric, transitive한 binary relation (\preceq)이다. 이러한 relation이 부여된 집합을 partially ordered set, 즉 poset이라고 한다. 두 원소 (a, b \in V)에 대해 (a \preceq b) 또는 (b \preceq a)이면 두 원소는 comparable하다고 한다. 그렇지 않으면 incomparable하다고 한다. antichain은 (V)의 subset 중에서 서로 다른 모든 원소 쌍이 incomparable한 집합이다. 따라서 antichain 내부에는 ordering constraint가 존재하지 않는다.

Partial-order Formulation

((V, \preceq))를 sequence 안의 모든 token index 위의 poset이라고 하자. 여기서 (V)는 모든 token position을 나타내고, (\preceq)는 precedence relationship을 encoding한다. 우리의 interleaved text-audio setting에 대해, 우리는 다음과 같이 정의한다.

(1) 각 text token (t_{m,j})는 (t_{m,j+1})보다 앞선다. 이는 text span 내부의 left-to-right causality를 유지한다.

(2) span (m)의 모든 token은 span (m+1)의 모든 token보다 앞선다. 이는 cross-span dependency를 유지한다.

(3) 각 audio span (A_m) 내부의 token들은 (\preceq) 아래에서 antichain을 형성한다. 즉 내부적으로 필수 ordering은 없다. 그러나 모델은 training과 inference에서 어떤 linear extension 아래에서든 같은 span 내에서 이전에 생성된 token에 condition하는 것이 허용된다.

각 audio span 내부의 token들은 antichain을 형성하므로, audio token의 within-span ordering만 서로 다른 여러 valid linear extension이 존재한다. 하나의 extension에 고정하지 않고, 우리는 audio span 내부의 가능한 모든 ordering에 대해 marginalize할 수 있다.

위에서 설명했던거임 이미.
A2오디오의 토큰들을 예측할때 T1,A1,T2는 이미 주어지지만, A2내의 오디오 토큰에서는 순서가 딱히 없다는 것
텍스트는 autoregressive 한거 맞음.
이것이 partial order 라는 것

Order-marginalized Factorization for Audio Spans

antichain (S \subseteq V), 예를 들어 audio span 내부의 token들에 대해, 우리는 (S)의 모든 permutation에 대해 평균을 냄으로써 order-marginalized conditional을 정의한다.

직관적으로, 이는 가능한 모든 within-span ordering에 대해 likelihood를 평균낸다. 이는 audio token이 적절한 cross-modal context가 주어졌을 때 어떤 순서로든 생성될 수 있다는 사실을 반영한다.

(A_m) 내부의 token들은 partial order 아래에서 antichain을 형성한다. 즉 mandatory sequential constraint는 없다. 하지만 Eq. 4의 order-marginalized conditional은 특정 generation order에서 발생할 수 있는 local target-target dependency를 모델이 활용할 수 있게 한다. 이러한 유연성은 유용할 때 모델이 intra-span structure를 포착할 수 있게 해준다.

A2 내에서 순서가 없기 때문에 모든 순서에 대한 likelihood을 계산한 기댓값이 된다는 것
즉 평균을 구하는게 되는 것
논문 주장은 오디오는 텍스트처럼 강한 left-to-right target-target dependency가 아니라, source text와의 dependency가 더 중요하다는 것이다.
실제 학습에서는 모든 permutation을 계산하는 것은 불가능함 (오디오 토큰이 한두개가 아니기 때문에)
그래서 위에서 설명한듯이 absorbing discrete diffusion으로 학습하는 것

Hybrid AR-NAR Joint Distribution

text를 위한 fixed-order AR과 audio를 위한 order-marginalized factorization을 결합하면, 우리의 모델은 다음 joint scoring function을 유도한다.

첫 번째 항은 text에 대한 single-order AR이고, 두 번째 항은 audio에 대한 order-marginalized any-order AR이다.

이 formulation은 두 modality가 근본적으로 모두 AR임을 보여준다. text는 하나의 single linear extension, 즉 left-to-right를 사용한다. 반면 audio는 partial order와 일관되는 모든 linear extension에 대해 integrate한다.

Training Objective and Upper Bound Analysis

실제로는 (\tilde{p}_\theta(x))를 직접 optimize할 수 없다. 왜냐하면 Eq. 4의 order-marginalized conditional은 모든 permutation에 대한 expectation 계산을 요구하기 때문이다. 대신 우리는 Section 3.2에서 유도한 training objectives인

와 정확히 같다. 왼쪽 항은 우리의 practical training objective (L_{\text{AO}}(x))에서 span (m)에 해당하는 audio loss term이다.

이 inequality에 대한 자세한 derivation은 Appendix A.1.1에 제공되어 있다. 최종 inequality는 위에서 유도한 audio inequality와 text equality를 결합함으로써 나온다.

로부터 임의로 벗어나지 않음을 보장하기 때문이다.

Training Pipeline and Loss Computation

우리의 training pipeline은 pretrained text LLM에서 시작하며, discrete audio codebook token과 control symbol인 (\langle SOA \rangle), (\langle EOA \rangle)를 추가하여 vocabulary를 확장한다. 각 training sequence는 interleaved text span과 audio span으로 구성된다. loss computation에 대한 illustration은 Appendix A.5에 제공한다.

이론적 및 실제적 장점에도 불구하고, hybrid AR-NAR paradigm은 generation quality를 저하시킬 수 있는 상당한 train-test discrepancy를 유발한다. Training 동안 audio span은 diffusion process에 따라 부분적으로 masked된다. 반면 inference 동안 모델은 complete text context와 이전에 생성된 clean audio token들에 condition하여 audio와 text token을 생성해야 한다.

이 gap을 줄이기 위해, 우리는 세 가지 principled training strategy를 제안한다.

Batchwise AR & NAR Objective Mixing (BANOM)

확률 (p_{\text{mix}})로, 우리는 특정 sample에 대해 diffusion noise addition process를 건너뛰고 text token에 대해서만 AR loss를 계산한다. 이는 training 동안 text token이 때때로 clean, unmasked audio span을 관찰하도록 보장한다. 이는 inference setting과 일치한다. inference에서는 text generation이 partially masked span이 아니라, 이전에 생성된 complete audio content에 condition하기 때문이다.

일부 batch/sample에서는 diffusion masking을 하지 않고, text AR loss만 학습하는 것이다.
오디오 데이터가 안들어가는게 아니라, T1 A1_clean T2 A2_clean 식으로 들어가고 loss는 텍스트 부분에만 걸린다는 것
흠 근데 이것의 효과를 입증하기가 좀 애매한거 같긴함

Prefix Preservation Masking (PPM)

training sample의 일부 fraction (p_{\text{prefix}})에 대해, 우리는 cutoff index (m)을 random하게 선택하고, 이전의 모든 audio span

이 strategy는 training 동안 span (A_m)을 생성할 때 모델이 이전의 모든 span (A_{<m})의 clean representation을 관찰하도록 보장한다. 이는 inference scenario와 일치한다. inference에서는 audio span들이 순차적으로 생성되며, 각 span (A_m)은 corrupted, partially masked version이 아니라 완전히 생성된 clean preceding span (A_{<m})에 condition한다.

clean audio을 컨텍스트로 학습한다는 것. 위에서 설명

Stochastic Span Truncation (SST)

우리는 training 동안 audio span (A_M)을 random하게 truncate함으로써 (\langle EOA \rangle) prediction의 positional bias를 해결한다. text와 audio의 tokenization rate 차이 때문에, audio token은 text token보다 훨씬 많다. 그 결과 (A_1, \ldots, A_{M-1})은 fixed-size span이 되고, 마지막 audio span (A_M)은 variable-length span이 된다.

모든 audio span이 simultaneous diffusion training을 거치기 때문에, 모델은 early span에서는 fixed position에서 (\langle EOA \rangle)를 예측하도록 학습하게 된다. 이는 final span의 content-aware termination learning을 방해하는 강한 positional bias를 만든다.

이는 span termination이 fixed boundary가 아니라 임의의 위치에서 발생하는 training sample을 만든다. 그 결과 모델은 (\langle EOA \rangle)를 positional cue가 아니라 semantic content와 contextual text에 기반하여 예측하도록 강제된다.

SST: $\langle EOA\rangle$ 가 고정 위치에만 나오는 bias를 줄이기 위해 마지막 audio span을 랜덤하게 자른다.

3.4 모달리티 인식 어텐션 메커니즘

우리의 어텐션 설계는 세 가지 콘텐츠 유형에 대해 단계별 패턴을 강제한다.

첫째, 입력 프롬프트는 표준 causal attention을 사용한다.
둘째, 텍스트 토큰 (T_m)은 프롬프트, 모든 이전 span, 그리고 현재 span 안에서 자신보다 앞선 토큰들에 대해 엄격한 causal attention을 적용한다.
셋째, 오디오 토큰 (A_m)은 hybrid attention을 사용한다.
즉, 같은 오디오 span 내부에서는 양방향으로 attention을 허용하고, 프롬프트와 모든 이전 span에 대해서는 causal하게 attention한다.

이러한 설계는 한 번의 forward pass 안에서 오디오 span을 병렬로 학습할 수 있게 하면서도, 서로 다른 span 사이의 간섭을 방지한다. 예시는 Appendix A.5에 제시되어 있다.

3.5 추론 과정

Figure 2는 TtT의 전체 구조와 추론 과정을 보여준다. 추론 시 TtT는 하나의 통합 프레임워크 안에서 AR 텍스트 디코딩과 NAR 오디오 합성을 번갈아 수행한다. 입력 오디오가 주어지면, 오디오 인코더가 이를 discrete token으로 변환하고, 모델은 (\langle SOA \rangle) 토큰이 나올 때까지 AR 방식으로 생성을 수행한다.

(\langle SOA \rangle)에 도달하면 모델은 NAR 모드로 전환된다. 이때 block-wise diffusion, 즉 Appendix A.4의 Algorithm 1에 설명된 방식으로 오디오 span들을 병렬로 생성한다. 이후 (\langle EOA \rangle)가 예측되면, 해당 block에서 남은 토큰들은 버려지고 decoding은 다시 AR 모드로 돌아간다. 이 과정은 (\langle EOS \rangle)가 생성될 때까지 반복된다.

완성된 각 오디오 span은 즉시 오디오 디코더로 전달된다. 이를 통해 병렬 합성이 가능해지고, 낮은 first-token latency와 연속적인 streaming generation을 달성할 수 있다.

4 Experiments 핵심 설명

이 실험 섹션의 목적은 크게 세 가지야.

첫째, TtT의 hybrid AR-NAR 구조가 정말 효과적인지 확인한다.
둘째, BANOM, PPM, SST 같은 training strategy들이 실제로 도움이 되는지 ablation으로 본다.
셋째, 기존 audio-language model들과 비교했을 때 TtT가 어느 정도 경쟁력이 있는지 평가한다.

4.1 Experimental Setups

저자들은 TtT를 여러 종류의 audio-text task로 학습하고 평가했다. 학습 데이터는 ASR, TTS, audio chat, text chat, AAC, speech emotion classification, acoustic scene classification, interleaved text-audio data 등을 포함하고, 총 약 630만 개 샘플을 사용한다. 즉, 단순히 음성 인식만 학습한 것이 아니라, 말하기, 듣기, 텍스트 대화, 오디오 이해를 모두 섞어서 학습한 것이다.

평가는 세 가지 능력을 중심으로 한다.

Audio-QA: 오디오 입력을 듣고 질문에 답하는 능력
ASR: 음성을 텍스트로 정확히 바꾸는 능력
AAC: 오디오 내용을 설명하는 caption 생성 능력

추가로 실제 speech-to-speech 대화 능력을 보기 위해 URO-Bench도 사용한다.

평가 방식도 중요하다. Audio-QA에서는 모델이 생성한 음성 답변을 ASR로 텍스트화한 뒤, Qwen3-30B-A3B를 judge로 사용해 정답과 의미적으로 맞는지 평가한다. ASR은 WER로 평가하고, AAC는 CLAIR-A 방식의 prompt를 사용해 caption 품질을 평가한다.

4.2 Hybrid AR-NAR Architecture 검증

여기가 실험의 핵심이다. 저자들은 세 가지 모델을 비교한다.

Pure AR 모델: 텍스트와 오디오를 모두 autoregressive하게 생성
Pure NAR 모델: diffusion/NAR 방식 중심
TtT: 텍스트는 AR, 오디오는 NAR diffusion

결과적으로 TtT가 pure AR과 pure NAR보다 대부분의 Audio-QA와 ASR 지표에서 더 좋다. 예를 들어 3B 모델 기준으로, TtT-3B는 Qwen2.5-3B AR보다 Audio-QA에서 더 높은 점수를 보이고, ASR에서도 훨씬 낮은 WER을 보인다. 논문은 이 차이를 TtT의 구조적 장점으로 설명한다. 텍스트는 순서 의존성이 강하므로 AR이 적합하고, 오디오는 source text에 대한 의존성이 크므로 NAR diffusion이 더 적합하다는 것이다.

즉, 이 실험은 논문의 핵심 주장인 “텍스트와 오디오에 같은 AR objective를 적용하면 부적절하고, modality에 맞게 AR/NAR를 나눠야 한다”는 주장을 뒷받침한다.

Ablation Study: BANOM, PPM, SST 효과

저자들은 TtT에서 세 가지 training strategy를 하나씩 제거해본다.

BANOM을 제거하면 성능이 떨어진다. 이는 학습 중 텍스트가 clean audio span을 보는 상황이 줄어들기 때문이다. 추론 시에는 이전 오디오 span이 이미 완성된 clean 상태로 들어오는데, 학습 때 항상 masked audio만 보면 train-test mismatch가 생긴다.

PPM을 제거해도 성능이 떨어진다. PPM은 이전 audio span을 clean하게 유지해주는 전략이다. 추론 때는 이전 오디오가 이미 생성된 상태이므로, 학습에서도 이전 span을 깨끗하게 보여주는 것이 중요하다.

SST를 제거했을 때도 성능 저하가 크다. 특히 LLaMAQuestions에서는 점수가 34.68에서 10.20으로 크게 떨어진다. 저자들은 SST가 없으면 모델이 (\langle EOA \rangle)를 의미 기반으로 예측하지 않고, 특정 위치에서 끝난다고 외워버리는 positional bias가 생긴다고 설명한다.

정리하면, 세 전략은 모두 “학습 때 보는 상황”과 “추론 때 실제 생성하는 상황”의 차이를 줄이기 위한 장치이고, ablation 결과상 실제로 도움이 된다.

Multimodal Alignment Pretraining 효과

저자들은 추가로 multimodal pretraining을 한 뒤 TtT를 적용한 경우도 비교한다. 이 모델이 Pretrain+TtT다.

결과를 보면, 그냥 TtT도 AR-only나 NAR-only보다 경쟁력이 있지만, multimodal alignment pretraining을 먼저 하면 성능이 더 좋아진다. Pretrain+TtT는 Audio-QA와 ASR에서 Pretrain+AR와 비슷하거나 더 좋은 성능을 보인다.

이 부분의 의미는, TtT 구조가 처음부터 학습해도 효과가 있지만, 이미 audio-text alignment가 어느 정도 된 모델 위에 적용하면 더 강해진다는 것이다.

4.3 기존 모델들과 비교

마지막으로 TtT를 Moshi, SpeechGPT, Kimi-Audio, VITA-Audio, LLaMA-Omni, GLM-4-Voice, Mini-Omni, SLAM-Omni 등과 비교한다.

핵심 결과는, Pretrain+TtT가 3B 이하의 efficient model 중에서는 Audio-QA와 ASR에서 가장 좋은 수준의 성능을 보인다는 것이다. 특히 Mini-Omni, SLAM-Omni 같은 작은 모델보다 Audio-QA와 ASR에서 크게 앞선다. 또한 일부 7B급 모델보다도 특정 task에서는 더 좋은 결과를 보인다.

다만 GLM-4-Voice나 Kimi-Audio 같은 큰 모델 전체를 완전히 이긴다고 보기는 어렵다. GLM-4-Voice는 약 9B 모델이라 크기가 훨씬 크고, 전체적으로 강한 성능을 보인다. 논문은 Pretrain+TtT가 훨씬 작은 3B 모델임에도 여러 benchmark에서 경쟁력 있는 결과를 냈다는 점을 강조한다.

이 실험 섹션의 결론

4장의 핵심은 다음과 같다.

TtT는 텍스트와 오디오를 모두 AR로 처리하는 기존 방식보다 낫다. 텍스트는 AR로 생성하고, 오디오는 NAR diffusion으로 병렬 생성하는 hybrid 구조가 Audio-QA와 ASR에서 더 좋은 결과를 낸다. 또한 BANOM, PPM, SST는 단순한 부가 기법이 아니라, hybrid AR-NAR 학습에서 생기는 train-test mismatch를 줄이는 데 실제로 중요한 역할을 한다. 마지막으로, 3B 규모의 Pretrain+TtT는 작은 모델군에서는 매우 강한 성능을 보이며, 일부 큰 모델과도 경쟁 가능한 결과를 낸다.

5 결론

이 연구에서는 AR 텍스트 생성과 NAR 오디오 diffusion을 결합한 통합 프레임워크를 제안한다. 텍스트와 오디오의 dependency가 서로 비대칭적이라는 점을 명시적으로 고려함으로써, 우리의 프레임워크는 하나의 Transformer 안에서 AR 모델링과 NAR 모델링의 장점을 연결한다.

또한 우리는 train-test discrepancy를 완화하기 위한 단순하지만 효과적인 전략들을 제안했으며, 이를 통해 더 견고하고 유연한 오디오 생성을 가능하게 했다. Audio-QA, ASR, AAC, URO-Bench benchmark에서의 실험은 강력한 AR 및 NAR baseline보다 명확한 성능 향상을 보여준다.

우리의 결과는 확장 가능하고 효과적인 speech-to-speech 시스템을 만들기 위해서는 modality-aware design, 즉 모달리티의 특성을 고려한 설계가 중요하다는 점을 보여준다.

Reference

https://arxiv.org/pdf/2509.20072

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

Audio-022, From Text to Talk: Audio-Language Model Needs Non-Autoregressive Joint Training, ICLR 2026