Audio-022, From Text to Talk: Audio-Language Model Needs Non-Autoregressive Joint Training, ICLR 2026
ABSTRACT 최근 대규모 언어 모델(LLM)의 발전은 멀티모달 시나리오, 특히 음성-음성(S2S) 대화 시스템으로 그 능력을 확장하려는 큰 관심을 불러일으켰다. 그러나 오디오와 텍스트가 교차된 입력을 처리하는 기존 멀티모달 모델들은 자기회귀(AR) 방식에 의존하며, 텍스트는 주로 목표-목표 관계에 의존하는 반면 오디오는 주로 소스-목표 관계에 의존한다는 점을 간과한다. 본 연구에서는 Text-to-Talk(TtT)를 제안한다. TtT는 하나의 Transformer 안에서 AR 텍스트 생성과 비자기회귀(NAR) 오디오 확산을 통합한 통합 오디오-텍스트 프레임워크이다. 우리는 흡수형 이산 확산(absorbing discrete diffusion)의 임의 순서 AR 특성을 활용하여 텍스트와 오디오를 위한 통합 학습 목적을 제공한다. 이러한 하이브리드 생성 패러다임을 지원하기 위해, 우리는 텍스트에는 인과적 디코딩을 강제하면서 오디오 구간 내부에서는 양방향 모델링을 허용하는 모달리티 인식 어텐션 메커니즘을 설계한다. 또한 학습과 테스트 사이의 불일치를 줄이기 위한 세 가지 학습 전략을 추가로 도입한다. 추론 시 TtT는 블록 단위 확산을 사용하여 오디오를 병렬로 합성하면서도, 가변 길이 출력을 유연하게 처리한다. 오디오 질의응답(Audio-QA), 자동 음성 인식(ASR), 자동 오디오 캡션(AAC), S2S 벤치마크에서의 포괄적인 실험 결과, TtT는 강력한 AR 및 NAR 베이스라인을 일관되게 능가하였다. 추가적인 절제 실험과 학습 전략 분석 역시 각 구성 요소의 기여를 확인해준다. 코드와 데이터는 공개되어 있다. 목표-목표라는것은 생성되는 토큰끼리의 연관성이 깊다는 것이고, 소스-목표는 처음에 주어진 컨텍스트(소스)가 중요하다는 것. 즉 오디오는 매 생성되는 앞의 토큰들보다 소스가 더 중요하다는 의미 1 INTRODUCTION 최근 대규모 언어 모델(LLM)의 성공은 다양한 모달리티에 걸쳐 정보를 처리하고 생성할 수 있는 범용 멀티모달 대규모 언어 모델(ML...