Audio-022, From Text to Talk: Audio-Language Model Needs Non-Autoregressive Joint Training, ICLR 2026

이미지
ABSTRACT 최근 대규모 언어 모델(LLM)의 발전은 멀티모달 시나리오, 특히 음성-음성(S2S) 대화 시스템으로 그 능력을 확장하려는 큰 관심을 불러일으켰다. 그러나 오디오와 텍스트가 교차된 입력을 처리하는 기존 멀티모달 모델들은 자기회귀(AR) 방식에 의존하며, 텍스트는 주로 목표-목표 관계에 의존하는 반면 오디오는 주로 소스-목표 관계에 의존한다는 점을 간과한다. 본 연구에서는 Text-to-Talk(TtT)를 제안한다. TtT는 하나의 Transformer 안에서 AR 텍스트 생성과 비자기회귀(NAR) 오디오 확산을 통합한 통합 오디오-텍스트 프레임워크이다. 우리는 흡수형 이산 확산(absorbing discrete diffusion)의 임의 순서 AR 특성을 활용하여 텍스트와 오디오를 위한 통합 학습 목적을 제공한다. 이러한 하이브리드 생성 패러다임을 지원하기 위해, 우리는 텍스트에는 인과적 디코딩을 강제하면서 오디오 구간 내부에서는 양방향 모델링을 허용하는 모달리티 인식 어텐션 메커니즘을 설계한다. 또한 학습과 테스트 사이의 불일치를 줄이기 위한 세 가지 학습 전략을 추가로 도입한다. 추론 시 TtT는 블록 단위 확산을 사용하여 오디오를 병렬로 합성하면서도, 가변 길이 출력을 유연하게 처리한다. 오디오 질의응답(Audio-QA), 자동 음성 인식(ASR), 자동 오디오 캡션(AAC), S2S 벤치마크에서의 포괄적인 실험 결과, TtT는 강력한 AR 및 NAR 베이스라인을 일관되게 능가하였다. 추가적인 절제 실험과 학습 전략 분석 역시 각 구성 요소의 기여를 확인해준다. 코드와 데이터는 공개되어 있다. 목표-목표라는것은 생성되는 토큰끼리의 연관성이 깊다는 것이고, 소스-목표는 처음에 주어진 컨텍스트(소스)가 중요하다는 것. 즉 오디오는 매 생성되는 앞의 토큰들보다 소스가 더 중요하다는 의미 1 INTRODUCTION 최근 대규모 언어 모델(LLM)의 성공은 다양한 모달리티에 걸쳐 정보를 처리하고 생성할 수 있는 범용 멀티모달 대규모 언어 모델(ML...

NL-352, Mixture-of-Transformers: A Sparse and Scalable Architecture for Multi-Modal Foundation Models, TMLR 2025

이미지
◼ Comment 이 논문은 멀티모달 처리할때 새로운 구조를 제안한거다.  BAGEL, Cosmos v3가 대표적으로 MoT 구조이다. 요약 dense 모델로 멀티모달 처리하면 서로 충돌하는 경우가 있다 (제 연구랑 비슷한 finding) 실제 다른 스페이스에 모달리티가 저장되더라 (제 연구랑 비슷한 finding) learned router 기반 MoE가 expert utilization imbalance, load balancing, routing instability 문제를 가질 수 있고, 멀티모달 setting에서는 데이터 분포 차이 때문에 특히 speech validation에서 불안정할 수 있다. 즉 “모달리티별 router”라기보다는 learned expert routing이 멀티모달 분포에서 불안정함 (네모트론 speechx랑 비슷한 finding) 뭐 위 이유 및 이런저런 이유로 MoT 가는데 discrete token만써서 학습할때도 효율적/성능 좋고, diffusion 붙여서 학습하는 환경에서도 효율적/성능 좋다. 구조는 사실 특별한건 없고  FFN, Norm, expert-like module은 모달리티별로 따로 존재한다고 보면 되고, 모달리티 간 직접적인 token-level 정보 공유는 global self-attention에서 일어난다고 이해하면 된다. 즉 그냥 Transformer가 모달리티별로 존재하는데, attention만 같이 하는 느낌? 실험을 상당히 많이 했는데, MoT에서 텍스트 모달리티 블럭만 dense -> moe로 바꿔도 효율 좋다고 함 즉 하이브리드 형식도 시도 근데 어쨌거나 핵심은 모달리티별로 분리하는것 attention 빼고 다 분리할지 일부 분리할지 ablation 했음 FFN 분리가 가장 큰 이득을 주고, Q/K/V attention projection 분리를 추가하면 더 좋아진다.  LayerNorm 분리는 추가 효과가 거의 작다.  Full MoT가 전체적으로 가장...

Audio-021, Voxtlm: unified decoder-only models for consolidating speech recognition/synthesis and speech/text continuation tasks, ICASSP 2024

 아래 답변은 업로드된 VoxtLM: Unified Decoder-only Models for Consolidating Speech Recognition, Synthesis and Speech, Text Continuation Tasks 기준이다. 1. 텍스트와 오디오가 동시에 되는 모델을 학습한 게 맞나? 맞다. VoxtLM은 텍스트와 오디오를 하나의 decoder-only LM 안에서 함께 다루는 unified speech-text model 이다. 다만 “raw waveform을 그대로 넣고 바로 텍스트/오디오를 출력한다”기보다는, 오디오는 먼저 discrete speech token 으로 변환해서 텍스트 토큰과 같은 LM vocabulary 안에서 처리한다. 모델이 지원하는 입력과 출력은 네 가지 태스크로 정리된다. 태스크 입력 condition 출력 prediction TextLM 텍스트 이어지는 텍스트 SpeechLM speech token 이어지는 speech token ASR speech token 텍스트 TTS 텍스트 speech token → waveform 복원 즉, 모델 입장에서는 입력과 출력이 모두 Voxt vocabulary 안의 token sequence 이고, 이 vocabulary 안에 text token과 speech token이 같이 들어간다. 생성된 speech token은 별도의 speech token decoder, 즉 HiFi-GAN 기반 decoder를 통해 다시 waveform으로 변환된다. 2. 텍스트와 오디오 모두 discrete token으로 변환해서 next token prediction 한 게 맞나? 거의 맞다. 정확히는 텍스트는 원래 discrete text token , 오디오는 HuBERT 기반 semantic speech token 으로 변환한 뒤, 둘을 합친 vocabulary에서 autoregressive next-token prediction 으로 학습한다. 오디오 토크나이저는 다음과 ...

Audio-020, Textually Pretrained Speech Language Models, NeurIPS 2023

이미지
아래 논문은 TWIST: Textually Pretrained Speech Language Models 에 대한 답변입니다. 핵심부터 말하면, 이 논문은 텍스트+오디오를 동시에 입출력하는 멀티모달 LLM 을 학습한 논문이 아니라, 텍스트 LLM의 가중치를 초기값으로 가져와 speech-only LM을 더 잘 학습시키는 방법 을 제안한 논문입니다. 1. 텍스트와 오디오가 동시에 되는 모델을 학습한 게 맞나? 아니다. 이 논문에서 최종적으로 학습하는 모델은 SpeechLM , 즉 음성 토큰을 입력받고 음성 토큰을 출력하는 speech-only language model 이다. 모델 파이프라인은 세 부분이다. Speech tokenizer raw speech를 discrete speech token으로 변환 SpeechLM discrete speech token sequence에 대해 next-token prediction 수행 Token-to-speech vocoder 생성된 speech token을 다시 waveform으로 변환 즉 최종 시스템은 다음과 같다. speech waveform → speech tokens → SpeechLM → speech tokens → speech waveform 텍스트를 입력으로 넣거나 텍스트를 출력하는 모델은 아니다. 텍스트 LLM은 초기화용 pretrained backbone 으로만 사용된다. 논문 Figure 1도 이 구조를 보여준다. Pretrained Text LM에서 SpeechLM으로 weight initialization을 하고, 이후 SpeechLM은 speech language modeling을 수행한다. 정리하면: 항목 지원 여부 텍스트 입력 최종 TWIST 모델에서는 아님 텍스트 출력 아님 음성 입력 가능, tokenizer를 거쳐 speech token으로 입력 음성 출력 가능, SpeechLM이 speech token을 생성하고 vocoder가 waveform으로 복원 텍스트+오디오 동시 입출력 아님 2...

NL-346, On the Parameterization and Initialization of Diagonal State Space Models (S4D), NeurIPS 2026

https://chatgpt.com/share/e/6a0e6369-78fc-8022-9b77-88911f9a9535 S4D를 처음부터 이해하기: “상태 업데이트”에서 “Convolution”까지 이번 글은 S4D: On the Parameterization and Initialization of Diagonal State Space Models 논문을 처음 보는 사람을 위한 설명이다. 수식이 많이 나오지만, 목표는 하나다. S4D는 긴 시퀀스를 잘 처리하기 위해, 입력을 내부 기억에 저장하고, 그 기억을 효율적인 convolution kernel로 바꿔 계산하는 모델이다. 이 글에서는 특히 네가 헷갈려 했던 부분들을 중심으로 설명한다. (x'(t))가 무엇인지 왜 갑자기 (y)가 (u)의 함수처럼 보이는지 (K(t)=Ce^{tA}B)가 어디서 나오는지 S4D는 기존 S4에서 무엇을 단순화한 것인지 논문은 S4D를 기존 S4보다 훨씬 단순한 diagonal SSM으로 만들면서도, 성능은 거의 유지할 수 있음을 보인다. 1. S4D가 풀고 싶은 문제 우리가 다루고 싶은 데이터는 보통 시퀀스 다. 예를 들어: 문장: [나는, 오늘, 학교에, 갔다] 오디오: [0.01, 0.03, -0.02, ...] 주가: [100, 101, 99, 102, ...] 이미지: 픽셀을 한 줄로 펼친 sequence 이런 데이터의 핵심은 앞에서 나온 정보가 뒤에 영향을 줄 수 있다 는 점이다. 예를 들어 문장에서: "철수는 영희에게 책을 빌려주었다. 그는 ..." 여기서 “그”가 누구인지 알기 위해서는 앞부분 기억이 필요하다. 오디오도 마찬가지다. 지금 소리 하나만 보고는 단어를 알 수 없다. 앞뒤의 긴 패턴을 같이 봐야 한다. 그래서 S4D는 이런 일을 하려 한다. 입력 시퀀스 u ↓ 과거 정보를 잘 기억 ↓ 출력 시퀀스 y 생성 2. State Space Model이란? S4D는 State Space Mo...

NL-345, Mamba: Linear-Time Sequence Modeling with Selective State Spaces, CoLM 2024

이미지
Abstract 파운데이션 모델은 현재 딥러닝의 흥미로운 응용 대부분을 구동하고 있으며, 거의 예외 없이 Transformer 아키텍처와 그 핵심인 attention 모듈에 기반한다. 긴 시퀀스에서 Transformer의 계산 비효율성을 해결하기 위해 linear attention, gated convolution 및 recurrent 모델, structured state space model(SSM)과 같은 많은 subquadratic-time 아키텍처가 개발되어 왔지만, 언어와 같은 중요한 모달리티에서는 attention만큼 좋은 성능을 보이지 못했다. 우리는 이러한 모델들의 핵심 약점이 content-based reasoning을 수행하지 못하는 데 있음을 확인하고, 이를 개선하기 위한 몇 가지 방법을 제안한다. 첫째, SSM 파라미터가 입력의 함수가 되도록 하는 단순한 변경만으로도 discrete modality에서의 약점을 해결할 수 있으며, 모델이 현재 토큰에 따라 시퀀스 길이 차원을 따라 정보를 선택적으로 전파하거나 잊을 수 있게 한다. 둘째, 이 변경으로 인해 효율적인 convolution을 사용할 수 없게 되지만, 우리는 recurrent mode에서 hardware-aware parallel algorithm을 설계한다. 우리는 이러한 selective SSM을 attention은 물론 MLP block조차 없는 단순화된 end-to-end neural network architecture인 Mamba에 통합한다. Mamba는 빠른 inference, 즉 Transformer보다 5배 높은 throughput을 보이며, 시퀀스 길이에 대해 선형적으로 scaling된다. 또한 실제 데이터에서 million-length sequence까지 성능이 향상된다. 일반적인 sequence model backbone으로서 Mamba는 언어, 오디오, 유전체학 등 여러 모달리티에서 state-of-the-art 성능을 달성한다. Language modeli...