NL-352, Mixture-of-Transformers: A Sparse and Scalable Architecture for Multi-Modal Foundation Models, TMLR 2025

이미지
◼ Comment 이 논문은 멀티모달 처리할때 새로운 구조를 제안한거다.  BAGEL, Cosmos v3가 대표적으로 MoT 구조이다. 요약 dense 모델로 멀티모달 처리하면 서로 충돌하는 경우가 있다 (제 연구랑 비슷한 finding) 실제 다른 스페이스에 모달리티가 저장되더라 (제 연구랑 비슷한 finding) learned router 기반 MoE가 expert utilization imbalance, load balancing, routing instability 문제를 가질 수 있고, 멀티모달 setting에서는 데이터 분포 차이 때문에 특히 speech validation에서 불안정할 수 있다. 즉 “모달리티별 router”라기보다는 learned expert routing이 멀티모달 분포에서 불안정함 (네모트론 speechx랑 비슷한 finding) 뭐 위 이유 및 이런저런 이유로 MoT 가는데 discrete token만써서 학습할때도 효율적/성능 좋고, diffusion 붙여서 학습하는 환경에서도 효율적/성능 좋다. 구조는 사실 특별한건 없고  FFN, Norm, expert-like module은 모달리티별로 따로 존재한다고 보면 되고, 모달리티 간 직접적인 token-level 정보 공유는 global self-attention에서 일어난다고 이해하면 된다. 즉 그냥 Transformer가 모달리티별로 존재하는데, attention만 같이 하는 느낌? 실험을 상당히 많이 했는데, MoT에서 텍스트 모달리티 블럭만 dense -> moe로 바꿔도 효율 좋다고 함 즉 하이브리드 형식도 시도 근데 어쨌거나 핵심은 모달리티별로 분리하는것 attention 빼고 다 분리할지 일부 분리할지 ablation 했음 FFN 분리가 가장 큰 이득을 주고, Q/K/V attention projection 분리를 추가하면 더 좋아진다.  LayerNorm 분리는 추가 효과가 거의 작다.  Full MoT가 전체적으로 가장...

Audio-021, Voxtlm: unified decoder-only models for consolidating speech recognition/synthesis and speech/text continuation tasks, ICASSP 2024

 아래 답변은 업로드된 VoxtLM: Unified Decoder-only Models for Consolidating Speech Recognition, Synthesis and Speech, Text Continuation Tasks 기준이다. 1. 텍스트와 오디오가 동시에 되는 모델을 학습한 게 맞나? 맞다. VoxtLM은 텍스트와 오디오를 하나의 decoder-only LM 안에서 함께 다루는 unified speech-text model 이다. 다만 “raw waveform을 그대로 넣고 바로 텍스트/오디오를 출력한다”기보다는, 오디오는 먼저 discrete speech token 으로 변환해서 텍스트 토큰과 같은 LM vocabulary 안에서 처리한다. 모델이 지원하는 입력과 출력은 네 가지 태스크로 정리된다. 태스크 입력 condition 출력 prediction TextLM 텍스트 이어지는 텍스트 SpeechLM speech token 이어지는 speech token ASR speech token 텍스트 TTS 텍스트 speech token → waveform 복원 즉, 모델 입장에서는 입력과 출력이 모두 Voxt vocabulary 안의 token sequence 이고, 이 vocabulary 안에 text token과 speech token이 같이 들어간다. 생성된 speech token은 별도의 speech token decoder, 즉 HiFi-GAN 기반 decoder를 통해 다시 waveform으로 변환된다. 2. 텍스트와 오디오 모두 discrete token으로 변환해서 next token prediction 한 게 맞나? 거의 맞다. 정확히는 텍스트는 원래 discrete text token , 오디오는 HuBERT 기반 semantic speech token 으로 변환한 뒤, 둘을 합친 vocabulary에서 autoregressive next-token prediction 으로 학습한다. 오디오 토크나이저는 다음과 ...

Audio-020, Textually Pretrained Speech Language Models, NeurIPS 2023

이미지
아래 논문은 TWIST: Textually Pretrained Speech Language Models 에 대한 답변입니다. 핵심부터 말하면, 이 논문은 텍스트+오디오를 동시에 입출력하는 멀티모달 LLM 을 학습한 논문이 아니라, 텍스트 LLM의 가중치를 초기값으로 가져와 speech-only LM을 더 잘 학습시키는 방법 을 제안한 논문입니다. 1. 텍스트와 오디오가 동시에 되는 모델을 학습한 게 맞나? 아니다. 이 논문에서 최종적으로 학습하는 모델은 SpeechLM , 즉 음성 토큰을 입력받고 음성 토큰을 출력하는 speech-only language model 이다. 모델 파이프라인은 세 부분이다. Speech tokenizer raw speech를 discrete speech token으로 변환 SpeechLM discrete speech token sequence에 대해 next-token prediction 수행 Token-to-speech vocoder 생성된 speech token을 다시 waveform으로 변환 즉 최종 시스템은 다음과 같다. speech waveform → speech tokens → SpeechLM → speech tokens → speech waveform 텍스트를 입력으로 넣거나 텍스트를 출력하는 모델은 아니다. 텍스트 LLM은 초기화용 pretrained backbone 으로만 사용된다. 논문 Figure 1도 이 구조를 보여준다. Pretrained Text LM에서 SpeechLM으로 weight initialization을 하고, 이후 SpeechLM은 speech language modeling을 수행한다. 정리하면: 항목 지원 여부 텍스트 입력 최종 TWIST 모델에서는 아님 텍스트 출력 아님 음성 입력 가능, tokenizer를 거쳐 speech token으로 입력 음성 출력 가능, SpeechLM이 speech token을 생성하고 vocoder가 waveform으로 복원 텍스트+오디오 동시 입출력 아님 2...

NL-346, On the Parameterization and Initialization of Diagonal State Space Models (S4D), NeurIPS 2026

https://chatgpt.com/share/e/6a0e6369-78fc-8022-9b77-88911f9a9535 S4D를 처음부터 이해하기: “상태 업데이트”에서 “Convolution”까지 이번 글은 S4D: On the Parameterization and Initialization of Diagonal State Space Models 논문을 처음 보는 사람을 위한 설명이다. 수식이 많이 나오지만, 목표는 하나다. S4D는 긴 시퀀스를 잘 처리하기 위해, 입력을 내부 기억에 저장하고, 그 기억을 효율적인 convolution kernel로 바꿔 계산하는 모델이다. 이 글에서는 특히 네가 헷갈려 했던 부분들을 중심으로 설명한다. (x'(t))가 무엇인지 왜 갑자기 (y)가 (u)의 함수처럼 보이는지 (K(t)=Ce^{tA}B)가 어디서 나오는지 S4D는 기존 S4에서 무엇을 단순화한 것인지 논문은 S4D를 기존 S4보다 훨씬 단순한 diagonal SSM으로 만들면서도, 성능은 거의 유지할 수 있음을 보인다. 1. S4D가 풀고 싶은 문제 우리가 다루고 싶은 데이터는 보통 시퀀스 다. 예를 들어: 문장: [나는, 오늘, 학교에, 갔다] 오디오: [0.01, 0.03, -0.02, ...] 주가: [100, 101, 99, 102, ...] 이미지: 픽셀을 한 줄로 펼친 sequence 이런 데이터의 핵심은 앞에서 나온 정보가 뒤에 영향을 줄 수 있다 는 점이다. 예를 들어 문장에서: "철수는 영희에게 책을 빌려주었다. 그는 ..." 여기서 “그”가 누구인지 알기 위해서는 앞부분 기억이 필요하다. 오디오도 마찬가지다. 지금 소리 하나만 보고는 단어를 알 수 없다. 앞뒤의 긴 패턴을 같이 봐야 한다. 그래서 S4D는 이런 일을 하려 한다. 입력 시퀀스 u ↓ 과거 정보를 잘 기억 ↓ 출력 시퀀스 y 생성 2. State Space Model이란? S4D는 State Space Mo...

NL-345, Mamba: Linear-Time Sequence Modeling with Selective State Spaces, CoLM 2024

이미지
Abstract 파운데이션 모델은 현재 딥러닝의 흥미로운 응용 대부분을 구동하고 있으며, 거의 예외 없이 Transformer 아키텍처와 그 핵심인 attention 모듈에 기반한다. 긴 시퀀스에서 Transformer의 계산 비효율성을 해결하기 위해 linear attention, gated convolution 및 recurrent 모델, structured state space model(SSM)과 같은 많은 subquadratic-time 아키텍처가 개발되어 왔지만, 언어와 같은 중요한 모달리티에서는 attention만큼 좋은 성능을 보이지 못했다. 우리는 이러한 모델들의 핵심 약점이 content-based reasoning을 수행하지 못하는 데 있음을 확인하고, 이를 개선하기 위한 몇 가지 방법을 제안한다. 첫째, SSM 파라미터가 입력의 함수가 되도록 하는 단순한 변경만으로도 discrete modality에서의 약점을 해결할 수 있으며, 모델이 현재 토큰에 따라 시퀀스 길이 차원을 따라 정보를 선택적으로 전파하거나 잊을 수 있게 한다. 둘째, 이 변경으로 인해 효율적인 convolution을 사용할 수 없게 되지만, 우리는 recurrent mode에서 hardware-aware parallel algorithm을 설계한다. 우리는 이러한 selective SSM을 attention은 물론 MLP block조차 없는 단순화된 end-to-end neural network architecture인 Mamba에 통합한다. Mamba는 빠른 inference, 즉 Transformer보다 5배 높은 throughput을 보이며, 시퀀스 길이에 대해 선형적으로 scaling된다. 또한 실제 데이터에서 million-length sequence까지 성능이 향상된다. 일반적인 sequence model backbone으로서 Mamba는 언어, 오디오, 유전체학 등 여러 모달리티에서 state-of-the-art 성능을 달성한다. Language modeli...