Audio-021, Voxtlm: unified decoder-only models for consolidating speech recognition/synthesis and speech/text continuation tasks, ICASSP 2024

 아래 답변은 업로드된 VoxtLM: Unified Decoder-only Models for Consolidating Speech Recognition, Synthesis and Speech, Text Continuation Tasks 기준이다. 1. 텍스트와 오디오가 동시에 되는 모델을 학습한 게 맞나? 맞다. VoxtLM은 텍스트와 오디오를 하나의 decoder-only LM 안에서 함께 다루는 unified speech-text model 이다. 다만 “raw waveform을 그대로 넣고 바로 텍스트/오디오를 출력한다”기보다는, 오디오는 먼저 discrete speech token 으로 변환해서 텍스트 토큰과 같은 LM vocabulary 안에서 처리한다. 모델이 지원하는 입력과 출력은 네 가지 태스크로 정리된다. 태스크 입력 condition 출력 prediction TextLM 텍스트 이어지는 텍스트 SpeechLM speech token 이어지는 speech token ASR speech token 텍스트 TTS 텍스트 speech token → waveform 복원 즉, 모델 입장에서는 입력과 출력이 모두 Voxt vocabulary 안의 token sequence 이고, 이 vocabulary 안에 text token과 speech token이 같이 들어간다. 생성된 speech token은 별도의 speech token decoder, 즉 HiFi-GAN 기반 decoder를 통해 다시 waveform으로 변환된다. 2. 텍스트와 오디오 모두 discrete token으로 변환해서 next token prediction 한 게 맞나? 거의 맞다. 정확히는 텍스트는 원래 discrete text token , 오디오는 HuBERT 기반 semantic speech token 으로 변환한 뒤, 둘을 합친 vocabulary에서 autoregressive next-token prediction 으로 학습한다. 오디오 토크나이저는 다음과 ...

Audio-020, Textually Pretrained Speech Language Models, NeurIPS 2023

이미지
아래 논문은 TWIST: Textually Pretrained Speech Language Models 에 대한 답변입니다. 핵심부터 말하면, 이 논문은 텍스트+오디오를 동시에 입출력하는 멀티모달 LLM 을 학습한 논문이 아니라, 텍스트 LLM의 가중치를 초기값으로 가져와 speech-only LM을 더 잘 학습시키는 방법 을 제안한 논문입니다. 1. 텍스트와 오디오가 동시에 되는 모델을 학습한 게 맞나? 아니다. 이 논문에서 최종적으로 학습하는 모델은 SpeechLM , 즉 음성 토큰을 입력받고 음성 토큰을 출력하는 speech-only language model 이다. 모델 파이프라인은 세 부분이다. Speech tokenizer raw speech를 discrete speech token으로 변환 SpeechLM discrete speech token sequence에 대해 next-token prediction 수행 Token-to-speech vocoder 생성된 speech token을 다시 waveform으로 변환 즉 최종 시스템은 다음과 같다. speech waveform → speech tokens → SpeechLM → speech tokens → speech waveform 텍스트를 입력으로 넣거나 텍스트를 출력하는 모델은 아니다. 텍스트 LLM은 초기화용 pretrained backbone 으로만 사용된다. 논문 Figure 1도 이 구조를 보여준다. Pretrained Text LM에서 SpeechLM으로 weight initialization을 하고, 이후 SpeechLM은 speech language modeling을 수행한다. 정리하면: 항목 지원 여부 텍스트 입력 최종 TWIST 모델에서는 아님 텍스트 출력 아님 음성 입력 가능, tokenizer를 거쳐 speech token으로 입력 음성 출력 가능, SpeechLM이 speech token을 생성하고 vocoder가 waveform으로 복원 텍스트+오디오 동시 입출력 아님 2...

NL-346, On the Parameterization and Initialization of Diagonal State Space Models (S4D), NeurIPS 2026

https://chatgpt.com/share/e/6a0e6369-78fc-8022-9b77-88911f9a9535 S4D를 처음부터 이해하기: “상태 업데이트”에서 “Convolution”까지 이번 글은 S4D: On the Parameterization and Initialization of Diagonal State Space Models 논문을 처음 보는 사람을 위한 설명이다. 수식이 많이 나오지만, 목표는 하나다. S4D는 긴 시퀀스를 잘 처리하기 위해, 입력을 내부 기억에 저장하고, 그 기억을 효율적인 convolution kernel로 바꿔 계산하는 모델이다. 이 글에서는 특히 네가 헷갈려 했던 부분들을 중심으로 설명한다. (x'(t))가 무엇인지 왜 갑자기 (y)가 (u)의 함수처럼 보이는지 (K(t)=Ce^{tA}B)가 어디서 나오는지 S4D는 기존 S4에서 무엇을 단순화한 것인지 논문은 S4D를 기존 S4보다 훨씬 단순한 diagonal SSM으로 만들면서도, 성능은 거의 유지할 수 있음을 보인다. 1. S4D가 풀고 싶은 문제 우리가 다루고 싶은 데이터는 보통 시퀀스 다. 예를 들어: 문장: [나는, 오늘, 학교에, 갔다] 오디오: [0.01, 0.03, -0.02, ...] 주가: [100, 101, 99, 102, ...] 이미지: 픽셀을 한 줄로 펼친 sequence 이런 데이터의 핵심은 앞에서 나온 정보가 뒤에 영향을 줄 수 있다 는 점이다. 예를 들어 문장에서: "철수는 영희에게 책을 빌려주었다. 그는 ..." 여기서 “그”가 누구인지 알기 위해서는 앞부분 기억이 필요하다. 오디오도 마찬가지다. 지금 소리 하나만 보고는 단어를 알 수 없다. 앞뒤의 긴 패턴을 같이 봐야 한다. 그래서 S4D는 이런 일을 하려 한다. 입력 시퀀스 u ↓ 과거 정보를 잘 기억 ↓ 출력 시퀀스 y 생성 2. State Space Model이란? S4D는 State Space Mo...

NL-345, Mamba: Linear-Time Sequence Modeling with Selective State Spaces, CoLM 2024

이미지
Abstract 파운데이션 모델은 현재 딥러닝의 흥미로운 응용 대부분을 구동하고 있으며, 거의 예외 없이 Transformer 아키텍처와 그 핵심인 attention 모듈에 기반한다. 긴 시퀀스에서 Transformer의 계산 비효율성을 해결하기 위해 linear attention, gated convolution 및 recurrent 모델, structured state space model(SSM)과 같은 많은 subquadratic-time 아키텍처가 개발되어 왔지만, 언어와 같은 중요한 모달리티에서는 attention만큼 좋은 성능을 보이지 못했다. 우리는 이러한 모델들의 핵심 약점이 content-based reasoning을 수행하지 못하는 데 있음을 확인하고, 이를 개선하기 위한 몇 가지 방법을 제안한다. 첫째, SSM 파라미터가 입력의 함수가 되도록 하는 단순한 변경만으로도 discrete modality에서의 약점을 해결할 수 있으며, 모델이 현재 토큰에 따라 시퀀스 길이 차원을 따라 정보를 선택적으로 전파하거나 잊을 수 있게 한다. 둘째, 이 변경으로 인해 효율적인 convolution을 사용할 수 없게 되지만, 우리는 recurrent mode에서 hardware-aware parallel algorithm을 설계한다. 우리는 이러한 selective SSM을 attention은 물론 MLP block조차 없는 단순화된 end-to-end neural network architecture인 Mamba에 통합한다. Mamba는 빠른 inference, 즉 Transformer보다 5배 높은 throughput을 보이며, 시퀀스 길이에 대해 선형적으로 scaling된다. 또한 실제 데이터에서 million-length sequence까지 성능이 향상된다. 일반적인 sequence model backbone으로서 Mamba는 언어, 오디오, 유전체학 등 여러 모달리티에서 state-of-the-art 성능을 달성한다. Language modeli...

NL-342, Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity, JMLR 2022

이미지
◼ Comment MoE 초기 논문 이후로, 그 다음 MoE 국밥 논문인듯 내가 느끼기엔 근데 방법론 자체는 비슷한데, Transformer 구조에 적용하고 다양한 실험을 해본 것 전체 구조는 그림 2와 같고, Transformer에서 FFN layer을 보통 모든 입력에 대해 동일한 layer을 사용하는데 여기서는, 입력 토큰별로 다른 FFN layer을 쓴다는 것이다. 그럼 어떤 FFN layer을 사용하는지를, Router을 둬서 사용하는것이고, 이 방법은 MoE 방법과 동일하다 단, 몇개의 FFN layer을 사용할지 top-k 을 선택해야하는데 기존에는 2개 이상을 쓰는걸로 주로 실험되었지만, 여기서 해보니 top-1을(expert 1개만 사용) 써도 성능 잘나오더라 학습 효율 top-1 expert을 사용하게끔 학습할때, 입력이 하나의 expert로 쏠리는 학습 불안정 현상이 있다는거 같음 그래서 이를 어느정도 균등하게 하기 위한 노력이 있는데, 1) 식 3처럼, expert당 처리할 수 있는 입력 토큰 개수를 정해두고, 이 제한 입력이 꽉차면, 이 expert로 들어오면 FFN layer의 출력을 0 처리해서 residual 로 바꿔버림.  이를 dropped token이라 부름 2) 식 4,5,6처럼 penalty loss 개념을 도입한다. 이 Loss는 균등하게 Expert로 분배되면 낮아지는 수식이다 즉 배치에 구성된 토큰들이 만약 한쪽 expert로 쏠리면, f, P 값이 커지면서 loss가 증가한다 여기서 f는 실제 top-1 배분 비율, P는 router가 준 확률의 평균 실험 결과는 그냥 스크리닝만 했는데, 기존 dense 스타일인 T5랑 MoE 모델보다 같은 토큰 학습 steps 기준 좋다라고 주장하는거 같음 전반적으로 sparse expert는 학습 불안정성이 있지만, 이거를 bfloat16으로 해결하려고 했던거 같고  모델 스케일링 실험 expert을 늘리면 손쉽게 capacity 늘리고 성능도 좋아지지만, 한계가...