Audio-017, Kimi-Audio Technical Report, Preprint 2025

이미지
다음 답변은 Kimi-Audio Technical Report 기반으로 정리했다. 1. 텍스트와 오디오가 동시에 되는 모델을 학습한 게 맞나? 결론부터 말하면 맞다. Kimi-Audio는 텍스트와 오디오를 함께 다루는 unified audio foundation model이다. 논문에서 모델 목표를 다음처럼 설명한다: audio understanding audio generation speech conversation audio-to-text chat 을 하나의 모델에서 수행한다고 명시한다. 또 architecture 설명에서도: 입력: audio + text 출력: audio token + text token 을 동시에 처리한다고 설명한다. 모델 입력/출력은 무엇인가? 입력 입력은 두 종류다. 텍스트 토큰 오디오 표현 discrete semantic audio token continuous acoustic feature (Whisper feature) 즉 오디오는 단순 waveform을 직접 넣는 게 아니라: semantic token continuous feature 로 변환 후 입력한다. 출력 출력은 두 갈래(head)로 나뉜다. text head text token autoregressive generation audio head discrete semantic audio token generation 그리고 생성된 audio token을 detokenizer가 waveform으로 복원한다. 즉 모델은: text→text audio→text text→audio audio→audio 모두 가능하도록 설계됐다. 2. 텍스트와 오디오 모두 discrete token으로 변환해서 next token prediction 했나? 부분적으로 맞다. 정확히 말하면: 텍스트: discrete token 오디오 출력: discrete semantic token 오디오 입력: discrete token + continuous feature 조합이다. 즉 “모든 입력을 d...

Audio-016, NL-340, Scaling Open Discrete Audio Foundation Models with Interleaved Semantic, Acoustic, and Text Tokens, Preprint 2026

이미지
◼ Comment 참 마음에 드는 논문이다. 내가 하는것과 연관성이 깊었음 LALM을 만들때, 학습 레서피에 대한 다양한 실험 및 findings을 담은 논문이다 저자가 알고보니 selfcheckgpt, audio-judge도 쓴걸봐서 약간 최초의 연구를 좋아하는 느낌인듯 토크나이저: Mimi Tokenizer Mimi Tokenizer가 semantic, recon-based 두 개 모두 토크나이저를 뽑아줌 모델 아키텍처: Qwen3 기반 1번째 실험: 어떤 오디오 데이터를 사용해야하는가? 후보군으로 yodas, emilia, mls 여기서 어떤 데이터를 사용해서 학습하는게 좋은지? 이 방법으로 https://arxiv.org/pdf/2406.03476 논문 방법을 활용해서 실험해봤다고 함 결과로는 emilia가 가장 좋은 TTS, yodas가 text knoweldge 제공하고, 이 둘이 상호보완적이라고 해서, 이 2개를 선택함 참고로 텍스트 데이터는 nemotron-cc을 사용 2번째 실험: 텍스트와 오디오 비율을 어떻게 할까? 여기서 관점은 오디오 성능이 우선이다.  당연히 데이터 비율에 따라 trade-off임을 보여주는데, 오디오 성능 열화가 없는 텍스트 데이터 5%, 오디오 데이터95%을 선택함 이 부분은 내 관점하고 다르긴함. 오디오 성능을 우선시하는 것이기 때문? 평가방식은 validation NLL loss인데, 이 부분은 뒤에서 설명 3번째 실험: 학습시 semantic, acoustic, text token을 같이 사용해도 되는가? 이것도 trade-off가 있다. 즉 acoustic token을 추가하면, acoustic modeling 능력은 향상되고 semantic understanding은 감소 텍스트 토큰을 추가하면 오디오 성능에 큰 영향은 없음 여기서 평가메트릭은 sBLI, sWUG, Salm, tBLI, wWUC, ASR, TTS로 좀 생소한것들이 있음 어쨌든 general 한 관점에서는 S+A+T로 가는게 낫...

Audio-015, Step-Audio 2 Technical Report, Preprint 2025

이미지
텍스트와 오디오가 동시에 되는 모델을 학습한게 맞지? 모델이 지원하는 입력과 출력은 무엇인지 맞다. Step-Audio 2는 “end-to-end multi-modal large language model”로 설계되었고, 입력으로 raw audio를 직접 받고 출력으로 텍스트 토큰과 오디오 토큰을 함께 생성한다. 구체적인 구조는 다음과 같다. 입력: raw audio latent audio feature 형태로 encoder+adaptor를 거쳐 LLM decoder에 들어감 출력: interleaved discrete text/audio token sequence 이후 audio detokenizer가 waveform으로 복원 논문은 다음처럼 설명한다. audio encoder → adaptor → LLM decoder → audio detokenizer 구조 LLM decoder가 “discrete text and audio tokens”를 함께 생성 output audio token은 detokenizer를 통해 waveform 생성 즉: input modality: audio output modality: text speech(audio waveform) 또한: speech-to-text speech-to-speech speech translation audio understanding paralinguistic understanding 등을 모두 지원한다. 학습할때 텍스트와 오디오 모두 discrete token으로 변환해서 next token prediction한게 맞는지? 어떤 토크나이저를 썼는지 부분적으로 맞다. 텍스트는 일반적인 LLM token sequence이고, 출력 오디오는 discrete audio token으로 변환해서 language modeling에 통합했다. 논문에서 명확히 밝힌 점: output은 “interleaved sequence of discrete text and audio tokens” audio tokenizer는...

Audio-014, Step-Audio: Unified Understanding and Generation in Intelligent Speech Interaction, Preprint 2025

1. 텍스트와 오디오 통합 모델 여부 및 입출력 통합 모델 여부: 네, 맞습니다. 텍스트와 오디오(음성)의 이해 및 생성을 하나의 130B 파라미터 모델 내에서 통합적으로 처리하는 구조입니다. 지원하는 입출력: 입력: 오디오(음성), 텍스트, 이미지(Step-Omni의 일부로서 이미지 데이터도 포함하여 학습됨)를 지원합니다. 출력: 텍스트와 오디오 토큰을 출력하며, 오디오 토큰은 별도의 스피치 디코더를 통해 실제 음성 파형(Waveform)으로 변환됩니다. 2. 토큰화 및 예측 방식 예측 방식: 맞습니다. 오디오를 이산적인 토큰(Discrete token)으로 변환하여 Next Token Prediction 방식으로 학습합니다. 사용된 토크나이저: Dual-codebook 프레임워크를 사용합니다. Linguistic Tokenizer: Paraformer 인코더 출력을 사용하여 언어적 특징(음소 등)을 추출하며, 코드북 사이즈는 1024, 속도는 16.7Hz입니다. Semantic Tokenizer: Cosy Voice의 토크나이저를 사용하여 의미 및 음향적 특성을 추출하며, 코드북 사이즈는 4096, 속도는 25Hz입니다. 이 두 토큰은 2:3 비율로 교차(interleaving)되어 모델에 입력됩니다. 3. 모델 학습 순서 및 데이터 비율 학습은 기존의 텍스트 기반 LLM인 Step-1 을 백본으로 하여 3단계의 Continual Pretraining을 거칩니다. Pre-training Stage 1: 텍스트 모델의 어휘집에 5,120개의 오디오 토큰을 추가하고 이미지 인코더를 결합합니다. 오디오:텍스트:이미지 = 2:1:1 비율로 학습하며, 이때 오디오는 순수 오디오 컨티뉴에이션(Pure audio continuation) 작업만 수행합니다. (1.2T 토큰 학습) Stage 2: 오디오-텍스트 교차(Interleaved) 데이터를 추가합니다. 데이터 비율은 여전히 오디오:텍스트:이미지 = 2:1:1 이지만, 오디오 데이터 내에서 ...