NL-340, Does your data spark joy? Performance gains from domain upsampling at the end of training, CoLM 2024

이미지
Abstract 대규모 언어 모델(LLM)을 위한 사전학습 데이터셋은 수조 개의 토큰 규모로 성장했으며, 대량의 CommonCrawl(CC) 웹 스크랩 데이터와 더불어 소규모의 도메인 특화 데이터셋들로 구성된다. 이러한 도메인 특화 데이터셋이 모델 성능에 미치는 영향을 이해하는 것은 비용이 많이 든다. 이는 난이도가 높고 emergent한 벤치마크에서 의미 있는 변화를 드러내기 위해 대규모 FLOP 수준의 학습이 필요하기 때문이다. 사전학습 데이터 실험 비용이 점점 증가하는 상황에서, 일반 웹 스크랩 데이터의 다양성과 도메인 특화 데이터의 정보 밀도 사이의 최적 균형은 어떻게 결정할 수 있을까? 본 연구에서는 학습 마지막 단계에서 도메인 특화 데이터셋을 CC 대비 업샘플링함으로써, 이러한 소규모 도메인 데이터셋을 활용해 어려운 벤치마크 성능을 향상시키는 방법을 제시한다. 이 단순한 기법을 통해, 1조(1T) 토큰으로 학습된 7B 모델에서 기본 데이터 혼합(base data mix) 대비 MMLU는 최대 6.90 percentage point(pp), GSM8K는 8.26 pp, HumanEval은 6.17 pp 향상시킬 수 있었으며, 이는 두 배 더 긴 학습을 수행한 Llama-2 (7B) 모델에 필적하는 성능이다. 또한 우리는 도메인 업샘플링 기간을 전체 학습의 5%에서 30%까지 변화시키는 실험을 수행하였고, 일반 언어 모델링 능력과 특정 벤치마크 성능 간의 trade-off를 조절하는 데에는 10%~20% 구간이 최적임을 발견했다. 더 나아가, 학습 마지막 단계에서 특정 데이터셋을 제거하는 방식의 도메인 업샘플링을 사용하여, 개별 데이터셋이 다양한 벤치마크 성능 향상에 얼마나 기여하는지를 대규모 환경에서 분석하였다. 이 방법은 전체 사전학습을 반복 수행하는 것에 비해 한 자릿수 이상 낮은 비용으로, 서로 다른 사전학습 데이터셋의 영향을 대규모로 실험할 수 있는 가능성을 제공한다. 1. Introduction 대규모 언어 모델(LLM)을 위한 사전학습 ...

Audio-019, Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers, Preprint 2023

이미지
1. 텍스트와 오디오가 동시에 되는 모델을 학습한게 맞지? 부분적으로 맞다. 정확히는 텍스트 조건(condition) 기반 오디오 생성 모델 이다. 즉: 입력: 텍스트(phoneme sequence) 짧은 오디오 프롬프트(3초 enrolled speech) 출력: 오디오 codec discrete token 최종적으로 waveform 복원 이다. 논문에서 TTS를 다음과 같이 정의한다. phoneme sequence (x) acoustic prompt (\tilde{C}) 를 조건으로 acoustic code matrix (C) 를 생성하는 conditional language modeling 문제로 본다. 즉 GPT처럼 “다음 토큰 예측” 구조이긴 하지만, 텍스트와 오디오를 모두 자유롭게 생성하는 multimodal foundation model은 아니다. 모델 입력 텍스트 입력 문자 자체가 아니라 phoneme sequence G2P(grapheme-to-phoneme) 변환 사용 오디오 입력 3초 enrolled speech 이를 neural codec tokenizer(EnCodec)로 discrete token화한 acoustic prompt 사용 모델 출력 EnCodec discrete acoustic token 이후 codec decoder가 waveform 복원 2. 학습할때 텍스트와 오디오 모두 discrete token으로 변환해서 next token prediction한게 맞는지? 절반만 맞다. 텍스트 텍스트는 phoneme sequence로 변환되지만, 논문에서는 이를 “discrete codec token”처럼 양자화했다고 설명하지는 않는다. 즉: phoneme embedding 사용 일반 NLP token embedding과 유사 이다. 오디오 오디오는 명확히 discrete token으로 변환한다. EnCodec tokenizer를 사용해: waveform → RVQ token sequence 로 변환한다. 그리고 이것을 langua...

Audio-018, Llama-Mimi: Exploring the Limits of Flattened Speech Language Modeling, Preprint 2025

이미지
1. 텍스트와 오디오가 동시에 되는 모델을 학습한 게 맞나? 부분적으로만 맞다. 이 논문은 speech language model(SpeechLM) 을 다루지만, 실제로는 오디오 토큰만 직접 모델링 한다. 텍스트 토큰과 오디오 토큰을 함께 넣는 멀티모달 LM은 아니다. 논문에서 모델 입력은 다음 순서의 audio discrete token sequence 이다. Mimi codec이 만든 semantic token Mimi codec이 만든 acoustic token 이를 flatten해서 하나의 시퀀스로 Transformer decoder에 입력 즉: 입력: 오디오 → discrete audio tokens 출력: 다음 audio token prediction → 최종적으로 오디오 waveform 복원 이다. 다만 backbone 자체는 pretrained Llama 3를 사용한다. 따라서: backbone은 원래 텍스트 LM 하지만 본 논문 학습에서는 audio token vocabulary를 추가해 speech generation에 사용 한 구조다. 지원하는 입출력은: 타입 지원 여부 Audio input O Audio output O Text input 논문에서 직접 지원한다고 설명 안 함 Text output 논문에서 직접 지원한다고 설명 안 함 논문은 speech continuation task 중심이다. 즉 “오디오 prompt → 이어지는 오디오 생성”을 다룬다. 2. 학습할 때 텍스트와 오디오 모두 discrete token으로 변환해서 next token prediction 했나? 아니다. 논문 기준으로는 오디오만 discrete token으로 변환 해서 next-token prediction을 수행한다. 논문 핵심은: Mimi codec이 waveform을 RVQ discrete token으로 변환 이를 flatten autoregressive next-token prediction 수행 이다. 모델 objective는 표준 causal ...

Audio-017, Kimi-Audio Technical Report, Preprint 2025

이미지
다음 답변은 Kimi-Audio Technical Report 기반으로 정리했다. 1. 텍스트와 오디오가 동시에 되는 모델을 학습한 게 맞나? 결론부터 말하면 맞다. Kimi-Audio는 텍스트와 오디오를 함께 다루는 unified audio foundation model이다. 논문에서 모델 목표를 다음처럼 설명한다: audio understanding audio generation speech conversation audio-to-text chat 을 하나의 모델에서 수행한다고 명시한다. 또 architecture 설명에서도: 입력: audio + text 출력: audio token + text token 을 동시에 처리한다고 설명한다. 모델 입력/출력은 무엇인가? 입력 입력은 두 종류다. 텍스트 토큰 오디오 표현 discrete semantic audio token continuous acoustic feature (Whisper feature) 즉 오디오는 단순 waveform을 직접 넣는 게 아니라: semantic token continuous feature 로 변환 후 입력한다. 출력 출력은 두 갈래(head)로 나뉜다. text head text token autoregressive generation audio head discrete semantic audio token generation 그리고 생성된 audio token을 detokenizer가 waveform으로 복원한다. 즉 모델은: text→text audio→text text→audio audio→audio 모두 가능하도록 설계됐다. 2. 텍스트와 오디오 모두 discrete token으로 변환해서 next token prediction 했나? 부분적으로 맞다. 정확히 말하면: 텍스트: discrete token 오디오 출력: discrete semantic token 오디오 입력: discrete token + continuous feature 조합이다. 즉 “모든 입력을 d...

Audio-016, NL-340, Scaling Open Discrete Audio Foundation Models with Interleaved Semantic, Acoustic, and Text Tokens, Preprint 2026

이미지
◼ Comment 참 마음에 드는 논문이다. 내가 하는것과 연관성이 깊었음 LALM을 만들때, 학습 레서피에 대한 다양한 실험 및 findings을 담은 논문이다 저자가 알고보니 selfcheckgpt, audio-judge도 쓴걸봐서 약간 최초의 연구를 좋아하는 느낌인듯 토크나이저: Mimi Tokenizer Mimi Tokenizer가 semantic, recon-based 두 개 모두 토크나이저를 뽑아줌 모델 아키텍처: Qwen3 기반 1번째 실험: 어떤 오디오 데이터를 사용해야하는가? 후보군으로 yodas, emilia, mls 여기서 어떤 데이터를 사용해서 학습하는게 좋은지? 이 방법으로 https://arxiv.org/pdf/2406.03476 논문 방법을 활용해서 실험해봤다고 함 결과로는 emilia가 가장 좋은 TTS, yodas가 text knoweldge 제공하고, 이 둘이 상호보완적이라고 해서, 이 2개를 선택함 참고로 텍스트 데이터는 nemotron-cc을 사용 2번째 실험: 텍스트와 오디오 비율을 어떻게 할까? 여기서 관점은 오디오 성능이 우선이다.  당연히 데이터 비율에 따라 trade-off임을 보여주는데, 오디오 성능 열화가 없는 텍스트 데이터 5%, 오디오 데이터95%을 선택함 이 부분은 내 관점하고 다르긴함. 오디오 성능을 우선시하는 것이기 때문? 평가방식은 validation NLL loss인데, 이 부분은 뒤에서 설명 3번째 실험: 학습시 semantic, acoustic, text token을 같이 사용해도 되는가? 이것도 trade-off가 있다. 즉 acoustic token을 추가하면, acoustic modeling 능력은 향상되고 semantic understanding은 감소 텍스트 토큰을 추가하면 오디오 성능에 큰 영향은 없음 여기서 평가메트릭은 sBLI, sWUG, Salm, tBLI, wWUC, ASR, TTS로 좀 생소한것들이 있음 어쨌든 general 한 관점에서는 S+A+T로 가는게 낫...

Audio-015, Step-Audio 2 Technical Report, Preprint 2025

이미지
텍스트와 오디오가 동시에 되는 모델을 학습한게 맞지? 모델이 지원하는 입력과 출력은 무엇인지 맞다. Step-Audio 2는 “end-to-end multi-modal large language model”로 설계되었고, 입력으로 raw audio를 직접 받고 출력으로 텍스트 토큰과 오디오 토큰을 함께 생성한다. 구체적인 구조는 다음과 같다. 입력: raw audio latent audio feature 형태로 encoder+adaptor를 거쳐 LLM decoder에 들어감 출력: interleaved discrete text/audio token sequence 이후 audio detokenizer가 waveform으로 복원 논문은 다음처럼 설명한다. audio encoder → adaptor → LLM decoder → audio detokenizer 구조 LLM decoder가 “discrete text and audio tokens”를 함께 생성 output audio token은 detokenizer를 통해 waveform 생성 즉: input modality: audio output modality: text speech(audio waveform) 또한: speech-to-text speech-to-speech speech translation audio understanding paralinguistic understanding 등을 모두 지원한다. 학습할때 텍스트와 오디오 모두 discrete token으로 변환해서 next token prediction한게 맞는지? 어떤 토크나이저를 썼는지 부분적으로 맞다. 텍스트는 일반적인 LLM token sequence이고, 출력 오디오는 discrete audio token으로 변환해서 language modeling에 통합했다. 논문에서 명확히 밝힌 점: output은 “interleaved sequence of discrete text and audio tokens” audio tokenizer는...