NL-341, Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer, ICLR 2017

이미지
ABSTRACT 신경망이 정보를 흡수할 수 있는 능력은 그 파라미터 수에 의해 제한된다. 조건부 계산(conditional computation)은 네트워크의 일부가 예제마다 선택적으로 활성화되도록 하여, 계산량을 그에 비례해 늘리지 않고도 모델 용량을 극적으로 키우는 이론적 방법으로 제안되어 왔다. 그러나 실제로는 알고리즘적·성능적 난제가 상당하다. 본 연구에서는 이러한 난제를 해결하고 조건부 계산의 가능성을 마침내 실현하여, 현대 GPU 클러스터에서 계산 효율의 손실은 크지 않으면서 모델 용량을 1000배 이상 향상시킨다. 우리는 수천 개의 feed-forward 서브네트워크로 구성된 Sparsely-Gated Mixture-of-Experts 레이어(MoE)를 제안한다. 학습 가능한 게이팅 네트워크는 각 예제마다 사용할 전문가들의 희소한 조합을 결정한다. 우리는 이 MoE를 언어 모델링과 기계번역에 적용하는데, 이들 과제에서는 훈련 코퍼스에 존재하는 방대한 지식을 흡수하기 위해 모델 용량이 매우 중요하다. 또한 최대 1370억 개의 파라미터를 갖는 MoE가 스택된 LSTM 층 사이에 합성곱 방식으로 적용되는 아키텍처를 제시한다. 대규모 언어 모델링 및 기계번역 벤치마크에서, 이러한 모델은 더 낮은 계산 비용으로 기존 최고 성능을 크게 능가하는 결과를 보인다. 1 INTRODUCTION AND RELATED WORK 1.1 CONDITIONAL COMPUTATION 학습 데이터와 모델 크기를 함께 확장하는 것은 딥러닝 성공의 핵심이었다. 데이터셋이 충분히 클 때, 신경망의 용량(파라미터 수)을 늘리면 예측 정확도를 훨씬 더 크게 높일 수 있다. 이는 텍스트(Sutskever et al., 2014; Bahdanau et al., 2014; Jozefowicz et al., 2016; Wu et al., 2016), 이미지(Krizhevsky et al., 2012; Le et al., 2012), 오디오(Hinton et al., 2012; Amodei e...

NL-340, Does your data spark joy? Performance gains from domain upsampling at the end of training, CoLM 2024

이미지
◼ Comment 어쩌다 읽게 된 논문인데 나쁘지 않은 결론이다. LLM을 학습할때 데이터 시드별 비율을 적당히 정해서 처음부터 끝까지 학습하는게 보통인데 여기서는 그 비율을 후반부에서 바꿔보니 성능이 꽤 올랐다는 것이다 학습방식 베이스) 테이블 1의 학습 방식으로 7B 모델을 1T토큰 학습하는 세팅인데 기본 pretraining 데이터셋 비율을 테이블 2처럼 구성한다. 테이블2의 구성은 휴리스틱하게 정한것이고, 이게 Llama2보다 더 좋은 가성비?(FLOPS대비 성능)이 좋다는 것을 그림 1로 보인다 DU) 베이스 모델의 중간 체크포인트인 0.8T에 이어서, 0.2T는 다른 데이터세트 비율로(테이블 4) 학습을 이어서 하는 것이다 그랬더니 기본 성능은 유지되고, DU 비율에서 강화시킨 코드/MMLU에 대한 성능이 향상되는 것을 보여준다. MMLU가 여러 도메인을 포함하기 때문에 도메인 데이터가 MMLU 타겟 데이터라 보는 듯? 베이스 vs DU 그럼 그냥 DU의 데이터 비율이 좋은거 아니냐라고 의문가질 수 있는데, 테이블 6이 DS 비율을 언제부터 학습하는게 좋은지 ablation 해본 것 결론은, DS 비율로만 학습하게 됐을때 일반적인 성능이 떨어지는 것을 보여준다 즉 적절한 데이터 비율의 변환 시점을 찾는 실험을 한 것이고 그게 20%라는 것 활용 방식 이 findings을 활용할 수 있는 것으로, 학습 데이터가 여러 시드로 구성됐을 때, 어떤 데이터가 성능 향상에 기여하는 것이냐? 라는 것을 확인할 수 있다는 것 기존에는 처음부터 데이터를 하나씩 빼가는 식의 ablation은 비용이 너무 컸었음 이 발견을 통해, 80%까지는 동일하게 학습하고 후반 학습시, 데이터 세트의 비율만을 바꿔서 관측하면 된다라는 것. Abstract 대규모 언어 모델(LLM)을 위한 사전학습 데이터셋은 수조 개의 토큰 규모로 성장했으며, 대량의 CommonCrawl(CC) 웹 스크랩 데이터와 더불어 소규모의 도메인 특화 데이터셋들로 구성된다. 이러한 도메인 특화 데이터셋이 모...

Audio-019, Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers, Preprint 2023

이미지
1. 텍스트와 오디오가 동시에 되는 모델을 학습한게 맞지? 부분적으로 맞다. 정확히는 텍스트 조건(condition) 기반 오디오 생성 모델 이다. 즉: 입력: 텍스트(phoneme sequence) 짧은 오디오 프롬프트(3초 enrolled speech) 출력: 오디오 codec discrete token 최종적으로 waveform 복원 이다. 논문에서 TTS를 다음과 같이 정의한다. phoneme sequence (x) acoustic prompt (\tilde{C}) 를 조건으로 acoustic code matrix (C) 를 생성하는 conditional language modeling 문제로 본다. 즉 GPT처럼 “다음 토큰 예측” 구조이긴 하지만, 텍스트와 오디오를 모두 자유롭게 생성하는 multimodal foundation model은 아니다. 모델 입력 텍스트 입력 문자 자체가 아니라 phoneme sequence G2P(grapheme-to-phoneme) 변환 사용 오디오 입력 3초 enrolled speech 이를 neural codec tokenizer(EnCodec)로 discrete token화한 acoustic prompt 사용 모델 출력 EnCodec discrete acoustic token 이후 codec decoder가 waveform 복원 2. 학습할때 텍스트와 오디오 모두 discrete token으로 변환해서 next token prediction한게 맞는지? 절반만 맞다. 텍스트 텍스트는 phoneme sequence로 변환되지만, 논문에서는 이를 “discrete codec token”처럼 양자화했다고 설명하지는 않는다. 즉: phoneme embedding 사용 일반 NLP token embedding과 유사 이다. 오디오 오디오는 명확히 discrete token으로 변환한다. EnCodec tokenizer를 사용해: waveform → RVQ token sequence 로 변환한다. 그리고 이것을 langua...

Audio-018, Llama-Mimi: Exploring the Limits of Flattened Speech Language Modeling, Preprint 2025

이미지
1. 텍스트와 오디오가 동시에 되는 모델을 학습한 게 맞나? 부분적으로만 맞다. 이 논문은 speech language model(SpeechLM) 을 다루지만, 실제로는 오디오 토큰만 직접 모델링 한다. 텍스트 토큰과 오디오 토큰을 함께 넣는 멀티모달 LM은 아니다. 논문에서 모델 입력은 다음 순서의 audio discrete token sequence 이다. Mimi codec이 만든 semantic token Mimi codec이 만든 acoustic token 이를 flatten해서 하나의 시퀀스로 Transformer decoder에 입력 즉: 입력: 오디오 → discrete audio tokens 출력: 다음 audio token prediction → 최종적으로 오디오 waveform 복원 이다. 다만 backbone 자체는 pretrained Llama 3를 사용한다. 따라서: backbone은 원래 텍스트 LM 하지만 본 논문 학습에서는 audio token vocabulary를 추가해 speech generation에 사용 한 구조다. 지원하는 입출력은: 타입 지원 여부 Audio input O Audio output O Text input 논문에서 직접 지원한다고 설명 안 함 Text output 논문에서 직접 지원한다고 설명 안 함 논문은 speech continuation task 중심이다. 즉 “오디오 prompt → 이어지는 오디오 생성”을 다룬다. 2. 학습할 때 텍스트와 오디오 모두 discrete token으로 변환해서 next token prediction 했나? 아니다. 논문 기준으로는 오디오만 discrete token으로 변환 해서 next-token prediction을 수행한다. 논문 핵심은: Mimi codec이 waveform을 RVQ discrete token으로 변환 이를 flatten autoregressive next-token prediction 수행 이다. 모델 objective는 표준 causal ...

Audio-017, Kimi-Audio Technical Report, Preprint 2025

이미지
다음 답변은 Kimi-Audio Technical Report 기반으로 정리했다. 1. 텍스트와 오디오가 동시에 되는 모델을 학습한 게 맞나? 결론부터 말하면 맞다. Kimi-Audio는 텍스트와 오디오를 함께 다루는 unified audio foundation model이다. 논문에서 모델 목표를 다음처럼 설명한다: audio understanding audio generation speech conversation audio-to-text chat 을 하나의 모델에서 수행한다고 명시한다. 또 architecture 설명에서도: 입력: audio + text 출력: audio token + text token 을 동시에 처리한다고 설명한다. 모델 입력/출력은 무엇인가? 입력 입력은 두 종류다. 텍스트 토큰 오디오 표현 discrete semantic audio token continuous acoustic feature (Whisper feature) 즉 오디오는 단순 waveform을 직접 넣는 게 아니라: semantic token continuous feature 로 변환 후 입력한다. 출력 출력은 두 갈래(head)로 나뉜다. text head text token autoregressive generation audio head discrete semantic audio token generation 그리고 생성된 audio token을 detokenizer가 waveform으로 복원한다. 즉 모델은: text→text audio→text text→audio audio→audio 모두 가능하도록 설계됐다. 2. 텍스트와 오디오 모두 discrete token으로 변환해서 next token prediction 했나? 부분적으로 맞다. 정확히 말하면: 텍스트: discrete token 오디오 출력: discrete semantic token 오디오 입력: discrete token + continuous feature 조합이다. 즉 “모든 입력을 d...

Audio-016, NL-340, Scaling Open Discrete Audio Foundation Models with Interleaved Semantic, Acoustic, and Text Tokens, Preprint 2026

이미지
◼ Comment 참 마음에 드는 논문이다. 내가 하는것과 연관성이 깊었음 LALM을 만들때, 학습 레서피에 대한 다양한 실험 및 findings을 담은 논문이다 저자가 알고보니 selfcheckgpt, audio-judge도 쓴걸봐서 약간 최초의 연구를 좋아하는 느낌인듯 토크나이저: Mimi Tokenizer Mimi Tokenizer가 semantic, recon-based 두 개 모두 토크나이저를 뽑아줌 모델 아키텍처: Qwen3 기반 1번째 실험: 어떤 오디오 데이터를 사용해야하는가? 후보군으로 yodas, emilia, mls 여기서 어떤 데이터를 사용해서 학습하는게 좋은지? 이 방법으로 https://arxiv.org/pdf/2406.03476 논문 방법을 활용해서 실험해봤다고 함 결과로는 emilia가 가장 좋은 TTS, yodas가 text knoweldge 제공하고, 이 둘이 상호보완적이라고 해서, 이 2개를 선택함 참고로 텍스트 데이터는 nemotron-cc을 사용 2번째 실험: 텍스트와 오디오 비율을 어떻게 할까? 여기서 관점은 오디오 성능이 우선이다.  당연히 데이터 비율에 따라 trade-off임을 보여주는데, 오디오 성능 열화가 없는 텍스트 데이터 5%, 오디오 데이터95%을 선택함 이 부분은 내 관점하고 다르긴함. 오디오 성능을 우선시하는 것이기 때문? 평가방식은 validation NLL loss인데, 이 부분은 뒤에서 설명 3번째 실험: 학습시 semantic, acoustic, text token을 같이 사용해도 되는가? 이것도 trade-off가 있다. 즉 acoustic token을 추가하면, acoustic modeling 능력은 향상되고 semantic understanding은 감소 텍스트 토큰을 추가하면 오디오 성능에 큰 영향은 없음 여기서 평가메트릭은 sBLI, sWUG, Salm, tBLI, wWUC, ASR, TTS로 좀 생소한것들이 있음 어쨌든 general 한 관점에서는 S+A+T로 가는게 낫...