NL-337, LongCat-Flash-Omni Technical Report, Preprint 2025

이미지
Abstract  우리는 실시간 오디오-비주얼 상호작용에서 뛰어난 성능을 보이는 5600억 파라미터 규모의 최신 오픈소스 옴니모달 모델 LongCat-Flash-Omni 를 소개한다. 단순한 모달리티 시퀀스 모델링 작업에서 점점 더 복잡한 작업으로 확장되는 커리큘럼 기반 점진적 학습 전략 을 채택함으로써, LongCat-Flash-Omni는 강력한 단일 모달 성능을 유지하면서도 종합적인 멀티모달 능력을 달성한다. 이 모델은 zero-computation expert를 포함한 고성능 Shortcut-connected MoE 구조를 사용하는 LongCat-Flash를 기반으로 하며, 효율적인 멀티모달 인식 및 음성 재구성 모듈을 통합한다. 총 560B 파라미터(활성화 27B)라는 매우 큰 규모에도 불구하고, LongCat-Flash-Omni는 저지연(real-time) 오디오-비주얼 상호작용 을 구현한다. 학습 인프라 측면에서는, 대규모 멀티모달 학습에서 발생하는 데이터 및 모델 이질성을 처리하기 위해 모달리티 분리 병렬화(modality-decoupled parallelism) 방식을 제안한다. 이 방식은 텍스트-only 학습 대비 90% 이상의 처리량을 유지하는 높은 효율을 보여준다. 광범위한 평가 결과, LongCat-Flash-Omni는 오픈소스 모델 중 옴니모달 벤치마크에서 최고 수준의 성능을 달성했으며, 텍스트, 이미지, 비디오 이해뿐 아니라 음성 이해 및 생성 등 다양한 단일 모달 작업에서도 경쟁력 있는 성능을 보인다. 본 논문에서는 모델 아키텍처 설계, 학습 절차, 데이터 전략을 종합적으로 설명하며, 향후 연구와 개발을 촉진하기 위해 모델을 오픈소스로 공개한다. 1 Introduction 인간은 본질적으로 다양한 형태의 정보를 효율적으로 인지하고 통합할 수 있는 옴니모달 존재 로, 시각과 청각 입력을 포함한 여러 정보를 활용하여 다양한 복잡한 작업을 수행할 수 있다. 이러한 다중 모달리티의 자연스러운 결합과 전달은 인간의 의사소...

NL-336, ReTok: Replacing Tokenizer to Enhance Representation Efficiency in Large Language Model, Preprint 2024

이미지
◼ Comment 오픈소스 모델에 중국어 vocab expansion하여 실험한거다 기본 백본에다가 중국어 코퍼스로 vocab을 만들어서 merge한다. 이때 원래있던 vocab은 그대로 유지하고 새로운 vocab은 기존 토크나이저로 쪼개서 각 임베딩을 평균낸다 이렇게 하면, 기존에 백본이 어떻게 토큰을 이해하는지 반영할 수 있기 때문에 좋은 초기화라고 생각하는듯 실험에서도 이런 초기화가 더 좋다고 보여줌 학습은 백본은 고정하고 embedding / LM head layer만 튜닝하는것 학습데이터는 영어/중국어/코드 혼합을 사용했고 (자세한 혼합 비율은 안나오는듯) 성능은 기존 백본에서 조금만 떨어진다는 것 이 방법은 중국어에서 기존 백본의 성능은 유지하면서 토크나이저는 새롭게 제안해서, 압축이 잘되니 속도나 이런점에서 강점이 있다고 주장하는 것 Abstract Tokenizer는 대규모 언어 모델(LLM)의 핵심 구성 요소이며, 높은 압축률을 가진 토크나이저는 모델의 표현 효율성과 처리 효율성을 향상시킬 수 있다. 그러나 토크나이저는 모든 상황에서 높은 압축률을 보장하지 못하며, 입력과 출력의 평균 길이가 증가하면 모델의 학습 및 추론 비용도 증가하게 된다. 따라서 모델의 성능을 유지하면서 최소한의 비용으로 효율성을 향상시키는 방법을 찾는 것이 중요하다. 본 연구에서는 LLM의 토크나이저를 교체함으로써 모델의 표현 및 처리 효율성을 개선하는 방법을 제안한다. 우리는 기존 모델의 입력층과 출력층의 파라미터를 기반으로 이를 교체 및 재초기화하고, 다른 파라미터는 고정한 채 해당 층들만 학습하는 방식을 제안한다. 다양한 LLM에 대해 실험을 수행한 결과, 제안한 방법은 토크나이저를 교체한 이후에도 모델의 성능을 유지하면서, 특히 긴 텍스트에 대해 디코딩 속도를 크게 향상시킬 수 있음을 보였다.  1 Introduction Tokenizer는 대규모 언어 모델(LLM)의 기본 구성 요소로서 (Brown et al., 2020; OpenAI, 2023; T...

NL-335, Qwen2.5-Omni Technical Report, Preprint 2025

이미지
Abstract 본 보고서에서는 Qwen2.5-Omni를 소개한다. 이 모델은 텍스트, 이미지, 오디오, 비디오 등 다양한 모달리티를 인식하면서 동시에 텍스트와 자연스러운 음성 응답을 스트리밍 방식으로 생성할 수 있는 end-to-end 멀티모달 모델이다. 멀티모달 입력 정보를 스트리밍 방식으로 처리하기 위해 오디오와 비전 인코더는 block-wise processing 방식을 사용한다. 이 전략은 긴 멀티모달 시퀀스 처리에서 인식 역할은 멀티모달 인코더가 담당하고, 긴 시퀀스 모델링은 대형 언어 모델이 담당하도록 분리한다. 이러한 역할 분담은 공유 attention 메커니즘을 통해 서로 다른 모달리티 간의 융합을 효과적으로 수행하도록 한다. 비디오 입력에서 오디오와 비디오의 타임스탬프를 동기화하기 위해, 오디오와 비디오를 interleaved 방식으로 순차적으로 구성하고 TMRoPE(Time-aligned Multimodal RoPE)라는 새로운 위치 임베딩 방법을 제안한다. 또한 텍스트와 음성을 동시에 생성하면서 두 모달리티 간 간섭을 방지하기 위해 Thinker-Talker 아키텍처를 제안한다. 이 구조에서 Thinker는 텍스트 생성을 담당하는 대형 언어 모델이며, Talker는 Thinker의 hidden representation을 직접 활용하여 오디오 토큰을 생성하는 dual-track autoregressive 모델이다. 두 모델은 end-to-end 방식으로 학습되고 추론된다. 오디오 토큰을 스트리밍 방식으로 디코딩하기 위해 sliding-window DiT 구조를 도입하여 수용 범위를 제한하고 초기 패킷 지연을 줄였다. 실험 결과 Qwen2.5-Omni는 동일한 규모의 Qwen2.5-VL과 유사한 성능을 보이며 Qwen2-Audio보다 더 우수한 성능을 달성했다. 또한 Omni-Bench와 같은 멀티모달 벤치마크에서 최고 수준의 성능을 보였다. 특히 음성 기반 instruction following 성능이 MMLU와 GSM8K 등의 벤치마크에...

NL-334, AudioPaLM: A Large Language Model That Can Speak and Listen, Preprint 2023

동기 최근 대규모 언어 모델(LLM)은 텍스트 생성과 이해에서 뛰어난 성능을 보이지만, 음성 처리 시스템은 여전히 ASR, MT, TTS와 같은 여러 모듈을 연결한 파이프라인 구조로 구성되는 경우가 많다. 이러한 방식은 오류가 단계적으로 누적되거나 화자 음색, 억양과 같은 부언어적(paralinguistic) 정보를 충분히 보존하지 못하는 한계가 있다. 또한 기존 음성 모델은 텍스트 LLM이 가진 방대한 언어 지식과 번역 능력을 직접 활용하기 어렵다. 이 논문은 이러한 문제를 해결하기 위해 텍스트와 음성을 하나의 모델에서 동일한 방식으로 처리할 수 있는 통합 멀티모달 언어 모델 AudioPaLM 을 제안한다. 모델 구조 AudioPaLM은 decoder-only Transformer 기반의 언어 모델 로 설계되며, 텍스트 토큰과 음성 토큰을 동일한 시퀀스 형태로 처리한다. 핵심 아이디어는 음성을 discrete audio token 으로 변환하여 텍스트 토큰과 동일한 vocabulary 공간에서 모델링하는 것이다. 이를 위해 기존 텍스트 LLM인 PaLM 또는 PaLM-2의 embedding matrix에 새로운 오디오 토큰을 추가하여 vocabulary를 확장하고, 텍스트와 오디오 토큰이 하나의 autoregressive 시퀀스로 생성되도록 한다. 이러한 구조 덕분에 모델은 입력과 출력에서 텍스트와 음성을 자유롭게 섞어 사용할 수 있으며, 음성 인식, 음성 합성, 음성 번역과 같은 다양한 작업을 하나의 모델에서 수행할 수 있다. 음성 토큰화와 오디오 생성 방식 원시 음성은 먼저 음성 표현 모델(w2v-BERT 또는 USM)을 이용해 embedding을 추출한 뒤, k-means 기반 quantization을 통해 discrete token으로 변환된다. 이렇게 생성된 오디오 토큰은 약 25Hz 속도로 생성되는 시퀀스이며 약 1024개의 vocabulary를 가진다. 모델이 생성한 오디오 토큰은 이후 AudioLM의 후속 단계 또는 SoundStorm 모델을 ...

NL-333, Emu3.5: Native Multimodal Models are World Learners, Preprint 2025

이미지
항목 Emu (2023) Emu2 (2024) Emu3 (2024) Emu3.5 (2025) 학습 패러다임 multimodal CPT multimodal CPT multimodal scratch multimodal scratch + scaling LLM backbone LLaMA LLaMA-33B 없음 Qwen3 초기화 Vision encoder EVA-CLIP EVA-CLIP 없음 없음 이미지 생성 diffusion decoder SDXL decoder AR generation AR + DiDA acceleration 구조 compositional compositional single transformer single transformer world model 학습 objective text + visual regression next-token + regression next-token prediction only next-token prediction 학습 시작 pretrained 모델 결합 pretrained 모델 결합 완전 scratch pretrained LM initialization multimodal tokenization visual embedding visual embedding discrete visual tokens discrete visual tokens 데이터 구조 image-text image/video-text image + video + text interleaved video-language 데이터 규모 ~150B tokens 수백B tokens 수백B tokens 13T tokens 주요 데이터 LAION / MMC4 / WebVid image + video pairs multimodal mix 63M video corpus 학습 단계 multimodal pretraining + instruction tuning 2-stage pretraining 2-stage pretraining pretrain + SFT + RL + D...