NL-335, Qwen2.5-Omni Technical Report, Preprint 2025

이미지
Abstract 본 보고서에서는 Qwen2.5-Omni를 소개한다. 이 모델은 텍스트, 이미지, 오디오, 비디오 등 다양한 모달리티를 인식하면서 동시에 텍스트와 자연스러운 음성 응답을 스트리밍 방식으로 생성할 수 있는 end-to-end 멀티모달 모델이다. 멀티모달 입력 정보를 스트리밍 방식으로 처리하기 위해 오디오와 비전 인코더는 block-wise processing 방식을 사용한다. 이 전략은 긴 멀티모달 시퀀스 처리에서 인식 역할은 멀티모달 인코더가 담당하고, 긴 시퀀스 모델링은 대형 언어 모델이 담당하도록 분리한다. 이러한 역할 분담은 공유 attention 메커니즘을 통해 서로 다른 모달리티 간의 융합을 효과적으로 수행하도록 한다. 비디오 입력에서 오디오와 비디오의 타임스탬프를 동기화하기 위해, 오디오와 비디오를 interleaved 방식으로 순차적으로 구성하고 TMRoPE(Time-aligned Multimodal RoPE)라는 새로운 위치 임베딩 방법을 제안한다. 또한 텍스트와 음성을 동시에 생성하면서 두 모달리티 간 간섭을 방지하기 위해 Thinker-Talker 아키텍처를 제안한다. 이 구조에서 Thinker는 텍스트 생성을 담당하는 대형 언어 모델이며, Talker는 Thinker의 hidden representation을 직접 활용하여 오디오 토큰을 생성하는 dual-track autoregressive 모델이다. 두 모델은 end-to-end 방식으로 학습되고 추론된다. 오디오 토큰을 스트리밍 방식으로 디코딩하기 위해 sliding-window DiT 구조를 도입하여 수용 범위를 제한하고 초기 패킷 지연을 줄였다. 실험 결과 Qwen2.5-Omni는 동일한 규모의 Qwen2.5-VL과 유사한 성능을 보이며 Qwen2-Audio보다 더 우수한 성능을 달성했다. 또한 Omni-Bench와 같은 멀티모달 벤치마크에서 최고 수준의 성능을 보였다. 특히 음성 기반 instruction following 성능이 MMLU와 GSM8K 등의 벤치마크에...

NL-334, AudioPaLM: A Large Language Model That Can Speak and Listen, Preprint 2023

동기 최근 대규모 언어 모델(LLM)은 텍스트 생성과 이해에서 뛰어난 성능을 보이지만, 음성 처리 시스템은 여전히 ASR, MT, TTS와 같은 여러 모듈을 연결한 파이프라인 구조로 구성되는 경우가 많다. 이러한 방식은 오류가 단계적으로 누적되거나 화자 음색, 억양과 같은 부언어적(paralinguistic) 정보를 충분히 보존하지 못하는 한계가 있다. 또한 기존 음성 모델은 텍스트 LLM이 가진 방대한 언어 지식과 번역 능력을 직접 활용하기 어렵다. 이 논문은 이러한 문제를 해결하기 위해 텍스트와 음성을 하나의 모델에서 동일한 방식으로 처리할 수 있는 통합 멀티모달 언어 모델 AudioPaLM 을 제안한다. 모델 구조 AudioPaLM은 decoder-only Transformer 기반의 언어 모델 로 설계되며, 텍스트 토큰과 음성 토큰을 동일한 시퀀스 형태로 처리한다. 핵심 아이디어는 음성을 discrete audio token 으로 변환하여 텍스트 토큰과 동일한 vocabulary 공간에서 모델링하는 것이다. 이를 위해 기존 텍스트 LLM인 PaLM 또는 PaLM-2의 embedding matrix에 새로운 오디오 토큰을 추가하여 vocabulary를 확장하고, 텍스트와 오디오 토큰이 하나의 autoregressive 시퀀스로 생성되도록 한다. 이러한 구조 덕분에 모델은 입력과 출력에서 텍스트와 음성을 자유롭게 섞어 사용할 수 있으며, 음성 인식, 음성 합성, 음성 번역과 같은 다양한 작업을 하나의 모델에서 수행할 수 있다. 음성 토큰화와 오디오 생성 방식 원시 음성은 먼저 음성 표현 모델(w2v-BERT 또는 USM)을 이용해 embedding을 추출한 뒤, k-means 기반 quantization을 통해 discrete token으로 변환된다. 이렇게 생성된 오디오 토큰은 약 25Hz 속도로 생성되는 시퀀스이며 약 1024개의 vocabulary를 가진다. 모델이 생성한 오디오 토큰은 이후 AudioLM의 후속 단계 또는 SoundStorm 모델을 ...

NL-333, Emu3.5: Native Multimodal Models are World Learners, Preprint 2025

이미지
항목 Emu (2023) Emu2 (2024) Emu3 (2024) Emu3.5 (2025) 학습 패러다임 multimodal CPT multimodal CPT multimodal scratch multimodal scratch + scaling LLM backbone LLaMA LLaMA-33B 없음 Qwen3 초기화 Vision encoder EVA-CLIP EVA-CLIP 없음 없음 이미지 생성 diffusion decoder SDXL decoder AR generation AR + DiDA acceleration 구조 compositional compositional single transformer single transformer world model 학습 objective text + visual regression next-token + regression next-token prediction only next-token prediction 학습 시작 pretrained 모델 결합 pretrained 모델 결합 완전 scratch pretrained LM initialization multimodal tokenization visual embedding visual embedding discrete visual tokens discrete visual tokens 데이터 구조 image-text image/video-text image + video + text interleaved video-language 데이터 규모 ~150B tokens 수백B tokens 수백B tokens 13T tokens 주요 데이터 LAION / MMC4 / WebVid image + video pairs multimodal mix 63M video corpus 학습 단계 multimodal pretraining + instruction tuning 2-stage pretraining 2-stage pretraining pretrain + SFT + RL + D...

NL-301, ARR 202510

NL-284, 2506 ARR Review4 제목: Data Generation Disguised as Style-Transfer: The LLM Perspective Abstract 대규모 언어 모델(LLM)을 이용한 데이터 생성과 스타일 전이의 가능성에 대한 관심이 연구 커뮤니티에서 증가하고 있다. 본 논문에서는 원본 스타일과 목표 스타일의 개념적 이해를 위해 스타일 전이 모델 후보들을 조사하고, 데이터가 부족한 상황에서 새로운 데이터를 생성하기 위한 잠재적 활용 가능성을 검토한다. 우리는 스타일을 구별할 수 있는 모델이 특정 스타일의 텍스트를 생성하도록 제어될 수 있음을 관찰하였다. 데이터가 부족한 시나리오에서는 충분한 인스턴스의 부재로 연구가 어려워질 수 있는데, 본 연구에서는 대규모 언어 모델이 이런 상황에서 데이터를 생성해 예비 연구를 진행하는 데 사용될 수 있는지 탐구한다. 먼저, 데이터 부족 상황에서 LLM이 효과적인 도구가 될 수 있는지 질문하며, LLM이 서로 다른 스타일로 쓰인 텍스트들을 구분하는 능력을 양적으로 평가하고, 특정 스타일 A의 텍스트가 주어졌을 때, LLM이 개입을 통해 텍스트의 스타일을 바꿀 수 있는지를 질적으로 평가한다. 마지막으로, 사람이 직접 작성한 대규모 텍스트 컬렉션을 구축하기 어려운 GENZ(Generation Z) 특유의 독성을 표현하는 사례 연구에 본 접근법을 적용하였다. 1 서론 텍스트 스타일 전이(Textual Style Transfer)는 텍스트의 핵심 의미를 유지하면서 문장의 스타일적 속성을 변형하는 작업이다(Mukherjee 등, 2024b). 스타일 전이는 캐주얼한 문장을 형식적인 문장으로 바꾸기(Gupta 등, 2023), 독성 문장을 비독성으로 바꾸기(Mukherjee 등, 2024a), 직유를 활용한 표현 생성(Chakrabarty 등, 2020), 주관적 편향성을 중립화하는 작업(Pryzant 등, 2020), 감각적 스타일에 대한 탐구(Khalid와 Srinivasan, 202...

NL-300, ARR 202510

제목: How and Why LLMs Generalize: A Fine-Grained Analysis of LLM Reasoning from Cognitive Behaviors to Low-Level Patterns ◼ Comment 정리 SFT와 RL 학습 차이를 reasoning, non-reasnoning 과제에서 분석하였다 세부적으로 평가하기 위해, 추론하면서 맞춰야하는 여러 단계들에 대한 벤치마크들을 제작한다. 장점 새로운 벤치마크 구축 : reasoning을 다섯 가지 핵심 인지 능력으로 분해하여 설계한 벤치마크를 제시함으로써, 기존 coarse accuracy 평가의 한계를 보완하였다. 기존 연구 공백을 메움 : SFT와 RL의 일반화 차이를 인지적 수준에서 체계적으로 분석한 시도는 드물었으며, 본 연구는 그 관계를 실험적으로 보여주었다. 단점 섹션 4.3에서 말하고자 하는 것은 알겠는데, 설명이 부족하다. Sparse Autoencoder(SAE)를 이용해 latent representation을 분석하지만, 사용된 데이터셋 구체적 구성 (어떤 샘플이 behavior labeling에 사용되었는지) 설명이 부족하다. 그림 7에서 semantic feature가 증가하는 것은 어떠한 의미를 나타내는 것인가? 섹션 4.1에서 언급하는 그림 3은, RL이 SFT보다 꼭 균형잡힌 결과로 보이지 않는다. 이에 대한 정량적 수치가 필요해보인다 모든 벤치마크들의 성능 숫자 값과 이들의 평균값도 리포트가 필요해보인다 SFT와 RL을 비교하는 reference 들이 부족해보인다 line 377 제안 섹션 3.2에서 언급한 table은 table 2가 아니라 table 1 같음 방법론 설명 부족 line334-336 어떠한 teacher 모델이 사용됐는가? 이를 통해 어떻게 데이터를 모았는지에 대한 설명 필요함 파라미터 스페이스 말고, SFR와 RL로 학습된 모델로 출력 토큰의 Logit distribution을 분석해보는 것은 어떤가? 엔트로피를 통한 분석으로...