NL-321, ARR 202601

YNTP-100: A Benchmark for Your Next Token Prediction with 100 People ◼ Comment 요약 이 논문은 개인화 응답 생성을 사용자 상호작용 이력에 조건화된 다음 토큰 예측 문제(YNTP)로 정식화하고, 이를 평가하기 위한 다일·다언어 인간–에이전트 대화 벤치마크 YNTP-100을 제안한다. FSM 기반으로 수집된 100명의 연속 대화 데이터를 통해 사용자별 응답 행동을 통제된 조건에서 관찰할 수 있도록 설계하였다. 또한 내용과 스타일을 분리한 2S 평가 원칙을 도입하여, 다양한 프롬프팅 및 파인튜닝 기반 개인화 방법을 체계적으로 비교한다. 논문의 장점 이를 검증하기 위해 다일·다언어 인간–에이전트 대화 데이터셋인 YNTP-100을 구축하고 공개함으로써, 개인화 정렬(personalized alignment)을 체계적으로 비교·분석할 수 있는 공통 벤치마크를 제공한다. 또한 내용(Substance)과 스타일(Style)을 분리한 2S 평가 원칙을 도입하여, 단순한 의미 일치뿐 아니라 사용자 고유의 표현 방식까지 고려한 평가 프레임을 제안한다. 다양한 폐쇄형·오픈소스 LLM과 기존의 프롬프팅 및 파인튜닝 기반 개인화 방법들을 동일한 조건에서 실험함으로써, 현존 개인화 기법들의 성능 범위와 특성을 정리된 실험 결과로 제시한다. 논문의 단점 본 논문에서 제안한 스타일(Style) 평가 지표의 타당성에 대해 의문이 남는다. 길이 유사도, 타입–토큰 비율(TTR), 히스토리 유사도와 같은 지표는 표면적인 통계적 특성을 반영할 수는 있으나, 실제로 사용자의 페르소나나 표현 스타일을 충분히 포착하는지에 대해서는 설득력이 제한적이다. 이러한 자동 평가 지표의 한계를 보완하기 위해, 판별 모델(judge model) 기반 평가나 사람 평가(human evaluation) 를 함께 제공하였다면, 제안된 2S 평가 원칙과 각 스타일 지표에 대한 신뢰도를 더욱 높일 수 있었을 것으로 보인다. 표 2(Table 2)의 구성 방식은 ...

Audio 009, Resurfacing Paralinguistic Awareness in Large Audio Language Models

Abstract 대규모 오디오 언어 모델(LALMs)은 음성 모달리티를 통해 인간과의 상호작용을 확장하며, 사용자 맥락을 암묵적으로 나타내는 준언어적(paralinguistic) 단서로 인해 큰 상호작용 잠재력을 지닌다. 그러나 현재의 콘텐츠 중심 패러다임 위에서 구축된 LALMs는 이러한 준언어적 단서를 대체로 무시하고, 질의 내용에만 기반하여 응답하는 경향이 있다. 본 연구에서는 LALMs에서 준언어적 인식을 복원하기 위해, 준언어적 레이어와 의미 이해 레이어를 공동으로 식별하는 다섯 가지 다양한 레이어별 분석을 제안한다. 이러한 분석을 바탕으로, LALMs에 준언어적 인식 능력을 부여하기 위한 paralinguistic-enhanced fine-tuning (PE-FT) 프로토콜을 제안한다. 이는 (1) 선택적 레이어 파인튜닝과 (2) 보조적인 이중 수준 분류 헤드를 포함한다. 실험 결과, PE-FT 프로토콜은 준언어적 인식을 효율적이고 효과적으로 복원하며, 모든 레이어를 파인튜닝하는 전략보다도 더 우수한 성능을 보임을 확인하였다.  1. Introduction 대규모 언어 모델(LLMs) [1, 2]의 전례 없는 상호작용 능력을 기반으로, 대규모 오디오 언어 모델(LALMs) [3, 4, 5, 6, 7]은 음성 이해까지 그 능력을 확장하여 보다 자연스러운 상호작용을 가능하게 한다. 텍스트 기반 상호작용과 비교할 때, 음성 입력은 질의 내용 자체를 넘어 추가적인 사용자 맥락(예: 나이, 성별, 감정)을 전달하며, 이는 사용자의 준언어적 특성에 따라 적절하고 공감적인 응답을 생성하는 기반이 된다.  예를 들어, 사용자가 “오늘 또 비가 오네”라고 말했을 때, LALMs는 사용자의 감정 상태(예: 기쁨 또는 슬픔)에 따라 공감적인 응답을 생성해야 한다. 그러나 현재의 LALMs는 대부분 LLM의 상호작용 프로토콜을 그대로 계승하여, 콘텐츠 중심의 이해와 응답에 초점을 맞추고 이러한 준언어적 단서를 충분히 활용하지 못하고 있다. LALMs에서...

NL-337, LongCat-Flash-Omni Technical Report, Preprint 2025

이미지
Abstract  우리는 실시간 오디오-비주얼 상호작용에서 뛰어난 성능을 보이는 5600억 파라미터 규모의 최신 오픈소스 옴니모달 모델 LongCat-Flash-Omni 를 소개한다. 단순한 모달리티 시퀀스 모델링 작업에서 점점 더 복잡한 작업으로 확장되는 커리큘럼 기반 점진적 학습 전략 을 채택함으로써, LongCat-Flash-Omni는 강력한 단일 모달 성능을 유지하면서도 종합적인 멀티모달 능력을 달성한다. 이 모델은 zero-computation expert를 포함한 고성능 Shortcut-connected MoE 구조를 사용하는 LongCat-Flash를 기반으로 하며, 효율적인 멀티모달 인식 및 음성 재구성 모듈을 통합한다. 총 560B 파라미터(활성화 27B)라는 매우 큰 규모에도 불구하고, LongCat-Flash-Omni는 저지연(real-time) 오디오-비주얼 상호작용 을 구현한다. 학습 인프라 측면에서는, 대규모 멀티모달 학습에서 발생하는 데이터 및 모델 이질성을 처리하기 위해 모달리티 분리 병렬화(modality-decoupled parallelism) 방식을 제안한다. 이 방식은 텍스트-only 학습 대비 90% 이상의 처리량을 유지하는 높은 효율을 보여준다. 광범위한 평가 결과, LongCat-Flash-Omni는 오픈소스 모델 중 옴니모달 벤치마크에서 최고 수준의 성능을 달성했으며, 텍스트, 이미지, 비디오 이해뿐 아니라 음성 이해 및 생성 등 다양한 단일 모달 작업에서도 경쟁력 있는 성능을 보인다. 본 논문에서는 모델 아키텍처 설계, 학습 절차, 데이터 전략을 종합적으로 설명하며, 향후 연구와 개발을 촉진하기 위해 모델을 오픈소스로 공개한다. 1 Introduction 인간은 본질적으로 다양한 형태의 정보를 효율적으로 인지하고 통합할 수 있는 옴니모달 존재 로, 시각과 청각 입력을 포함한 여러 정보를 활용하여 다양한 복잡한 작업을 수행할 수 있다. 이러한 다중 모달리티의 자연스러운 결합과 전달은 인간의 의사소...

NL-336, ReTok: Replacing Tokenizer to Enhance Representation Efficiency in Large Language Model, Preprint 2024

이미지
◼ Comment 오픈소스 모델에 중국어 vocab expansion하여 실험한거다 기본 백본에다가 중국어 코퍼스로 vocab을 만들어서 merge한다. 이때 원래있던 vocab은 그대로 유지하고 새로운 vocab은 기존 토크나이저로 쪼개서 각 임베딩을 평균낸다 이렇게 하면, 기존에 백본이 어떻게 토큰을 이해하는지 반영할 수 있기 때문에 좋은 초기화라고 생각하는듯 실험에서도 이런 초기화가 더 좋다고 보여줌 학습은 백본은 고정하고 embedding / LM head layer만 튜닝하는것 학습데이터는 영어/중국어/코드 혼합을 사용했고 (자세한 혼합 비율은 안나오는듯) 성능은 기존 백본에서 조금만 떨어진다는 것 이 방법은 중국어에서 기존 백본의 성능은 유지하면서 토크나이저는 새롭게 제안해서, 압축이 잘되니 속도나 이런점에서 강점이 있다고 주장하는 것 Abstract Tokenizer는 대규모 언어 모델(LLM)의 핵심 구성 요소이며, 높은 압축률을 가진 토크나이저는 모델의 표현 효율성과 처리 효율성을 향상시킬 수 있다. 그러나 토크나이저는 모든 상황에서 높은 압축률을 보장하지 못하며, 입력과 출력의 평균 길이가 증가하면 모델의 학습 및 추론 비용도 증가하게 된다. 따라서 모델의 성능을 유지하면서 최소한의 비용으로 효율성을 향상시키는 방법을 찾는 것이 중요하다. 본 연구에서는 LLM의 토크나이저를 교체함으로써 모델의 표현 및 처리 효율성을 개선하는 방법을 제안한다. 우리는 기존 모델의 입력층과 출력층의 파라미터를 기반으로 이를 교체 및 재초기화하고, 다른 파라미터는 고정한 채 해당 층들만 학습하는 방식을 제안한다. 다양한 LLM에 대해 실험을 수행한 결과, 제안한 방법은 토크나이저를 교체한 이후에도 모델의 성능을 유지하면서, 특히 긴 텍스트에 대해 디코딩 속도를 크게 향상시킬 수 있음을 보였다.  1 Introduction Tokenizer는 대규모 언어 모델(LLM)의 기본 구성 요소로서 (Brown et al., 2020; OpenAI, 2023; T...

NL-335, Qwen2.5-Omni Technical Report, Preprint 2025

이미지
Abstract 본 보고서에서는 Qwen2.5-Omni를 소개한다. 이 모델은 텍스트, 이미지, 오디오, 비디오 등 다양한 모달리티를 인식하면서 동시에 텍스트와 자연스러운 음성 응답을 스트리밍 방식으로 생성할 수 있는 end-to-end 멀티모달 모델이다. 멀티모달 입력 정보를 스트리밍 방식으로 처리하기 위해 오디오와 비전 인코더는 block-wise processing 방식을 사용한다. 이 전략은 긴 멀티모달 시퀀스 처리에서 인식 역할은 멀티모달 인코더가 담당하고, 긴 시퀀스 모델링은 대형 언어 모델이 담당하도록 분리한다. 이러한 역할 분담은 공유 attention 메커니즘을 통해 서로 다른 모달리티 간의 융합을 효과적으로 수행하도록 한다. 비디오 입력에서 오디오와 비디오의 타임스탬프를 동기화하기 위해, 오디오와 비디오를 interleaved 방식으로 순차적으로 구성하고 TMRoPE(Time-aligned Multimodal RoPE)라는 새로운 위치 임베딩 방법을 제안한다. 또한 텍스트와 음성을 동시에 생성하면서 두 모달리티 간 간섭을 방지하기 위해 Thinker-Talker 아키텍처를 제안한다. 이 구조에서 Thinker는 텍스트 생성을 담당하는 대형 언어 모델이며, Talker는 Thinker의 hidden representation을 직접 활용하여 오디오 토큰을 생성하는 dual-track autoregressive 모델이다. 두 모델은 end-to-end 방식으로 학습되고 추론된다. 오디오 토큰을 스트리밍 방식으로 디코딩하기 위해 sliding-window DiT 구조를 도입하여 수용 범위를 제한하고 초기 패킷 지연을 줄였다. 실험 결과 Qwen2.5-Omni는 동일한 규모의 Qwen2.5-VL과 유사한 성능을 보이며 Qwen2-Audio보다 더 우수한 성능을 달성했다. 또한 Omni-Bench와 같은 멀티모달 벤치마크에서 최고 수준의 성능을 보였다. 특히 음성 기반 instruction following 성능이 MMLU와 GSM8K 등의 벤치마크에...