NL-321, ARR 202601

YNTP-100: A Benchmark for Your Next Token Prediction with 100 People ◼ Comment 요약 이 논문은 개인화 응답 생성을 사용자 상호작용 이력에 조건화된 다음 토큰 예측 문제(YNTP)로 정식화하고, 이를 평가하기 위한 다일·다언어 인간–에이전트 대화 벤치마크 YNTP-100을 제안한다. FSM 기반으로 수집된 100명의 연속 대화 데이터를 통해 사용자별 응답 행동을 통제된 조건에서 관찰할 수 있도록 설계하였다. 또한 내용과 스타일을 분리한 2S 평가 원칙을 도입하여, 다양한 프롬프팅 및 파인튜닝 기반 개인화 방법을 체계적으로 비교한다. 논문의 장점 이를 검증하기 위해 다일·다언어 인간–에이전트 대화 데이터셋인 YNTP-100을 구축하고 공개함으로써, 개인화 정렬(personalized alignment)을 체계적으로 비교·분석할 수 있는 공통 벤치마크를 제공한다. 또한 내용(Substance)과 스타일(Style)을 분리한 2S 평가 원칙을 도입하여, 단순한 의미 일치뿐 아니라 사용자 고유의 표현 방식까지 고려한 평가 프레임을 제안한다. 다양한 폐쇄형·오픈소스 LLM과 기존의 프롬프팅 및 파인튜닝 기반 개인화 방법들을 동일한 조건에서 실험함으로써, 현존 개인화 기법들의 성능 범위와 특성을 정리된 실험 결과로 제시한다. 논문의 단점 본 논문에서 제안한 스타일(Style) 평가 지표의 타당성에 대해 의문이 남는다. 길이 유사도, 타입–토큰 비율(TTR), 히스토리 유사도와 같은 지표는 표면적인 통계적 특성을 반영할 수는 있으나, 실제로 사용자의 페르소나나 표현 스타일을 충분히 포착하는지에 대해서는 설득력이 제한적이다. 이러한 자동 평가 지표의 한계를 보완하기 위해, 판별 모델(judge model) 기반 평가나 사람 평가(human evaluation) 를 함께 제공하였다면, 제안된 2S 평가 원칙과 각 스타일 지표에 대한 신뢰도를 더욱 높일 수 있었을 것으로 보인다. 표 2(Table 2)의 구성 방식은 ...

Audio 009, Resurfacing Paralinguistic Awareness in Large Audio Language Models

◼ Comment LALM의 한계로 현재, 입력 오디오의 정보를 활용하지 못하고 있다는 것 대표적으로 음성이 아동인지, 성인인지에 따라 답변이 나가는 방식이 달라야 한다. 똑같은 요청이여도 아동에게는 위험할 수 있기 때문이다 먼저 LALM이 이러한 paralinguistic을 어디서 구분하는지 분석을 시도함 Layer 별로 linear probing을 하여 어떤 layer가 paralinguistic을 인식할 수 있는지 확인해보았더니  paralinguistic는 0~6 layer에서 잘 분리하고 semantic은 7~14 layer에서 잘 분리하고 15 layer부터는 이러한 능력이 없다고 함 추가적으로 IC cosine 유사도를 통해 해당 layer들이 paralinguistic/semantic 정보를 구분할 수 있다는 추가적인 정보를 제공함 근데 여기서 probing에 사용된 데이터는 어떤것이지? 실험은, layer 0~14만 학습 / layer 15+는 freeze 해서 selective하게 layer을 학습하여 준언어적 인식을 부여한다는 것 여기서 ADCH라고 multi-task 학습처럼, 카테고리 분류 학습하는 loss을 걸어줌 결론은 full fine-tuning 하는것보다 해당 layer만 학습하는 것이 더욱 성능이 좋아짐을 보여줌 근데 그렇다면 15 layer 이후는 왜 존재하는가? 준언어적 인식에 도움이 안된다면 이것을 학습안하는게 전반적인 성능에 도움이 되는 것인가? 요약 본 논문은 Large Audio Language Models(LALMs)이 음성에 포함된 준언어적 정보(예: 나이, 성별, 감정)를 충분히 활용하지 못하고, 주로 콘텐츠 중심으로 응답한다는 문제를 지적한다. 이를 분석하기 위해 다양한 layer-wise probing을 수행하여, 초기 레이어(0–6)는 paralinguistic 정보를, 중간 레이어(7–14)는 semantic 이해를 담당하며, 이후 레이어는 주로 token prediction을 위한 co...

NL-337, LongCat-Flash-Omni Technical Report, Preprint 2025

이미지
Abstract  우리는 실시간 오디오-비주얼 상호작용에서 뛰어난 성능을 보이는 5600억 파라미터 규모의 최신 오픈소스 옴니모달 모델 LongCat-Flash-Omni 를 소개한다. 단순한 모달리티 시퀀스 모델링 작업에서 점점 더 복잡한 작업으로 확장되는 커리큘럼 기반 점진적 학습 전략 을 채택함으로써, LongCat-Flash-Omni는 강력한 단일 모달 성능을 유지하면서도 종합적인 멀티모달 능력을 달성한다. 이 모델은 zero-computation expert를 포함한 고성능 Shortcut-connected MoE 구조를 사용하는 LongCat-Flash를 기반으로 하며, 효율적인 멀티모달 인식 및 음성 재구성 모듈을 통합한다. 총 560B 파라미터(활성화 27B)라는 매우 큰 규모에도 불구하고, LongCat-Flash-Omni는 저지연(real-time) 오디오-비주얼 상호작용 을 구현한다. 학습 인프라 측면에서는, 대규모 멀티모달 학습에서 발생하는 데이터 및 모델 이질성을 처리하기 위해 모달리티 분리 병렬화(modality-decoupled parallelism) 방식을 제안한다. 이 방식은 텍스트-only 학습 대비 90% 이상의 처리량을 유지하는 높은 효율을 보여준다. 광범위한 평가 결과, LongCat-Flash-Omni는 오픈소스 모델 중 옴니모달 벤치마크에서 최고 수준의 성능을 달성했으며, 텍스트, 이미지, 비디오 이해뿐 아니라 음성 이해 및 생성 등 다양한 단일 모달 작업에서도 경쟁력 있는 성능을 보인다. 본 논문에서는 모델 아키텍처 설계, 학습 절차, 데이터 전략을 종합적으로 설명하며, 향후 연구와 개발을 촉진하기 위해 모델을 오픈소스로 공개한다. 1 Introduction 인간은 본질적으로 다양한 형태의 정보를 효율적으로 인지하고 통합할 수 있는 옴니모달 존재 로, 시각과 청각 입력을 포함한 여러 정보를 활용하여 다양한 복잡한 작업을 수행할 수 있다. 이러한 다중 모달리티의 자연스러운 결합과 전달은 인간의 의사소...

NL-336, ReTok: Replacing Tokenizer to Enhance Representation Efficiency in Large Language Model, Preprint 2024

이미지
◼ Comment 오픈소스 모델에 중국어 vocab expansion하여 실험한거다 기본 백본에다가 중국어 코퍼스로 vocab을 만들어서 merge한다. 이때 원래있던 vocab은 그대로 유지하고 새로운 vocab은 기존 토크나이저로 쪼개서 각 임베딩을 평균낸다 이렇게 하면, 기존에 백본이 어떻게 토큰을 이해하는지 반영할 수 있기 때문에 좋은 초기화라고 생각하는듯 실험에서도 이런 초기화가 더 좋다고 보여줌 학습은 백본은 고정하고 embedding / LM head layer만 튜닝하는것 학습데이터는 영어/중국어/코드 혼합을 사용했고 (자세한 혼합 비율은 안나오는듯) 성능은 기존 백본에서 조금만 떨어진다는 것 이 방법은 중국어에서 기존 백본의 성능은 유지하면서 토크나이저는 새롭게 제안해서, 압축이 잘되니 속도나 이런점에서 강점이 있다고 주장하는 것 Abstract Tokenizer는 대규모 언어 모델(LLM)의 핵심 구성 요소이며, 높은 압축률을 가진 토크나이저는 모델의 표현 효율성과 처리 효율성을 향상시킬 수 있다. 그러나 토크나이저는 모든 상황에서 높은 압축률을 보장하지 못하며, 입력과 출력의 평균 길이가 증가하면 모델의 학습 및 추론 비용도 증가하게 된다. 따라서 모델의 성능을 유지하면서 최소한의 비용으로 효율성을 향상시키는 방법을 찾는 것이 중요하다. 본 연구에서는 LLM의 토크나이저를 교체함으로써 모델의 표현 및 처리 효율성을 개선하는 방법을 제안한다. 우리는 기존 모델의 입력층과 출력층의 파라미터를 기반으로 이를 교체 및 재초기화하고, 다른 파라미터는 고정한 채 해당 층들만 학습하는 방식을 제안한다. 다양한 LLM에 대해 실험을 수행한 결과, 제안한 방법은 토크나이저를 교체한 이후에도 모델의 성능을 유지하면서, 특히 긴 텍스트에 대해 디코딩 속도를 크게 향상시킬 수 있음을 보였다.  1 Introduction Tokenizer는 대규모 언어 모델(LLM)의 기본 구성 요소로서 (Brown et al., 2020; OpenAI, 2023; T...