NL-333, Emu3.5: Native Multimodal Models are World Learners, Preprint 2025

이미지
정리 이 논문은 Emu3.5 라는 대규모 멀티모달 모델을 제안하며, 텍스트와 비전을 단순히 결합하는 수준을 넘어 “world model”로서 동작하는 네이티브 멀티모달 모델 을 목표로 한다. 기존 언어 모델은 대규모 텍스트 데이터에서 뛰어난 추론 능력을 보였지만, 텍스트만으로는 실제 세계의 공간적·시간적 구조를 충분히 학습하기 어렵다는 한계가 있다. 인간은 언어뿐 아니라 비디오와 같은 장기적인 멀티모달 경험을 통해 세계를 이해 하며, 이러한 특성을 반영한 모델이 필요하다. Emu3.5는 이러한 문제를 해결하기 위해 **비디오 기반의 장기적 멀티모달 시퀀스를 학습하여 시각과 언어를 동시에 예측하는 “next-state world model”**을 구축하는 것을 목표로 한다. 모델 구조는 decoder-only transformer 기반의 통합 멀티모달 아키텍처 로 설계되어 있으며, 텍스트와 이미지 모두를 동일한 토큰 시퀀스로 처리한다. 모델은 64개의 transformer layer, hidden size 5120을 갖는 약 34B 파라미터 규모 이며, 텍스트 토큰과 비전 토큰을 하나의 vocabulary로 통합하여 처리한다. 시각 정보는 discrete visual token 으로 변환되며, 이를 통해 이미지와 텍스트를 동일한 next-token prediction 방식으로 학습한다. 이러한 구조 덕분에 모델은 텍스트 생성, 이미지 생성, 이미지 편집, 시각적 스토리 생성 등 다양한 멀티모달 작업을 하나의 생성 모델로 통합적으로 수행 할 수 있다. 학습 데이터는 매우 대규모이며 총 약 13조(multimodal) 토큰 규모 로 구성된다. 데이터는 네 가지 주요 구성요소로 이루어진다. 첫째, 핵심 데이터는 비디오 프레임과 ASR 텍스트를 시간적으로 정렬한 video-interleaved 데이터 로, 약 6,300만 개의 인터넷 영상에서 추출되었으며 평균 길이는 6.5분 정도이다. 이 데이터는 장기적인 시각-언어 관계와 인과 구조를 학습하는 데 핵심 역할을 한다...

NL-301, ARR 202510

NL-284, 2506 ARR Review4 제목: Data Generation Disguised as Style-Transfer: The LLM Perspective Abstract 대규모 언어 모델(LLM)을 이용한 데이터 생성과 스타일 전이의 가능성에 대한 관심이 연구 커뮤니티에서 증가하고 있다. 본 논문에서는 원본 스타일과 목표 스타일의 개념적 이해를 위해 스타일 전이 모델 후보들을 조사하고, 데이터가 부족한 상황에서 새로운 데이터를 생성하기 위한 잠재적 활용 가능성을 검토한다. 우리는 스타일을 구별할 수 있는 모델이 특정 스타일의 텍스트를 생성하도록 제어될 수 있음을 관찰하였다. 데이터가 부족한 시나리오에서는 충분한 인스턴스의 부재로 연구가 어려워질 수 있는데, 본 연구에서는 대규모 언어 모델이 이런 상황에서 데이터를 생성해 예비 연구를 진행하는 데 사용될 수 있는지 탐구한다. 먼저, 데이터 부족 상황에서 LLM이 효과적인 도구가 될 수 있는지 질문하며, LLM이 서로 다른 스타일로 쓰인 텍스트들을 구분하는 능력을 양적으로 평가하고, 특정 스타일 A의 텍스트가 주어졌을 때, LLM이 개입을 통해 텍스트의 스타일을 바꿀 수 있는지를 질적으로 평가한다. 마지막으로, 사람이 직접 작성한 대규모 텍스트 컬렉션을 구축하기 어려운 GENZ(Generation Z) 특유의 독성을 표현하는 사례 연구에 본 접근법을 적용하였다. 1 서론 텍스트 스타일 전이(Textual Style Transfer)는 텍스트의 핵심 의미를 유지하면서 문장의 스타일적 속성을 변형하는 작업이다(Mukherjee 등, 2024b). 스타일 전이는 캐주얼한 문장을 형식적인 문장으로 바꾸기(Gupta 등, 2023), 독성 문장을 비독성으로 바꾸기(Mukherjee 등, 2024a), 직유를 활용한 표현 생성(Chakrabarty 등, 2020), 주관적 편향성을 중립화하는 작업(Pryzant 등, 2020), 감각적 스타일에 대한 탐구(Khalid와 Srinivasan, 202...

NL-300, ARR 202510

제목: How and Why LLMs Generalize: A Fine-Grained Analysis of LLM Reasoning from Cognitive Behaviors to Low-Level Patterns ◼ Comment 정리 SFT와 RL 학습 차이를 reasoning, non-reasnoning 과제에서 분석하였다 세부적으로 평가하기 위해, 추론하면서 맞춰야하는 여러 단계들에 대한 벤치마크들을 제작한다. 장점 새로운 벤치마크 구축 : reasoning을 다섯 가지 핵심 인지 능력으로 분해하여 설계한 벤치마크를 제시함으로써, 기존 coarse accuracy 평가의 한계를 보완하였다. 기존 연구 공백을 메움 : SFT와 RL의 일반화 차이를 인지적 수준에서 체계적으로 분석한 시도는 드물었으며, 본 연구는 그 관계를 실험적으로 보여주었다. 단점 섹션 4.3에서 말하고자 하는 것은 알겠는데, 설명이 부족하다. Sparse Autoencoder(SAE)를 이용해 latent representation을 분석하지만, 사용된 데이터셋 구체적 구성 (어떤 샘플이 behavior labeling에 사용되었는지) 설명이 부족하다. 그림 7에서 semantic feature가 증가하는 것은 어떠한 의미를 나타내는 것인가? 섹션 4.1에서 언급하는 그림 3은, RL이 SFT보다 꼭 균형잡힌 결과로 보이지 않는다. 이에 대한 정량적 수치가 필요해보인다 모든 벤치마크들의 성능 숫자 값과 이들의 평균값도 리포트가 필요해보인다 SFT와 RL을 비교하는 reference 들이 부족해보인다 line 377 제안 섹션 3.2에서 언급한 table은 table 2가 아니라 table 1 같음 방법론 설명 부족 line334-336 어떠한 teacher 모델이 사용됐는가? 이를 통해 어떻게 데이터를 모았는지에 대한 설명 필요함 파라미터 스페이스 말고, SFR와 RL로 학습된 모델로 출력 토큰의 Logit distribution을 분석해보는 것은 어떤가? 엔트로피를 통한 분석으로...

NL-332, End-to-End Vision Tokenizer Tuning, Preprint 2025

이미지
Abstract 기존의 비전 토크나이제이션 방식은 비전 토크나이저의 최적화를 다운스트림 학습과 분리하여 수행하며, 이미지 생성이나 시각적 질의응답과 같은 다양한 태스크 전반에서 시각 토큰이 일반화될 수 있다고 암묵적으로 가정한다. 그러나 저수준 재구성을 목표로 최적화된 비전 토크나이저는, 서로 다른 표현과 의미를 요구하는 다운스트림 태스크에 대해서는 태스크 비의존적이다. 이러한 분리된 패러다임은 중요한 불일치를 초래하는데, 비전 토크나이제이션의 손실 자체가 목표 태스크의 표현 병목이 될 수 있다. 예를 들어, 이미지 내 텍스트를 토크나이즈하는 과정에서 발생한 오류는 해당 텍스트를 인식하거나 생성하는 성능 저하로 이어진다. 이를 해결하기 위해, 우리는 비전 토크나이제이션과 목표 자동회귀 태스크를 공동으로 최적화할 수 있는 엔드투엔드 비전 토크나이저 튜닝 방법인 ETT를 제안한다. 동결된 비전 토크나이저로부터 이산 인덱스만을 사용하는 기존 자동회귀 모델들과 달리, ETT는 토크나이저 코드북의 시각 임베딩을 직접 활용하며, 재구성 목표와 캡션 목표를 함께 사용하여 비전 토크나이저를 엔드투엔드 방식으로 최적화한다. ETT는 기존 대규모 언어 모델의 코드북이나 아키텍처를 수정할 필요 없이 간단하게 구현 및 통합할 수 있다. 광범위한 실험 결과, 제안한 엔드투엔드 비전 토크나이저 튜닝은 동결된 토크나이저를 사용하는 기준선 대비 멀티모달 이해 및 시각 생성 태스크에서 2에서 6퍼센트에 이르는 유의미한 성능 향상을 달성함과 동시에, 기존의 재구성 성능을 유지함을 보여준다. 우리는 이 단순하면서도 강력한 방법이 이미지 생성과 이해를 넘어 멀티모달 파운데이션 모델 전반에 기여할 수 있기를 기대한다.  기존에는 토크나이저 하고 나서 LLM에 넣어서 학습 딸깍 했는데, 이러면 LLM 학습과 토크나이저가 분리되니까, LLM 학습시에도 gradient가 흐르게 하자 1. Introduction 최근 대규모 언어 모델과 멀티모달 사전학습의 급속한 발전으로 인해, 자동회귀 모델링은...