NL-300, ARR 202510

제목: How and Why LLMs Generalize: A Fine-Grained Analysis of LLM Reasoning from Cognitive Behaviors to Low-Level Patterns ◼ Comment 정리 SFT와 RL 학습 차이를 reasoning, non-reasnoning 과제에서 분석하였다 세부적으로 평가하기 위해, 추론하면서 맞춰야하는 여러 단계들에 대한 벤치마크들을 제작한다. 장점 새로운 벤치마크 구축 : reasoning을 다섯 가지 핵심 인지 능력으로 분해하여 설계한 벤치마크를 제시함으로써, 기존 coarse accuracy 평가의 한계를 보완하였다. 기존 연구 공백을 메움 : SFT와 RL의 일반화 차이를 인지적 수준에서 체계적으로 분석한 시도는 드물었으며, 본 연구는 그 관계를 실험적으로 보여주었다. 단점 섹션 4.3에서 말하고자 하는 것은 알겠는데, 설명이 부족하다. Sparse Autoencoder(SAE)를 이용해 latent representation을 분석하지만, 사용된 데이터셋 구체적 구성 (어떤 샘플이 behavior labeling에 사용되었는지) 설명이 부족하다. 그림 7에서 semantic feature가 증가하는 것은 어떠한 의미를 나타내는 것인가? 섹션 4.1에서 언급하는 그림 3은, RL이 SFT보다 꼭 균형잡힌 결과로 보이지 않는다. 이에 대한 정량적 수치가 필요해보인다 모든 벤치마크들의 성능 숫자 값과 이들의 평균값도 리포트가 필요해보인다 SFT와 RL을 비교하는 reference 들이 부족해보인다 line 377 제안 섹션 3.2에서 언급한 table은 table 2가 아니라 table 1 같음 방법론 설명 부족 line334-336 어떠한 teacher 모델이 사용됐는가? 이를 통해 어떻게 데이터를 모았는지에 대한 설명 필요함 파라미터 스페이스 말고, SFR와 RL로 학습된 모델로 출력 토큰의 Logit distribution을 분석해보는 것은 어떤가? 엔트로피를 통한 분석으로...

NL-332, End-to-End Vision Tokenizer Tuning, Preprint 2025

이미지
Abstract 기존의 비전 토크나이제이션 방식은 비전 토크나이저의 최적화를 다운스트림 학습과 분리하여 수행하며, 이미지 생성이나 시각적 질의응답과 같은 다양한 태스크 전반에서 시각 토큰이 일반화될 수 있다고 암묵적으로 가정한다. 그러나 저수준 재구성을 목표로 최적화된 비전 토크나이저는, 서로 다른 표현과 의미를 요구하는 다운스트림 태스크에 대해서는 태스크 비의존적이다. 이러한 분리된 패러다임은 중요한 불일치를 초래하는데, 비전 토크나이제이션의 손실 자체가 목표 태스크의 표현 병목이 될 수 있다. 예를 들어, 이미지 내 텍스트를 토크나이즈하는 과정에서 발생한 오류는 해당 텍스트를 인식하거나 생성하는 성능 저하로 이어진다. 이를 해결하기 위해, 우리는 비전 토크나이제이션과 목표 자동회귀 태스크를 공동으로 최적화할 수 있는 엔드투엔드 비전 토크나이저 튜닝 방법인 ETT를 제안한다. 동결된 비전 토크나이저로부터 이산 인덱스만을 사용하는 기존 자동회귀 모델들과 달리, ETT는 토크나이저 코드북의 시각 임베딩을 직접 활용하며, 재구성 목표와 캡션 목표를 함께 사용하여 비전 토크나이저를 엔드투엔드 방식으로 최적화한다. ETT는 기존 대규모 언어 모델의 코드북이나 아키텍처를 수정할 필요 없이 간단하게 구현 및 통합할 수 있다. 광범위한 실험 결과, 제안한 엔드투엔드 비전 토크나이저 튜닝은 동결된 토크나이저를 사용하는 기준선 대비 멀티모달 이해 및 시각 생성 태스크에서 2에서 6퍼센트에 이르는 유의미한 성능 향상을 달성함과 동시에, 기존의 재구성 성능을 유지함을 보여준다. 우리는 이 단순하면서도 강력한 방법이 이미지 생성과 이해를 넘어 멀티모달 파운데이션 모델 전반에 기여할 수 있기를 기대한다.  기존에는 토크나이저 하고 나서 LLM에 넣어서 학습 딸깍 했는데, 이러면 LLM 학습과 토크나이저가 분리되니까, LLM 학습시에도 gradient가 흐르게 하자 1. Introduction 최근 대규모 언어 모델과 멀티모달 사전학습의 급속한 발전으로 인해, 자동회귀 모델링은...

NL-298, ARR 202510

이미지
제목: Harmful Factuality Hallucination: LLMs Correcting What They Shouldn’ ◼ Comment 요약 This paper introduces and systematically studies Harmful Factuality Hallucination (HFH), a phenomenon where LLMs incorrectly "correct" nonfactual information in the source text using their internal knowledge, resulting in outputs that are factually accurate but unfaithful to the input. To measure HFH, the authors propose two entity perturbation methods (GEP, LIER). Experiments on summarization, rephrasing, and QA tasks demonstrate that larger models exhibit higher HFH rates, and that entity position and importance affect these rates.  장점 새로운 HFH 문제를 제시하고, 이에 대한 자세한 분석을 한다 엔티티를 어떻게 변경하는지 엔티티 위치에 따른 HFH 효과 프롬프트 엔지니어링으로 해결시도 LLM의 환각 완화에 대한 후속 연구에서 참고할 수 있다 단점 LLM 을 사용할 때, 잠재적 위험인 HFH을 소개하나, 실질적인 위험 시나리오에 대한 것이 부족하다고 생각된다 법률, 의학 및 과학 연구 등 매우 중요한(high-stakes) 영역에서는 HFH의 영향이 클거라 말하지만, 이에 대한 실험은 제공되지 않았다. 결과적으로 HFH가 내재적지식으로 원본을 수정하지만, factual 하다면 문제될 것은 없다고 생각된다 따라서 LLM의 잘못된 내재적 지식으로 원본이 수정되는 케이스에 ...

NL-331, Tuna: Taming Unified Visual Representations for Native Unified Multimodal Models, Preprint 2025

이미지
◼ Comment 기존의 멀티모달 모델들 보면, 생성과 이해에 각각 다른 인코더를 사용하는 문제가 있었음 이게 왜 문제냐면 VG 인코더와 VU 인코더가 따로 놀면, 효율성이 떨어지고 학습 및 추론도 증가함. 그리고 각각 학습된걸 가져다 쓰기 때문에 표현 충돌을 유발할 수 있음  인코더가 중요한데, 여기서는 이를 통합하여 하나의 인코더만 사용해서 vision language model을 만듬 continuous embedding을 사용하고 vu, vg 둘다 지원 단순히 인코더를 하나로 합치는건 아니고 아래의 철학이 있다고 보면 됨 VAE latent 위에서 semantic encoder를 작동시키는 구조를 선택함으로써 생성에 필요한 저수준 구조 정보와 이해에 필요한 고수준 의미 정보를 같은 표현 공간에서 자연스럽게 공존시키는 것이 핵심이다. 모델 구조 이미지/비디오 입력을 받아서, continuous embedding을 만들어서 LLM 입력에 넣겠다는 것이다 과정으로는 이미지 -> VAE encoder (샘플링 X, 그냥 Conv 블럭 출력이라고 봐도되는 듯) -> Noise 첨가 -> Representation Encoder (SigLip encoder을 사용, semantic 정보 주입) -> MLP layer (LLM 히든벡터랑 사이즈 맞춤) 비디오는 차원이 하나 더 있는데, 이 프레임 축은 배치로 변환한다는듯 여기서 기억할것은 SigLIP은 원래 이미지 패치 인코더임. 이 체크포인트를 초기 상태로 쓰지만, 위처럼 SigLIP의 입력은 VAE latent vector가 되기 때문에 재학습되는 것 SigLIP 2의 기존 16×16 patch embedding layer를 무작위 초기화된 1×1 patch embedding layer로 교체한다 미지용 첫 Conv는 버린다 VAE latent의 각 (h,w) 위치를 하나의 토큰으로 직접 projection 실험 결과는 기존것들을 꽤 차이나게 뛰어넘는 느낌이 난다. 결국 continu...