NL-332, End-to-End Vision Tokenizer Tuning, Preprint 2025

이미지
Abstract 기존의 비전 토크나이제이션 방식은 비전 토크나이저의 최적화를 다운스트림 학습과 분리하여 수행하며, 이미지 생성이나 시각적 질의응답과 같은 다양한 태스크 전반에서 시각 토큰이 일반화될 수 있다고 암묵적으로 가정한다. 그러나 저수준 재구성을 목표로 최적화된 비전 토크나이저는, 서로 다른 표현과 의미를 요구하는 다운스트림 태스크에 대해서는 태스크 비의존적이다. 이러한 분리된 패러다임은 중요한 불일치를 초래하는데, 비전 토크나이제이션의 손실 자체가 목표 태스크의 표현 병목이 될 수 있다. 예를 들어, 이미지 내 텍스트를 토크나이즈하는 과정에서 발생한 오류는 해당 텍스트를 인식하거나 생성하는 성능 저하로 이어진다. 이를 해결하기 위해, 우리는 비전 토크나이제이션과 목표 자동회귀 태스크를 공동으로 최적화할 수 있는 엔드투엔드 비전 토크나이저 튜닝 방법인 ETT를 제안한다. 동결된 비전 토크나이저로부터 이산 인덱스만을 사용하는 기존 자동회귀 모델들과 달리, ETT는 토크나이저 코드북의 시각 임베딩을 직접 활용하며, 재구성 목표와 캡션 목표를 함께 사용하여 비전 토크나이저를 엔드투엔드 방식으로 최적화한다. ETT는 기존 대규모 언어 모델의 코드북이나 아키텍처를 수정할 필요 없이 간단하게 구현 및 통합할 수 있다. 광범위한 실험 결과, 제안한 엔드투엔드 비전 토크나이저 튜닝은 동결된 토크나이저를 사용하는 기준선 대비 멀티모달 이해 및 시각 생성 태스크에서 2에서 6퍼센트에 이르는 유의미한 성능 향상을 달성함과 동시에, 기존의 재구성 성능을 유지함을 보여준다. 우리는 이 단순하면서도 강력한 방법이 이미지 생성과 이해를 넘어 멀티모달 파운데이션 모델 전반에 기여할 수 있기를 기대한다.  기존에는 토크나이저 하고 나서 LLM에 넣어서 학습 딸깍 했는데, 이러면 LLM 학습과 토크나이저가 분리되니까, LLM 학습시에도 gradient가 흐르게 하자 1. Introduction 최근 대규모 언어 모델과 멀티모달 사전학습의 급속한 발전으로 인해, 자동회귀 모델링은...

NL-298, ARR 202510

이미지
제목: Harmful Factuality Hallucination: LLMs Correcting What They Shouldn’ ◼ Comment 요약 This paper introduces and systematically studies Harmful Factuality Hallucination (HFH), a phenomenon where LLMs incorrectly "correct" nonfactual information in the source text using their internal knowledge, resulting in outputs that are factually accurate but unfaithful to the input. To measure HFH, the authors propose two entity perturbation methods (GEP, LIER). Experiments on summarization, rephrasing, and QA tasks demonstrate that larger models exhibit higher HFH rates, and that entity position and importance affect these rates.  장점 새로운 HFH 문제를 제시하고, 이에 대한 자세한 분석을 한다 엔티티를 어떻게 변경하는지 엔티티 위치에 따른 HFH 효과 프롬프트 엔지니어링으로 해결시도 LLM의 환각 완화에 대한 후속 연구에서 참고할 수 있다 단점 LLM 을 사용할 때, 잠재적 위험인 HFH을 소개하나, 실질적인 위험 시나리오에 대한 것이 부족하다고 생각된다 법률, 의학 및 과학 연구 등 매우 중요한(high-stakes) 영역에서는 HFH의 영향이 클거라 말하지만, 이에 대한 실험은 제공되지 않았다. 결과적으로 HFH가 내재적지식으로 원본을 수정하지만, factual 하다면 문제될 것은 없다고 생각된다 따라서 LLM의 잘못된 내재적 지식으로 원본이 수정되는 케이스에 ...

NL-331, Tuna: Taming Unified Visual Representations for Native Unified Multimodal Models, Preprint 2025

이미지
◼ Comment 기존의 멀티모달 모델들 보면, 생성과 이해에 각각 다른 인코더를 사용하는 문제가 있었음 이게 왜 문제냐면 VG 인코더와 VU 인코더가 따로 놀면, 효율성이 떨어지고 학습 및 추론도 증가함. 그리고 각각 학습된걸 가져다 쓰기 때문에 표현 충돌을 유발할 수 있음  인코더가 중요한데, 여기서는 이를 통합하여 하나의 인코더만 사용해서 vision language model을 만듬 continuous embedding을 사용하고 vu, vg 둘다 지원 단순히 인코더를 하나로 합치는건 아니고 아래의 철학이 있다고 보면 됨 VAE latent 위에서 semantic encoder를 작동시키는 구조를 선택함으로써 생성에 필요한 저수준 구조 정보와 이해에 필요한 고수준 의미 정보를 같은 표현 공간에서 자연스럽게 공존시키는 것이 핵심이다. 모델 구조 이미지/비디오 입력을 받아서, continuous embedding을 만들어서 LLM 입력에 넣겠다는 것이다 과정으로는 이미지 -> VAE encoder (샘플링 X, 그냥 Conv 블럭 출력이라고 봐도되는 듯) -> Noise 첨가 -> Representation Encoder (SigLip encoder을 사용, semantic 정보 주입) -> MLP layer (LLM 히든벡터랑 사이즈 맞춤) 비디오는 차원이 하나 더 있는데, 이 프레임 축은 배치로 변환한다는듯 여기서 기억할것은 SigLIP은 원래 이미지 패치 인코더임. 이 체크포인트를 초기 상태로 쓰지만, 위처럼 SigLIP의 입력은 VAE latent vector가 되기 때문에 재학습되는 것 SigLIP 2의 기존 16×16 patch embedding layer를 무작위 초기화된 1×1 patch embedding layer로 교체한다 미지용 첫 Conv는 버린다 VAE latent의 각 (h,w) 위치를 하나의 토큰으로 직접 projection 실험 결과는 기존것들을 꽤 차이나게 뛰어넘는 느낌이 난다. 결국 continu...

NL-330, Qwen2-VL: Enhancing Vision-Language Model’s Perception of the World at Any Resolution, Preprint 2024

본 논문에서 제안하는 Qwen2-VL은 이미지 생성이 아닌 vision understanding을 목적으로 설계된 대규모 Vision-Language Model(LVLM)이다. 모델의 출력은 항상 텍스트 토큰이며, 이미지나 비디오를 생성하기 위한 diffusion, VAE, 혹은 discrete visual token decoder와 같은 생성 모듈은 포함하지 않는다. 모든 학습은 텍스트 next-token prediction을 목표로 하며, 이미지와 비디오는 텍스트 생성을 보조하는 입력 신호로만 사용된다. 따라서 Qwen2-VL은 Janus나 OmniTokenizer 계열의 “이해+생성 통합 모델”과 달리, 명확하게 이해 중심(multimodal understanding-centric) 모델에 해당한다. 모델 구조 측면에서 Qwen2-VL은 전형적인 Vision Encoder → LLM 구조를 따르되, 비전 표현으로 discrete visual token이 아닌 continuous embedding 을 사용한다. 입력 이미지는 675M 파라미터 규모의 Vision Transformer(ViT)를 통해 패치 단위의 연속 벡터 시퀀스로 변환되며, 이 임베딩은 간단한 MLP를 통해 2×2 패치 단위로 압축된 후 LLM 입력 시퀀스에 직접 삽입된다. 별도의 VQ codebook이나 시각 토크나이저는 존재하지 않으며, 이는 CLIP 계열 표현 방식과 유사하되 LLM 내부로 훨씬 깊게 통합된 형태라 할 수 있다. 비디오 역시 동일한 비전 인코더를 사용하며, 프레임 시퀀스를 시간 축으로 확장한 일반화된 이미지 입력으로 취급된다. Qwen2-VL은 pretrained LLM과 pretrained vision encoder를 단순히 결합한 모델은 아니다. 언어 백본으로는 이미 대규모 텍스트 코퍼스로 학습된 Qwen2(2B/7B/72B)가 사용되며, 비전 백본으로는 DFN 계열에서 사전학습된 ViT가 초기값으로 사용된다. 그러나 이 비전 인코더는 기존의 absolute p...

NL-329, Scaling Laws for Native Multimodal Models, ICCV 2025

이 논문에서 다루는 기본 설정을 먼저 정리하면, 텍스트 토크나이저는 존재하지만 이미지 토크나이저는 존재하지 않는다 는 점이 핵심이다. 텍스트는 일반적인 LLM에서 사용하는 것과 동일한 서브워드 기반 토크나이저를 통해 이산 토큰으로 변환된다. 반면 이미지는 VQ-VAE나 VQGAN처럼 이미지를 이산 토큰으로 바꾸는 이미지 토크나이저를 사용하지 않는다. 대신 이미지를 일정 크기의 패치로 나눈 뒤, 각 패치를 연속적인 벡터로 변환하고 단순한 선형 변환(linear projection)을 통해 Transformer의 hidden dimension에 맞춘다. 이 모델은 Native Multimodal Model(NMM)로 정의되며, 텍스트와 이미지를 모두 처음부터 함께 학습 한다. 즉, 사전학습된 LLM이나 사전학습된 비전 인코더, 이미지 토크나이저를 가져다 쓰지 않는다. 고정되어 있는 것은 텍스트 토크나이저뿐이며, 나머지 파라미터들은 멀티모달 데이터(텍스트, 이미지 캡션, 인터리브 문서)를 통해 end-to-end로 공동 학습된다. 이런 의미에서 텍스트와 이미지 모듈이 “각각 따로 학습된 상태”로 결합되는 구조는 아니다. 학습 목표는 autoregressive next token prediction 이다. 다만 여기서 “token”은 출력 기준으로만 텍스트 토큰을 의미한다. 모델은 텍스트 토큰과 이미지 패치 임베딩을 입력으로 받아, 다음 텍스트 토큰 을 예측하도록 학습된다. 이미지는 조건 정보로만 사용되며, 이 논문에서의 NMM은 이미지를 생성하지 않는다. 손실 함수 역시 텍스트에 대한 cross-entropy loss 하나뿐이다. 논문에서 말하는 Early fusion 은 “각각 독립적으로 학습된 토크나이저를 활용한다”는 의미가 아니다. Early fusion이란 텍스트 토큰 임베딩과 이미지 패치 임베딩을 Transformer의 입력 단계에서 바로 결합 하여 하나의 동일한 Transformer 디코더로 처리하는 구조를 의미한다. 이미지 쪽에는 패치화와 선형 투영 외...

NL-327, Vision as a Dialect: Unifying Visual Understanding and Generation via Text-Aligned Representations, NeurIPS 2025

이미지
◼ Comment 제목 그대로 이미지에 대한 Text-aligned tokenzier을 만든다는 것이다. 논문 읽기전에는, text-image pair 데이터로 뭐 학습을 하겠거니.. 했는데 그건 아니다 방법 보통 text llm tokenizer가 있고, 이에 해당하는 embedding matrix가 있을 것이다. 이를 활용하여 텍스트 정렬 코드북으로 초기화 한다. 아래 참고 기존의 LLM의 text vocab size가 10000이라고 할게.  그러면 embedding matrix 10000x1536이 존재해서, 각 토큰을 1536차원의 벡터로 변환해주는 것이 있었어.  이는 이미 학습된거지. 여기에 image token을 추가하고 싶은거지.  image token 3000개를 추가한다고 해볼게.  그러면 이것에 대한 초기화를 무작위로 하지 않고, text embedding을 활용할거야.  기존 토큰 임베딩들에서 다른 임베딩들과 평균거리를 계산해서 대표적인 토큰 임베딩 3000개를 선택하고, 이를 E_selected라고할게.  여기서 평균거리가 커야 대표성을 띈다고 보는 듯 평균거리가 작은 것은 the, a, of 이런 거를 의미하게 됨 여기에 W matrix (1536x1536)을 곱해서 C embedding matrix을 만들거고, 이것이 이미지 토큰의 임베딩 초기화야.  LLM embedding 공간 안에 있던 좌표 3000개를 시각적 의미 anchor로 지정하는 개념이지 학습할때는 이미지 -> SigLIP2을(학습됨, student) 통해 zl feature(HxW, D)을 추출해. 이를 SAP해서 13x13=169개의 토큰이고 D(=1536) 차원의 벡터로 변환해.  즉 하나의 이미지가 SAP을 통해 169토큰 임베딩으로 변환되는거지. 이 토큰 임베딩 벡터와 C embedding matrix가 가장 가까운걸로 치환하여 zq 양자화를 해.  즉 대표 임베딩 ...