NL-330, Qwen2-VL: Enhancing Vision-Language Model’s Perception of the World at Any Resolution, Preprint 2024
본 논문에서 제안하는 Qwen2-VL은 이미지 생성이 아닌 vision understanding을 목적으로 설계된 대규모 Vision-Language Model(LVLM)이다. 모델의 출력은 항상 텍스트 토큰이며, 이미지나 비디오를 생성하기 위한 diffusion, VAE, 혹은 discrete visual token decoder와 같은 생성 모듈은 포함하지 않는다. 모든 학습은 텍스트 next-token prediction을 목표로 하며, 이미지와 비디오는 텍스트 생성을 보조하는 입력 신호로만 사용된다. 따라서 Qwen2-VL은 Janus나 OmniTokenizer 계열의 “이해+생성 통합 모델”과 달리, 명확하게 이해 중심(multimodal understanding-centric) 모델에 해당한다.
모델 구조 측면에서 Qwen2-VL은 전형적인 Vision Encoder → LLM 구조를 따르되, 비전 표현으로 discrete visual token이 아닌 continuous embedding을 사용한다. 입력 이미지는 675M 파라미터 규모의 Vision Transformer(ViT)를 통해 패치 단위의 연속 벡터 시퀀스로 변환되며, 이 임베딩은 간단한 MLP를 통해 2×2 패치 단위로 압축된 후 LLM 입력 시퀀스에 직접 삽입된다. 별도의 VQ codebook이나 시각 토크나이저는 존재하지 않으며, 이는 CLIP 계열 표현 방식과 유사하되 LLM 내부로 훨씬 깊게 통합된 형태라 할 수 있다. 비디오 역시 동일한 비전 인코더를 사용하며, 프레임 시퀀스를 시간 축으로 확장한 일반화된 이미지 입력으로 취급된다.
Qwen2-VL은 pretrained LLM과 pretrained vision encoder를 단순히 결합한 모델은 아니다. 언어 백본으로는 이미 대규모 텍스트 코퍼스로 학습된 Qwen2(2B/7B/72B)가 사용되며, 비전 백본으로는 DFN 계열에서 사전학습된 ViT가 초기값으로 사용된다. 그러나 이 비전 인코더는 기존의 absolute position embedding을 제거하고 2D RoPE로 교체한 뒤, 멀티모달 학습 과정에서 실제로 재학습된다. 즉, 두 모듈 모두 pretrained weight를 initialization으로 사용하지만, 이후 학습에서 고정된 채로 유지되지는 않는다.
학습은 총 세 단계로 구성된다. 첫 번째 단계에서는 비전 인코더 중심의 학습이 이루어지며, 이미지–텍스트 정렬과 OCR, 기본 시각 인식 능력을 확보하는 데 초점을 둔다. 이 단계에서는 ViT와 vision-to-LLM projection이 주로 학습되며, LLM은 거의 고정되거나 매우 제한적으로만 업데이트된다. 두 번째 단계는 본 논문의 핵심으로, 비전 인코더와 LLM 전체 파라미터를 모두 unfreeze한 상태에서 대규모 멀티모달 데이터를 이용한 continued pretraining(CPT) 이 수행된다. 이 과정에서 모델은 이미지, 문서, 차트, OCR, 비디오, interleaved image–text 데이터뿐 아니라 순수 텍스트 데이터도 함께 학습하며, 총 약 1.4T 토큰 규모의 학습을 거친다. 이 단계에서 손실은 텍스트 토큰에 대해서만 계산되지만, LLM 자체는 멀티모달 입력 분포에 적응하도록 재학습된다. 마지막 단계에서는 비전 인코더를 고정한 채 LLM만을 대상으로 instruction tuning이 수행되며, ChatML 포맷 기반의 멀티모달 대화, 문서 파싱, grounding, 비디오 QA, agent 및 tool-use 데이터가 사용된다.
실험 결과는 이러한 설계 선택의 효과를 명확히 보여준다. Qwen2-VL은 DocVQA, InfoVQA, OCRBench 등 고해상도 문서 및 텍스트 중심 벤치마크에서 기존 open-source 모델들을 일관되게 상회하며, 일부 지표에서는 GPT-4o에 필적하거나 이를 능가하는 성능을 보인다. 이는 고정 해상도 입력을 제거한 dynamic resolution 전략이 문서·OCR 태스크에서 정보 손실을 크게 줄였기 때문으로 해석된다. 일반 멀티모달 추론 벤치마크(MMVet, MMStar, MMBench)에서도 72B 모델은 대부분의 open-weight LVLM을 앞서며, 복잡한 시각–언어 통합 추론 능력을 입증한다. 다만 MMMU와 같은 고난도 학제적 문제에서는 여전히 GPT-4o 대비 소폭의 성능 격차가 관찰된다.
비디오 이해 실험에서는 M-RoPE의 효과가 두드러진다. 시간·공간 축을 분리한 positional encoding 덕분에 Qwen2-VL은 20분 이상의 장시간 비디오에서도 안정적인 성능을 유지하며, 학습 시 최대 16K 토큰으로 제한되었음에도 추론 시 80K 토큰까지 길이 외삽이 가능함을 보인다. Ablation 결과에 따르면 M-RoPE는 이미지 성능에는 제한적인 개선을 보이지만, 비디오 벤치마크와 긴 시퀀스 처리 능력에서는 결정적인 기여를 한다.
종합하면, Qwen2-VL은 이미지 생성을 포기하는 대신 비전 이해에 모든 모델 용량과 학습 예산을 집중한 설계로, continuous vision embedding과 멀티모달 CPT를 통해 LLM 자체를 멀티모달 모델로 재구성한 사례라 할 수 있다. 이 모델은 “pretrained LLM에 비전 모듈을 덧붙인 구조”를 넘어, LLM이 멀티모달 입력 분포 속에서 다시 성장하도록 만든 대표적인 CPT 기반 LVLM이라는 점에서 의미가 있다.
Reference
댓글
댓글 쓰기