NL-327, Vision as a Dialect: Unifying Visual Understanding and Generation via Text-Aligned Representations, NeurIPS 2025

◼ Comment

  • 제목 그대로 이미지에 대한 Text-aligned tokenzier을 만든다는 것이다.
    • 논문 읽기전에는, text-image pair 데이터로 뭐 학습을 하겠거니.. 했는데 그건 아니다
  • 방법
    • 보통 text llm tokenizer가 있고, 이에 해당하는 embedding matrix가 있을 것이다.
    • 이를 활용하여 텍스트 정렬 코드북으로 초기화 한다. 아래 참고
  • 기존의 LLM의 text vocab size가 10000이라고 할게. 
  • 그러면 embedding matrix 10000x1536이 존재해서, 각 토큰을 1536차원의 벡터로 변환해주는 것이 있었어. 
  • 이는 이미 학습된거지. 여기에 image token을 추가하고 싶은거지. 
    • image token 3000개를 추가한다고 해볼게. 
    • 그러면 이것에 대한 초기화를 무작위로 하지 않고, text embedding을 활용할거야. 
    • 기존 토큰 임베딩들에서 다른 임베딩들과 평균거리를 계산해서 대표적인 토큰 임베딩 3000개를 선택하고, 이를 E_selected라고할게. 
      • 여기서 평균거리가 커야 대표성을 띈다고 보는 듯
      • 평균거리가 작은 것은 the, a, of 이런 거를 의미하게 됨
    • 여기에 W matrix (1536x1536)을 곱해서 C embedding matrix을 만들거고, 이것이 이미지 토큰의 임베딩 초기화야. 
    • LLM embedding 공간 안에 있던 좌표 3000개를 시각적 의미 anchor로 지정하는 개념이지
  • 학습할때는 이미지 -> SigLIP2을(학습됨, student) 통해 zl feature(HxW, D)을 추출해. 이를 SAP해서 13x13=169개의 토큰이고 D(=1536) 차원의 벡터로 변환해. 
    • 즉 하나의 이미지가 SAP을 통해 169토큰 임베딩으로 변환되는거지. 이 토큰 임베딩 벡터와 C embedding matrix가 가장 가까운걸로 치환하여 zq 양자화를 해. 
    • 즉 대표 임베딩 벡터로 바꾸는거지. 
    • 그리고 zq로부터 SAD 디코더를 통해 zy 특징으로 복원하고 zy는 이미지 -> SigLIP2을(학습안됨, teacher) 통해 나온 벡터와 동일하게 되도록 학습이 되는거야.
  • 좀더 자세히
    • student, teacher SigLIP2의 초기 가중치는 같음
    • zq는 SigLIP2의 출력을 SAP(adaptive average pooling)을 한거라 가로,세로가 줄어들고, 이 다음에 이를 양자화 한 것
    • label에 해당하는 zy도 이에 맞게 teacher SigLIP2의 결과를 SAP해서 크기 맞춰줌
    • 실제로 text vocab=150,000 전후이고, 선택된 image vocab=65,536 개 인 듯
  • 결과적으로는
    • student SigLIP2 encoder (학습된 상태)
    • SAP (adaptive average pooling): 파라미터 없음
    • 텍스트 정렬 코드북 C = E_selected · W
  • SAP를 쓰면:
    • 729 → 169 → 81 토큰
    • 같은 이미지라도
      • 이해 태스크: 길게
      • 생성 태스크: 짧게
    • 즉 SAP는: “이미지를 LLM이 다룰 수 있는 길이로 바꾸는 장치”
  • 이것이 효과적임을 보여주기 위해,
    • 3.2 에서는 TA-Tok으로 이미지를 토큰화한것을 이미지로 바꿔주는 것을 시도하고 (이 부분은 나름 기억해둘 필요가 있으면 좋을 듯)
      • VQVAE 인코더&디코더는 미리 학습된 것
      • 여기서 zq는 이미지에 대해 TA-Tok으로 추출한 토큰들
      • y는 이미지에 대해 VQVAE 인코더로 추출한 토큰들
      • 즉 zq는 semantic 정보처럼 앞에 들어가고, y에서 순차적으로 next token을 예측하도록 모델 학습
      • 즉 TA-Tok을 이미지화로 바꾸려면, 이렇게 학습된 모델에 zq을 넣어서 VQVAE 토큰들을 예측해서 이미지화로 하는 방식
    • 3.3 에서는 TA-Tok을 통해 vision-language 모델을 학습해본다
      • 즉 텍스트, 비전 토큰들을 concat하여 LLM 학습하듯이 next token prediction으로 학습시킨다.
  • 실험 결과는 비전 이해 & 비전 생성에서 모두 효과적이라고 한다.
    • 기억할 점은, Janus, Hybrid랑 비교를 하는데
    • 데이터 규모에 따라 우위가 다르긴 하지만, 데이터 규모가 크면 TA-Tok이 제일 좋음을 보여준다.
  • 단 이거를 쓰려면, TA-Tok할때 사용되었던 text token embedding을 같이 써야하는거 같음
    • 여기서는 Qwen 2.5

Abstract

본 논문은 공유된 이산적 의미 표현을 통해 시각적 이해와 시각적 생성을 통합하려는 멀티모달 프레임워크를 제안한다. 본 접근법의 핵심은 Text-Aligned Tokenizer로, 이는 대규모 언어 모델의 어휘에서 투영된 텍스트 정렬 코드북을 사용하여 이미지를 이산 토큰으로 변환한다. 비전과 텍스트를 확장된 어휘를 갖는 하나의 통합 공간으로 결합함으로써, 제안하는 멀티모달 대규모 언어 모델 Tar는 모달리티별 특수 설계 없이도 공통 인터페이스를 통해 크로스모달 입력과 출력을 가능하게 한다.

또한 본 논문은 효율성과 시각적 디테일 간의 균형을 맞추기 위해 스케일 적응적 인코딩과 디코딩을 제안하며, 고충실도의 시각적 출력을 생성하기 위한 생성형 디토크나이저를 도입한다. 다양한 디코딩 요구를 충족하기 위해, 빠른 자기회귀 모델과 확산 기반 모델이라는 두 가지 상호 보완적인 디토크나이저를 활용한다. 모달리티 간 융합을 강화하기 위해 고급 사전학습 태스크들을 탐구하였으며, 그 결과 시각적 이해와 시각적 생성 모두에서 성능 향상을 확인하였다.

다양한 벤치마크 실험을 통해 Tar는 기존 멀티모달 대규모 언어 모델 방법들과 동등하거나 이를 상회하는 성능을 달성했으며, 더 빠른 수렴과 높은 학습 효율성을 보였다. 코드, 모델, 데이터는 https://tar.csuhan.com에서 공개된다.

1 서론 (Introduction)

멀티모달 대규모 언어 모델(MLLM)은 자기회귀적 프레임워크 내에서 시각적 이해 과제를 처리할 수 있는 LLM의 능력을 보여주었다. 진정한 의미의 MLLM은 이미지를 이해하는 것뿐만 아니라 이를 생성할 수 있어야 하며, 이는 세계에 대한 지각, 추론, 상호작용의 기반이 된다.

예를 들어, 시각적 이해를 위한 MLLM은 일반적으로 세 가지 구성 요소로 이루어진다. 의미적 시각 인코더(예: CLIP), LLM, 그리고 비전-언어 어댑터이다. 사전에 정렬된 시각 표현을 활용하면, LLaVA는 단 60만 개의 이미지-텍스트 쌍과 단순한 선형 어댑터만으로 CLIP 특징을 LLM의 잠재 공간에 효율적으로 정렬할 수 있다. 그러나 시각적 생성에 적합한 표현 방식은 여전히 해결되지 않은 연구 문제로 남아 있으며, 이에 대해 몇 가지 핵심적인 설계 선택지가 존재한다.

첫째, 분리된 표현 대 공유된 표현의 문제이다. 

  • 시각적 이해와 생성은 서로 다른 수준의 추상화를 요구하는 경우가 많기 때문에, 일부 방법들은 이해에는 CLIP을, 생성에는 VQVAE를 사용하는 등 분리된 표현을 채택한다. 그러나 이러한 분리는 통합적인 추론을 제한하고, 인터리브드 생성이나 다중 턴 이미지 편집과 같은 작업을 복잡하게 만든다. 
  • 이에 본 논문에서는 이해와 생성이 충돌하지 않고 상호 보완적으로 작동하도록, 단일 잠재 공간에서 두 작업을 모두 학습하는 공유 표현을 사용한다.

둘째, 연속 표현 대 이산 표현의 문제이다. 

  • 연속적인 시각 특징은 풍부한 정보를 보존하며 이해 과제에는 효과적이지만, 생성 단계에서는 회귀나 확산과 같은 목표 함수가 필요해져 LLM 확장에 핵심적인 자기회귀 패러다임과 괴리가 발생한다. 반면 이산 토큰은 LLM과 자연스럽게 결합되지만, 양자화 오류라는 한계를 가진다. 
  • 본 논문은 시각과 언어를 공유된 이산 표현으로 통합함으로써 모델링 패러다임을 단순화하고, 확장성을 높이며, 보다 효율적인 공간에서의 연산을 가능하게 한다. 또한 양자화 오류를 완화하기 위해 더 긴 시퀀스를 사용하는 스케일 적응적 표현과, 생성 성능을 보완하는 생성형 디토크나이저를 제안한다.

셋째, 픽셀 수준 표현 대 의미 수준 표현의 문제이다. 

  • VAE와 같은 픽셀 기반 토큰은 세밀한 디테일을 제공하지만, LLM과의 정렬이 어렵다. 반면 CLIP과 같은 의미적 표현은 LLM과의 상호작용에는 효율적이지만, 이미지의 세부 정보를 복원하는 데 한계가 있다. 하이브리드 방식들이 두 장점을 결합하려 시도했으나, 균형을 맞추는 것은 여전히 어렵다. 
  • 본 논문은 시각적 이해에서 이미 검증된 의미적 표현의 장점을 시각적 생성까지 확장하여, 더 빠른 수렴과 이해·생성의 통합을 단순화한다.

이 논문은 텍스트 정렬 표현(Tar)을 연구하며, 이는 시각적 이해와 생성을 하나의 공유 공간에서 통합하려는 완전히 이산적이고 의미적인 표현이다. 

  • 본 방법의 핵심은 Text-Aligned Tokenizer(TA-Tok)로, 이는 LLM의 어휘에서 초기화된 텍스트 정렬 코드북과 학습 가능한 투영 계층을 통해 이미지를 이산 토큰으로 변환한다. 
  • 이 접근법은 모달리티별 특수 설계에 의존하지 않고도 입력과 출력에서 자연스러운 크로스모달 처리를 가능하게 하며, 통합된 프레임워크 내에서 고급 멀티모달 추론을 지원한다.

효율성과 디테일 간의 균형을 위해, 본 논문은 스케일 적응적 풀링과 디코딩을 도입하여 필요에 따라 토큰 길이를 조절할 수 있도록 한다. 이를 통해 생성에는 거친 토큰을, 이해에는 세밀한 토큰을 사용할 수 있다. 

디코딩 단계에서는 두 가지 상호 보완적인 생성형 디토크나이저를 사용한다. 

  • 하나는 이산 VAE 잠재 공간을 위한 빠른 자기회귀 모델이며, 
  • 다른 하나는 연속 VAE 잠재 공간을 위한 확산 기반 모델이다. 
  • 자기회귀 디토크나이저는 이산 LLM 토큰과의 호환성이 뛰어나고 빠르며, 확산 디토크나이저는 강력한 사전학습 이미지 생성기를 활용해 높은 시각적 품질을 제공한다. 이 둘의 조합은 속도, 호환성, 시각적 충실도 사이에서 유연한 균형을 제공한다.

기존의 이미지-텍스트 이해 과제와 텍스트-이미지 생성 과제 외에도, 본 논문은 이미지-이미지, 텍스트-이미지-이미지와 같은 새로운 사전학습 과제를 도입하여 모달리티 융합을 더욱 강화하고, 그 결과 시각적 이해와 생성 모두에서 성능 향상을 달성한다.

마지막으로, 본 논문의 주요 기여는 다음과 같이 요약할 수 있다.

  • 시각적 이해와 시각적 생성을 하나의 공유된 의미적 이산 공간에서 통합하는 Text-Aligned Tokenizer를 제안한다. 이 멀티모달 프레임워크는 모달리티별 특수 설계를 제거하고, 공통 인터페이스를 통해 입력과 출력에서 자연스러운 크로스모달 처리를 가능하게 한다.
  • 다양한 태스크 요구에 맞춰 시각적 디테일을 유연하게 제어할 수 있도록 스케일 적응적 풀링과 디코딩을 제안한다. 또한 자기회귀 모델 또는 확산 기반 모델을 사용하여 이산 의미 토큰으로부터 이미지를 생성하는 생성형 디토크나이저를 도입한다.
  • 단일 모델 내에서 시각적 이해와 시각적 생성을 동시에 가능하게 하는 고급 사전학습 전략들을 탐구하고, 이를 통해 다양한 벤치마크에서 강력한 성능을 달성한다.

2 관련 연구 (Related Work)

통합 멀티모달 대규모 언어 모델.
대규모 언어 모델의 발전과 함께, 멀티모달 대규모 언어 모델은 강력한 멀티모달 이해 및 추론 능력으로 많은 연구 관심을 받아왔다. 시각적 이해를 넘어, 최근의 여러 연구들은 시각적 이해와 시각적 생성을 하나의 통합된 MLLM 내에서 결합하려는 시도를 하고 있다.

Emu2는 LLM이 CLIP 임베딩을 생성하도록 하며, 이를 확산 모델을 사용해 이미지로 디코딩한다. Emu3와 Chameleon은 VQVAE를 시각 인코더이자 디코더로 사용하여, 이미지와 텍스트 전반에 걸쳐 통합된 next-token prediction을 가능하게 한다. 그러나 VQVAE는 픽셀 간 의존성에 초점을 맞추기 때문에, MLLM이 저수준 이미지 디테일과 고수준 의미 정보를 동시에 다루는 데 한계를 가진다.

Show-o와 Transfusion은 이미지 생성을 위해 확산 목적 함수를 LLM에 통합하지만, 이러한 설계는 자기회귀 패러다임을 깨뜨리고 이해와 생성의 통합을 복잡하게 만든다. Janus는 이해와 생성을 위해 별도의 인코더를 사용하는 모듈식 접근을 취하지만, 이로 인해 시각적 이해와 시각적 생성이 서로 다른 모달리티로 분리되어, 다중 턴 이미지 편집이나 인터리브드 생성과 같은 작업에서 제약이 발생한다.

VILA-U와 UniTok은 픽셀 재구성과 이미지-텍스트 정렬 손실을 동시에 사용하여 융합 토크나이저를 학습하지만, 두 태스크를 모두 최적으로 만족시키는 방향으로 수렴하는 데 어려움을 겪는다. ILLUME는 의미적 시각 인코더에 벡터 양자화를 적용하여 이미지 생성을 위한 이산 토큰을 사용하지만, 시각적 이해에서는 여전히 연속적인 시각 특징에 의존하므로 두 태스크를 위한 별도의 인코더가 필요하다.

이에 반해, 본 논문은 시각적 이해와 시각적 생성을 단일 MLLM 내에서 통합하는 완전히 이산적이며 의미적이고 공유된 표현을 제안한다.

3 방법 (Method)

이 절에서는 먼저 3.1절에서 Text-Aligned Tokenizer(TA-Tok)를 제안한다. TA-Tok는 이미지를 텍스트와 정렬된, 스케일 적응적인 이산 토큰으로 변환한다. 이어서 3.2절에서는 자기회귀 모델과 확산 모델 등 강력한 생성 모델을 활용하여 텍스트 정렬 시각 조건으로부터 고품질 이미지를 복원하는 생성형 디토크나이저를 소개한다. TA-Tok와 디토크나이저를 기반으로, 우리는 모달리티별 특수 설계 없이 단순한 next token prediction 방식으로 학습되는 통합 멀티모달 대규모 언어 모델을 설계한다. 

전체 아키텍처는 그림 2에 제시되어 있다. 마지막으로 3.4절에서는 학습 레시피, 특히 통합 사전학습 태스크들을 설명한다.

3.1 텍스트 정렬 토크나이저 (Text-Aligned Tokenizer)

TA-Tok는 시각적 표현을 대규모 언어 모델의 잠재 공간에 정렬시키기 위해 설계되었다. 이하에서는 TA-Tok의 기본 개념과 아키텍처를 설명한다. 전체 구조는 그림 3에 나타나 있다.

벡터 양자화(Vector Quantization, VQ)는 연속적인 표현을 유한한 토큰 집합으로 이산화하는 기법으로, 고차원 벡터를 양자화된 표현 집합으로 변환한다. 시각 인코더 E에 의해 이미지 I로부터 얻어진 연속 입력 벡터 z_I = E(I)가 주어졌을 때, 목표는 이를 코드북 C 내에서 가장 가까운 벡터로 매핑하는 것이다. 이 양자화 과정은 다음과 같이 정의된다.

z_q = argmin_{c ∈ C} || z_I − c ||²

여기서 C = {c₁, c₂, …, c_K}이며 K는 코드북 항목의 개수이다. 이 과정의 목적은 입력 z_I를 코드북 내에서 가장 대표적인 벡터 c_k로 대응시키는 것이다.

텍스트 정렬 코드북
기존의 VQ 코드북은 일반적으로 무작위 초기화를 사용한다. 시각 토큰과 텍스트 토큰을 LLM의 잠재 공간에서 정렬시키기 위해, 본 논문에서는 사전학습된 LLM의 토큰 임베딩을 사용해 VQ 코드북을 초기화한다. LLM의 임베딩 행렬 E ∈ R^{K×D} = {e₁, e₂, …, e_K}와 학습 가능한 투영 행렬 W ∈ R^{D×D}가 주어질 때, 코드북 C ∈ R^{K×D}는 다음과 같이 정의된다.

여기서 중요한 점은 LLM 임베딩 E는 항상 고정(frozen)이며, 투영 행렬 W만 학습한다는 것이다. 따라서 각 코드북 엔트리는 대응되는 LLM 토큰 임베딩을 투영한 형태가 되며, 시각 코드북이 LLM의 잠재 공간에 의미적으로 정렬되도록 만든다. 이 설계는 시각 토큰이 텍스트 토큰과 같은 공간에 정착하도록 하여 모달리티 간 통합 표현을 촉진한다.

LLM 어휘는 보통 매우 크다(예: Qwen은 150K). 전체 임베딩을 코드북으로 쓰면 계산량이 과도하므로, 본 논문은 임베딩들 사이의 평균 거리(다른 임베딩들과의 평균 거리)를 기준으로 대표성이 높은 상위 k개 임베딩을 선택한다. 이를 통해 중복을 줄이면서도 넓은 의미적 커버리지를 유지한다.

스케일 적응적 풀링과 디코딩
태스크마다 필요한 시각적 디테일 수준이 다르다. 예를 들어 이해나 편집은 세밀한 특징에 의존하는 반면, 생성은 더 거친 표현이 유리할 수 있다. 이를 위해 우리는 다중 그라뉼러리 특징을 추출하는 스케일 적응적 풀링(SAP)과 스케일 적응적 디코딩(SAD)을 도입한다.

이미지 특징 z_I가 주어지면, 스케일 계수 s ∈ {1, 2, 3}에 대해 SAP를 적용하여 z_I^p = SAP(z_I, s)를 얻는다. 이로써 태스크 요구나 연산 예산에 따라 시각적 디테일을 조절할 수 있다. 디코딩 시에는 SigLIP2 방식처럼 2차원 위치 임베딩을 입력 스케일에 맞게 리사이즈하여, ViT 디코더가 다양한 스케일의 잠재 특징을 효과적으로 처리하도록 한다.

아키텍처 및 학습 목표
그림 3과 같이 TA-Tok는 SigLIP2 인코더, SAP, 텍스트 정렬 코드북, SAD, 그리고 SigLIP2 교사(teacher) 모델로 구성된다. SAP는 adaptive pooling으로 구현되고, SAD는 3개의 ViT 블록으로 이루어진 경량 ViT 디코더를 사용한다. TA-Tok는 특징 재구성 손실 L_rec과 코드북 손실 L_code를 결합해 학습한다.

재구성 손실은 디코딩된 특징과 SigLIP2 교사 출력 사이의 의미적 정렬을 유도한다. 다음과 같이 정의된다.

L_rec = 1 − (z_y · ẑ_y) / (||z_y|| ||ẑ_y||)

여기서 z_y와 ẑ_y는 각각 SAD에서 나온 특징과 SigLIP2 교사 모델에서 나온 특징이다.

코드북 손실 L_code는 양자화된 특징이 코드북 엔트리에 가깝도록 유도한다. 손실은 다음과 같이 정의된다.

여기서 sg(·)는 stop-gradient 연산을 의미한다. 학습에서는 LLM 토큰 임베딩 E를 고정하고, 투영 행렬 W만 학습한다. 또한 학습 중에는 SigLIP2 인코더, SAP, SAD를 함께 최적화하고, SigLIP2 교사 모델은 고정된 상태로 유지한다.

추론 시에는 교사 모델과 디코더는 학습 보조용으로만 사용되므로 제거되며, 학습된 코드북은 LLM에서 사용할 수 있는 시각 어휘로 기능한다.

  • 기존의 LLM의 text vocab size가 10000이라고 할게. 
  • 그러면 embedding matrix 10000x1536이 존재해서, 각 토큰을 1536차원의 벡터로 변환해주는 것이 있었어. 
  • 이는 이미 학습된거지. 여기에 image token을 추가하고 싶은거지. 
    • image token 3000개를 추가한다고 해볼게. 
    • 그러면 이것에 대한 초기화를 무작위로 하지 않고, text embedding을 활용할거야. 
    • 기존 토큰 임베딩들에서 다른 임베딩들과 평균거리를 계산해서 대표적인 토큰 임베딩 3000개를 선택하고, 이를 E_selected라고할게. 
      • 여기서 평균거리가 커야 대표성을 띈다고 보는 듯
      • 평균거리가 작은 것은 the, a, of 이런 거를 의미하게 됨
    • 여기에 W matrix (1536x1536)을 곱해서 C embedding matrix을 만들거고, 이것이 이미지 토큰의 임베딩 초기화야. 
    • LLM embedding 공간 안에 있던 좌표 3000개를 시각적 의미 anchor로 지정하는 개념이지
  • 학습할때는 이미지 -> SigLIP2을(학습됨, student) 통해 zl feature(HxW, D)을 추출해. 이를 SAP해서 13x13=169개의 토큰이고 D(=1536) 차원의 벡터로 변환해. 
    • 즉 하나의 이미지가 SAP을 통해 169토큰 임베딩으로 변환되는거지. 이 토큰 임베딩 벡터와 C embedding matrix가 가장 가까운걸로 치환하여 zq 양자화를 해. 
    • 즉 대표 임베딩 벡터로 바꾸는거지. 
    • 그리고 zq로부터 SAD 디코더를 통해 zy 특징으로 복원하고 zy는 이미지 -> SigLIP2을(학습안됨, teacher) 통해 나온 벡터와 동일하게 되도록 학습이 되는거야.
  • 좀더 자세히
    • student, teacher SigLIP2의 초기 가중치는 같음
    • zq는 SigLIP2의 출력을 SAP(adaptive average pooling)을 한거라 가로,세로가 줄어들고, 이 다음에 이를 양자화 한 것
    • label에 해당하는 zy도 이에 맞게 teacher SigLIP2의 결과를 SAP해서 크기 맞춰줌
    • 실제로 text vocab=150,000 전후이고, 선택된 image vocab=65,536 개 인 듯
  • 결과적으로는
    • student SigLIP2 encoder (학습된 상태)
    • SAP (adaptive average pooling): 파라미터 없음
    • 텍스트 정렬 코드북 C = E_selected · W
  • SAP를 쓰면:
    • 729 → 169 → 81 토큰
    • 같은 이미지라도
      • 이해 태스크: 길게
      • 생성 태스크: 짧게
    • 즉 SAP는: “이미지를 LLM이 다룰 수 있는 길이로 바꾸는 장치”

3.2 생성형 디토크나이저 (Generative De-Tokenizer)

TA-Tok는 의미적 토큰만을 생성하며, 자체적으로 이미지를 생성하는 기능은 없다. 

이에 따라 본 논문에서는 TA-Tok의 양자화된 출력으로부터 고품질 이미지를 복원하기 위한 생성형 디토크나이저를 도입한다. 그림 4와 같이, 우리는 이미지 생성에서 지배적인 두 가지 패러다임에 대응하는 두 가지 디토크나이저 변형을 제안한다. 하나는 자기회귀 디토크나이저이며, 다른 하나는 확산 기반 디토크나이저이다.

자기회귀 디토크나이저
그림 4(a)와 같이, 이미지 디코딩을 자기회귀 생성 문제로 공식화한다. 자기회귀 디토크나이저의 파라미터를 θ_AR이라 하고, VQVAE 인코더로부터 얻어진 이미지 토큰 시퀀스를 y = [y₁, y₂, …, y_T]라고 하자. 이때 y는 노란색으로 표시된 이미지 토큰이며, TA-Tok로부터 얻어진 의미적 시각 토큰 z_q는 파란색으로 표시된다. 자기회귀 디토크나이저는 의미적 시각 토큰 z_q와 이전에 생성된 토큰 y_<t를 조건으로 하여 각 이미지 토큰 y_t를 예측한다. 학습 목적 함수는 다음과 같다.

  • VQVAE 인코더&디코더는 미리 학습된 것
  • 여기서 zq는 이미지에 대해 TA-Tok으로 추출한 토큰들
  • y는 이미지에 대해 VQVAE 인코더로 추출한 토큰들
  • 즉 zq는 semantic 정보처럼 앞에 들어가고, y에서 순차적으로 next token을 예측하도록 모델 학습
  • 즉 TA-Tok을 이미지화로 바꾸려면, 이렇게 학습된 모델에 zq을 넣어서 VQVAE 토큰들을 예측해서 이미지화로 하는 방식

확산 기반 디토크나이저
그림 4(b)는 두 번째 변형을 보여준다. 이 경우, 양자화된 토큰 z_q는 기존 확산 모델에서 텍스트 조건을 사용하는 방식과 유사하게, 교차 어텐션을 통해 확산 모델의 조건 입력으로 사용된다. θ_dif로 파라미터화된 확산 모델 F는 노이즈가 추가된 잠재 표현 y_t를 입력으로 받아, 원래의 깨끗한 잠재 표현 y_0를 예측하도록 학습된다. 학습 목적 함수는 다음과 같이 정의된다.

실제 구현에서는 사전학습된 확산 모델의 대부분의 파라미터를 재사용하고, 기존의 텍스트 조건을 TA-Tok에서 생성된 시각 토큰으로 대체함으로써, 최소한의 추가 학습만으로도 고충실도의 이미지 생성을 가능하게 한다.

논의
자기회귀 디토크나이저와 확산 기반 디토크나이저는 서로 보완적인 장점을 가진다. 자기회귀 디토크나이저는 이산 조건인 z_q와 자연스럽게 정합되며, 완전히 자기회귀적인 모델링 프레임워크를 유지할 수 있다는 장점이 있다. 또한 순차적 디코딩 구조로 인해 추론 속도가 빠르다. 반면, 확산 기반 디토크나이저는 강력한 사전학습 이미지 생성 모델을 활용할 수 있어, z_q와 같은 새로운 조건에 빠르게 적응할 수 있다. 추론 시 계산 비용은 더 크지만, 상대적으로 적은 학습 데이터로도 우수한 성능을 보이며, 복잡한 장면이나 높은 시각적 충실도가 요구되는 과제에서 특히 효과적이다.

3.3 통합 멀티모달 모델링 (Unified Multimodal Modeling)

TA-Tok와 생성형 디토크나이저를 기반으로, 우리는 모달리티별 특수 설계 없이 단순한 자기회귀 목적 함수로 학습되는 통합 멀티모달 대규모 언어 모델 Tar(Text-aligned representation)를 제안한다. 전체 아키텍처는 그림 2에 제시되어 있다.

시각 임베딩 초기화
텍스트와 이미지를 동일한 어휘 공간에서 이산 토큰으로 표현하기 위해, 우리는 LLM의 텍스트 임베딩 행렬 E ∈ R^{M×D}를 시각 토큰 집합 C ∈ R^{K×D}로 확장한다. 여기서 무작위 초기화를 사용하는 대신, Text-Aligned Tokenizer에서 학습된 코드북 C = E W (W ∈ R^{D×D})를 시각 임베딩으로 사용한다. C와 E는 동일한 차원을 가지므로, 별도의 정렬 단계 없이 다음과 같이 하나의 임베딩 행렬로 결합할 수 있다.

{E, C} = {E, EW}

이러한 통합 임베딩은 추가적인 커넥터나 디코딩 헤드 없이도, LLM이 텍스트와 이미지를 동일한 방식으로 처리하고 생성할 수 있도록 한다.

학습
Tar는 텍스트 토큰과 시각 토큰이 혼합된 시퀀스에 대해 표준적인 크로스 엔트로피 손실을 사용하여 학습된다. 목표 시퀀스를 u = [u₁, u₂, …, u_N]이라 하고, 각 u_i는 텍스트 토큰 또는 시각 토큰일 수 있다. 모델 파라미터를 θ라 할 때, 학습 손실은 다음과 같이 정의된다.

L_CE = − ∑{i=1}^{N} log p(u_i | u<i; θ)

이 방식은 텍스트와 시각 토큰 모두에 대해 동일한 next token prediction 패러다임을 적용함으로써, 멀티모달 모델링을 단순화한다.

즉 텍스트, 비전 토큰들을 concat하여 LLM 학습하듯이 next token prediction으로 학습시킨다.

추론
추론 시 Tar는 두 가지 방식으로 동작할 수 있다.

  • 첫째, 시각적 이해의 경우이다. TA-Tok로부터 얻어진 시각 토큰 z_q와 텍스트 프롬프트를 LLM에 입력으로 제공하면, 모델은 이미지 캡셔닝이나 시각 질의응답과 같은 태스크를 위해 텍스트 토큰을 생성한다.
  • 둘째, 시각적 생성의 경우이다. 텍스트 프롬프트를 입력으로 제공하면, Tar는 자기회귀적으로 시각 토큰 시퀀스를 생성하며, 이 시퀀스는 이후 생성형 디토크나이저를 통해 최종 이미지로 디코딩된다.

3.4 학습 레시피 (Training Recipe)

데이터 구성
학습 데이터는 이미지, 텍스트, 그리고 멀티모달 데이터셋으로 구성된다. 이미지-텍스트 및 텍스트 전용 태스크를 위한 공개 데이터셋은 이미 충분히 확보되어 있으므로, 본 논문에서는 이미지 생성에 적합한 고품질 데이터 구축에 초점을 맞춘다. 데이터 구축 파이프라인은 다음과 같다.

(1) 이미지 캡셔닝

  • 일반 이미지 데이터셋에 대해 Qwen2.5-VL을 사용하여 풍부하고 세밀한 캡션을 생성한다.

(2) 합성 이미지 생성

  • 실제 사용자 프롬프트와 (1)단계에서 생성된 이미지 캡션을 기반으로 FLUX를 사용해 고품질 이미지를 합성한다. 이를 통해 프롬프트와 잘 정렬된 다양한 콘텐츠를 생성할 수 있다.

이 과정을 통해 총 2,300만 개의 고품질 텍스트-이미지 쌍을 학습 데이터로 구축한다.

토크나이저 및 디토크나이저 학습
TA-Tok는 시각적 이해와 시각적 생성 능력 간의 균형을 맞추기 위해, LAION 데이터셋에서 수집한 1억 장의 원본 이미지와 1억 장의 미적 필터링 이미지를 사용해 학습된다.

자기회귀 디토크나이저의 경우, 사전학습된 모델이 존재하지 않으므로 256px 해상도에서 처음부터 학습한 뒤, LAION의 미적 이미지 5천만 장과 합성 이미지 2,300만 장을 사용해 512px 및 1024px 해상도로 점진적으로 미세조정한다.

확산 기반 디토크나이저는 사전학습된 SANA-0.6B 모델로부터 초기화되며, 512px 해상도에서 2,300만 장의 합성 이미지로 미세조정된다.

통합 멀티모달 LLM 사전학습
LLM은 이미지-텍스트(I→T), 텍스트-이미지(T→I), 텍스트 전용(T→T) 태스크를 혼합한 데이터로 사전학습된다. 시각적 이해와 시각적 생성 간의 간극을 줄이기 위해, 본 논문에서는 두 가지 추가 태스크를 도입한다.

(1) 이미지-이미지(I→I)
동일한 텍스트 프롬프트로부터 서로 다른 시드를 사용해 두 개의 이미지를 생성한다. 이 태스크는 모델이 입력 이미지를 이해한 뒤, 동일한 의미를 유지하는 새로운 이미지를 생성하도록 유도한다.

(2) 텍스트-이미지-이미지(TI→I)
Qwen을 사용해 하나의 프롬프트를 텍스트 부분과 이미지 플레이스홀더를 포함한 부분으로 분해한다. 예를 들어 “A dog running on the grass”라는 프롬프트는 “A dog running on <image>”와 “the grass”로 분리된다. 목표는 입력 이미지와 텍스트를 동시에 조건으로 사용해 새로운 이미지를 생성하는 것이다.

이러한 태스크들은 멀티모달 간 결합을 강화하며, 실험적으로 학습 수렴을 가속하고 시각적 이해와 생성 간의 정렬을 개선하는 효과를 보였다.

지도 학습 기반 멀티모달 미세조정
시각적 이해를 위해 LLaVA-v1.5 및 LLaVA-Next의 공개 instruction tuning 데이터셋을 사용한다. 시각적 생성을 위해서는 사전학습 데이터 중 CLIP 점수가 0.25 이상인 고품질 샘플을 필터링해 사용한다. 또한 고급 이미지 생성 모델을 활용해 소량의 인간 선호 기반 데이터와 태스크 정렬 예제를 추가로 수집한다. 학습 데이터에 대한 보다 자세한 내용은 부록 D절에 제시되어 있다.

4 실험 (Experiments)

4.1 실험 설정 (Experiment Details)

TA-Tok의 경우, 시각 인코더로 siglip2-so400m-patch14-384를 사용하고, 디코더로는 세 개의 ViT 블록으로 구성된 ViT를 사용한다. TA 코드북에는 Qwen2.5의 토큰 임베딩 중 65,536개를 선택하여 사용한다. 입력 해상도 384×384의 이미지는 스케일 {1, 2, 3}에 따라 각각 {729, 169, 81}개의 토큰으로 인코딩된다.

자기회귀 디토크나이저(AR-DTok)의 경우, LLaMA 아키텍처를 기반으로 한 Llamagen 구현을 사용한다. 해당 자기회귀 모델은 처음부터 학습된다. 이미지 디코딩을 위한 이산 VAE는 Llamagen에서 사전학습된 모델을 사용한다. 확산 기반 디토크나이저(Dif-DTok)의 경우, 사전학습된 SANA-0.6B 모델을 사용하며, 교차 어텐션과 조건 임베딩 계층만을 미세조정한다.

통합 멀티모달 LLM의 백본으로는 Qwen2.5-Instruct를 사용한다. LLM은 사전학습 단계와 미세조정 단계 모두에서 전체 파라미터를 학습한다. 학습 과정에서는 스케일 {1, 2, 3} 중 하나를 무작위로 선택하여 사용하며, 추론 시에는 별도의 지정이 없는 한 스케일 1을 기본값으로 사용한다. 보다 자세한 구현 사항은 부록 E절에 제시되어 있다.

4.2 주요 결과 (Main Results)

시각적 이해

표 1에 제시된 바와 같이, Tar 모델은 다양한 시각적 이해 벤치마크 전반에서 강력한 성능을 보인다. 1.5B 규모 모델은 이해 전용 모델들과 통합 모델들 중 다수를 능가하며, 1.5B/7B 규모에서 경쟁력 있는 성능을 달성한다. 7B 모델은 연속 시각 토큰을 사용하는 최첨단 모델인 Janus-Pro-7B와 동등한 수준의 성능을 보인다. 이러한 결과는 완전히 이산적인 토큰을 사용하는 통합 모델링 프레임워크가, 강력한 텍스트 정렬 표현과 결합될 경우, 시각적 이해에서 연속 토큰 기반의 특화 모델과 동등하거나 이를 능가할 수 있음을 보여준다.

시각적 생성

표 2에서 Tar는 GenEval과 DPG Bench 모두에서 우수한 성능을 달성한다. GenEval에서는 전체 점수 기준으로 0.76/0.84를 기록하여 모든 통합 모델을 상회한다. DPG Bench에서는 Tar-1.5B가 82.96점을 기록하여 Janus-Pro-1B를 능가하며, Janus-Pro-7B에 근접한 성능을 보인다. Tar의 멀티모달 추론 능력을 최대한 활용하기 위해 Self Reflect 전략을 추가로 제안한다. 이 전략은 모델이 자체적인 시각적 이해 능력을 사용해 이미지와 프롬프트의 정렬 정도를 평가하도록 하며, 이를 통해 생성 성능이 추가로 향상된다. 시각적 생성 결과의 예시는 그림 1과 부록의 그림 8에 제시되어 있다.

4.3 다른 시각 표현들과의 비교 (Comparisons with Other Visual Representations)

이 절에서는 통합된 시각적 이해 및 시각적 생성을 위한 시각 표현으로서, 본 논문에서 제안한 텍스트 정렬 표현(TA-Tok)을 최근 방법들과 비교한다. 비교 대상은 다음과 같은 시각 표현 방식들이다.

(a) VQVAE

  • 픽셀 수준의 완전한 이산 표현 방식이다. 우리는 Llamagen에서 제공하는 사전학습된 VQVAE를 사용하여 이미지를 이산 토큰으로 변환하고, 이를 멀티모달 모델링에 활용한다.

(b) Janus

  • 시각적 이해를 위해 SigLIP2를, 시각적 생성을 위해 VQVAE를 각각 사용하는 분리된 인코더 구조를 따른다. 본 논문에서는 원래의 Janus 구현과는 다르지만, 동일한 설계 철학을 따르는 구현을 사용한다.

(c) Hybrid

  • 픽셀 표현과 의미 표현을 동시에 유지하는 하이브리드 모델이다. UniTok의 방식을 따라, 1억 개의 이미지-텍스트 쌍을 사용하여 픽셀 재구성 손실과 이미지-텍스트 정렬 손실을 함께 적용해 토크나이저를 학습한다.

이러한 시각 표현들을 사용해 MLLM을 학습할 때는 공정한 비교를 위해 동일한 학습 설정을 사용한다. 구체적으로는 텍스트-이미지(T2I) 데이터 1천만 개, 이미지-텍스트(I2T) 데이터 1천만 개, 그리고 텍스트 전용 데이터 500만 개를 샘플링하여 모든 모델을 동일한 구성으로 학습한다. 이후 시각적 이해 태스크와 시각적 생성 태스크에 대해 성능을 평가한다.

다른 토크나이저랑 비교해보는 것

시각적 생성에서의 비교
그림 5의 왼쪽에 나타난 결과에서 보듯이, TA-Tok은 시각적 생성에서 가장 우수한 성능을 보인다. 모든 데이터 규모에 걸쳐 최고 성능을 달성하며, VQVAE, Janus, TA-Tok은 유사한 수렴 곡선을 보인다. 반면 Hybrid 방식은 초기 성능은 높지만, 데이터 규모가 증가함에 따라 성능이 효과적으로 향상되지 않는다. 특히 Janus는 VQVAE보다 낮은 성능을 보이는데, 이는 시각적 이해와 시각적 생성 간의 표현 충돌 때문인 것으로 해석된다. 또한 TA-Tok은 고충실도의 이미지를 생성하는 반면, 픽셀 표현을 사용하는 모델들은 이미지 디테일 복원에 어려움을 겪는 경우가 많아, 의미적 표현이 LLM 기반 이미지 생성에 더 적합함을 시사한다.

시각적 이해에서의 비교
그림 5의 오른쪽은 시각적 이해 성능을 비교한 결과로, 여러 벤치마크의 조화 평균 점수를 사용한다. Janus는 연속적인 의미 인코더를 사용하기 때문에 약간 더 높은 성능을 보이지만, TA-Tok 역시 1천만 개 데이터 기준에서 93점 대로 매우 근접한 성능을 달성한다. Hybrid 방식은 픽셀 표현에 치우치는 경향으로 인해 VQVAE와 유사한 성능에 머물며, 기대만큼의 향상을 보이지 못한다. 종합적으로 TA-Tok은 시각적 이해와 시각적 생성 양쪽 모두에서 가장 균형 잡힌 성능을 보이며, 두 영역 모두에서 다른 방법들을 능가한다.

4.4 절제 실험 (Ablation Experiments)

이 절에서는 제안한 핵심 설계 요소들의 효과를 검증하기 위해 절제 실험을 수행한다. 별도 언급이 없는 한, 4.3절에서 사용한 동일한 학습 데이터 부분집합을 사용한다.

텍스트 정렬 코드북을 이용한 MLLM 임베딩 초기화
TA-Tok의 장점 중 하나는, 학습된 코드북을 이미지 임베딩 초기화에 직접 사용할 수 있다는 점이다(3.3절 참조). 표 3에서 보듯이, LLM 임베딩을 TA 코드북으로 초기화하면 무작위 초기화에 비해 시각적 이해와 시각적 생성 모두에서 더 나은 성능을 보인다. 기존 연구들에서 사용된 또 다른 일반적 접근인 사전 정렬(pre-align)은 추가적인 정렬 단계를 요구한다. 5천만 개의 추가 데이터로 사전 정렬을 수행하면 생성 성능은 TA-Tok과 유사해질 수 있으나, 이는 데이터 효율성 측면에서 TA-Tok의 장점을 더욱 부각시킨다.

생성형 디토크나이저의 비교
표 4는 다양한 디토크나이저 설정에 따른 성능을 비교한 결과를 보여준다. AR 디토크나이저는 해상도와 모델 크기에 걸쳐 안정적인 성능을 보이며, 512px 해상도가 품질과 효율 사이에서 가장 좋은 균형을 제공한다. 대형 모델(775M)은 약간 더 나은 성능을 보이지만, 소형 모델 역시 경쟁력 있는 결과를 유지한다. 확산 기반 디토크나이저는 512px 해상도에서 유사한 점수를 달성하며, 사전학습된 확산 백본 덕분에 고충실도의 이미지를 빠르게 생성할 수 있다. 다만, 그림 6의 오른쪽에 나타난 바와 같이, 점수가 비슷하더라도 디토크나이저 유형에 따라 생성 이미지의 시각적 특성에는 차이가 존재한다.

스케일 적응적 풀링의 효과
표 5는 SAP가 다중 그라뉼러리 시각 태스크에 미치는 영향을 보여준다. 시각적 이해 태스크에서는 더 많은 토큰이 이미지 디테일을 포착하는 데 유리함을 확인할 수 있다. 반면, 이미지 생성 성능은 토큰 수 증가에 따라 큰 향상을 보이지 않는다. 오히려 너무 긴 시각 토큰 시퀀스는 LLM 학습을 어렵게 만들 수 있으며, 1천만 개 데이터 규모에서는 81개 토큰이 가장 적합한 것으로 나타났다. 데이터 규모가 증가함에 따라 긴 시퀀스가 생성 성능을 다소 개선할 수 있지만, 169개 토큰만으로도 기존 텍스트-이미지 생성 모델들과 유사한 성능을 달성할 수 있다.

공유 표현을 통한 이해와 생성의 상호 이득
표 6은 시각적 이해와 시각적 생성을 분리 학습했을 때와 공동 학습했을 때의 성능 변화를 비교한다. Janus 방식의 표현에서는 공동 학습이 각 태스크 성능에 거의 영향을 미치지 않는다. 반면, VQVAE 및 본 논문의 텍스트 정렬 표현과 같이 공유된 시각 표현을 사용하는 경우에는 공동 학습을 통해 생성 성능이 각각 약 8.1%와 5.3% 향상된다. 이는 공유 표현이 시각적 이해와 생성 간의 상호 보완적 학습을 가능하게 함을 보여준다.

고급 사전학습 태스크의 효과

오른쪽 표에서는 제안한 이미지-이미지(I→I) 및 텍스트-이미지-이미지(TI→I) 태스크가 생성 성능을 추가로 개선함을 보여준다. 이들 태스크를 포함함으로써 시각적 이해와 시각적 생성 간의 간극이 더욱 줄어들며, 데이터 비율에 따라 생성 성능이 점진적으로 향상되는 경향을 확인할 수 있다. 표에 제시된 비율은 텍스트-이미지(T2I), 이미지-이미지(I2I), 텍스트-이미지-이미지(TI→I) 데이터의 비율을 의미한다.

5 결론 (Conclusion)

본 논문에서는 공유된 이산적이고 텍스트에 정렬된 표현을 사용하여 시각적 이해와 시각적 생성을 연결하는 통합 모델 Tar를 제안하였다. TA-Tok를 통해 이미지 토큰을 LLM 임베딩과 정렬시키고, 스케일 적응적 토큰화와 생성형 디토크나이저를 결합함으로써, Tar는 모달리티별 특수 설계 없이도 두 태스크 모두에서 강력한 성능을 달성한다. 실험 결과는 완전히 이산적인 의미 표현이 효율적이고 효과적인 멀티모달 학습을 가능하게 함을 보여주며, 비전과 언어의 진정한 통합을 향한 중요한 진전을 제시한다.

Reference

댓글