NL-325, Emu3: Next-Token Prediction is All You Need, Preprint 2024

◼ Comment

  • 내가 생각했던 가장 쉽게 시작할 수 있는 방법인 Next token prediction 만으로 멀티모달 만드는 것이다.
    • 여기서는, 비전 이해, 비전 생성까지 커버
  • 아키텍쳐
    • 말 그대로 모든 입력을 토큰화해서 next token prediction만 한다
    • 텍스트는 QwenTokenizer 쓰
    • 비전 토크나이저는 SBERT-MoVQGAN을 가져와서 사용한다.
  • 데이터
    • text 데이터는 Aquila를 사용
    • 이미지 데이터는 오픈소스, AI 생성 데이터, 내부 데이터 등으로 구축
    • 비디오 데이터는 시드가 공개 안된거 맞나?
    • 어쨌든 다양하게 전처리하고 필터링하고 하는 내용이 있음
  • pretraining
    • 비전 생성
      • [BOS] {caption text} [SOV] {meta text} [SOT] {vision tokens} [EOV] [EOS]
      • 여기서 [BOS]와 [EOS]는 텍스트 토크나이저의 기본 특수 토큰이며,
      • [SOV]는 비전 입력의 시작을,
      • [SOT]는 비전 토큰의 시작을,
      • [EOV]는 비전 입력의 종료를 나타낸다.
    • 비전 이해
      • 위에서 caption text을 [EOV] 토큰 뒤로 이동시켜서 데이터만 바꾸는 식
  • post-training
    • 비전 생성
      • SFT을 하는데, 고품질 데이터를 잘 필터링해서 학습함
      • 인스터럭션 데이터는 아니고, 텍스트에 맞는 이미지 생성 (“A cat sitting on a chair” <-> 이미지)
      • 또한 SFT후 같은 프롬프트에 대해 여러 결과를 생성하여, 사람이 태깅하여 preference 데이터를 모아 DPO 학습까지 함
    • 비전 이해
      • Image-to-Text 학습
        • [vision tokens] → [text tokens] 식으로 학습됨 (captioning, OCR, 설명 생성, free-form 묘사)
      • Instruction Tuning
        • [vision tokens + question/instruction text] → [answer text] 식으로 학습됨 (명시적 지시(prompt–response) 구조, QA 데이터, reasoning 요구)
      • 위의 2가지 스테이지로 학습을 순차적으로 진행
  • 결론은 next token prediction만으로 성능이 좋다고 주장
    • 비전 생성쪽에서 diffusion 없어도 충분히 괜찮다. (자동, 사람 평가 모두)
    • 비전 이해쪽에서는 굳이 encoder을 이용한 continuous embedding을 안써도 괜찮다고 주장

Abstract

다음 토큰 예측(next-token prediction)은 인공 일반 지능(AGI)으로 나아가는 유망한 경로로 여겨져 왔으나, 멀티모달 태스크에서는 탁월한 성과를 내지 못해 왔다. 이 영역은 여전히 확산 모델(예: Stable Diffusion)이나 조합적 접근법(예: CLIP과 LLM의 결합)이 주도하고 있다. 본 논문에서는 오직 다음 토큰 예측만으로 학습된 새로운 최첨단 멀티모달 모델군인 Emu3를 소개한다. 이미지, 텍스트, 비디오를 이산적인 토큰 공간으로 토크나이즈한 뒤, 멀티모달 시퀀스의 혼합 데이터로 단일 Transformer를 처음부터 학습한다.

Emu3는 생성(generation)과 인식(perception) 태스크 전반에서 여러 기존의 태스크 특화 모델들을 능가하며, SDXL과 LLaVA-1.6과 같은 대표적인 모델들보다도 우수한 성능을 보인다. 이는 확산 모델이나 조합적 아키텍처에 의존하지 않고 달성한 결과이다. 또한 Emu3는 비디오 시퀀스에서 다음 토큰을 예측하는 방식으로 고충실도(high-fidelity)의 비디오 생성도 가능하다. 우리는 복잡한 멀티모달 모델 설계를 단일한 초점, 즉 ‘토큰’으로 수렴시킴으로써 학습과 추론 양측 모두에서 확장성의 잠재력을 크게 끌어올린다.

실험 결과는 다음 토큰 예측이 언어를 넘어서는 범용 멀티모달 지능을 구축하기 위한 유망한 경로임을 입증한다. 우리는 이 방향의 후속 연구를 지원하기 위해 핵심 기법과 모델을 오픈소스로 공개한다.

1. 서론 (Introduction)

다음 토큰 예측(next-token prediction)은 언어 모델 분야에 혁신을 가져왔으며 [86, 69, 9], ChatGPT [64]와 같은 돌파구를 가능하게 했고, 인공 일반 지능(AGI)의 초기 징후에 대한 논의까지 촉발시켰다 [10]. 그러나 이러한 패러다임이 멀티모달 모델에도 동일하게 적용될 수 있는지는 여전히 명확하지 않으며, 다양한 태스크 전반에서 경쟁력 있는 성능을 달성할 수 있다는 실증적 근거는 제한적이다.

멀티모달 모델의 영역에서, 비전 생성(vision generation)은 주로 복잡한 확산 모델(예: Stable Diffusion [73])이 지배해 왔고, 비전–언어 인식(vision-language perception)은 CLIP [67]과 같은 비전 인코더를 LLM과 결합한 조합적 접근법(예: LLaVA [57])이 주도해 왔다. Emu [82]나 Chameleon [83]과 같이 생성과 인식을 통합하려는 초기 시도들도 있었으나, 이들 방법은 LLM과 확산 모델을 연결하는 구조를 사용하거나, 생성과 인식 각각에 특화된 모델들의 성능을 따라잡지 못했다.

본 연구에서는 확산 모델이나 조합적 접근법에 전혀 의존하지 않고, 오직 다음 토큰 예측만을 기반으로 하는 새로운 최첨단 멀티모달 모델군 Emu3를 제시한다. 우리는 이미지, 텍스트, 비디오를 모두 이산적인 토큰 공간으로 변환한 뒤, 멀티모달 시퀀스가 혼합된 데이터로 단일 Transformer를 처음부터 공동 학습한다.

Emu3는 생성과 인식 태스크 전반에서 기존의 잘 확립된 태스크 특화 모델들과 비교해 최첨단 성능을 달성한다. 구체적으로, Emu3는 인간 평가와 MSCOCO-30K [15], GenEval [26], T2I-CompBench [32], DPG-Bench [31]와 같은 공개 텍스트-투-이미지 벤치마크에서 대표적인 Stable Diffusion 모델인 SDXL [66]을 능가한다. 비전–언어 이해 측면에서도 Emu3는 SEED-Bench [45], RealWorldQA [91], OCRBench [59] 등 일련의 공개 벤치마크에서 널리 사용되는 비전–언어 모델인 LLaVA-1.6 [56]과 경쟁력 있는 성능을 보인다.

Emu3는 비디오 생성 또한 수행할 수 있다. 노이즈로부터 비디오를 생성하기 위해 비디오 확산 모델을 사용하는 Sora [8]와 달리, Emu3는 비디오 시퀀스에서 다음 토큰을 인과적으로 예측함으로써 비디오를 생성한다. 이 모델은 물리적 세계에서의 환경, 사람, 동물의 일부 측면을 시뮬레이션할 수 있다. 비디오가 주어졌을 때, Emu3는 해당 비디오를 확장하여 이후에 일어날 일을 예측할 수 있으며, 사용자의 프롬프트에 따라 텍스트 설명을 충실히 따르는 고충실도의 비디오를 생성할 수 있다. Emu3는 텍스트-투-비디오 생성 태스크에서 VBench [33] 벤치마크 기준으로 다른 비디오 확산 모델들과 비교해도 경쟁력 있는 성능을 보인다.

우리는 이 방향의 향후 연구를 촉진하기 위해 핵심 기법과 모델을 오픈소스로 공개한다. 특히, 이전까지 공개적으로 제공되지 않았던 **견고한 비전 토크나이저(vision tokenizer)**를 함께 제공하여, 비디오와 이미지를 이산적인 토큰으로 변환할 수 있도록 한다. 

또한 우리는 다음 토큰 예측(next-token prediction) 프레임워크의 범용성을 입증하며, 직접 선호 최적화(Direct Preference Optimization, DPO) [68]가 자기회귀적 비전 생성(autoregressive vision generation)에 자연스럽게 적용될 수 있음을 보여준다. 이를 통해 모델을 인간의 선호에 정렬할 수 있다.

본 연구 결과는 다음 토큰 예측이 언어 모델을 넘어 멀티모달 모델 전반에 적용 가능한 강력한 패러다임이 될 수 있음을 강하게 뒷받침하며, 다양한 멀티모달 태스크에서 최첨단 성능을 달성할 수 있음을 보여준다. 복잡한 모델 설계를 단순화하고 오직 토큰에만 집중함으로써, 학습과 추론 양 측면에서 모두 큰 확장 잠재력을 개방한다. 우리는 다음 토큰 예측이 범용 멀티모달 지능을 구축하기 위한 유망한 경로라고 믿는다.

2. 접근 방법 (Approach)

2.1 데이터 (Data)

Emu3는 언어, 이미지, 비디오 데이터가 혼합된 대규모 데이터셋을 사용하여 처음부터(scratch) 학습된다.

언어 데이터(Language Data).
우리는 Aquila [101]에서 사용한 것과 동일한 언어 데이터를 사용한다. 해당 데이터는 중국어와 영어를 모두 포함하는 고품질 말뭉치로 구성되어 있다.

이미지 데이터(Image Data).
우리는 오픈소스 웹 데이터, AI 생성 데이터, 그리고 고품질의 내부 데이터로 구성된 대규모 이미지–텍스트 데이터셋을 구축한다. 데이터 필터링 과정은 다음의 주요 단계로 이루어진다.

  1. 해상도 필터를 적용하여 512 × 512 픽셀 미만의 이미지는 제거한다.

  2. LAION-AI 미적 점수 예측기(aesthetic predictor)를 사용하여 각 이미지의 미적 품질을 평가하고, 점수가 5.5 미만인 이미지는 제외함으로써 전체적인 미적 품질을 보장한다.

  3. 미적 필터를 통과하지 못한 이미지들에 대해서는 텍스트 검출과 색상 필터링을 적용하여, 단색 이미지나 텍스트가 과도하게 포함된 이미지를 제거함으로써 오픈 월드 이미지에 대한 필터링 재현율을 향상시킨다.

  4. 추가적으로 이미지 이해(image understanding)를 위한 보조 데이터를 준비한다. DenseFusion [50]의 데이터 처리 파이프라인을 따라, 차트, 표, 텍스트가 풍부한 콘텐츠 등을 포함한 다양한 범주의 대표 이미지 수백만 장을 다양한 오픈소스 웹 데이터로부터 추출한다.

필터링된 데이터셋에 주석을 달기 위해, 우리는 Emu2 [81]를 기반으로 한 이미지 캡셔닝 모델을 개발하여 **밀집 합성 캡션(dense synthetic captions)**을 생성한다. 또한 GPT-4V [64]를 정교한 프롬프트와 함께 활용하여 약 100만 개의 이미지–캡션 쌍을 생성한다. 이 주석 데이터셋을 사용해 Emu2-17B [81] 모델을 파인튜닝하여 최종 이미지 캡셔너로 사용한다. 대규모 라벨링을 가속하기 위해 오픈소스 vLLM 라이브러리 [40]를 활용한다.

비디오 데이터(Video Data).
우리는 풍경, 동물, 식물, 게임, 행동 등 다양한 범주를 포괄하는 비디오 데이터를 수집한다. 이 비디오들은 정교한 전처리 파이프라인 [6]을 통해 다음의 네 단계로 처리된다.

  1. PySceneDetect를 사용하여 비디오를 장면 단위로 분할하며, ContentDetector와 ThresholdDetector를 함께 활용해 장면 변화 및 페이드 인/아웃 이벤트를 감지한다.

  2. PaddleOCR을 이용해 텍스트 검출을 수행하고, 텍스트가 과도하게 포함된 클립은 제거한다. 계산 비용 절감을 위해 초당 2프레임(FPS)으로 샘플링하고, 짧은 변(shorter edge)을 256 픽셀로 리사이즈한다.

  3. 광학 흐름(optical flow)을 계산하여 움직임이 거의 없거나 지나치게 큰 클립을 제거한다. 흐름 점수는 모든 픽셀의 평균 흐름 크기를 짧은 변 길이로 나눈 값으로 정의하며, 허용 범위를 벗어난 클립은 제외한다.

  4. 마지막으로 LAION-AI 미적 점수 예측기를 사용해 각 클립의 미적 품질을 평가한다. 세 개의 프레임을 샘플링하여 점수를 산출하고, 최저 점수가 5 미만인 클립은 제거한다.

필터링된 비디오 클립에 대해, 우리는 이미지 캡셔너를 기반으로 학습한 비디오 캡셔너를 사용해 캡션을 생성한다. 초기 학습 데이터는 GPT-4V [64]로 라벨링된다. 각 비디오 클립에서 8개의 프레임을 샘플링하고, 이 프레임들의 콘텐츠와 움직임을 모두 설명하도록 설계된 상세 프롬프트를 GPT-4V에 제공한다. 일부 라벨 데이터는 수작업으로 수정되며, 이후 이 데이터를 사용해 이미지 캡셔너를 파인튜닝하여 비디오 캡셔너를 구축한다. 대규모 적용을 위해 vLLM [40]을 사용해 캡셔닝을 가속한다. 길이가 20초 미만인 클립은 균등하게 샘플링한 12프레임으로 캡션을 생성하고, 20초를 초과하는 클립은 10–20초 길이의 하위 클립으로 분할하여 각각 독립적으로 캡션을 생성한다.

2.2 비전 토크나이저 (Vision Tokenizer)

우리는 SBER-MoVQGAN [5]을 기반으로 비전 토크나이저를 학습한다. 

이 토크나이저는

  • 4 × 512 × 512 해상도의 비디오 클립 또는

  • 512 × 512 해상도의 이미지를 코드북 크기 32,768을 갖는 이산 토큰 4,096개로 인코딩할 수 있다.

이 토크나이저는 시간 차원에서는 4배, 공간 차원에서는 8×8 배 압축을 달성하며, 이는 임의의 시간적·공간적 해상도에 대해 적용 가능하다. MoVQGAN 아키텍처 [106]를 기반으로 하여, 비디오 토크나이제이션 성능을 향상시키기 위해 **인코더와 디코더 모듈 모두에 3D 컨볼루션 커널을 사용하는 두 개의 시간적 잔차 레이어(temporal residual layers)**를 추가한다.

토크나이저는 LAION-High-Resolution 이미지 데이터셋과 InternVid 비디오 데이터셋을 사용하여 엔드투엔드 방식으로 학습된다. 학습에는 L2 손실, LPIPS 지각 손실(perceptual loss) [104], GAN 손실, 그리고 커밋먼트 손실(commitment loss) [23]을 결합한 목적 함수를 사용한다. 정성적 결과는 그림 3(Fig. 3)에 제시되어 있다.

우리는 Pexels에서 수집한 3,172개 비디오로 구성된 평가 데이터셋을 사용해 LPIPS(AlexNet feature 기반), PSNR, SSIM 지표를 보고하며, 그 결과는 표 2(Tab. 2)에 제시되어 있다. 

해당 비디오들은 종횡비를 유지한 채 5초 길이로 재구성되었다. 평가 시에는 원본 비디오와 재구성된 비디오를 짧은 변 기준으로 리사이즈 및 크롭한 뒤, 초당 12프레임(FPS)에서 8프레임을 균일 샘플링하여 사용하였다.

2.3 아키텍처 구성 (Architecture Configurations)

Emu3 모델 설정은 표 3(Tab. 3)에 요약되어 있다.

Emu3 모델은 Llama-2 [85]와 같은 기존의 대규모 언어 모델(LLM)의 아키텍처 프레임워크를 유지하며, 주요한 차이점은 이산적인 비전 토큰을 수용할 수 있도록 임베딩 레이어를 확장한 것이다. 

  • 정규화 방식으로는 RMSNorm [100]을 사용하고, 
  • 어텐션 메커니즘에는 GQA(Generalized Query Attention) [1]를 적용한다.
  • 활성화 함수로는 SwiGLU [76]를 사용하며, 
  • 위치 임베딩으로는 로터리 위치 임베딩(RoPE) [79]을 채택한다.

또한 qkv 프로젝션 레이어와 선형 프로젝션 레이어에서 바이어스 항은 제거하였다. 학습 안정성을 향상시키기 위해 드롭아웃 비율 0.1을 적용한다. 다국어 텍스트 토크나이제이션을 위해 QwenTokenizer [8]를 사용한다. 모델의 상세 구성은 표 3에 제시되어 있다.

2.4 사전 학습 (Pre-training)

데이터 준비(Data Preparation).
사전 학습 과정에서 우리는 먼저 멀티모달 데이터 포맷을 정의한다. 텍스트 인코더에 의존하는 확산 모델과 달리, Emu3는 이미지·비디오 생성을 위한 텍스트 조건 정보를 모델 내부에 자연스럽게 통합한다. 

우리는 이미지와 비디오의 종횡비를 유지한 채 면적이 약 512 × 512에 가깝도록 리스케일한 뒤, 비전 토크나이저를 사용해 비전 토큰을 생성한다. 

  • 논문 읽다보면, 비전 입력은 항상 리스케일링해서 넣는 식인듯
  • 데이터 시드는 웹 이미지/비디오 + 대규모 합성 캡션

이후 텍스트와 비전 데이터를 결합하기 위해 다섯 개의 특수 토큰을 도입하여, 문서(document)와 유사한 입력 형태를 구성한다. 최종 학습 데이터는 다음과 같은 구조를 가진다.

[BOS] {caption text} [SOV] {meta text} [SOT] {vision tokens} [EOV] [EOS]

여기서 [BOS]와 [EOS]는 텍스트 토크나이저의 기본 특수 토큰이며,
[SOV]는 비전 입력의 시작을,
[SOT]는 비전 토큰의 시작을,
[EOV]는 비전 입력의 종료를 나타낸다.

추가로, 비전 토큰 내부에는 줄 바꿈(line break)을 의미하는 [EOL]과 프레임 경계를 나타내는 [EOF] 토큰이 삽입된다. “meta text”에는 이미지의 경우 해상도 정보가, 비디오의 경우 해상도, 프레임률, 길이 정보가 일반 텍스트 형식으로 포함된다. 

또한 데이터의 일부에서는 “caption text”를 [EOV] 토큰 뒤로 이동시켜, 비전 이해(vision understanding) 태스크를 위한 학습 데이터를 구성한다.

  • 위의 예시는, 비전 생성 형식인데
  • 비전 이해를 위해서는 caption text을 뒤에 넣어서 vision understanding 형식으로 바꾼다

학습 목표(Training Objective).
Emu3에서는 모든 비전 신호가 이산 토큰으로 완전히 변환되므로, 표준 크로스 엔트로피 손실을 사용하는 다음 토큰 예측(next-token prediction) 태스크만으로 학습하면 된다. 

다만 비전 토큰이 학습을 과도하게 지배하는 것을 방지하기 위해, 비전 토큰에 대응되는 손실에는 0.5의 가중치를 적용한다.

  • 이거는 휴리스틱한 결과 아닐까 싶긴 함

학습 세부 사항(Training Details).
Emu3는 비디오 데이터를 처리하기 위해 사전 학습 단계에서 매우 긴 컨텍스트 길이를 사용한다. 이를 효율적으로 학습하기 위해 텐서 병렬화(TP), 컨텍스트 병렬화(CP), 데이터 병렬화(DP)를 결합하여 활용한다. 또한 계산 자원을 최대한 활용하기 위해 텍스트–이미지 데이터를 최대 컨텍스트 길이로 동시에 패킹하되, 하나의 이미지가 중간에 분절되지 않도록 보장한다.

사전 학습은 두 단계로 수행된다.

  • 첫 번째 단계에서는 비디오 데이터를 사용하지 않고, 텍스트와 이미지 데이터만으로 컨텍스트 길이 5,120에서 처음부터 학습을 시작한다.
  • 두 번째 단계에서는 비디오 데이터를 도입하고, 컨텍스트 길이를 131,072로 확장하여 학습을 진행한다.
  • 컨텍스트를 중간에 늘리는 방식

두 단계 모두에서 학습률은 5 × 10⁻⁵로 설정되며, 학습률을 점진적으로 0까지 감소시키는 코사인 어닐링(cosine annealing) 스케줄을 사용한다.

2.5 사후 학습 (Post-training)

2.5.1 비전 생성 (Vision Generation)

품질 파인튜닝(Quality Fine-Tuning).
사전 학습 이후, 우리는 생성 결과의 품질을 향상시키기 위해 비전 생성 태스크에 대한 사후 학습을 수행한다. 이를 위해 **고품질 데이터만을 사용한 품질 파인튜닝(QFT)**을 적용한다. 이 단계에서도 모델은 다음 토큰 예측(next-token prediction) 태스크로 계속 학습되지만, 감독 신호는 오직 비전 토큰에 대해서만 적용된다.

  • SFT을 여기서는 QFT라고 부름. (고품질로만 했다고 해서)
  • Loss는 비전 토큰에만 걸리는 식으로 비전생성을 학습

이미지 데이터의 경우, 다양한 고품질 데이터 소스를 선별하여 사용하며, HPSv2.1 [90], MPS [105], **LAION Aesthetics 점수 [43]**의 평균값을 기준으로 필터링한다. QFT 과정에서는 생성 품질 향상을 위해 학습 해상도를 512 픽셀에서 720 픽셀로 상향한다.
비디오 데이터의 경우에도 고품질 소스에서 샘플링하며, 해상도와 광학 흐름(optical flow)에 대해 보다 엄격한 필터를 적용하여 품질을 보장한다. 또한 학습 말미에는 학습률을 선형적으로 0까지 감소시키는 어닐링 전략을 사용한다.

  • 시드는 HPSv2.1 / MPS / LAION Aesthetic 상위 샘플
  • 좀 더 강하게 필터링했다고 함? 
  • 근데 여기서는 인스트럭션이 있는 형태인가? 아니라고함
  • 즉 비전 생성에서는 지시형으로 ~~ 생성해준다고 생성하는 식이라기 보다는, 주어진 텍스트에 맞는 이미지를 생성하는 식 (예. “A cat sitting on a chair”)

직접 선호 최적화(Direct Preference Optimization, DPO).
직접 선호 최적화(DPO) [68]는 모델을 인간의 선호에 더 잘 정렬시키기 위한 효과적인 방법이다. 우리는 자기회귀적 멀티모달 생성 태스크에 DPO 기법을 적용하여, 인간 선호 데이터를 활용해 모델 성능을 향상시킨다. 데이터 구성은 다음의 세 단계로 이루어진다.

  1. 사용자로부터 수집한 각 프롬프트 (p)에 대해, 품질 파인튜닝이 완료된 모델을 사용해 8–10개의 생성 결과를 추론하여 초기 데이터 풀 (x)을 구성한다.

  2. 각 프롬프트에 대해 **3명의 평가자(voter)**가 생성 결과를 평가하며, 평가 기준은 **시각적 매력(visual appeal)**과 **프롬프트 정합성(prompt alignment)**이다.

  3. 평가 점수를 바탕으로 가장 높은 점수를 받은 샘플을 선호(chosen), 가장 낮은 점수를 받은 샘플을 **비선호(rejected)**로 선택하여, ($(p_i, x^{\text{chosen}}_i, x^{\text{rejected}}_i)$) 형태의 트리플릿 데이터를 구성하고 이를 학습에 사용한다.

특히, 데이터 구성 과정에서 사용된 토큰 시퀀스를 그대로 저장하여 이후 학습 단계에서 직접 사용한다. 이는 재토크나이제이션으로 인해 발생할 수 있는 재구성 오차를 제거하기 위함이다. Emu3-DPO는 DPO 손실과 다음 토큰 예측을 위한 크로스 엔트로피 손실을 함께 최소화하도록 학습되어, QFT 모델을 추가로 파인튜닝한다.

2.5.2 비전–언어 이해 (Vision-Language Understanding)

사전 학습이 완료된 모델은 비전–언어 이해 능력을 향상시키기 위해 **두 단계의 사후 학습(post-training)**을 거친다. 해당 과정은

  1. 이미지→텍스트(image-to-text) 학습,

  2. 지시 튜닝(instruction tuning) 으로 구성된다.

1단계: 이미지→텍스트 학습(Image-to-Text Training).
이 단계에서는 이미지 이해 데이터를 순수 언어 데이터와 함께 학습에 통합한다. 이때 텍스트만 예측하는 경우에는 비전 토큰에 해당하는 손실을 무시한다. 각 이미지는 원본 종횡비를 유지한 채 약 512 × 512 해상도로 리사이즈된다.

[vision tokens] → [text tokens] 식으로 학습됨 (captioning, OCR, 설명 생성, free-form 묘사)

2단계: 지시 튜닝(Instruction Tuning).
두 번째 단계에서는 [44]에서 제공된 질문–응답(question–answer) 쌍 데이터의 일부를 샘플링하여, 모델의 **비전 지시 수행 능력(vision instruction following)**을 강화한다. 이 단계에서 이미지는 다음과 같이 처리된다.

  • 해상도가 512 × 512 미만이거나 1024 × 1024 초과하는 이미지는 각각 하한 또는 상한 해상도로 리사이즈하되, 종횡비는 유지한다.

  • 그 외의 이미지는 원본 해상도를 그대로 유지한다.

[vision tokens + question/instruction text] → [answer text] 식으로 학습됨 (명시적 지시(prompt–response) 구조, QA 데이터, reasoning 요구)

3 Main Results

3.1 Image Generation

핵심 질문

  • diffusion 없이

  • CLIP 없이

  • pretrained LLM 없이
    Emu3가 SOTA 이미지 생성 성능을 달성하는가?

이를 자동 평가 + 인간 평가 + 정성적 결과로 나누어 검증합니다.

3.1.1 Automated Metric Evaluation (자동 평가)

목적

정량 지표 기준으로 diffusion / AR / hybrid 모델들과의 비교

사용한 벤치마크

  • MSCOCO-30K

  • GenEval

  • T2I-CompBench

  • DPG-Bench

👉 각 벤치마크는 서로 다른 능력을 평가:

  • MSCOCO: 전반적 이미지–텍스트 정합

  • GenEval / T2I-CompBench: 조합적 이해 (color, shape, counting 등)

  • DPG-Bench: 긴 프롬프트 이해 능력

📊 Table 4 (가장 중요)

텍스트→이미지 성능 종합 비교표

비교 대상:

  • Diffusion-based: SDv1.5, SDv2.1, SDXL, DALL·E 3

  • AR-based: Chameleon, LlamaGen

  • Hybrid: Show-o, TransFusion

  • Emu3 / Emu3-DPO

핵심 결과

  1. Emu3는 순수 autoregressive 모델임에도

    • SDXL을 능가

    • DALL·E 3에 근접

  2. 특히:

    • GenEval Overall

    • T2I-CompBench (Color / Shape / Texture)
      에서 매우 강함

  3. CLIP이나 pretrained LLM을 전혀 사용하지 않았음에도 diffusion 계열과 동급 혹은 상회

📌 저자들이 강조하는 포인트:

“Despite not utilizing any pre-trained language models”

Prompt Rewriting 관련 설명 (중요)

  • GenEval / T2I-CompBench는 프롬프트가 너무 짧음

  • Emu3는 dense caption 기반 학습이 많아서 불리

  • 따라서:

    • GPT-4V를 rewriter로 사용한 결과도 함께 보고

    • Table 4의 † 표시가 rewriter 사용 결과

👉 Rewriter 사용 시 Emu3 성능이 크게 상승

📊 Table 7 & 8 (하위 분석)

  • Table 7: GenEval + T2I-CompBench 세부 항목

  • Table 8: DPG-Bench (긴 프롬프트)

핵심 해석

  • Emu3는:

    • 단일 객체보다는 조합적 속성 / 관계 / 긴 설명 이해에서 강점

  • DPG-Bench에서:

    • SDXL, PixArt-alpha 능가

    • DALL·E 3과 유사 수준

3.1.2 Human Evaluation (인간 평가)

목적

자동 지표의 한계를 보완 “사람이 보기에도 좋은가?”

평가 설정

  • 100개 사용자 프롬프트

  • 3명 평가자

  • 평가 기준:

    • Visual Quality

    • Prompt Following

  • 두 항목을 가중 평균하여 Overall Score 산출

📈 Figure 5 (매우 중요)

Human Preference Score 비교

비교 모델:

  • DALL·E 3

  • Midjourney v5.2

  • FLUX.1-dev

  • Playground v2.5

  • SDXL

  • Emu3-DPO

핵심 결과

  1. Emu3-DPO

    • SDXL 명확히 능가

    • DALL·E 3, MJ v5.2와 동급 (점수가 낮은데?, 그냥 학습스키마 까지 고려했을때 동급이라는 듯. 표현은 잘못된거 같긴한데..)

  2. 영어 / 중국어 프롬프트 모두에서 일관됨

📌 이 결과는:

“diffusion 없이도 사람 기준에서 충분히 경쟁 가능” 을 의미

📈 Figure 6

DPO 효과 분석

  • w/o DPO vs w/ DPO 비교

  • 항목:

    • Visual Quality

    • Prompt Alignment

👉 DPO가 명확히 개선 효과를 보임

즉:

  • QFT: 시각적 fidelity 개선

  • DPO: 사람 선호 정렬

3.1.3 Qualitative Results (정성적 결과)

📷 Figure 4

Emu3가 생성한 이미지 25장 예시

보여주려는 포인트:

  • 다양한 스타일

  • 다양한 종횡비

  • 사실적 / 예술적 이미지 모두 가능

  • 고해상도에서도 구조 안정적

👉 단순 “샘플 나열”이 아니라,

  • diffusion과 질적으로 동급임을 시각적으로 증명

3.2 Video Generation — 핵심 정리

이 섹션의 중심 질문

“순수 next-token prediction 기반 autoregressive 모델이 video diffusion 모델들과 경쟁 가능한가?”

이미지보다 비디오는 시간적 일관성·동역학·물리성 때문에 AR 방식이 훨씬 불리하다는 것이 기존 인식입니다. 

3.2는 이 통념에 정면으로 도전합니다.

3.2.1 설정 및 생성 방식 (핵심 전제)

  • Emu3는 학습 단계와 동일하게 5초, 24FPS 비디오를 기본 단위로 생성

  • 생성된 비디오는:

    • 자기회귀적으로 무한 확장 가능

    • 프레임 단위가 아니라 비디오 토큰 시퀀스 단위로 생성

👉 확산 모델과 달리:

  • noise → denoise ❌

  • causal next-token generation ⭕

3.2.2 정성적 결과 

📷 Figure 7: Text-to-Video 생성 예시

Figure 7에는 Emu3가 생성한 다양한 텍스트→비디오 예제가 제시됨
(각 비디오에서 첫 3초 동안 6프레임만 시각화)

보여주려는 핵심

  1. 다양한 장면

    • 인물, 자연, 불꽃, 도시, 애니메이션 스타일

  2. 텍스트 정합성

    • “cyberpunk astronaut”

    • “lava erupting from volcano”

  3. 시간적 일관성

    • 인물 얼굴, 배경 구조 유지

  4. 카메라 효과

    • 드론 뷰, 흔들림(shaking), aerial shot

👉 이 그림의 목적은 단순 시각적 데모가 아니라:

“AR 모델도 temporal coherence를 유지할 수 있다”

를 보여주는 것

3.2.3 정량 평가 — VBench 

📊 Table 5: VBench 결과 (가장 중요)

비교 대상:

  • 13개 SOTA 비디오 생성 모델

  • 대부분 video diffusion

  • Emu3만 autoregressive (AR)

평가 지표

  • Total score

  • Motion smoothness

  • Dynamic degree

  • Aesthetic quality

  • Object / Human action

  • Spatial relationship

  • Subject / Background consistency 등

3.3 미래 예측 (Future Prediction)

Emu3는 미래 프레임을 예측함으로써 비디오를 확장할 수 있다. 그림 8(Fig. 8)에서는 이러한 비디오 확장의 정성적 예시를 제시한다. 구체적으로, 24FPS의 2초 길이 비디오를 이산적인 비전 토큰으로 토크나이즈하여 컨텍스트로 사용하고, Emu3가 이후 2초 분량의 콘텐츠를 동일한 형태의 이산 비전 토큰으로 예측한다. 이렇게 예측된 토큰은 디토크나이즈(detokenize)되어 미래의 예측 비디오를 생성한다.

이러한 예시들은 오직 다음 토큰 예측(next-token prediction)만을 사용하더라도 비디오의 시간적 확장이 가능함을 보여준다. 특히 사람과 동물의 행동, 현실 세계와의 상호작용, 그리고 3차원 애니메이션에서의 변화 등과 같은 다양한 시간적 전개를 예측할 수 있음을 확인할 수 있다. 더 나아가, 이 방식으로 비디오 길이를 확장함으로써 모델의 컨텍스트 길이를 초과하는 비디오도 반복적으로 생성하는 것이 가능하다. 우리는 2초 분량의 비디오를 컨텍스트로 사용해 최대 8초까지의 미래 프레임을 성공적으로 확장 생성할 수 있음을 관찰하였다.

3.4 비전–언어 이해 (Vision-Language Understanding)

2.5.2절에서 설명한 방식으로 파인튜닝된 Emu3의 비전–언어 이해 능력을 평가하기 위해, 우리는 다양한 공개 비전–언어 벤치마크에서 모델을 테스트한다. 

주요 결과는 표 6(Tab. 6)에 제시되어 있으며, 비교 대상 방법들은 크게 두 가지 범주로 나뉜다.

  1. 사전 학습된 CLIP 비전 인코더를 사용하는 encoder-based 접근법,

  2. 사전 학습된 인코더 없이 동작하는 encoder-free 접근법이다.

Emu3는 완전히 encoder-free한 방법으로서, 여러 벤치마크에서 기존 방법들을 뚜렷하게 능가하는 성능을 보인다. 이러한 성과는 전용으로 사전 학습된 LLM이나 CLIP에 의존하지 않고 달성된 것으로, Emu3가 멀티모달 이해에서 갖는 내재적 능력과 잠재력을 잘 보여준다.

여기서 인코더-프리라는 것은, continuous embedding을 안쓴다는 것. 즉 discrete token을 입력으로 넣는다는 개념인 듯

4. 관련 연구 (Related Work)

비전–언어 이해 (Vision-Language Understanding)

CLIP [67]은 대규모 이미지–텍스트 쌍에 대한 대조 학습(contrastive learning)을 통해 일반화 가능한 비전 표현을 학습하며, 이미지 분류 태스크에서 인상적인 제로샷 성능을 달성하였다. Flamingo [2]는 CLIP과 유사한 비전 인코더와 사전 학습된 언어 모델을 연결함으로써, 소수 샷(few-shot) 멀티모달 이해 능력을 처음으로 보여주었다. 이후 대규모 언어 모델(LLM)의 발전과 보급으로 인해, 사전 학습된 비전 인코더를 LLM과 결합하는 방식이 대규모 비전–언어 모델(VLM)을 학습하는 일반적인 접근법으로 자리 잡았다. BLIP 계열 [49, 48], MiniGPT-4 [109], LLaVA [57] 등은 비전 인코더와 LLM을 연결하고 이미지–텍스트 쌍 및 비전 지시 튜닝 데이터로 학습함으로써 유망한 성능을 보였다. 이후 LLaVA 계열 [55, 56]과 다른 연구들 [3, 17]은 데이터 정제 및 학습 전략 개선을 통해 성능을 더욱 향상시켰다.

Fuyu [4]와 EVE [19]와 같은 모델들은 이미지 패치를 직접 LLM에 입력하는 encoder-free 비전–언어 아키텍처를 제안하지만, 여전히 최첨단 VLM들과 경쟁하는 데에는 한계가 있었다. 본 연구에서는 처음으로, 오직 next-token prediction만으로 학습된 decoder-only 모델이 encoder-based VLM과 동등하거나 더 우수한 성능을 달성할 수 있음을 보여준다. 이는 이러한 아키텍처의 추가적인 성능 향상 가능성을 열어준다.

비전 생성 (Vision Generation)

최근 비전 생성 분야는 주로 확산 모델(diffusion models) [73, 70, 66, 65, 5]이 지배해 왔다. 이들 모델은 확산 과정을 통해 고해상도 이미지를 생성하는 데 뛰어난 성능을 보였다. Stable Diffusion 시리즈의 오픈소스 공개는 해당 분야의 연구와 개발을 폭발적으로 촉진하였다. 또 다른 연구 흐름은, 시퀀스에서 다음 토큰을 예측하는 방식으로 이미지를 생성하는 자기회귀(autoregressive) 모델을 학습하는 것으로, DALL·E [71], CogView [20], Parti [96] 등이 이에 해당한다. 비디오 도메인에서도 VideoGPT [93]와 VideoPoet [38]가 자기회귀 방식을 활용하였다. 그러나 이들 방법은 확산 모델에 비해 성능이 뒤처지거나, cascade 혹은 조합적 구조에 의존하는 한계가 있었다. 예를 들어 VideoPoet는 2단계 생성–정제(generate-and-refine) 프레임워크와 추가적인 텍스트 인코더를 사용한다.

본 연구에서 Emu3는 단일 Transformer 디코더만으로 최첨단 이미지 및 비디오 생성 성능을 달성함을 보여준다. 특히 우리는 후속 연구와 개발을 지원하기 위해 핵심 기법을 오픈소스로 공개한다.

이해와 생성의 통합 (Unified Understanding and Generation)

비전 이해와 생성을 통합하려는 초기 시도들로는 [82, 97, 25, 21]이 있으며, 이들은 이미지와 텍스트 데이터에 대해 다양한 생성 목표를 탐구하였다. Emu와 Emu2 [82, 81]는 시각 임베딩을 회귀하거나 텍스트 토큰을 분류하는 방식으로, 다음 멀티모달 요소를 예측하는 통합 자기회귀 목표를 제안하였다. CM3Leon [97]과 Chameleon [83] 역시 이미지와 텍스트가 혼합된 데이터에서 토큰 기반 자기회귀 모델을 학습하였다. 보다 최근에는 TransFusion [108]과 Show-o [92]가 확산 모델과 자기회귀 방식을 결합해 성능 향상을 시도하였다. 그러나 이러한 모델들은 여전히 비전 생성과 이해 양 측면에서 SDXL [66]이나 LLaVA-1.6 [56]과 같은 태스크 특화 아키텍처에 미치지 못했다.

Emu3는 이미지, 비디오, 텍스트 전반에 걸쳐 next-token prediction만으로 학습된 모델이, 조합적 방법에 의존하지 않고도 이러한 잘 확립된 모델들을 능가할 수 있음을 처음으로 입증한다.

5. 결론 (Conclusion)

본 논문에서는 **다음 토큰 예측(next-token prediction)**을 통해 멀티모달 생성과 인식에서 뛰어난 성능을 보이는 새로운 멀티모달 모델 시리즈인 Emu3를 제안하였다. 이미지, 텍스트, 비디오를 모두 이산적인 토큰 공간으로 변환하고, 단일 Transformer를 처음부터 학습함으로써, Emu3는 확산 모델이나 조합적 방법에 대한 의존 없이도 SDXL과 LLaVA-1.6과 같은 기존의 태스크 특화 모델들을 능가한다.

본 연구 결과는 다음 토큰 예측이 언어 모델을 넘어 멀티모달 모델 전반으로 확장 가능한 강력한 패러다임이 될 수 있음을 설득력 있게 보여준다. Emu3는 특히 도전적인 비디오 생성 태스크를 포함한 다양한 멀티모달 태스크에서 최첨단 성능을 달성하며, 복잡한 모델 설계를 단순화하고 토큰에만 집중함으로써 학습과 추론 양 측면에서 모두 큰 확장 잠재력을 제공한다. 우리는 다음 토큰 예측이 범용 멀티모달 지능을 구축하는 데 있어 단순히 가능할 뿐만 아니라 오히려 유리한 접근이라고 믿는다.

Reference

댓글