◼ Comment

기존의 멀티모달 모델들 보면, 생성과 이해에 각각 다른 인코더를 사용하는 문제가 있었음

이게 왜 문제냐면
VG 인코더와 VU 인코더가 따로 놀면, 효율성이 떨어지고 학습 및 추론도 증가함. 그리고 각각 학습된걸 가져다 쓰기 때문에 표현 충돌을 유발할 수 있음

인코더가 중요한데, 여기서는 이를 통합하여 하나의 인코더만 사용해서 vision language model을 만듬

continuous embedding을 사용하고 vu, vg 둘다 지원
단순히 인코더를 하나로 합치는건 아니고 아래의 철학이 있다고 보면 됨

VAE latent 위에서 semantic encoder를 작동시키는 구조를 선택함으로써
생성에 필요한 저수준 구조 정보와 이해에 필요한 고수준 의미 정보를
같은 표현 공간에서 자연스럽게 공존시키는 것이 핵심이다.

모델 구조

이미지/비디오 입력을 받아서, continuous embedding을 만들어서 LLM 입력에 넣겠다는 것이다
과정으로는 이미지 -> VAE encoder (샘플링 X, 그냥 Conv 블럭 출력이라고 봐도되는 듯) -> Noise 첨가 -> Representation Encoder (SigLip encoder을 사용, semantic 정보 주입) -> MLP layer (LLM 히든벡터랑 사이즈 맞춤)
비디오는 차원이 하나 더 있는데, 이 프레임 축은 배치로 변환한다는듯
여기서 기억할것은 SigLIP은 원래 이미지 패치 인코더임. 이 체크포인트를 초기 상태로 쓰지만, 위처럼 SigLIP의 입력은 VAE latent vector가 되기 때문에 재학습되는 것

SigLIP 2의 기존 16×16 patch embedding layer를 무작위 초기화된 1×1 patch embedding layer로 교체한다
미지용 첫 Conv는 버린다
VAE latent의 각 (h,w) 위치를 하나의 토큰으로 직접 projection

실험 결과는 기존것들을 꽤 차이나게 뛰어넘는 느낌이 난다.

결국 continuous embedding만 써서 VU, VG 둘다 학습하면 되는 것인가? 이런 결론에 도다르는거 같은데
단순 continuous embedding (예: VAE latent만 사용) → 이렇게만 사용하면 부족할 거고
semantic encoder 없는 continuous latent → 이해 성능 떨어질 것이고
late fusion한 Show-o2은 semantic 쪽으로 치우쳐져 있는 문제가 있고
그래서 continuous + semantic encoder을 early fusion (layer-wise interaction) 이 동시에 필요

초록

통합 멀티모달 모델(Unified Multimodal Models, UMMs)은 하나의 프레임워크 내에서 멀티모달 이해와 생성을 동시에 수행하는 것을 목표로 한다. 본 논문에서는 Tuna를 제안하는데, 이는 VAE 인코더와 표현 인코더를 연속적으로 연결하여 통합된 연속 시각 표현을 구축하는 네이티브 UMM이다. 이 통합 표현 공간은 이미지와 비디오를 대상으로 이해 및 생성 작업을 모두 엔드투엔드 방식으로 처리할 수 있도록 한다.

기존의 이해와 생성을 분리된 표현으로 처리하는 UMM들과 비교했을 때, Tuna의 통합 시각 표현 공간은 서로 다른 인코더를 사용할 때 발생하는 표현 형식 불일치 문제를 피할 수 있으며, 이해와 생성 양쪽 모두에서 분리형 대안들보다 더 나은 성능을 보인다. 또한 우리는 사전학습된 표현 인코더가 강력할수록 모든 멀티모달 작업 전반에서 일관되게 성능이 향상됨을 관찰하였으며, 이를 통해 표현 인코더의 중요성을 강조한다. 더 나아가 이러한 통합 설정에서는 이해 데이터와 생성 데이터를 공동으로 학습할 경우, 두 작업이 서로 간섭하는 것이 아니라 상호 보완적으로 작용함을 확인하였다.

이게 핵심적인 기여인듯?

다양한 멀티모달 이해 및 생성 벤치마크에 대한 광범위한 실험을 통해, Tuna는 이미지 및 비디오 이해, 이미지 및 비디오 생성, 그리고 이미지 편집 전반에서 최신 최고 성능을 달성함을 보였으며, 이를 통해 제안한 통합 표현 설계의 효과성과 확장성을 입증한다.

1. 서론 (Introduction)

멀티모달 AI의 장기적인 목표 중 하나는 텍스트, 이미지, 비디오와 같은 다양한 모달리티를 하나의 모델이 자연스럽게 이해하고 생성할 수 있는 네이티브 통합 멀티모달 생성이다. 최근 통합 멀티모달 모델(Unified Multimodal Models, UMMs)에 대한 연구 진전은 이러한 비전에 점점 더 가까워지고 있음을 보여주고 있으며, 진정으로 통합된 멀티모달 지능이 현실적인 목표가 되고 있음을 시사한다.

네이티브 UMM을 설계하는 데 있어 핵심적인 어려움 중 하나는 시각 입력을 어떤 방식으로 표현 공간에 인코딩하느냐에 있다.

기존의 UMM들은 크게 두 가지 접근법을 따른다.

첫째는 이해와 생성을 위해 서로 다른 시각 표현을 사용하는 분리형 표현 방식이고,
둘째는 두 작업에서 동일한 시각 표현을 공유하는 통합 표현 방식이다.
직관적으로 보면, 이해와 생성을 모두 지원하는 단일한 시각 표현을 학습하는 것이 UMM에 여러 이점을 제공한다.

먼저, BAGEL이나 Mogao와 같은 분리형 표현 기반 UMM들은 서로 다른 시각 인코더를 처리하기 위해 MoE 스타일의 아키텍처를 사용하는 경우가 많으며, 이는 추가적인 파라미터를 요구하고 학습 및 추론 비용을 증가시킨다.

반면, 통합 표현을 사용하면 단일 표현 공간 내에서 모델이 동작할 수 있어 구조가 단순해지고 효율성이 향상된다.

또한 서로 다른 비전 인코더들은 일반적으로 서로 호환되지 않는 형식의 표현을 생성한다.
예를 들어 동일한 입력에 대해, 표현 인코더(예: SigLIP)는 공간 압축 비율, 시간 압축 여부, 채널 차원 측면에서 인과적 VAE 인코더(예: Wan 2.1 VAE)와 크게 다르다.
이러한 차이는 분리형 모델에서 표현 충돌을 유발할 수 있지만, 통합 표현에서는 본질적으로 이러한 불일치를 피할 수 있다.
마지막으로, 통합 시각 표현은 이해와 생성 간의 상호 강화 효과를 달성하기 위한 명확한 경로를 제공한다.
이해 전용 모델과 생성 전용 모델에서는 각각의 성능 개선이 활발히 이루어지고 있으나, 이러한 시너지가 기존 UMM에서는 충분히 탐구되지 않았다.

VG 인코더와 VU 인코더가 따로 놀면, 효율성이 떨어지고 학습 및 추론도 증가함. 그리고 각각 학습된걸 가져다 쓰기 때문에 표현 충돌을 유발할 수 있음

여기서 말하고자 하는 것은 하나로 통합해서 사용하는게 좋다 이거인 듯

그럼에도 불구하고, 통합 시각 표현을 사용하는 기존 UMM들은 종종 분리형 모델들보다 성능이 낮은 경우가 많다.

대부분의 기존 방법들은 이해와 생성을 위해 단일한 종류의 비전 인코더만을 사용하는데, 예를 들어 Chameleon이나 Transfusion은 VQ-VAE를 사용하고, Harmon은 MAR 인코더를 사용한다.
이러한 설계는 한 작업의 성능을 향상시키는 대신 다른 작업의 성능을 희생하는 경향이 있다.
Show-o2는 SigLIP과 VAE 특징을 후반부 결합(late fusion) 방식으로 통합하여 이러한 문제를 완화하려고 시도하지만, 본 논문의 분석에 따르면 학습된 표현은 여전히 의미적 특징에 치우쳐 있어 생성 품질에 한계를 보인다.

이러한 한계를 체계적으로 해결하기 위해, 본 논문에서는 이해와 생성을 아우르는 통합 시각 표현을 사용하는 네이티브 UMM인 Tuna를 제안한다. 제안하는 설계는 단순하면서도 효과적이다.

VAE 인코더의 출력을 표현 인코더에 직접 입력함으로써, 다양한 멀티모달 작업을 수행하기에 충분히 표현력이 높은 시각 표현을 얻는다.

이 통합 시각 표현은 텍스트 토큰과 결합되어 LLM 디코더에 입력되며, 디코더는 자기회귀적 다음 토큰 예측을 통해 텍스트를 생성하고, 플로우 매칭 기반 방식으로 이미지를 복원 및 생성한다.
VAE의 continuous embedding을 하나로 사용하겠다는 의미인 듯

이와 같은 통합 표현 덕분에 Tuna는 하나의 프레임워크 내에서 이미지 및 비디오 이해, 이미지 및 비디오 생성, 그리고 이미지 편집까지 모두 처리할 수 있다.

본 논문에서는 세 단계로 구성된 학습 전략을 통해 모델을 학습하며, 그 결과 멀티모달 이해 및 생성 벤치마크에서 최고 수준의 성능을 달성한다. 예를 들어 MMStar에서는 61.2%, GenEval에서는 0.90의 성능을 기록하였다.

본 논문의 주요 기여는 다음과 같이 요약할 수 있다.

첫째, 이미지 및 비디오 이해, 이미지 및 비디오 생성, 이미지 편집을 하나의 프레임워크에서 수행할 수 있는 네이티브 통합 멀티모달 모델 Tuna를 제안한다.
둘째, 광범위한 실험을 통해 Tuna의 통합 시각 표현이 다양한 멀티모달 이해 및 생성 작업에서 매우 효과적이며, 최신 최고 성능을 달성함을 입증한다.
셋째, Show-o2 및 분리형 표현을 사용하는 기존 방법들과의 비교 및 어블레이션 실험을 통해, 제안한 통합 표현 설계의 우수성을 정량적으로 분석한다.

2. 방법: Tuna

이 절에서는 모든 멀티모달 이해 및 생성 작업에서 통합된 시각 표현을 사용하는 네이티브 통합 멀티모달 모델 Tuna를 소개한다. 먼저 2.1절에서 모델 설계의 핵심 동기를 설명하고, 이어서 2.2절과 2.3절에서 Tuna의 아키텍처와 학습 파이프라인을 자세히 기술한다. 전체 프레임워크의 개요는 그림 2에 제시되어 있다.

2.1 동기와 설계 원칙

본 절에서는 Tuna와 그 통합 시각 표현을 설계하게 된 주요 관찰 결과들을 정리한다.

텍스트와 이미지·비디오 생성은 자기회귀 모델이나 확산 모델을 통해 수행할 수 있다. 실제로 최신 이해 중심 모델들은 주로 자기회귀 방식을 채택하여 텍스트를 생성하는 반면, 최첨단 이미지 및 비디오 생성 모델들은 플로우 매칭을 포함한 잠재 공간 기반 확산 모델을 사용한다. 이러한 점은 이해와 생성 작업이 서로 다른 생성 패러다임을 선호함을 시사한다.

이미지와 비디오 생성 측면에서 보면, 연속적인 잠재 공간을 사용하는 VAE 기반 모델이 이산 표현을 사용하는 방법보다 더 우수한 성능을 보이는 것으로 알려져 있다. 이산화 과정은 정보 손실을 유발하여 생성 품질을 저하시킬 수 있기 때문이다. 유사하게, 멀티모달 이해 모델들 역시 CLIP과 같은 연속적인 의미 표현에 크게 의존하고 있으며, 이는 연속 시각 표현이 이해와 생성 양쪽 모두에 더 적합함을 보여준다.

최근 연구들은 의미적 시각 표현이 생성 성능을 향상시킬 수 있음을 보여주고 있다. 예를 들어, 확산 트랜스포머의 중간 특징을 사전학습된 표현 인코더와 정렬시키면 생성 품질이 개선된다. 또한 일부 연구에서는 고정된 표현 인코더를 사용해 이미지 특징을 잠재 표현으로 인코딩하는 것만으로도 입력 이미지를 효과적으로 재구성할 수 있음을 보였다.

한편, 원래 시각 재구성을 목적으로 설계된 VAE 잠재 표현 역시 의미적 이해 작업을 지원할 수 있음이 관찰되고 있다. 최근 연구들은 대조 학습을 통해 VQ-VAE 기반 표현에 의미적 정보를 부여하거나, 연속 VAE 잠재 공간을 활용해 의미 분할, 객체 인식, 이미지 검색과 같은 이해 중심 작업을 수행할 수 있음을 보여준다.

이러한 관찰을 바탕으로, Tuna는 다음과 같은 핵심 설계 원칙을 따른다.

Tuna는 텍스트 생성에는 자기회귀 방식을, 이미지와 비디오 생성에는 플로우 매칭 방식을 결합한다.

Tuna는 이해와 생성 작업 모두에 효과적인 연속 VAE 잠재 표현을 기반으로 통합 시각 표현을 구축한다.
이해 및 생성 성능을 더욱 향상시키기 위해, VAE 잠재 표현으로부터 고수준 특징을 추출하는 표현 인코더를 추가로 사용한다.

2.2 모델 아키텍처

통합 시각 표현.

그림 2에 나타난 바와 같이, Tuna는 VAE 인코더와 표현 인코더를 사용해 통합 시각 표현을 구성한다. 입력 이미지 또는 비디오 X가 주어지면, 먼저 Wan 2.2에서 사용된 3D 인과적 VAE 인코더를 적용한다. 이 인코더는 입력을 공간적으로 16배, 시간적으로 4배 다운샘플링하여 잠재 표현 x₁을 생성한다. 이후 시점 t ∈ [0, 1]을 샘플링하고, x₀ ~ N(0, 1)인 가우시안 노이즈를 사용해 xₜ = t·x₁ + (1 − t)·x₀ 형태의 노이즈가 섞인 잠재 표현을 생성한다.

다음으로, VAE 잠재 표현으로부터 의미적 특징을 추출하기 위해 SigLIP 2 비전 인코더 Φ를 사용한다. VAE 인코더가 이미 16배의 공간 다운샘플링을 수행했기 때문에, SigLIP 2의 기존 16×16 패치 임베딩 레이어를 무작위 초기화된 1×1 패치 임베딩 레이어로 교체하여 수정된 인코더 Φ′를 구성한다. 이를 통해 Φ(X)와 Φ′(xₜ)가 생성하는 토큰 시퀀스 길이가 일치하도록 한다. 이후 두 층으로 구성된 MLP 커넥터를 적용하여 최종 통합 시각 표현 z = MLP(Φ′(xₜ))를 얻는다.

학습 과정에서 시각 생성 작업의 경우 t를 [0, 1] 구간에서 무작위로 샘플링하고, 멀티모달 이해 작업의 경우에는 항상 t = 1로 고정하여 xₜ가 깨끗한 잠재 표현에 해당하도록 한다.

비디오 입력의 경우, xₜ는 배치 크기 b, 잠재 프레임 수 f, 채널 c, 높이 h, 너비 w를 갖는 5차원 텐서 형태를 가진다. 이때 모든 프레임을 하나의 긴 시퀀스로 펼치면 표현 인코더 Φ′가 지나치게 긴 시퀀스를 처리해야 하므로 비효율적이다. 이를 방지하기 위해, 프레임 차원을 배치 차원으로 재배치하는 윈도우 기반 어텐션 방식을 적용한다. einops 표기법을 사용하면 통합 시각 표현 zᵥ는 다음과 같이 정의된다.

여기서 d는 비디오 토큰의 히든 차원이다. 이 연산을 통해 Φ′는 각 4프레임 윈도우를 독립적으로 처리할 수 있으며, 그 결과 비디오 토큰 처리 효율이 크게 향상된다.

LLM 디코더와 플로우 매칭 헤드. 통합 시각 표현 z를 얻은 뒤, 샘플링된 시점 t를 나타내는 타임스텝 토큰을 z 앞에 추가하고, 이를 언어 토큰 시퀀스와 결합하여 LLM 디코더에 입력한다. Tuna에서는 Qwen-2.5를 디코더로 사용해 멀티모달 토큰을 공동 처리한다. 기존 UMM 관행을 따라, LLM 디코더 내부에서는 언어 토큰에 대해서는 인과적 어텐션 마스크를, 시각 토큰에 대해서는 양방향 어텐션 마스크를 적용하며, 이 구조는 그림 3에 나타나 있다.

멀티모달 이해 작업의 경우, LLM 디코더의 출력은 언어 모델링 헤드를 거쳐 텍스트 토큰 예측으로 변환된다. 반면 시각 생성 및 이미지 편집 작업에서는 전체 토큰 시퀀스를 무작위 초기화된 플로우 매칭 헤드에 입력하여, 플로우 매칭을 위한 속도 벡터를 예측한다. 이 플로우 매칭 헤드는 LLM 디코더와 동일한 트랜스포머 구조를 공유하며, Show-o2 및 DiT에서와 마찬가지로 AdaLN-Zero를 통해 시점 조건화를 수행한다.

생성 및 편집 작업에서는 텍스트와 시각 토큰이 섞인 시퀀스를 효과적으로 처리하기 위해, 결합된 텍스트–시각 시퀀스 전반에 대해 멀티모달 3D-RoPE를 적용하여, 지시문과 시각 콘텐츠가 교차하는 입력을 안정적으로 처리할 수 있도록 한다.

설명은 복잡한데 하고자 하는것은 결국 이미지/비디오 입력을 받아서, continuous embedding을 만들어서 LLM 입력에 넣겠다는 것이다
과정으로는 이미지 -> VAE encoder (샘플링 X, 그냥 Conv 블럭 출력이라고 봐도되는 듯) -> Noise 첨가 -> Representation Encoder (SigLip encoder을 사용, semantic 정보 주입) -> MLP layer (LLM 히든벡터랑 사이즈 맞춤)
비디오는 차원이 하나 더 있는데, 이 프레임 축은 배치로 변환한다는듯
여기서 기억할것은 SigLIP은 원래 이미지 패치 인코더임. 이 체크포인트를 초기 상태로 쓰지만, 위처럼 SigLIP의 입력은 VAE latent vector가 되기 때문에 재학습되는 것

SigLIP 2의 기존 16×16 patch embedding layer를 무작위 초기화된 1×1 patch embedding layer로 교체한다
미지용 첫 Conv는 버린다
VAE latent의 각 (h,w) 위치를 하나의 토큰으로 직접 projection

2.3 학습 파이프라인

통합 모델을 효과적으로 학습하기 위해, 우리는 각 모델 구성 요소를 이해 및 생성 작업 모두에 점진적으로 적응시키는 3단계 학습 전략을 채택한다.

1단계: 통합 표현 및 플로우 매칭 헤드 사전학습
첫 번째 학습 단계의 목표는 의미 표현 인코더가 통합 시각 표현을 생성하도록 적응시키고, 플로우 매칭 헤드에 대해 견고한 초기화를 마련하는 것이다. 이를 위해 LLM 디코더는 고정한 채로, 표현 인코더와 플로우 매칭 헤드를 두 가지 목표로 학습한다. 두 목표는 이미지 캡셔닝과 텍스트-투-이미지 생성이다.
이미지 캡셔닝 목적은 SigLIP 2 및 Qwen2.5-VL 비전 인코더처럼 강력한 의미 인코더들의 사전학습 목표와 정렬되어 있다. 또한 이미지 캡셔닝은 대조 학습에 필적하는 수준의 의미적 풍부함을 제공할 수 있음이 알려져 있으며, 이를 통해 통합 표현의 시각 이해 능력을 강화할 수 있다. 한편 텍스트-투-이미지 생성 목적은 플로우 매칭 헤드가 텍스트 조건으로부터 이미지를 생성하도록 학습시켜, 이후의 이미지 편집 및 텍스트-투-비디오 생성 작업을 위한 기반을 마련한다. 추가로 이 목적은 생성 관련 그래디언트가 표현 인코더로 역전파되도록 하여, 통합 시각 표현이 이해와 생성 작업 양쪽에 더 잘 정렬되도록 만든다.

2단계: 전체 모델 연속 사전학습
두 번째 단계에서는 LLM 디코더의 고정을 해제하고, 1단계와 동일한 이미지 캡셔닝 및 텍스트-투-이미지 생성 목표로 전체 모델을 사전학습한다. 2단계의 후반 학습 과정에서는 모델의 역량을 확장하기 위해 이미지 지시문 추종(instruction-following), 이미지 편집, 비디오 캡셔닝 데이터셋을 추가로 도입한다. 이 단계는 기본적인 시각-텍스트 정렬 수준에서 더 나아가, 지시문 기반의 고차원 멀티모달 이해 및 생성 작업으로 확장하는 데 필요한 다리를 제공한다.

3단계: 지도 미세조정(SFT)
마지막으로 세 번째 단계에서는 더 낮은 학습률을 사용하여 지도 미세조정(SFT)을 수행한다. 이때 이미지 편집, 이미지/비디오 지시문 추종, 고품질 이미지/비디오 생성 데이터셋을 조합한 데이터로 학습한다. 이 단계는 Tuna의 전반적인 능력을 추가로 정제하고, 다양한 멀티모달 이해 및 생성 작업에서의 성능과 일반화를 향상시킨다.

3. 실험

3.1 실험 설정

구현 세부사항. 우리는 서로 다른 규모의 두 가지 LLM을 사용하여 Tuna를 검증한다. 구체적으로는 Qwen2.5-1.5B-Instruct와 Qwen2.5-7B-Instruct를 사용한다.

이미 다 학습된 모델에다가 이어서 학습하기도 하는군

사전학습 단계에서는 표현 인코더, 프로젝션 레이어, 그리고 확산(플로우 매칭) 헤드를 AdamW 옵티마이저를 사용해 학습하며, 학습률은 1×10⁻⁴로 설정한다. 이때 기본 해상도 512×512의 이미지를 사용하며, 유사한 수의 시각 토큰을 생성하도록 조정된 다양한 종횡비(aspect ratio)의 이미지도 함께 사용한다.

두 번째 학습 단계에서는 2,000 스텝의 선형 워밍업 이후 전체 모델에 대해 엔드투엔드 학습을 활성화하고, 동일한 학습률로 최적화를 지속한다. 이 시점부터 비디오 캡션–텍스트 쌍 데이터와 이미지 편집 데이터를 학습 데이터에 추가한다. 마지막 단계에서는 2×10⁻⁵의 더 작은 학습률을 사용해, 정제된 지도 미세조정(SFT) 코퍼스를 기반으로 지시문 추종 학습을 수행한다. 비디오 학습은 계산 비용이 매우 크기 때문에, 7B 모델 변형에서는 비디오 데이터를 사용하지 않고 학습을 진행한다.

3.2 주요 결과

이미지 이해.
우리는 일반적인 VQA 벤치마크인 MME, GQA, RealWorldQA, SEED-Bench와, 지식 집약적 벤치마크인 MMMU, MMStar, AI2D, 그리고 텍스트 중심 벤치마크인 ChartQA와 OCRBench를 포함해 총 9개의 벤치마크에서 Tuna의 멀티모달 이해 능력을 평가한다.

표 1에 제시된 결과에서 보듯이, 1.5B 및 7B 규모의 Tuna는 거의 모든 벤치마크에서 최신 최고 성능을 달성하며 강력하고 일관된 성능을 보인다. 특히 Tuna는 이해 전용 모델들과 비교해도 경쟁력 있는 이미지 이해 성능을 보이며, 더 큰 모델 규모를 사용하는 다수의 복합형 UMM과 네이티브 UMM을 능가한다. 이는 통합 시각 표현의 효과성을 잘 보여준다.

이미지 생성.
우리는 GenEval, DPG-Bench, OneIG-Bench의 세 가지 벤치마크에서 Tuna의 이미지 생성 성능을 평가한다.

결과는 표 2와 표 3에 제시되어 있다. 세 벤치마크 모두에서 Tuna는 Janus-Pro, BAGEL, Mogao와 같은 동시대 방법들을 일관되게 능가하며, 1.5B 및 7B 모델 모두에서 최신 최고 성능을 기록한다. 특히 OneIG-Bench에서 Tuna는 시각적 텍스트 렌더링 품질에서 큰 우위를 보이는데, 이는 시각적 텍스트 정보를 포함하는 복잡한 지시문으로부터 이미지를 생성할 때 Tuna의 강한 의미 이해 능력을 보여준다. 이러한 결과는 통합 시각 표현을 사용하는 Tuna가 분리된 시각 표현을 사용하는 모델들보다 이미지 생성 작업에서 더 강력하고 안정적임을 시사한다.

생각보다 성능 차이가 꽤 많이 나긴함

이미지 편집.
이미지 편집 성능 평가는 ImgEdit-Bench와 GEdit-Bench를 사용해 수행한다.

표 4에 나타난 바와 같이, Tuna는 ImgEdit-Bench에서 종합 점수 4.31을 기록하며 모든 UMM 가운데 가장 높은 성능을 달성한다. 또한 FLUX.1 Kontext나 Qwen-Image와 같은 생성 전용 모델들과 비교해도 경쟁력 있는 성능을 보인다. GEdit-Bench에서는 최고 성능의 생성 전용 모델에는 약간 못 미치지만, 통합 모델 가운데서는 가장 높은 종합 점수를 기록한다. 이러한 결과는 Tuna가 정밀한 의미 이해와 높은 프롬프트 추종 정확도가 요구되는 이미지 편집 작업에서도 통합 시각 표현을 통해 강력한 성능을 발휘함을 보여준다.

비디오 이해.
우리는 MVBench, Video-MME, LongVideoBench, LVBench의 네 가지 비디오 이해 벤치마크를 사용해 Tuna를 평가한다.

표 5에 따르면, Tuna는 MVBench와 Video-MME에서 Show-o2를 능가하며, LongVideoBench와 LVBench에서는 경쟁력 있는 성능을 보인다. 특히 1.5B 파라미터 규모임에도 불구하고, Tuna는 MVBench와 LVBench에서 더 큰 이해 전용 모델들과 유사한 성능을 달성해 통합 시각 표현의 효율성과 효과성을 입증한다.

비디오 생성.
텍스트-투-비디오 생성 성능은 VBench를 사용해 평가한다.

표 6에 제시된 결과에서 Tuna는 기존의 비디오 생성이 가능한 모든 UMM을 능가하며 최신 최고 성능을 달성한다. 특히 1.5B 규모의 LLM 디코더만을 사용하고도 이러한 성능을 달성했다는 점은, 제안한 통합 아키텍처가 고품질 비디오 생성을 효율적이고 확장 가능하게 지원함을 보여준다.

3.3 Ablation: Visual Representation Design

핵심 질문: 어떤 시각 표현 설계가 이해와 생성을 동시에 가장 잘 지원하는가?

이 절의 목적은 Tuna가 제안하는 통합 시각 표현 설계가 기존의 분리형 설계나 Show-o2 스타일의 통합 설계보다 왜 우수한지를 체계적으로 검증하는 것이다. 이를 위해 저자들은 Qwen2.5-1.5B 기반의 경량 모델을 사용해 시각 표현 방식만 바꾼 다양한 변형 모델들을 비교한다.

비교한 시각 표현 설계

저자들은 다음 세 가지 설계를 비교한다.

분리형 표현
이해에는 SigLIP 계열 특징을, 생성에는 Wan VAE 잠재 표현을 사용하는 방식이다.
Show-o2 스타일 통합 표현
VAE 경로와 의미 경로를 분리한 뒤, 마지막에 late fusion으로 결합하는 구조이다.
Tuna 통합 표현
VAE 잠재 표현을 입력으로 하여 표현 인코더를 통과시키는 단일 경로 구조이며, 표현 인코더로 SigLIP, SigLIP 2, DINOv3를 각각 사용한 경우를 비교한다.

핵심 결과 (Table 7)

Table 7의 어블레이션 결과를 통해 다음이 확인된다.

Tuna의 통합 표현은 이해와 생성 벤치마크 전반에서 분리형 설계보다 일관되게 높은 성능을 보인다.
이해 전용 데이터만으로 학습한 경우에도, Tuna의 구조는 분리형 설계 대비 큰 성능 저하 없이 유지된다.
이해와 생성 데이터를 함께 학습한 경우, Tuna는 이해 전용 모델이나 생성 전용 모델보다도 더 높은 성능을 달성한다.
표현 인코더가 강력할수록 성능이 증가하며, SigLIP < SigLIP 2 < DINOv3 순으로 전반적인 성능 향상이 나타난다.

이 결과를 통해 저자들은 단순히 “통합”되었는지가 아니라, 통합이 어떻게 이루어지느냐가 핵심임을 강조한다.

3.4 Discussion: Unified Representation Analysis

핵심 질문: Tuna의 통합 표현은 기존 통합 방식과 무엇이 구조적으로 다른가?

이 절에서는 Tuna와 Show-o2의 차이를 정성적·정량적으로 분석한다. 단순 성능 비교를 넘어, 표현 자체가 어떤 성질을 가지는지를 분석하는 것이 목적이다.

구조적 차이 (Figure 4)

Figure 4는 Tuna와 Show-o2의 표현 생성 과정을 비교한다.

Show-o2는
VAE 잠재 표현 →
의미 경로(이해용) + 생성 경로 →
마지막 단계에서 feature fusion을 수행하는 late fusion 구조이다.
Tuna는
VAE 잠재 표현 →
표현 인코더 단일 경로 →
전 레이어에서 이해·생성 신호가 결합되는 early fusion 구조이다.

이 차이가 이후 분석의 핵심 근거가 된다.

Early fusion이 좋다는 건가?

표현 정렬 분석 (Figure 5)

저자들은 CKNNA 지표를 사용해, Tuna와 Show-o2의 최종 시각 표현이

SigLIP 2 (강한 의미 인코더)
SD3-Medium (강한 생성 모델)
의 중간 레이어들과 얼마나 유사한지를 분석한다.

Figure 5의 결과는 다음을 보여준다.

Tuna와 Show-o2 모두 SigLIP 2와는 높은 유사도를 보이며, 이는 두 모델 모두 의미 이해 능력이 강함을 의미한다.
그러나 SD3-Medium과의 유사도에서는 Tuna가 Show-o2보다 전 레이어에 걸쳐 일관되게 높은 값을 보인다.

이는 Tuna의 표현이 의미 정보에 치우치지 않고, 생성에 필요한 구조적·저수준 정보도 함께 보존하고 있음을 시사한다.

late fusion의 한계 분석

Show-o2의 경우, 최종 표현이 이해 경로와는 강하게 상관되지만 생성 경로와는 거의 상관되지 않음이 추가 분석을 통해 드러난다. 이는 late fusion 구조가 결국 의미 경로에 의해 지배되는 표현을 만들게 됨을 의미한다.

반면 Tuna는 전 레이어에서 이해·생성 신호가 상호작용하기 때문에, 보다 균형 잡힌 표현을 학습할 수 있다고 결론짓는다.

3.5 Qualitative Results

핵심 질문: 이러한 표현 차이가 실제 생성 결과에서 어떻게 드러나는가?

이 절에서는 수치적 성능을 넘어, 실제 생성 결과를 통해 Tuna의 특성을 시각적으로 보여준다.

이미지 생성 비교 (Figure 6)

Figure 6에서는 Tuna와 여러 최신 모델들을 비교한다.

복잡한 텍스트 렌더링에서 Tuna는 모든 텍스트를 정확히 생성하는 반면, 다른 모델들은 누락이나 오류를 보인다.
객체 개수, 위치, 관계가 동시에 요구되는 프롬프트에서 Tuna는 요구사항을 정확히 반영한다.
스타일 지시와 구성적 제약이 결합된 경우에도, Tuna는 의미적 일관성과 시각적 완성도를 동시에 유지한다.

이는 Tuna의 표현이 고수준 의미와 저수준 시각 구조를 동시에 잘 담고 있음을 보여준다.

이미지 편집 결과 (Figure 7)

Figure 7에서는 이미지 편집 결과를 비교한다.

명시적 편집(객체 교체, 스타일 변경, 배경 변경)은 물론,
조명 방향, 분위기 변화와 같은 암묵적 지시도 Tuna는 정확히 수행한다.
원본 이미지의 정체성을 유지하면서 국소적 수정이 가능함을 보여준다.

이는 통합 표현이 단순 생성뿐 아니라 정밀한 조건부 조작에도 유리함을 시사한다.

비디오 생성 결과 (Figure 8)

Figure 8에서는 텍스트-투-비디오 생성 결과를 제시한다.

장면의 공간적 일관성, 시간적 부드러움, 의미적 흐름이 모두 유지된다.
이는 이미지와 비디오를 동일한 통합 표현 공간에서 다룰 수 있음을 정성적으로 입증한다.

4. 관련 연구 (Related Work)

4.1 대규모 멀티모달 모델

대규모 멀티모달 모델(Large Multimodal Models, LMMs)은 이미지, 비디오, 텍스트와 같은 멀티모달 입력으로부터 텍스트 응답을 생성하는 것을 목표로 한다. Flamingo나 Idefics와 같은 초기 LMM들은 시각 특징과 언어 특징 간의 상호작용을 가능하게 하기 위해 교차 어텐션 레이어를 도입하였다. 이후의 LMM들은 일반적으로 LLaVA 패러다임을 따르며, 시각 입력을 비전 인코더(예: CLIP)로 인코딩한 뒤 이를 텍스트 토큰과 결합하여 언어 모델 디코더에서 공동 처리한다.

최근 연구들은 고품질 학습 데이터를 활용한 지시 따르기 성능 향상, 고해상도 이미지를 처리할 수 있는 강력한 비전 인코더 개발, 이미지가 텍스트 사이에 삽입된 형태의 입력 처리, 비디오 이해 능력 확장, 그리고 추론 능력을 강화하기 위한 강화학습이나 픽셀 공간 기반 사고 메커니즘 도입 등에 초점을 맞추고 있다. 이러한 연구 흐름은 멀티모달 입력에 대한 이해 능력을 지속적으로 확장해 왔지만, 주로 이해 중심 모델에 초점이 맞추어져 있다.

4.2 확산 기반 생성 모델

확산 생성 모델은 고품질 이미지 및 비디오 생성을 위한 사실상 표준(backbone)으로 자리 잡았다. 최신 시각 생성 모델들은 대부분 학습된 VAE가 정의하는 연속 잠재 공간에서 확산을 수행하는 잠재 확산 모델 패러다임을 따른다. 이러한 접근은 VQ-VAE 기반의 이산 토큰을 자기회귀적으로 생성하는 방식에 비해 더 높은 시각적 품질과 샘플링 효율을 제공한다.

잠재 공간 기반 확산 모델은 픽셀 공간 확산 모델에 비해 계산 비용이 낮고, 고해상도로의 확장이 용이하며, 잡음 제거 네트워크가 저수준 픽셀 노이즈 대신 의미적으로 중요한 구조에 집중할 수 있다는 장점이 있다. 아키텍처 측면에서는 기존의 컨볼루션 기반 U-Net 구조에서 벗어나 확산 트랜스포머(DiT)로 발전해 왔으며, 학습 목표 역시 가우시안 노이즈 예측이나 스코어 매칭을 넘어 정류 흐름(rectified flow), 플로우 매칭과 같은 보다 일반적인 형태로 확장되고 있다.

4.3 통합 멀티모달 모델

통합 멀티모달 모델(Unified Multimodal Models, UMMs)은 다양한 멀티모달 입력으로부터 텍스트와 시각 콘텐츠를 유연하게 생성할 수 있다는 점에서 최근 주목받고 있다. MetaQuery, BLIP-3o, UniWorld-V1과 같은 접근법들은 이해 전용 모델과 생성 전용 모델을 학습 가능한 어댑터로 연결하는 방식으로 이러한 기능을 달성한다. 이들은 유망한 성능을 보이지만, 사전학습된 작업 특화 모델에 크게 의존하기 때문에 이해와 생성 간의 근본적인 시너지에는 한계가 있다.

이에 반해 네이티브 UMM은 이해와 생성을 하나의 통합 아키텍처 내에서 처음부터 공동 학습한다. Janus 계열 모델이나 UniFluid는 이해와 생성을 위해 분리된 시각 표현을 사용하는 대표적인 예이다. BAGEL, Mogao, OneCAT 등은 서로 다른 시각 인코더에서 발생하는 충돌을 완화하기 위해 MoE 스타일의 라우팅 구조를 도입한다. 반면 Chameleon, Transfusion, Harmon, Show-o 계열 모델들은 이해와 생성에서 동일한 시각 표현을 사용하는 통합 표현 방식을 채택한다.

그러나 이러한 통합 표현 기반 모델들은 효율성 측면에서는 장점이 있으나, 이해 또는 생성 중 한 작업에서는 강점을 보이는 반면 다른 작업에서는 성능이 떨어지는 불균형 문제가 자주 관찰된다. Tuna는 균형 잡힌 통합 시각 표현을 학습함으로써 이러한 한계를 극복하고, 이해와 생성 양쪽에서 모두 강력한 성능을 달성한다.

4.4 멀티모달 모델에서의 표현 학습

최근 연구들은 더 나은 표현을 학습함으로써 멀티모달 이해 및 생성 모델의 성능을 향상시키는 방향을 탐구해 왔다. 이해 모델을 개선하는 관점에서는 생성이나 재구성 목적을 추가하여 모델이 더 세밀한 시각 정보를 포착하도록 유도하는 방법들이 제안되었다. 반대로 생성 모델을 강화하기 위해서는 확산 트랜스포머나 VAE 표현을 의미적 비전 인코더와 정렬시키는 방식이 활용되어 왔다.

통합 멀티모달 모델 맥락에서는 이해와 생성을 동시에 지원하는 통합 시각 토크나이저를 설계하려는 연구들이 활발하다. TokenFlow나 MUSE-VL은 이해용과 생성용 인코더의 출력을 이산 코드북 수준에서 결합하는 late fusion 방식을 사용한다. DualToken, UniTok, TokLIP 등은 단일 인코더로부터 양 작업을 위한 벡터 양자화 표현을 학습하지만, 이산 표현의 한계로 인해 고품질 생성에는 제약이 있다. UniFlow와 UniLIP은 연속적인 통합 시각 토크나이저를 제안하지만, 자기 증류나 재구성과 같은 비교적 복잡한 정렬 절차에 의존한다.

이에 비해 Tuna는 이해와 생성 목적을 공동으로 사용하여 통합 시각 표현을 엔드투엔드 방식으로 학습하며, 더 큰 규모와 더 다양한 작업에서 그 효과를 검증한다. 또한 UniLIP과 달리, Tuna는 통합 표현을 별도의 생성 모델의 조건으로 사용하는 것이 아니라, 단일 프레임워크 내에서 이해와 생성을 동시에 수행하는 네이티브 통합 모델을 학습한다는 점에서 차별성을 갖는다.

5. 결론 (Conclusion)

본 논문에서는 VAE 인코더와 표현 인코더를 연속적으로 연결하여 통합 시각 표현 공간을 구성하는 네이티브 통합 멀티모달 모델 Tuna를 제안하였다. 우리는 이 통합 표현 위에서 LLM 디코더와 플로우 매칭 헤드를 공동으로 학습함으로써, 이미지 및 비디오 이해, 이미지 및 비디오 생성, 그리고 이미지 편집 전반에서 강력한 성능을 달성하였다. Tuna는 기존의 통합 멀티모달 모델들을 능가할 뿐만 아니라, 이해 전용 모델과 생성 전용 모델과 비교해도 경쟁력 있는 성능을 보인다.

또한 어블레이션 실험을 통해 다음과 같은 점들을 확인하였다. 첫째, Tuna의 통합 시각 표현 공간은 Show-o2 스타일의 통합 표현이나 이해·생성을 분리한 표현 설계보다 일관되게 우수한 성능을 보인다. 둘째, 더 강력한 사전학습 표현 인코더를 사용할수록 본 프레임워크 내에서 이해와 생성 성능이 모두 향상된다. 셋째, 제안한 통합 시각 표현 설계는 이해와 생성 간의 상호 보완적 학습을 가능하게 하여, 두 작업이 서로를 방해하는 대신 서로를 강화하도록 만든다.

이러한 결과들은 통합 멀티모달 모델에서 시각 표현 설계가 갖는 중요성을 강조하며, Tuna가 이해와 생성을 균형 있게 결합하는 확장 가능하고 효과적인 접근법임을 보여준다.

Reference

https://arxiv.org/pdf/2512.02014

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-331, Tuna: Taming Unified Visual Representations for Native Unified Multimodal Models, Preprint 2025