NL-294, Ola: Pushing the Frontiers of Omni-Modal Language Model, Preprint 2025
◼ Comment
- 옴니 모델은 대충 어떻게 학습되고 평가되는지를 보기 위해 빠르게 보았다.
- 데이터
- 비전: LAION-5B, COYO-700M, Conceptual Captions v3, Wikipedia 데이터를 확장하여 사용한듯
- 오디오: 오픈된 데이터 LLaVA-Video-178k [80]의 학술 비디오 데이터셋과 FineVideo [17]를 가져와 AI tools?을 이용해서 확장한거라 보면 됨
- 학습
- qwen2.5-7b에서 시작하여 텍스트-이미지, 이미지-비디오, 비디오-오디오 학습을 순차적으로 진행하는 형식이다.
- 텍스트-이미지 학습 단계에서는 pretraining / post-training이 있음
- 예로, 텍스트-이미지 단계라고 하면
- OCR, captioning 같은걸로 pretraining 하고
- captioning으로 다시 SFT 하는거 같음
- 나머지 단계에서는 SFT만 수행하는듯
- 이미 텍스트와 이미지에 대해 잘 배웠으므로, 텍스트 확장인 오디오, 이미지 확장인 비디오에 대해서는 모델이 알고 있다고 간주
- 섹션 3.3.2, 그림 4을 보면 학습되는 순서를 알 수 있다.
- 토크나이저는 이미 각 모달리티에 알려져 있는, encoder을 사용했음.
- 테스트
- 옴니 테스트용 데이터를 만든거 같지는 않고
- 이미 기존에 있는 다양한 벤치마크들을 가져다가 평가한 것으로 보임
- 이전 모델들보다 좋은 성능을 낸다고
1. 데이터 확장 및 품질 향상 방식
-
Re-captioning / Re-questioning
GPT-4o, Gemini-Pro 같은 최신 LLM을 이용해 기존 이미지·비디오 데이터의 캡션과 질문을 다시 생성하여 품질·난이도·일관성을 개선. -
Cross-modal alignment를 위한 데이터 설계
비디오를 중심 매개체로 설정 → 비디오 프레임 + 오디오 + 자막 기반 Q&A 생성.
자막만 사용 시보다 오디오를 직접 쓰는 게 성능이 높게 나옴.
2. 학습 전략 특징
-
Progressive Modality Alignment
1단계(텍스트-이미지) → 2단계(비디오) → 3단계(오디오)로 점진적으로 모달리티 확장.
이렇게 하면 이전 단계 성능 유지 + 새로운 모달리티 성능 향상 효과. -
Pretraining과 SFT의 차이
-
1단계 텍스트-이미지: Pretraining(대규모 데이터) + SFT(고품질 데이터) 모두 수행.
-
2, 3단계: SFT 중심, 이전 단계 데이터 일부 섞어서 catastrophic forgetting 방지.
-
3. 모델 아키텍처 관련 포인트
-
OryxViT
임의 해상도(Arbitrary resolution) 입력 지원, 원본 종횡비 유지.
Local-Global Attention Pooling으로 정보 손실 최소화하면서 토큰 길이 단축. -
Dual Audio Encoder
Whisper-v3(음성), BEATs(음악/환경음) 병렬 사용 → 특징을 채널 방향으로 concat. -
Alignment Module
각 모달리티 특징을 텍스트 임베딩 공간으로 변환, 특수 토큰으로 모달 구분.
4. 평가 관련 디테일
-
벤치마크 범위
-
이미지: MMBench-1.1, MMMU, OCRBench, MathVista, AI2D 등
-
비디오: VideoMME
-
오디오: LibriSpeech, AIR-Bench, MMAU
-
-
결과 요약
모든 모달리티에서 기존 오픈소스 옴니모달 LLM 대비 우수, 일부 영역은 특화 모델 수준에 근접.
오디오-비디오 동시 학습 시 단일 모달 학습 대비 성능 크게 향상.
5. 핵심 기여 정리
-
균형 잡힌 멀티모달 성능 확보 (특화 모델 수준 근접)
-
비디오 기반 Cross-modal alignment 전략
-
점진적 모달리티 정렬(Progressive Modality Alignment)
-
완전 오픈소스 공개 계획
Abstract
최근 GPT-4o를 중심으로 한 대규모 언어 모델(LLM)의 발전으로 인해, 더욱 다양한 모달리티(이미지, 비디오, 오디오 등)를 이해할 수 있는 Omni-modal(전모달) 모델 개발에 대한 관심이 증가하고 있다. 몇몇 오픈소스 Omni-modal 모델이 등장했지만, 아직까지는 특정 모달리티에 특화된 모델과의 성능 차이가 상당하다. 본 논문에서는 이미지, 비디오, 오디오를 아우르는 전모달 언어 모델인 Ola를 소개한다. Ola는 특화된 단일 모달리티 모델과 유사한 수준의 경쟁력 있는 성능을 달성하며, 전모달 언어 모델의 성능 경계를 상당 부분 확장했다.
우리는 견고한 전모달 모델을 구축하기 위해 필수적인 아키텍처 설계, 데이터 수집, 훈련 전략을 종합적으로 탐구했다. Ola는 시각적 이해와 오디오 인식 기능을 개선하기 위해 주요 기저 모델들에 비해 몇 가지 핵심적이고 효과적인 개선을 도입했다. 특히 우리는 전모달 학습 과정에서 모달리티 간 관계를 재검토하고, 비디오를 중심으로 하는 교차 모달 정렬(cross-modal alignment)을 강조하는 한편, 가장 이질적인 모달리티로부터 점진적으로 가까운 모달리티로 정렬을 진행하는 훈련 방식을 제안했다.
다양한 실험 결과 Ola는 기존의 오픈소스 Omni-modal LLM을 모든 모달리티에서 능가하며, 비슷한 크기의 최신 특화 모델과도 대등한 성능을 보였다. 본 연구를 통해 Ola를 완전 오픈소스로 공개하고, 이 신흥 연구 분야의 발전을 촉진할 계획이다.
1. Introduction
멀티모달 대규모 언어 모델(Multi-Modal Large Language Models)은 복잡한 입력(텍스트, 이미지, 비디오, 오디오 등)을 다룰 수 있는 강력한 명령 수행 능력과 풍부한 지식 덕분에 최근 점점 더 많은 관심을 받고 있다. 특히 오픈소스 대규모 언어 모델의 강력한 성능을 기반으로, 특정 모달리티를 언어적 응답과 연결하는 연구들이 광범위하게 이루어지고 있다. 최근 GPT-4o와 Gemini와 같이 더 많은 모달리티를 지원하는 대규모 언어 모델이 성공을 거두면서, 연구자들은 모든 입력을 하나의 모델에서 처리할 수 있는 Omni-modal(전모달) 모델로 한 걸음 더 나아가고자 노력하고 있다.
전모달 LLM 훈련의 핵심 도전 과제는 서로 다른 데이터 분포를 가진 여러 모달리티를 효과적으로 모델링하는 것과, 지원하는 모든 작업에서 경쟁력 있고 균형 잡힌 성능을 달성하기 위한 효율적인 학습 파이프라인 설계에 있다. 기존에도 전모달 모델의 난제를 극복하기 위한 여러 시도들이 있었으나, 성능과 모달리티의 폭이 양립하지 못하는 상황이 많았으며, 기존의 오픈소스 전모달 솔루션은 특정 분야의 최신 특화 LLM과 큰 성능 격차가 존재하여 전모달이라는 개념과 실제 응용 사이에 강력한 장벽을 형성하고 있다. 또한 특정 분야나 작업에 대한 능력 부족, 방대한 데이터 요구량, 모달리티 간의 불충분한 정렬 문제 역시 기존 전모달 이해 모델의 한계를 드러내고 있다.
본 논문에서는 최신 특화 LLM들과 비슷한 수준의 성능을 가진 전모달 LLM을 구축하기 위한 포괄적인 솔루션인 Ola 모델을 제안한다. 먼저 우리는 멀티모달 도메인에서의 기본적인 이해 능력을 강화하기 위해 아키텍처 설계와 데이터 최적화의 두 가지 주요 측면에서 접근하였다.
-
Ola 프레임워크는 확장 가능하면서도 간결한 아키텍처를 통해 전모달 입력을 지원한다. 구체적으로 이미지, 비디오, 음성, 음악 등 다양한 입력을 처리할 수 있는 시각 및 오디오 인코더를 개발하였다. 효과적인 교차모달 통합을 위해 로컬-글로벌 주의 풀링(local-global attention pooling)을 통합한 모듈을 설계하여 시각적 입력을 처리하며, 시각적, 청각적, 텍스트 토큰의 유연한 조합을 가능하게 한다.
-
우리는 Tier-1 벤치마크 성능을 달성하기 위해 고품질의 멀티모달 데이터셋을 체계적으로 수집하였다. ViT와 LLM을 모두 강화하는 시각-언어 사전 훈련 전략을 설계했으며, 시각 및 청각 모달리티 각각에 대해 꼼꼼하게 지도학습 미세조정(supervised fine-tuning) 데이터를 구축했다.
강력한 멀티모달 이해 모델을 기반으로, 우리는 모든 모달리티를 결합하여 성능 저하 없이 포괄적인 전모달 언어 모델로 확장하는 기법을 추가로 탐구했다.
여러 모달리티 간의 관찰을 통해, 우리는 비디오가 시각적, 오디오 및 자막 정보를 매우 밀접하게 연관시켜 모든 모달리티를 연결하는 핵심 역할을 할 수 있음을 발견하였다.
- 따라서 우리는 영상과 그에 대응하는 오디오 간의 관계를 깊이 분석하여 시각 및 오디오 모달리티를 연결하는 교량으로 활용하였다.
- 구체적으로 학술적 영상 데이터와 웹상에서 공개된 영상을 수집하고 별도의 데이터 정제 파이프라인을 설계한 후, 영상 자막과 내용을 기반으로 시각-언어 모델을 활용하여 질문-답변 쌍을 생성하였다.
- 또한 우리는 점진적 모달리티 정렬(progressive modality alignment) 전략을 설계하여 복잡한 훈련 절차를 여러 단계로 나누어 전모달 학습을 더 쉽게 만들었다.

우리는 이미지, 비디오, 오디오를 포함한 전체 전모달 벤치마크를 통해 Ola를 평가하였다. Ola는 7B(70억) 파라미터 규모임에도 불구하고 주요 멀티모달 벤치마크 전반에 걸쳐 경쟁력 있는 성능을 보였다. 이미지 벤치마크에서는 일반 및 특정 작업 이해 능력에서 뛰어나, 도전적인 OpenCompass 벤치마크에서 평균 정확도 72.6%를 기록했고, MMBench-1.1에서는 평균 84.3%, MMMU에서는 평균 57.0% 등을 기록하였다. 비디오 및 오디오 입력을 포함하는 도전적인 VideoMME 벤치마크에서는 68.4%의 정확도를 달성하였다. 또한 음성 인식 및 대화 평가와 같은 오디오 이해 작업에서도 뛰어난 성과를 거두어 LibriSpeech에서는 평균 WER 3.1을 기록했으며, AIR-Bench에서는 GPT 평가점수 6.41을 기록하였다. 벤치마크 결과는 기존 전모달 LLM에 비해 큰 폭의 성능 향상을 보여주었고, 최신 특화 LLM의 성능을 능가하였다.
옴니 벤치마크가 따로 있는건 아닌가?
2. 관련 연구 (Related Works)
대규모 시각-언어 모델 (Large Vision-Language Models)
AI 어시스턴트와 대규모 언어 모델(Large Language Models, LLM)의 성공에서 영감을 받아, 최근 연구는 시각-언어 멀티모달 대규모 언어 모델에 점점 더 집중하고 있다. 특히 아키텍처 설계, 훈련 전략, 모델 크기 확장, 데이터 수집 등 여러 측면에서 상당한 발전이 이루어졌다. 또한 모델의 발전은 단순한 정적 이미지의 이해를 넘어서 비디오, 3D, 혼합 시각 입력과 같은 다양한 입력을 지원하는 방향으로 나아가고 있다. 그러나 시각적 모델을 오디오 모달리티와 효과적으로 통합하여 균형 잡힌 성능과 견고성을 유지하는 것은 아직 충분히 탐구되지 않은 영역으로 남아 있다.
대규모 오디오-텍스트 모델 (Large Audio-Text Models)
주로 텍스트 입력과 출력에 중점을 둔 대규모 언어 모델은 음성(speech)과 근본적으로 연결되어 있다. 이에 따라 초기 연구는 음성 입력을 통합하기 위한 어댑터(adapter) 기반의 접근법을 중심으로 발전하였다. 최근에는 음성 생성 능력을 갖춘 LLM 기반 음성 디코더(speech decoder)의 개발로 전모달 모델로의 중요한 한 걸음을 내딛게 되었다. 또한 음성 이외에도 음악, 환경 소리(event) 등 다양한 오디오 정보를 이해할 수 있는 오디오 기반 LLM 연구도 확장되고 있다. 이와 같은 연구 사례로는 AudioGPT, SALMONN과 같은 모델들이 있으며, 최근에는 Qwen2-Audio와 같은 모델들이 오디오 이해 능력을 더욱 확장하고 있다.
대규모 전모달 모델을 향한 노력 (Towards Large Omni-Modal Models)
최근 대규모 언어 모델의 발전으로 인해 여러 모달리티를 동시에 다룰 수 있는 Omni-modal(전모달) 모델 개발에 대한 관심이 급증하고 있다. 대표적인 예로는 오디오-텍스트 이해와 음성 생성을 통합한 SpeechGPT와 LLaMA-Omni가 있으며, VITA와 Qwen2.5-Omni는 이러한 기능을 더욱 확장하여 오디오, 이미지, 비디오, 텍스트의 이해를 통합하였다. 그러나 현재의 전모달 모델들은 모든 입력 모달리티와 출력 형식을 효과적으로 처리하는 데 어려움을 겪거나, 상당히 낮은 성능을 보이는 경우가 많다. 본 논문에서 제안하는 Ola는 보다 우수한 아키텍처, 효율적인 훈련 전략, 철저한 데이터 준비를 통해 전모달 모델의 성능과 효율성을 개선하여 기존 모델의 한계를 극복하고자 한다.
3. Ola: 전모달(Omni-Modal) 이해 모델
이 섹션에서는 임의의 시각적(visual), 청각적(auditory), 텍스트(textual) 입력을 처리할 수 있는 종합적 멀티모달 프레임워크 구축 과정에서의 혁신을 제시한다.
우리는 Ola의 아키텍처를 그림 3에서 설명한다.
사전 훈련된 대규모 언어 모델을 기반으로, 우리는 우선 시각 콘텐츠 처리를 위한 설계와 오디오 콘텐츠의 통합 설계를 제안한다. 또한 전모달 학습에서 모달리티 간 정렬(alignment) 문제에 대해서도 심도 있는 분석을 진행한다.
효과적인 교차 모달 학습(cross-modal learning)을 위해, 오디오-비주얼 상관 관계 학습에 중점을 둔 교차모달 비디오 데이터셋을 구축함으로써, 비디오를 중심 매개체로 설정한다. 나아가 우리는 주요 모달리티로부터 주변 모달리티로 점차 확장해 나가는 점진적 훈련 전략(progressive training strategy)을 설계하여 언어와 시각 사이의 모달리티 간 격차를 점차 해소한다.
3.1. 고급 시각적 이해 (Advanced Visual Understanding)
그림 1(a)에 나타낸 바와 같이, 기본적인 시각-언어 모델로부터 출발하여, 우리는 아키텍처, 사전 훈련, 미세 조정(fine-tuning) 데이터를 개선하여 높은 품질의 최신 시각적 이해 모델을 제안한다.
시각 인코딩(Visual Encoding)
이미지 , 프레임 수가 인 비디오 와 같은 시각 입력에 대해, 시각 인코딩은 픽셀 정보를 언어 공간 내 임베딩(embedding)으로 변환한다. Ola의 시각 인코딩에서는 이미지 및 프레임의 원본 종횡비(aspect ratio)를 유지하여, SigLIP-400M으로 초기화된 임의 해상도(Arbitrary resolution) 비전 인코더인 OryxViT를 활용한다. 이는 시각 입력에 대해 보다 자연스러운 솔루션을 제공하기 때문이다. 이미지와 프레임을 처리하는 다중 모달 시각 인코더 를 통해 이미지 특징 와 비디오 각 프레임 특징 을 이미지 패치(patch) 기반으로 추출한다.
즉 주어진 해상도를 변경하지 않는다는 것. OryxViT을 활용함
OryxViT의 입력으로 각 패치를 벡터화한게(단순히 픽셀값 벡터) 들어가고
- 패치에 해당하는 feature 벡터=local feature가 있을텐데, 이를 Local-global attention pooling 레이어를 태움
- global feature=local feature을 다운샘플링한것 (이거를 왜 글로벌이라 부르는지는..?)
- local과 global을 concat하고 MLP, softmax태워서 영역 중요도를 예측함
- local feature에 중요도 가중치를 곱하여 최종 feature 만들어냄
정렬 모듈(alignment module)은 개별 모달리티의 특징 공간을 텍스트 임베딩 공간으로 변환하는 역할을 수행한다.
- Ola는 이미지와 비디오 프레임을 동등하게 처리하여 시각 콘텐츠의 통일성을 유지한다.
- 또한 시각적 특징의 토큰 길이를 줄이고 효율성을 높이기 위해, 기존 연구의 구조적 다운샘플링(structural downsampling) 아이디어를 발전시켜, 정보 손실을 최소화하면서 더욱 개선된 다운샘플링 특징을 생성하는 로컬-글로벌 어텐션 풀링(Local-Global Attention Pooling) 레이어를 제안한다.
구체적으로, 공간적 형태가 이고 채널이 인 이미지 또는 프레임 특징에 대해, 우리는 2배 다운샘플링을 위한 bilinear interpolation(쌍선형 보간)을 사용하여 다운샘플링된 지역의 전역적(global) 정보를 담은 특징 을 얻는다. 이후 원본과 전역 특징을 결합하여 로컬-글로벌 임베딩을 만들고, 소프트맥스(Softmax)를 통해 각 다운샘플링 영역의 중요도 를 예측한다:
이 다운샘플링된 특징 은 Hadamard 곱으로 각 영역의 가중치를 결정하여 정보가 더 많은 부분에 더 큰 가중치를 부여한다.
대규모 시각적 사전 훈련(Visual Pre-Training at Scale)
우리는 확장 가능한 시각적 사전 훈련을 위해 ViT 사전 훈련과 지시(Instruction) 기반 사전 훈련이라는 두 가지 주요 구성 요소를 적용하였다.
1) ViT 사전 훈련은 소규모의 언어 모델을 언어 인터페이스로 통합하여 시각 트랜스포머에서 독립적으로 수행한다.
- 이 단계의 주 목적은 시각 인코더의 시각-언어 능력을 향상시키는 것이다. 이를 위해 OCR, grounding, captioning 데이터셋으로부터 얻은 대규모 데이터 쌍을 활용한다.
- 위에서 말한 테스크의 데이터(시각-언어) 1천만개 정도로 학습하는 과정
2) 후속 지시 기반 사전 훈련 단계는 Ola 모델에게 포괄적이고 체계적인 지식을 습득하게 하는 것을 목표로 한다.
- 우리는 약 2천만 개의 텍스트-이미지 쌍을 오픈 소스 및 내부 데이터 소스로부터 수집하여 기초적인 능력을 구축한다.
- 데이터의 품질을 보장하기 위해, 최신 시각-언어 모델을 활용해 데이터 쌍의 캡션과 질문을 다시 생성(re-captioning, re-questioning)하여 높은 품질의 지시 수준(instruction-level)의 사전 훈련 데이터를 대량으로 생성하였다. 상세한 데이터 구성 및 수정 과정은 부록에 설명되어 있다.
- LAION-5B, COYO-700M, Conceptual Captions v3 등 대표적 이미지-텍스트 데이터 활용
- Wikipedia와 같은 지식 기반 데이터도 함께 포함하였습니다.
- 추가적으로 데이터 품질 향상을 위해 GPT-4o 및 Gemini-Pro와 같은 최신의 언어 모델을 사용하여 질문-답변의 품질과 난이도를 높이고 일관성을 유지하는 후처리를 수행하였습니다.
- 즉 지시형 테스크의 학습 데이터로 pretraining을 했다는거 같음
지도 학습 미세 조정(Supervised Fine-Tuning)
지도 학습 미세 조정 데이터는 이미지 및 비디오 분야의 학술 데이터셋에서 수집하였다. 이미지 데이터의 경우, 기존 연구의 단순한 설정을 따라 이미지 MLP 정렬(MLP alignment)을 수행하였다.
MLP 정렬 데이터는 LAION 데이터셋의 이미지 캡션 80만 쌍을 포함한다.
텍스트-이미지 지도 학습 데이터는 캡션, 대화, OCR 등 다양한 작업으로부터 풍부하게 수집하였다.
- 학습 데이터는 LLaVA-OneVision, Cauldron, Cambrian-1, MAmmoTH-VL, PixMo 등을 혼합하여 총 730만 개의 이미지 학습 데이터를 구축하였다.
pretraining 데이터와 크게 다른점은 없는거 같은데? 품질이 더 좋은것인가
텍스트-비디오 학습 데이터의 경우, LLaVA-Video-178K, VideoChatGPT-Plus, LLaVA-Hound, Cinepile 등 유용한 비디오 데이터셋에서 총 190만 개의 비디오 대화 조각을 수집하였다.
- 특히 LLaVA-Video-178K에서 2/3의 비디오 언어 데이터 쌍을 랜덤 샘플링하여 120만 개의 고품질 훈련 데이터를 구성하고, 기타 데이터 소스는 전체를 사용하였다.
3.2. 견고한 오디오 통합
오디오 인코딩 구성 요소는 옴니모달 모델에서 핵심적인 요소로, 시스템이 사용자 음성 신호와 멀티모달 오디오-비주얼 이해 데이터를 포함한 복잡한 청각 입력을 근본적으로 이해하는 데 의존합니다. Ola 모델에서는 음성, 음악, 영상 콘텐츠를 처리할 수 있는 견고한 오디오 인식 모듈을 구현하여, 시각 처리 구성 요소와 원활하게 통합합니다.
이중 오디오 인코딩
오디오 인코딩을 위해 Ola는 이중 인코더 방식을 제안합니다. 구체적으로, 음성 인코더로 Whisper-v3 [55], 음악 인코더로 BEATs [8]를 사용하여 오디오와 텍스트 간 정렬을 강화하고 더 풍부한 오디오 정보를 제공합니다. 음악 인코더는 원본 wav 오디오 A를 입력으로 받고, 음성 인코더는 wav를 Mel 스펙트로그램 표현 으로 변환하여 입력을 받습니다.
Whisper 인코더는 오디오 입력 길이에 제한이 있으므로, 샘플링 속도를 16,000Hz로 고정하고, 너무 긴 오디오는 30초 단위(A₁, A₂, …, Aₙ)로 분할하여 배치 단위로 인코딩합니다.
음성 인코더와 음악 인코더의 임베딩 특징은 채널 차원에서 연결하여 종합 오디오 특징 를 생성합니다.
이후, 이전 연구 [35, 36]를 따라 두 층의 비선형 MLP 커넥터(MLP_A, MLP_V)를 적용하여 모달별 특징 를 통합 토큰 로 변환합니다. 입력의 특수 위치를 표시하기 위해 시각 및 오디오 시작, 구분, 줄바꿈, 종료 토큰을 정의합니다. 옴니모달 토큰 는 텍스트 토큰 과 자유롭게 결합하여 LLM 디코딩에 사용됩니다.
오디오 데이터 혼합
오디오 훈련 데이터는 종합적인 음성 및 음악 이해를 포함하여 다양한 오디오 관련 환경에서 수집됩니다.
-
텍스트-음성 이해: LibriSpeech [51], GigaSpeech [5]의 ASR, AudioCaps [29], Clotho [14]의 오디오 캡셔닝, LibriSpeech [51]의 음성 질문 응답, WavCaps [46], AudioCaps [29]의 오디오 질문 응답
-
텍스트-음악 이해: MusicCaps [1]의 음악 캡셔닝, MillionSong [45], MusicNet [64]의 음악 질문 응답
전체 오디오 훈련 데이터는 110만 샘플을 포함하며, 관련 텍스트 질의응답 표현은 SALMONN [61]에서 수집되었습니다.
3.3. 옴니모달 이해를 위한 모달리티 간격 연결
언어·시각·오디오 간 모달리티 격차 재고
우리의 탐구를 통해 옴니모달 학습에서 두 가지 핵심 문제를 확인했습니다.
-
모달리티 간 연결성 – 기존 옴니모달 모델 학습 전략에서는 모달리티 간의 연결을 강조하는 학습 샘플이 항상 부족하며, 특히 시각과 오디오라는 두 주요 모달리티 간에서 그렇습니다. 우리의 실험에서는 오디오와 비전 데이터를 함께 학습하면 서로 다른 모달리티를 포괄적으로 이해하게 되어 옴니모달 학습 성능이 놀랍게 향상된다는 것을 발견했습니다. Ola 모델에서는 비디오가 오디오와 비전을 연결하는 다리 역할을 한다고 봅니다. 비디오는 프레임과 동반 오디오 간에 자연스럽고 풍부하며 높은 관련성을 지닌 정보를 포함하기 때문입니다. 우리는 이 가설을 검증하기 위해 학습 파이프라인을 최적화하고, 아래에서 소개하는 목표 지향적 학습 데이터를 준비했습니다.
-
모달 균형 – 그림 1(c)에서 볼 수 있듯이, 모든 모달리티의 데이터를 단순히 결합하면 벤치마크 성능이 저하됩니다. 따라서 우리는 Ola 모델이 감각 기관을 점진적으로 갖추도록 하는 합리적인 학습 절차를 제안합니다. 텍스트와 이미지를 옴니모달 학습의 핵심 모달리티로 보고, 음성과 비디오는 각각 텍스트와 이미지의 변형이라고 가정합니다. 텍스트와 이미지를 인식하는 능력을 먼저 학습시키면 모델의 기본적인 크로스모달 능력을 보장할 수 있으므로, 이 더 어려운 경우를 우선시합니다. 이후 점차적으로 비디오, 오디오, 음성을 학습에 통합합니다.
먼저 텍스트-이미지를 젤 먼저 학습하고, 순차적인 post-training을 하겠다는 것? (오디오는 텍스트의 연장, 비디오는 이미지의 연장이라고 간주한다는 것)
3.3.1. 비디오로부터 옴니모달 모델 도출
기존 비디오 학습 데이터는 대부분 프레임 입력만으로 주석이 달리거나 합성되며, 동반 오디오 속의 중요한 정보는 종종 간과됩니다. 이를 해결하기 위해, 우리는 비디오와 오디오 간의 본질적 관계를 발견하도록 돕는 크로스모달 비디오 데이터 생성 파이프라인을 설계했습니다. 이를 통해 옴니모달 LLM이 모달 간 정보를 학습할 수 있습니다. 구체적으로, 우리는 두 가지 크로스모달 학습 과제를 개발했습니다.
-
비디오-오디오 질의응답
-
비디오 음성 인식
우리는 LLaVA-Video-178k [80]의 학술 비디오 데이터셋과 FineVideo [17]의 오픈엔드 비디오 데이터를 수집했습니다.
- 학술 데이터셋에 자막이 없으므로 Whisper-v3 [55]를 이용해 비디오 오디오로부터 자막을 생성하고, 언어 기반 정제 과정을 거쳤습니다.
- 이후 대규모 언어 모델을 이용해 자막이 완전하고 유용한지 평가했습니다.
- 이렇게 LLaVA-Video-178k에서 4.1만 개의 순수 비디오를 얻었고, FineVideo에서는 원본 4.2만 개 비디오를 그대로 사용했습니다.
- 이후 Qwen2-VL-72B [54]를 사용해 비디오와 해당 자막 기반으로 질의응답을 생성하도록 했으며, 모델이 자막 내용을 중심으로 하되 비디오를 보조 정보로 활용하도록 지시했습니다.
- 각 비디오마다 3개의 Q&A 쌍을 생성하여 총 24.3만 개의 크로스모달 비디오-오디오 데이터를 만들었습니다.
- 또한, 모델이 소음 환경에서도 ASR 능력을 유지할 수 있도록 원본 비디오 자막 작업 8.3만 건을 추가했습니다.
3.3.2. 점진적 모달리티 정렬을 통한 옴니모달 학습
우리는 두 가지 기본적이고 분리된 모달리티(이미지와 텍스트)에서 출발하여 옴니모달 모델의 기초 지식을 쌓습니다. 이후 훈련 세트를 점차 확장하여, 시각 이해 능력을 강화하는 비디오 프레임, 언어와 오디오 지식을 연결하는 음성 데이터, 그리고 언어·비디오·오디오 정보를 종합적으로 포함하는 비디오+오디오 데이터를 학습에 포함시킵니다.
-
1단계: 텍스트-이미지 학습 – 사전 학습된 대형 언어 모델(본 구현에서는 Qwen2.5-7B [62])에서 시작합니다. 텍스트-이미지 학습에는 MLP 정렬, 대규모 사전 학습, 지도 미세조정을 포함하며, 대규모 멀티모달 학습 [31, 65]에서 통상 사용하는 절차를 따릅니다. 초기에는 비전 MLP 어댑터를 초기화하고 이미지 캡션 작업에서 다른 파라미터를 동결한 채 정렬을 수행합니다. 이후 사전 학습 및 지도 미세조정 단계에서 모든 파라미터(비전 인코더 포함)를 풀어 학습합니다. 다운샘플링 모듈은 이 단계에서 잘 훈련되어, 이미지와 비디오 모두에서 2배 압축을 안정적으로 수행합니다.
-
2단계: 이미지-비디오 연속 학습 – 강력한 텍스트-이미지 멀티모달 LLM을 기반으로, 비디오 데이터를 사용하여 Ola의 기능을 확장합니다. 지도 미세조정 실험 설정은 대부분 유지하되, 비전 인코더는 이미 충분히 학습되었으므로 동결합니다. 이전 이미지 데이터와 비디오 데이터를 혼합하여 텍스트-이미지 성능을 유지합니다. Stage 1에서 무작위로 80만 개의 이미지 데이터를 샘플링해 비디오 데이터셋과 섞어 학습을 진행합니다.
-
3단계: 비디오를 통한 시각-오디오 연결 – 오디오 관련 학습은 이 단계에서 포함됩니다. 기본 음성 인식(ASR) 작업으로 오디오 MLP 어댑터를 초기화한 후, 텍스트-음성 이해, 텍스트-음악 이해, 오디오-비디오 공동 이해, 텍스트-이미지 멀티모달 작업을 모두 혼합해 학습합니다. 이 단계에서 Ola는 오디오 인식과 시각-오디오 관계 파악에 집중하며, 결과적으로 이미지·비디오·오디오 이해가 모두 가능한 모델이 됩니다. 우리는 32.4만 개의 크로스모달 데이터, 110만 개의 순수 텍스트-오디오 데이터, Stage 1에서 40만 개의 이미지 데이터를 혼합해 기본 능력을 유지하며, 20만 개의 음성 지시가 포함된 이미지 데이터를 만들어 상호작용 능력을 강화했습니다.
4. Experiments 요약 (중요 부분 중심)
-
벤치마크 전반 성능
Ola는 이미지, 비디오, 오디오 전 영역에서 대표 벤치마크를 대상으로 테스트함.-
이미지: MMBench-1.1, MMMU, MathVista, AI2D, OCRBench 등에서 동급 SOTA 멀티모달 LLM 대비 우수한 성능. 예: MMBench-1.1 84.3%, MMMU 57.0%, OCRBench 827점.
-
비디오: VideoMME에서 68.4%로 7B 모델 중 최고 수준, 특히 비디오+오디오 입력 처리 능력에서 강점.
-
오디오: LibriSpeech WER 3.1%, AIR-Bench 평균 6.41점으로 기존 옴니모달 모델들보다 우세.
-
-
오디오 성능 분석
-
AIR-Bench, MMAU, AIR-Foundation에서 기존 옴니모달 모델 대비 큰 폭의 성능 향상.
-
“Pure audio” 학습 대비, 비디오-오디오 크로스모달 학습을 포함하면 전반적으로 성능이 향상됨 → 오디오와 비전의 결합 효과 확인.
-
-
옴니모달 학습 효과
-
오디오를 비디오와 함께 학습했을 때 VideoMME 성능이 63.8% → 68.4%로 상승.
-
자막 대신 원 오디오 사용 시 더 높은 정확도(68.4% vs 67.1%) → 오디오 정보가 텍스트에 없는 추가 정보를 제공.
-
-
점진적 모달 학습 효과
-
1단계(이미지), 2단계(비디오), 3단계(오디오) 순서로 학습 시 이전 단계 성능을 거의 유지하면서도 전반적 성능 상승.
-
MMBench-1.1, VideoMME 모두 단계가 진행될수록 점진적 향상.
-
즉, Ola의 강점은
-
균형 잡힌 멀티모달 성능
-
오디오-비디오 상호작용 강화로 인한 실제 이해력 상승
-
점진적 모달리티 정렬 전략의 효율성
입니다.
4.3. 분석(Analysis)
오디오 벤치마크 분석
오디오 및 음성 작업에서의 접근법 효과를 검증하기 위해 LibriSpeech [51], AIR-Bench [70], MMAU [59] 데이터셋을 사용해 종합적인 실험을 수행했다.
-
LibriSpeech의 test-clean, test-other, dev-clean, dev-other 서브셋에 대해 WER(단어 오류율)를 보고했다.
-
AIR-Bench에서는 음성, 소리, 음악, 혼합 항목에 대한 GPT-4 평가 점수를 기록했다.
-
MMAU의 testmini 결과, AIR-Foundation에서의 음성·소리·음악 항목 GPT-4 평가 점수도 함께 보고했다.
Ola는 최신 오디오 모델 및 옴니모달 LLM과 비교되었다.
-
Ola는 기존 옴니모달 모델 대비 큰 이점을 보였으며, AIR-Bench 평균 6.4점, MMAU testmini 70.3점, AIR-Foundation 평균 60.8점을 기록했다.
-
이전 SOTA 옴니모달 모델 대비 성능이 높고, 일부 항목에서는 오디오 특화 모델에 근접하는 성능을 보였다.
-
"Ola (Pure audio)" 설정(3단계에서 비디오-오디오 데이터를 제외하고 순수 오디오 입력만 사용)과 비교하면, 비디오와 오디오의 크로스모달 공동 학습 시 일관된 성능 향상이 나타났다. 이는 비디오 오디오와 음성 관련 데이터셋 간 분포 차이가 크더라도 비디오와 음성 모달 간 견고한 연결성이 있음을 보여준다.
옴니모달 학습의 효과
비디오와 오디오 간 관계를 탐구하기 위해, 옴니모달 학습의 효과와 비디오 내 오디오의 영향을 분석했다.
-
VideoMME에서 성능이 옴니모달 학습 전 63.8% → 학습 후 64.4%로 개선됨.
-
비디오에 오디오 모달을 추가하자 점수가 64.4% → 68.4%로 크게 향상됨.
-
심지어 원래 자막 입력을 사용했을 때보다 오디오 입력이 더 높은 성능을 보였으며(67.1% → 68.4%), 이는 오디오가 텍스트에 없는 추가 정보를 제공할 수 있음을 시사함.
점진적 모달 학습의 효과
제안한 점진적 학습 전략 효과를 검증하기 위해, 각 단계별(1단계 Ola-Image, 2단계 Ola-Video, 3단계 최종 Ola 모델) 중간 모델의 기본 성능을 평가했다.
-
이미지 성능 지표로 MMBench-1.1 [37], MMMU [73], OCRBench [38]를 사용했고, 비디오 성능은 VideoMME [20]로 측정했다.
-
결과적으로 이미지 → 비디오 → 오디오 순의 점진적 학습이 이전에 학습된 능력을 거의 보존하면서도 MMBench-1.1과 VideoMME에서 성능 향상을 가져왔다.
사례(Showcases)
-
음성 이해: AIR-Bench [70]에서 음성을 인식하고 감정 분석 및 질문에 대한 추론을 수행.
-
시각 이해: 올림픽 이후 유명 테니스 선수 인터뷰 분석에서, 기존 시각-언어 모델은 오디오 입력이 없어 정보 손실이 발생한 반면, Ola는 옴니모달 입력을 통해 국적, 맥락, 발언 배경을 더 정확히 파악.
결론적으로, Ola는 옴니모달 학습 전략과 크로스모달 데이터 덕분에 균형 잡힌 성능과 높은 실제 이해력을 달성했다.
Reference
댓글
댓글 쓰기