NL-297, Omni R: Evaluating Omni-modality Language Models on Reasoning across Modalities, Preprint 2024

Abstract

우리는 Omni×R을 소개한다. Omni×R은 GPT-4o 및 Gemini와 같은 최첨단 다중모달 언어 모델(Omni-modality Language Models, OLM)을 벤치마킹하기 위해 설계된 평가 도구이다. 텍스트, 시각, 오디오와 같은 여러 모달리티를 통합하는 OLM을 평가하는 일은 고유한 도전 과제를 안고 있다. 특히 사용자 메시지는 여러 모달리티로 구성되는 경우가 많기 때문에, OLM은 작업을 성공적으로 수행하기 위해 여러 모달리티를 아우르는 총체적인 이해와 추론을 구축해야 한다. 기존의 벤치마크는 단일 모달리티 또는 두 가지 모달리티(예: 이미지+텍스트 또는 비디오+텍스트)로 한정되어 있어, 모델의 추론 능력을 종합적이고 다중 모달적으로 평가하지 못하고 있다.

이를 해결하기 위해, Omni×R은 두 가지 평가 변형을 제공한다:

  1. Omni×Rsynth: 텍스트를 오디오, 이미지, 비디오 및 이들의 하이브리드 형태(Omnify!)로 자동 변환하여 생성한 합성 데이터셋.

  2. Omni×Rreal: 실제 환경에서 다중 모달 간 추론 능력을 평가하기 위해 전문가가 수동으로 수집하고 주석을 추가한 현실 세계 데이터셋.

Omni×R은 비디오, 오디오 및 텍스트가 함께 포함된 질문 등 다양한 모달리티 조합에 걸친 독특한 평가 방식을 제시하여 기존의 벤치마크보다 더 엄격한 다중 모달 추론 테스트 환경을 제공한다. 우리의 실험 결과, 최신의 모든 OLM들이 여러 모달리티에 걸친 정보 통합이 요구되는 Omni×R 질문들에 어려움을 겪는 것으로 나타났다. 추가 분석을 통해 모델의 추론 행동에 나타나는 차이점과 다중 모달 AI의 정합성(Alignment)에 대한 도전 과제를 강조하였다.

키워드: Omni-Eval, Omni-Reasoning, Omni-modality Language Models





















Referene

댓글