NL-297, Omni R: Evaluating Omni-modality Language Models on Reasoning across Modalities, Preprint 2024

Abstract

우리는 Omni×R을 소개한다. Omni×R은 GPT-4o 및 Gemini와 같은 최첨단 다중모달 언어 모델(Omni-modality Language Models, OLM)을 벤치마킹하기 위해 설계된 평가 도구이다. 텍스트, 시각, 오디오와 같은 여러 모달리티를 통합하는 OLM을 평가하는 일은 고유한 도전 과제를 안고 있다. 특히 사용자 메시지는 여러 모달리티로 구성되는 경우가 많기 때문에, OLM은 작업을 성공적으로 수행하기 위해 여러 모달리티를 아우르는 총체적인 이해와 추론을 구축해야 한다. 기존의 벤치마크는 단일 모달리티 또는 두 가지 모달리티(예: 이미지+텍스트 또는 비디오+텍스트)로 한정되어 있어, 모델의 추론 능력을 종합적이고 다중 모달적으로 평가하지 못하고 있다.

이를 해결하기 위해, Omni×R은 두 가지 평가 변형을 제공한다:

  1. Omni×Rsynth: 텍스트를 오디오, 이미지, 비디오 및 이들의 하이브리드 형태(Omnify!)로 자동 변환하여 생성한 합성 데이터셋.

  2. Omni×Rreal: 실제 환경에서 다중 모달 간 추론 능력을 평가하기 위해 전문가가 수동으로 수집하고 주석을 추가한 현실 세계 데이터셋.

Omni×R은 비디오, 오디오 및 텍스트가 함께 포함된 질문 등 다양한 모달리티 조합에 걸친 독특한 평가 방식을 제시하여 기존의 벤치마크보다 더 엄격한 다중 모달 추론 테스트 환경을 제공한다. 우리의 실험 결과, 최신의 모든 OLM들이 여러 모달리티에 걸친 정보 통합이 요구되는 Omni×R 질문들에 어려움을 겪는 것으로 나타났다. 추가 분석을 통해 모델의 추론 행동에 나타나는 차이점과 다중 모달 AI의 정합성(Alignment)에 대한 도전 과제를 강조하였다.

키워드: Omni-Eval, Omni-Reasoning, Omni-modality Language Models

1. 서론

최근 Omni-modality 언어 모델(OLM)의 발전(Gemini-Team, 2024b; OpenAI, 2024b)은 텍스트, 시각, 오디오 등 다양한 모달리티(modality)를 포함하는 실제 세계의 입력을 더욱 포괄적으로 이해할 수 있게 하였고(Akbari et al., 2021; Gan et al., 2020; Lu et al., 2019; Zellers et al., 2021), 인간의 의사소통과 더 잘 부합하는 출력물을 생성할 수 있도록 하였다(Gao et al., 2024; Lu et al., 2024; Zhang et al., 2024).

그러나 이러한 고도로 발전된 OLM의 평가 과정은 독특한 도전 과제를 안고 있다. 기존의 전통적인 벤치마크(LMSYS-team, 2024)는 주로 시각-언어나 비디오-텍스트와 같은 단일 또는 두 가지 모달리티를 다루는 모델을 평가하는 데 집중해왔다. 이는 다양한 모달리티가 복합적으로 사용되는 실제 환경의 복잡성을 포착하지 못한다. 현실 세계의 사용자 입력은 한두 가지 모달리티로 제한되지 않고, 텍스트, 이미지, 비디오, 오디오 등 여러 모달리티가 복합적으로 결합된 경우가 많다. 따라서 OLM이 과제를 성공적으로 수행하기 위해서는 이러한 다중 모달 입력의 정보를 총체적으로 이해하고, 이를 기반으로 추론을 수행할 수 있어야 한다. 기존의 평가 방식과 최신 OLM의 다중모달 능력 사이의 이러한 불일치는 모델 평가에 상당한 공백을 만들고 있다.

현재 존재하는 OLM의 흔한 문제 중 하나는 동일한 질문이 다른 모달리티나 여러 모달리티의 혼합 형태로 제공될 때 모델의 행동이 일관되지 않다는 것이다. 

Figure 1은 Gemini 1.5 Flash(Gemini-Team, 2024a)의 예시를 보여준다(다른 OLM에서도 유사한 행동을 보였으며, 자세한 내용은 Section 3.2 참조). 

  • 그림 1처럼, 같은 질문을 text, video, audio, image 어떻게 주냐에 따라 정답이 달라지고 그러는 현상이 있음
  • 특히 동일한 수학 질문을 이미지로 제시하거나 음성으로 제공하는 등 다양한 모달리티로 전달했을 때, 모델은 추론 과정이나 답변의 일관성이 크게 떨어지는 결과를 내놓았다. 
  • 이러한 관찰 결과는 OLM이 모달리티 간 정보를 효과적으로 통합하여 추론하는 능력이 부족하다는 점을 보여준다. 
  • 이러한 일관성 부족은 모델의 신뢰성을 저하시키고, 다양한 모달리티 조합에 걸친 성능 평가를 제대로 수행하지 못하는 기존 평가 벤치마크의 한계를 드러낸다.

이러한 중요한 평가의 격차를 해소하기 위해, 우리는 다양한 모달리티 전반에 걸친 OLM의 추론 성능을 벤치마킹하기 위해 설계된 평가 도구인 Omni×R을 소개한다. 

최대 두 개의 모달리티로 제한되었던 기존 벤치마크와 달리, Omni×R은 '비디오 + 오디오 + 텍스트', '이미지 + 오디오 + 텍스트' 등과 같이 복잡한 모달리티 조합을 포함한 포괄적인 테스트 환경을 제공하여, 모델의 능력을 보다 엄격하고 총체적으로 평가할 수 있도록 한다. 

구체적으로 Omni×R은 두 가지 하위 데이터셋으로 구성된다:

  • Omni×Rsynth: 확장 가능하고 비용 효율적인 자동 생성 방법(Omnify!)을 통해 텍스트 정보를 오디오, 이미지, 비디오 및 이들의 하이브리드 형태로 변환하여 만든 합성 추론 데이터셋.

  • Omni×Rreal: 실제 배포 환경에서의 다중 모달 간 추론 능력을 평가하기 위해 전문가가 직접 수집하고 주석을 달아 구성한 현실 세계 추론 데이터셋.

Omni×Rsynth를 구축하는 과정에서, Omnify!는 프로그램 기반 텍스트 렌더링 서비스, 비디오 제작 파이프라인, 최신 텍스트-음성 변환 기술을 사용하여 텍스트 기반 입력을 이미지, 오디오, 비디오 및 이들의 하이브리드 조합으로 변환한다. 이 확장 가능한 합성 데이터셋은 OLM이 다중 모달 간 추론 능력을 보여줄 수 있도록 다양하고 강력한 평가 환경을 제공한다. 

반면, Omni×Rreal은 현실적이고 자연스러운 배경에서 다중모달 추론 평가 환경을 제공한다. 특히 우리는 수학, 물리학, 화학, 코딩과 관련된 100개의 유튜브 비디오를 크롤링한 뒤, 비디오에서 나오는 퀴즈 질문을 여러 모달리티 형태로 변환하고 수동으로 주석을 추가했다. 두 하위 데이터셋을 통해 OLM이 서로 다른 모달리티 간 정보를 인간과 유사한 방식으로 얼마나 잘 통합하고 추론할 수 있는지 평가할 수 있다.

즉 기존 모델 및 프레임워크로 합성한 OmnixRsynth와 실제 비디오에서 레이블링한 OmnixReal 두가지 테스트 데이터세트를 만들었다는 것

우리는 Omni×R을 통해 최신 OLM을 평가하여 다음과 같은 중요한 발견을 얻었다. 특히 Omni×R은 다중모달 행동 불일치를 최초로 정량적으로 측정하는 벤치마크이며, 특히 여러 모달리티에 걸친 심도 있는 추론이 요구되는 상황에서 그러한 불일치가 두드러지게 나타났다. 

컨시스턴시를 측정하는 벤치마크인거 같은데.. 정답여부도 체크는 하겠지?

또한 Omni×Rsynth의 데이터 생성 논리를 활용한 간단한 프롬프팅 전략(즉, 정보를 추출한 다음 답변을 유도하는 ETA(Extract Then Answer) 프롬프팅)이 모델의 일관성과 정확도를 크게 향상시킬 수 있음을 발견했다. 

이러한 결과는 현재 OLM의 가장 큰 어려움이 모달리티를 가로지르는 총체적 이해 구축임을 시사한다. 하지만 Omni×Rreal과 같이 현실 세계의 자연스러운 노이즈가 혼합된 환경에서는 단순한 프롬프팅 전략만으로는 다중모달 행동의 불일치를 해결할 수 없으며, 추가적인 훈련이 필요하다는 점도 드러났다.

2. Omni×R 벤치마크

본 섹션에서는 텍스트를 오디오, 이미지, 비디오 및 이들의 조합을 포함한 다양한 모달리티로 변환하기 위해 설계된, 확장 가능하고 비용 효율적인 자동 생성 방법인 **Omnify!**를 소개한다. Omnify!의 주요 목표는 OLM이 다양한 모달리티를 아우르는 추론 능력을 평가할 수 있도록, 서로 다른 모달리티 간 동일한 정보를 유지하면서 확장 가능한 방식으로 다중모달 데이터를 생성하는 것이다.

우리는 Omni×R 벤치마크를 두 가지 하위 집합으로 구축했다:

(1) Omni×Rsynth: Omnify!를 MMLU-Pro(Wang et al., 2024)에 적용하여 만들어진 합성 다중모달 추론 평가 데이터셋.
(2) Omni×Rreal: 유튜브(Youtube)에서 수집한 데이터를 인간 전문가들이 추가적으로 가공 및 주석화하여 만든 현실 기반(real-world) 다중모달 추론 평가 데이터셋.

2.1. Omnify!

텍스트에서 이미지로 변환
텍스트를 이미지로 변환하는 방법에는 여러 가지가 있다. 예를 들어 Imagen-3(Baldridge et al., 2024) 또는 DALLE-3(OpenAI, 2024a) 같은 이미지 생성 모델을 활용할 수 있다. 그러나 이와 같은 매력적인 텍스트-이미지 생성 모델들은 품질 관리 측면에서 상당한 어려움을 초래한다. 즉, 생성된 이미지가 질문에 답하는 데 필요한 모든 정보를 담고 있는지 보장할 수 없다는 것이다. 생성된 이미지의 품질과 정보량을 평가하는 방법이 확립되지 않은 상황에서는, 텍스트-이미지 변환을 대규모로 적용하는 것이 실용적이지 않다. 본 연구의 주된 목적은 모델의 추론 능력을 평가하는 것이므로, 가장 간단한 접근법을 채택하였다: 캔버스(canvas)를 만들어 그 위에 글자를 직접 쓰는 방식이다. 우리는 이렇게 생성된 이미지를 입력으로 모델이 읽게 함으로써, 이상적인 상황(텍스트-이미지 변환 과정에서 노이즈나 정보 손실, 변형이 전혀 없는 상황)에서 텍스트를 읽는 것과 동일한 성능을 달성할 수 있을 것으로 기대한다. 구체적으로, 우리는 PIL을 사용하여 흰색 배경의 새로운 이미지를 생성하고, 여기에 검은색 글씨로 텍스트를 직접 렌더링한다. 더 자세한 엔지니어링 구현사항은 부록 I에서 확인할 수 있다.

텍스트에서 오디오로 변환
처음에는 Google Text-to-Speech(TTS)를 사용하여 텍스트를 오디오로 변환하는 방법을 시도하였다. 그러나 수학 방정식 처리 과정에서 여러 가지 문제가 발견되었다. 이 문제를 해결하기 위해 우리는 두 단계의 프로세스를 개발하였다. 첫 번째 단계에서는 원본 텍스트에 수학 방정식이 포함되어 있을 경우 이를 구어체로 쉽게 발음할 수 있는 형식으로 변환한다(자세한 변환 예시는 Table 7 참고). 이후 두 번째 단계에서는 TTS 엔진을 활용하여 원본 텍스트의 모든 정보가 포함된 오디오를 생성한다.

텍스트에서 비디오로 변환
텍스트-이미지 변환 모델과 마찬가지로, Sora(Brooks et al., 2024) 및 Veo(Google, 2024)와 같은 텍스트-비디오 생성 모델을 활용할 수 있다. 하지만 이러한 방법 역시 이미지 변환과 같은 문제점들, 즉 품질 관리의 어려움, 시간 소모 및 높은 연산 비용을 초래한다. 본 연구에서 비디오를 사용한 주요 목적은 모델이 일련의 이미지로 구성된 비디오 입력을 얼마나 잘 이해하고, 문제를 해결하기 위해 얼마나 효과적으로 추론할 수 있는지를 평가하는 것이다. 따라서 텍스트로부터 비디오 데이터를 생성하는 데 있어 다음과 같은 간단한 접근 방식을 사용하였다. 우선 앞서 언급한 이미지 생성 방식을 기반으로, 각 이미지에 텍스트의 한 단어나 여러 단어가 포함된 이미지 시리즈를 생성한다. 이를 통해 텍스트 정보를 완벽하게 비디오로 변환할 수 있다. 입력된 텍스트는 먼저 개별 단어로 분할된다. 이후 OpenCV를 이용하여 초당 1프레임(FPS)의 특정 프레임 속도와 프레임 크기(300x100 픽셀)를 가진 비디오 작성 객체를 생성한다. 각 단어는 앞서 언급된 텍스트-이미지 방식을 통해 이미지로 변환되고, 이렇게 생성된 이미지들을 순차적으로 결합하여 비디오 프레임을 만든다.
























Referene

댓글