NL-338, Mitigating Intra- and Inter-modal Forgetting in Continual Learning of Unified Multimodal Models, NeurIPS 2025
Abstract
Unified Multimodal Generative Models (UMGMs)는 시각 이해와 이미지 생성을 하나의 자기회귀 프레임워크로 통합하지만, 새로운 태스크를 지속적으로 학습할 때 동일 모달리티 내(intra-modal)뿐 아니라 서로 다른 모달리티 간(inter-modal)에서도 발생하는 catastrophic forgetting 문제로 인해 성능이 크게 저하된다. 기존 연구는 intra-modal forgetting에는 집중해왔으나 inter-modal forgetting은 충분히 다뤄지지 않았다. 본 논문은 이 현상을 실험적으로 확인하고, 모달리티 간 gradient conflict에서 비롯된다는 이론적 설명을 제시한다. 이를 해결하기 위해, 모달리티별 업데이트를 분리하여 gradient 충돌을 줄이고 knowledge distillation을 통해 기존 성능을 유지하는 경량 구조인 Modality-Decoupled Experts (MoDE)를 제안한다. MoDE는 기존 방법과 달리 모달리티를 명시적으로 분리하여 간섭을 방지하며, 다양한 벤치마크에서 intra- 및 inter-modal forgetting을 동시에 효과적으로 완화하여 기존 continual learning 방법들을 능가하는 성능을 보인다.
1 Introduction
전통적인 멀티모달 모델은 일반적으로 두 가지 범주로 나뉜다: 멀티모달 이해(예: 이미지에 대한 질문 응답)와 멀티모달 생성(예: 텍스트로부터 이미지 생성) . Unified Multimodal Generative Models (UMGMs)는 이 두 작업을 하나의 프레임워크 안에서 통합하는 것을 목표로 한다. 최근 UMGMs의 발전은 시각 질의응답(VQA), 이미지 캡셔닝, 시각적 추론, 분류, 독해, 이미지 생성 등 다양한 작업에서 강력한 성능을 보여주고 있다. 이러한 모델들은 일반적으로 다양한 입력을 공통 표현 공간에 임베딩하고, 하나의 transformer backbone을 사용하여 모달리티 간 상호작용을 모델링한다. 학습은 보통 두 단계로 진행되며, 먼저 텍스트–이미지 정렬을 위한 사전학습을 수행한 뒤, 다운스트림 태스크에 맞게 파인튜닝을 진행한다. 이 과정에서 다양한 지시문과 기대 출력 쌍으로 모델을 정렬하는 instruction tuning이 널리 사용되고 있다 .
UMGMs는 보지 못한 지시문에 대해서도 강력한 zero-shot 성능을 보이지만, 모든 태스크에서 일관된 성능을 보장하지는 못한다. 특히 특정 태스크 데이터가 사전학습에 포함되지 않은 경우 성능이 저하된다. 새로운 태스크 데이터를 추가하면 성능을 개선할 수 있지만, 지속적으로 증가하는 멀티모달 태스크를 모두 포함해 재학습하는 것은 계산 비용 측면에서 비효율적이다. 따라서 모델이 점진적으로 새로운 능력을 습득할 수 있는 방법이 필요하며, 이는 인간의 학습 방식과 유사한 continual learning의 관점과 맞닿아 있다 .
그러나 기존 연구에 따르면, 모델을 순차적으로 파인튜닝할 경우 catastrophic forgetting 문제가 발생한다. 즉, 새로운 태스크를 학습하면서 기존에 학습한 지식을 잃어버리는 현상이다. 최근에는 멀티모달 대형 언어 모델(MLLM)을 대상으로 continual instruction tuning을 연구한 사례도 있으나, 이들은 텍스트 출력에 제한되어 있어 VQA와 같은 이해 중심 태스크에만 초점을 맞춘다. 반면 UMGMs는 하나의 backbone에서 텍스트와 이미지를 모두 생성할 수 있는 구조로, 기존과는 본질적으로 다른 문제를 제기한다. 즉, 동일 모달리티 내에서의 forgetting뿐 아니라, 서로 다른 모달리티 간에서도 forgetting이 발생하는 새로운 문제가 존재한다 .
이러한 배경에서 본 논문은 다음과 같은 질문을 제기한다: UMGMs가 continual instruction tuning을 통해 새로운 능력을 학습하면서도, 동일 모달리티와 서로 다른 모달리티 간의 catastrophic forgetting을 모두 방지할 수 있는가?
Reference







댓글
댓글 쓰기