NL-338, Mitigating Intra- and Inter-modal Forgetting in Continual Learning of Unified Multimodal Models, NeurIPS 2025
Abstract Unified Multimodal Generative Models (UMGMs)는 시각 이해와 이미지 생성을 하나의 자기회귀 프레임워크로 통합하지만, 새로운 태스크를 지속적으로 학습할 때 동일 모달리티 내(intra-modal)뿐 아니라 서로 다른 모달리티 간(inter-modal)에서도 발생하는 catastrophic forgetting 문제로 인해 성능이 크게 저하된다. 기존 연구는 intra-modal forgetting에는 집중해왔으나 inter-modal forgetting은 충분히 다뤄지지 않았다. 본 논문은 이 현상을 실험적으로 확인하고, 모달리티 간 gradient conflict에서 비롯된다는 이론적 설명을 제시한다. 이를 해결하기 위해, 모달리티별 업데이트를 분리하여 gradient 충돌을 줄이고 knowledge distillation을 통해 기존 성능을 유지하는 경량 구조인 Modality-Decoupled Experts (MoDE)를 제안한다. MoDE는 기존 방법과 달리 모달리티를 명시적으로 분리하여 간섭을 방지하며, 다양한 벤치마크에서 intra- 및 inter-modal forgetting을 동시에 효과적으로 완화하여 기존 continual learning 방법들을 능가하는 성능을 보인다. 1 Introduction 전통적인 멀티모달 모델은 일반적으로 두 가지 범주로 나뉜다: 멀티모달 이해(예: 이미지에 대한 질문 응답)와 멀티모달 생성(예: 텍스트로부터 이미지 생성) . Unified Multimodal Generative Models (UMGMs)는 이 두 작업을 하나의 프레임워크 안에서 통합하는 것을 목표로 한다. 최근 UMGMs의 발전은 시각 질의응답(VQA), 이미지 캡셔닝, 시각적 추론, 분류, 독해, 이미지 생성 등 다양한 작업에서 강력한 성능을 보여주고 있다. 이러한 모델들은 일반적으로 다양한 입력을 공통 표현 공간에 임베딩하고, 하나의 transformer backbone을 사용하여 모달리...