Abstract

Unified Multimodal Generative Models (UMGMs)는 시각 이해와 이미지 생성을 하나의 자기회귀 프레임워크로 통합하지만, 새로운 태스크를 지속적으로 학습할 때 동일 모달리티 내(intra-modal)뿐 아니라 서로 다른 모달리티 간(inter-modal)에서도 발생하는 catastrophic forgetting 문제로 인해 성능이 크게 저하된다. 기존 연구는 intra-modal forgetting에는 집중해왔으나 inter-modal forgetting은 충분히 다뤄지지 않았다. 본 논문은 이 현상을 실험적으로 확인하고, 모달리티 간 gradient conflict에서 비롯된다는 이론적 설명을 제시한다. 이를 해결하기 위해, 모달리티별 업데이트를 분리하여 gradient 충돌을 줄이고 knowledge distillation을 통해 기존 성능을 유지하는 경량 구조인 Modality-Decoupled Experts (MoDE)를 제안한다. MoDE는 기존 방법과 달리 모달리티를 명시적으로 분리하여 간섭을 방지하며, 다양한 벤치마크에서 intra- 및 inter-modal forgetting을 동시에 효과적으로 완화하여 기존 continual learning 방법들을 능가하는 성능을 보인다.

1 Introduction

전통적인 멀티모달 모델은 일반적으로 두 가지 범주로 나뉜다: 멀티모달 이해(예: 이미지에 대한 질문 응답)와 멀티모달 생성(예: 텍스트로부터 이미지 생성) . Unified Multimodal Generative Models (UMGMs)는 이 두 작업을 하나의 프레임워크 안에서 통합하는 것을 목표로 한다. 최근 UMGMs의 발전은 시각 질의응답(VQA), 이미지 캡셔닝, 시각적 추론, 분류, 독해, 이미지 생성 등 다양한 작업에서 강력한 성능을 보여주고 있다. 이러한 모델들은 일반적으로 다양한 입력을 공통 표현 공간에 임베딩하고, 하나의 transformer backbone을 사용하여 모달리티 간 상호작용을 모델링한다. 학습은 보통 두 단계로 진행되며, 먼저 텍스트–이미지 정렬을 위한 사전학습을 수행한 뒤, 다운스트림 태스크에 맞게 파인튜닝을 진행한다. 이 과정에서 다양한 지시문과 기대 출력 쌍으로 모델을 정렬하는 instruction tuning이 널리 사용되고 있다 .

UMGMs는 보지 못한 지시문에 대해서도 강력한 zero-shot 성능을 보이지만, 모든 태스크에서 일관된 성능을 보장하지는 못한다. 특히 특정 태스크 데이터가 사전학습에 포함되지 않은 경우 성능이 저하된다. 새로운 태스크 데이터를 추가하면 성능을 개선할 수 있지만, 지속적으로 증가하는 멀티모달 태스크를 모두 포함해 재학습하는 것은 계산 비용 측면에서 비효율적이다. 따라서 모델이 점진적으로 새로운 능력을 습득할 수 있는 방법이 필요하며, 이는 인간의 학습 방식과 유사한 continual learning의 관점과 맞닿아 있다 .

그러나 기존 연구에 따르면, 모델을 순차적으로 파인튜닝할 경우 catastrophic forgetting 문제가 발생한다.

A comprehensive survey of continual learning: Theory, method and application

즉, 새로운 태스크를 학습하면서 이전에 학습한 지식을 잊어버리는 현상이다 . 최근에는 멀티모달 대형 언어 모델(MLLM)에 대해 continual instruction tuning을 적용하려는 시도도 있었지만, 이러한 모델들은 텍스트 출력에 제한되어 있어 VQA와 같은 멀티모달 이해 태스크에만 초점을 맞추고 있다. 반면, UMGMs는 하나의 backbone에서 멀티모달 이해와 생성을 모두 수행할 수 있으며, 텍스트와 이미지 두 가지 형태의 출력을 모두 생성할 수 있기 때문에 근본적으로 다른 패러다임을 형성한다. 이로 인해 새로운 문제가 발생하는데, 이는 continual instruction tuning 과정에서 동일 모달리티 내(intra-modal)뿐 아니라 서로 다른 모달리티 간(inter-modal)에서도 forgetting이 발생한다는 점이다

이러한 문제의식에서 출발하여, 우리는 다음과 같은 질문을 제기한다:
UMGMs는 continual instruction tuning을 통해 새로운 능력을 학습하면서도, 동일 모달리티(예: 멀티모달 이해)와 서로 다른 모달리티(예: 멀티모달 이해 성능을 향상시키면서 이미지 생성 능력을 유지) 모두에서 catastrophic forgetting 없이 학습할 수 있는가?

CPT로 멀티모달을 어떻게 학습해야하는가? 이런 관점인듯

Figure 1에서 보이듯이, UMGMs는 시각적 추론, 분류, VQA, 이미지 생성 등 다양한 태스크에서 catastrophic forgetting을 실제로 겪는다. 또한 기존 방법들은 intra-modal 또는 inter-modal forgetting 중 하나만 완화할 수 있을 뿐, 두 문제를 동시에 효과적으로 해결하지는 못한다.

이러한 근본적인 문제를 해결하기 위해, 우리는 Modality-Decoupled Experts (MoDE)를 제안한다. 이는 텍스트를 위한 modality-aware sparse mixture of LoRA adapters (T-MoE)와 이미지를 위한 단일 LoRA adapter (V-Adapter)를 포함하는 경량 아키텍처이다.
멀티모달 이해 태스크에서 발생하는 intra-modal forgetting은 T-MoE의 라우팅 메커니즘을 통해 적절한 expert를 선택적으로 활성화함으로써 완화된다. 한편 이미지 생성에서의 inter-modal forgetting은 모달리티 분리와 knowledge distillation을 통해 방지된다. 이때 사전학습된 모델(teacher)과 새롭게 추가된 이미지 LoRA(student) 간의 distillation을 활용한다. 또한 continual instruction tuning 동안에는 MoDE 구성 요소만 학습하고, 기존 UMGM 파라미터는 고정(frozen)하여 이미 학습된 강력한 cross-modal 정렬 능력을 유지한다. 이러한 설계를 통해 intra-modal과 inter-modal catastrophic forgetting을 동시에 완화할 수 있다.

본 논문의 기여는 다음과 같다:
(1) 멀티모달 이해와 생성을 통합한 autoregressive transformer에서, 기존 intra-modal forgetting뿐 아니라 inter-modal forgetting이라는 새로운 문제를 정의하고 분석한다. 또한 이를 modality gradient conflict로 설명하고, modality decoupling이 이를 완화함을 이론적으로 증명한다.
(2) 모달리티별 업데이트를 분리하고 knowledge distillation을 적용하여 두 가지 forgetting을 동시에 해결하는 경량 구조 MoDE를 제안한다.
(3) 다양한 실험을 통해 MoDE가 기존 SOTA 방법들보다 우수한 성능을 보이며, UMGMs에서의 확장 가능한 continual learning 가능성을 제시한다

근데 이 방법은 MoE 아키텍쳐에서만 적용 가능한 것 아닌가?

2 Related Work

2.1 Unified Multimodal Generative Models (UMGM)

초기 연구들은 시각적 이해와 생성을 통합하기 위해, diffusion 모델과 MLLM을 결합하는 방식을 주로 사용했다 . 이 접근법에서는 diffusion 과정이 LLM이 생성한 임베딩에 의해 조건화된다. 특정 작업에서는 효과적이지만, 이러한 “diffusion + MLLM” 구조는 이미지 생성과 언어 모델링 간의 결합이 느슨하여 instruction 기반 생성에서는 최적의 성능을 내지 못하는 한계가 있다 .

보다 최근의 접근법들은 이해와 생성을 모두 다음 토큰 예측(next-token prediction) 문제로 통합한다 . 이러한 모델들은 인코더와 디코더 설계에서 차이를 보이는데, 일부는 VQGAN과 같은 비전 토크나이저를 사용하여 이미지를 이산 토큰 시퀀스로 변환하고, 다른 일부는 CLIP이나 SigLIP과 같은 의미 기반 인코더를 사용하여 이미지를 연속적인 임베딩 시퀀스로 표현한다 . 디코더는 일반적으로 VQ-VAE 또는 diffusion 기반 생성기를 사용하지만, 공통적으로 autoregressive transformer backbone을 유지한다.

본 논문에서 제안하는 방법은 이러한 transformer 기반 UMGMs를 대상으로 하며, 인코딩 또는 디코딩 방식의 선택과 무관하게 다양한 구조에 적용 가능하다 .

2.2 Mixture of Experts (MoE)

Mixture of Experts(MoE) 아키텍처는 여러 개의 전문화된 expert와 이를 선택하는 gating 메커니즘을 결합하여, 토큰을 효율적으로 적절한 expert에 할당하는 구조이다 . 최근에는 MoE를 LoRA와 결합하여 대형 언어 모델(LLM) 및 멀티모달 모델(MLLM)의 확장성과 학습 효율성을 높이려는 연구들이 활발히 이루어지고 있다 .

또한 MoE의 확장성과 모듈성 덕분에, continual learning 분야에서도 점점 더 많은 관심을 받고 있다 . 예를 들어, Lifelong-MoE는 기존 expert를 고정한 상태에서 새로운 expert를 추가로 학습하는 전략을 제안한다. 그러나 기존 MoE 기반 continual learning 방법들은 모든 모달리티에서 동일한 expert 집합을 공유하는 구조를 사용하기 때문에, 멀티모달 생성 과정에서 모달리티 간 간섭(modality interference)이 발생하고, 이는 inter-modal forgetting을 더욱 악화시키는 문제를 초래한다 .

이러한 한계를 해결하기 위해, 본 논문에서는 LoRA 기반 MoE를 모달리티별로 분리하는 구조를 제안한다. 이를 통해 모달리티 간 간섭으로 인해 발생하는 inter-modal forgetting과, 각 모달리티 내부에서 발생하는 intra-modal forgetting을 동시에 완화하고자 한다 .

2.3 Catastrophic Forgetting

Catastrophic forgetting은 multimodal continual instruction tuning(MCIT)에서 여전히 핵심적인 문제로 남아 있다. MCIT에서는 멀티모달 생성 모델을 새로운 데이터셋과 태스크 지시에 맞춰 점진적으로 적응시키되, 처음부터 다시 학습하는 비용을 피하는 것이 목표이다.

이 문제를 해결하기 위한 기존 방법들은 크게 네 가지 범주로 나뉜다: regularization 기반 방법, architecture 기반 방법, replay 기반 방법, 그리고 prompt 기반 방법이다 .

replay 기반: Adapt-$\infty $: Scalable continual multimodal instruction tuning via dynamic data selection

예를 들어, EProj는 이전 태스크에 중요한 파라미터 업데이트를 제한하기 위해 태스크 유사도 기반 정규화를 적용한다. Fwd-Prompt는 텍스트와 시각 정보를 모두 활용하여 적절한 프롬프트를 선택함으로써 이전 지식을 유지한다. LLaCA는 기존 모델과 새로운 모델의 가중치를 지수 이동 평균(EMA) 방식으로 결합하여, 과거 태스크 성능과 사전학습 능력을 동시에 보존한다.

그러나 이러한 방법들은 주로 intra-modal catastrophic forgetting만을 다룬다. 즉, 이전 태스크, 새로운 태스크, 그리고 사전학습된 능력이 모두 동일한 출력 모달리티(대부분 텍스트)에 속하는 경우를 가정한다 . 이러한 가정은 텍스트 출력만을 사용하는 기존 멀티모달 모델에는 적합하지만, 텍스트와 이미지를 모두 생성할 수 있는 UMGMs에는 충분하지 않다.

3. Inter-modal Catastrophic Forgetting in UMGMs

Inter-modal catastrophic forgetting은 여러 형태로 나타날 수 있다. 예를 들어, 기존 연구에서는 MLLM이 원래의 LLM에 비해 텍스트 생성 능력을 잃는 현상을 분석하였다. 또 다른 연구들은 UMGMs에서 인코더나 어댑터 수준의 모달리티 분리 전략을 탐구하였다. 본 논문에서는 멀티모달 태스크에 초점을 맞추며, 특히 이해 태스크로 파인튜닝할 때 이미지 생성 능력이 저하되는 문제를 다룬다. 반대로 이미지 생성 태스크로 파인튜닝할 때 이해 성능이 저하되는 결과는 Appendix F에 제시한다 .

UMGMs에서 inter-modal catastrophic forgetting을 분석하기 위해, 저자들은 Chameleon 모델을 세 개의 VQA 데이터셋에 대해 순차적으로 LoRA로 파인튜닝하고, 동시에 프롬프트 기반 이미지 생성 성능을 평가하는 실험을 수행하였다.

Figure 2에서 보이듯이, 파인튜닝이 진행될수록 다음 두 가지 문제가 관찰된다:

전체적인 이미지 품질이 크게 저하됨
생성된 이미지와 입력 프롬프트 간의 정렬(alignment)이 점점 악화됨

VQA 파인튜닝할수록 이미지 생성능력이 저하됨을 보여줌

예를 들어, “A photo of a car”라는 프롬프트에 대해 자동차가 아니라 건물이 생성되는 경우가 발생한다. 이는 프롬프트와 이미지 간 정렬이 무너지고 있음을 의미한다 .

이러한 결과는, UMGMs가 멀티모달 이해 태스크를 순차적으로 학습할 때 inter-modal catastrophic forgetting이 실제로 발생함을 보여준다. 그 원인은 UMGMs가 텍스트와 이미지 모달리티를 공유된 파라미터를 가진 단일 아키텍처(예: transformer)로 처리하기 때문이다. 특정 모달리티(예: 텍스트)에 대해 파라미터를 업데이트하면, 그 변화가 다른 모달리티(예: 이미지)에 부정적인 영향을 미친다 .

이를 정식화하기 위해, 논문에서는 modality gradient conflict라는 개념을 정의한다.

Definition 1 (Modality Gradient Conflict).
이미지 생성 loss의 gradient를 ( g_v = \nabla_\theta L_v ), 텍스트 생성 loss의 gradient를 ( g_t = \nabla_\theta L_t )라 하자. 두 gradient가 다음 조건을 만족하면 서로 충돌(conflict)한다고 정의한다:

[
\langle g_v, g_t \rangle < 0
]

여기서 ( \langle \cdot, \cdot \rangle )는 유클리드 내적을 의미한다 .

이제 텍스트 생성 태스크에 대해 SGD 업데이트를 수행한다고 가정하자. 즉, 학습률 ( \eta )에 대해 파라미터는 다음과 같이 업데이트된다:

[
\theta \leftarrow \theta - \eta g_t
]

이때 이미지 loss의 변화는 다음과 같이 나타난다.

Proposition 1.
이미지 loss의 변화는 다음과 같다:

여기서 ( H_v = \nabla_\theta^2 L_v )는 이미지 loss의 Hessian이다.
따라서 만약 ( \langle g_t, g_v \rangle < 0 )라면, 텍스트 최적화를 위한 업데이트는 이미지 loss를 증가시키며, 이는 inter-modal forgetting으로 이어진다 .

이 수식에 대해 이해를 해보자

테일러 2차전개하여 유도한거다
즉 2번째 텀은 n^2이 있어서 무시한다면, 첫번째 텀이 중요한데
이 첫번째 텀이 양수냐 음수냐에 따라 inter-modal forgetting이 일어나는 주 원임을 보여주는 것
따라서 해결 방법으로 백본인 공유 파라미터는 고정하고, 텍스트랑 이미지에 해당하는 전용 파라미터를 두겠다는 것

이 분석을 바탕으로, 저자들은 모달리티 간 gradient 충돌이 inter-modal forgetting의 근본 원인임을 주장한다. 이를 해결하기 위해, 본 논문에서는 MoDE(Modality-Decoupled Experts)를 제안한다. 이 구조는 모달리티별 업데이트를 분리하여 1차 항의 gradient 충돌을 제거하고, 이론적으로도 inter-modal catastrophic forgetting을 완화할 수 있음을 보인다 .

4. Methodology

4.1 Problem Formulation

Continual instruction tuning.
UMGM이 풍부한 vision-language 데이터로 사전학습되어 있으며, 그 파라미터를 ( \theta )라고 하자. 이후 이 모델을 새로운 ( S )개의 태스크에 대해 순차적으로 학습한다고 가정한다. 각 태스크는 ( \tau \in {1, 2, ..., S} )로 표현되며, 다음과 같은 데이터셋을 가진다:

[
D_\tau = {(X^{img}{\tau,j}, X^{ins}{\tau,j}, X^{ans}{\tau,j})}{j=1}^{N_\tau}
]

여기서

( X^{img} ): 입력 이미지 토큰
( X^{ins} ): instruction 텍스트 토큰
( X^{ans} ): 정답 텍스트 토큰

을 의미한다 .

태스크 ( \tau )에 대한 학습은 다음과 같은 자기회귀(autoregressive) cross-entropy 목적함수로 정의된다:

여기서

( L ): 정답 시퀀스 길이
( X^{ans}_{<i} ): i번째 이전까지의 정답 토큰

을 의미한다 .

Image generation.
이미지 생성에서는 입력으로 텍스트 프롬프트 ( X^{ins} )가 주어지고, 모델은 이미지 토큰 ( X^{img} )을 자기회귀적으로 생성한다. 이 과정은 다음과 같이 표현된다:

여기서

( L ): 이미지 토큰 시퀀스 길이
( X^{img}_{<i} ): i번째 이전까지의 이미지 토큰

을 의미한다 .

모든 이미지 토큰이 생성된 이후에는, VQ-VAE와 같은 디코더를 통해 토큰 시퀀스를 실제 이미지로 복원한다.

CIT로는 VQA로 학습하는건데, 인퍼런스상 Image generation에 대해서도 수식을 보여준 것

4.2 Modality-Decoupled Experts (MoDE)

MoE 어댑터는 입력을 소수의 expert 네트워크로 라우팅하는 경량 모듈로, 공유 파라미터에 대한 간섭을 최소화하면서 태스크별 적응을 가능하게 한다 . MoE 어댑터는 intra-modal catastrophic forgetting을 완화하는 데 효과적이지만, 이를 모든 모달리티에서 공유하면 modality gradient conflict가 발생할 수 있다(Section 3 참고). 이를 해결하기 위해, 우리는 Modality-Decoupled Experts (MoDE)를 제안한다. 이는 모달리티별 업데이트를 서로 다른 학습 공간으로 분리하는 모달리티 분리 어댑터 구조이다.

Figure 3에서 보이듯이, MoDE는 모달리티 간 gradient 충돌을 완화하면서도 MoE 어댑터의 유연성과 확장성을 유지한다 .

LoRA.
LoRA는 고정된 가중치 행렬 $W \in \mathbb{R}^{d_{out} \times d_{in}}$에 대해 학습 가능한 저랭크 업데이트를 추가한다. 이 업데이트는 두 개의 학습 가능한 저랭크 행렬 $A \in \mathbb{R}^{r \times d_{in}}$와 $B \in \mathbb{R}^{d_{out} \times r}$로 파라미터화된다:

여기서 $A$와 $B$는 $r \ll \min(d_{in}, d_{out})$를 만족하는 저랭크 행렬이며, $\alpha \in \mathbb{R}$는 스케일링 계수이다. 입력 토큰 표현 $h \in \mathbb{R}^{d_{in}}$가 주어졌을 때, 수정된 선형 변환 $f : \mathbb{R}^{d_{in}} \rightarrow \mathbb{R}^{d_{out}}$는 다음과 같다:

MoE-LoRA.
MoE-LoRA는 여러 개의 LoRA 모듈을 expert로 사용하는 구조로 LoRA를 일반화한 것이다. 각 입력 토큰 $x \in \mathbb{R}^{d_{in}}$는 router를 통해 expert들에 대한 soft 분포를 가진다:

여기서 $W_g \in \mathbb{R}^{d_{in} \times n}$은 trainable gating matrix이며, $n$은 expert 수를 의미하고, $g_j(x)$는 j번째 expert의 선택 확률이다. 이에 따른 업데이트 $\Delta W(x)$는 다음과 같이 각 expert 업데이트의 가중합으로 표현된다:

여기서 각 expert는 $A_j \in \mathbb{R}^{r \times d_{in}}$, $B_j \in \mathbb{R}^{d_{out} \times r}$를 가진다. 입력 표현 $h \in \mathbb{R}^{d_{in}}$에 대해 최종 선형 변환은 다음과 같다:

MoDE.
MoDE는 위 두 가지 적응 방식을 UMGMs에 통합하며, Figure 3과 같이 구성된다.
V-Adapter는 이미지 토큰을 위한 LoRA 모듈로, 이미지 이해와 생성 모두에 적응한다. 반면 T-MoE는 텍스트 토큰에 적용되는 MoE-LoRA로, 멀티모달 이해 태스크에서 continual instruction tuning을 강화하면서 시각 정보에는 영향을 주지 않도록 설계된다. 이 두 구성 요소는 하나의 멀티모달 backbone 내에서 모달리티별 적응(V-Adapter)과 태스크별 유연성(T-MoE)을 동시에 달성한다 .

멀티모달 토큰의 forward pass를 수식으로 나타내면 다음과 같다.
고정된 선형 레이어 $W \in \mathbb{R}^{d_{out} \times d_{in}}$를 고려하고, 길이 $N$의 interleaved 시퀀스 hidden state를 다음과 같이 정의한다:

$H = [h^t_1, \dots, h^t_m, h^i_{m+1}, \dots, h^i_{m+L}, h^t_{m+L+1}, \dots, h^t_N] \in \mathbb{R}^{N \times d_{in}}$

여기서 아래첨자는 위치를, 위첨자 $t$와 $i$는 각각 텍스트와 이미지 모달리티를 의미한다. 이를 다음과 같이 분리한다:

$H^t = [h^t_{m+L+1}, \dots, h^t_N], \quad H^i = [h^i_{m+1}, \dots, h^i_{m+L}]$

그 후, $H^i$는 Eq. (5)를 이용해 V-Adapter에 입력되어 $\hat{H}^i = f(H^i)$를 얻고, $H^t$는 Eq. (8)을 이용해 T-MoE에 입력되어 $\hat{H}^t = f(H^t)$를 얻는다. 마지막으로 $\hat{H}^i$와 $\hat{H}^t$를 원래 위치로 다시 결합하여 출력 시퀀스 $\hat{H}$를 구성한다 .

따라서 MoDE는 모달리티를 명확하게 분리한다: 텍스트 토큰은 expert 기반 다양성을 활용하여 continual instruction tuning에 도움을 받고, 이미지 토큰은 별도의 visual adapter를 통해 처리된다. T-MoE와 V-Adapter가 분리되어 있기 때문에, 두 업데이트 방향은 서로 간섭하지 않는다 .

Proposition 2.
MoDE에서 T-MoE의 파라미터를 $\phi$, V-Adapter의 파라미터를 $\psi$라 하자. 텍스트 loss에 대한 gradient step $\theta \leftarrow \theta - \eta \nabla_\phi L_t$는 $\phi$만 업데이트하며, 이때 이미지 loss 변화는 다음과 같다:

따라서 MoDE는 inter-modal 간섭을 $O(\eta^2)$ 수준으로 제한하며, 이는 Proposition 1에서의 modality-coupled 구조의 $O(\eta)$에 비해 훨씬 작은 값이다. 이러한 이론적 특성은 gradient conflict 감소와 이미지 생성 성능 유지에 대한 실험 결과를 설명한다 .

4.3 Knowledge Distillation

Instruction tuning 동안, V-Adapter는 이미지 이해 능력을 학습하게 되는데, 이 과정에서 원래의 이미지 생성 능력이 저하될 수 있다. 이를 방지하기 위해, 우리는 고정된 사전학습 backbone(teacher)을 기준(anchor)으로 삼아, 새로운 모델(student)의 V-Adapter에 대해 logit 수준의 knowledge distillation(KD)을 적용한다 (Figure 3 참고) .

LAION-5B 데이터셋에서 샘플링한 소규모 이미지 집합을 reference 데이터로 사용한다. 각 reference 토큰에 대해 teacher(T)와 student(S)는 다음 이미지 토큰을 예측하며, 각각의 logits를 $z_i^T$, $z_i^S$라고 하자. temperature(softening factor) $\beta$를 사용하여, KD loss $L_{KD}$는 다음과 같이 두 분포 간의 Kullback–Leibler divergence로 정의된다:

여기서 $L$은 생성되는 이미지 토큰의 길이이며, $\parallel$은 두 확률 분포 간의 거리(발산)를 의미한다 .

최종 목적 함수.

T-MoE는 Eq. (2)에서 정의된 instruction tuning cross-entropy loss $L_{CE}$로 학습된다:

한편, V-Adapter는 cross-entropy loss와 distillation loss를 결합하여 학습된다:

이 결합된 목적 함수는 이미지 이해를 위한 업데이트와 이미지 생성 능력 보존 사이의 균형을 맞추며, 결과적으로 inter-modal catastrophic forgetting을 완화한다. 실험에서는 $\lambda = 0.3$을 사용하며, 이는 성능 최적화 결과에 기반한 값이다 .

핵심만 정리한다.

5. Experiments 핵심 요약

1. 사용 데이터 (Tasks)

Continual instruction tuning

VQA 계열 4개
- ScienceQA
- TextVQA
- GQA
- VizWiz
분류 1개
- ImageNet

Image generation 평가

CustomConcept101 (텍스트 → 이미지 생성 평가용)

2. 평가 지표 (Metrics)

멀티모달 이해 (텍스트 출력)

Accuracy (ACC) ↑
Forgetting (Fgt) ↓
→ 과거 task 성능이 얼마나 떨어졌는지

이미지 생성

Text alignment ↑
→ 텍스트-이미지 정렬 (CLIP)
Image alignment ↑
→ 이미지-레퍼런스 정렬
FID ↓
→ 이미지 품질 (낮을수록 좋음)

3. 주요 비교 방법 (Baselines)

Seq LoRA (순차 학습)
Model Tailor
DualPrompt
MoE-LoRA
CL-MoE
Joint training (upper bound)

4. 핵심 결과 (Table 1 기준)

(1) Inter-modal forgetting (이미지 생성)

기존 방법:
- FID 크게 증가 (품질 나빠짐)
- alignment 감소
MoDE
- FID ≈ pretrain 수준 유지 (53.74 vs 52.13)
- alignment도 유지

👉 결론
→ image generation 거의 안 망가짐

(2) Intra-modal (텍스트 task)

MoDE:
- Accuracy 최고 (33.47)
- Forgetting도 낮음

👉 결론
→ 텍스트 task도 잘 학습 + 덜 잊음

(3) Baseline 문제점

DualPrompt
- forgetting 낮지만 → 사실 성능 자체가 낮음
  → “못 배워서 안 잊는 케이스”
MoE-LoRA / CL-MoE
- 텍스트 성능은 괜찮음
- BUT 이미지 생성 심각하게 붕괴 (FID 매우 나쁨)

👉 결론
→ 기존 방법은

intra만 해결하거나
inter만 유지하거나
→ 둘 다 동시에 못함

5. 핵심 Finding

① Inter-modal forgetting은 실제로 심각하다

텍스트 학습 → 이미지 생성 붕괴

② 원인은 modality gradient conflict

공유 파라미터 때문에 충돌 발생

③ MoDE 효과

modality decoupling → conflict 제거
KD → generation 유지

👉 결과:

intra + inter forgetting 동시에 해결

6. Conclusion

본 논문에서는 Unified Multimodal Generative Models (UMGMs)의 continual instruction tuning 과정에서 발생하는 intra-modal 및 inter-modal catastrophic forgetting을 동시에 해결하기 위해 Modality-Decoupled Experts (MoDE)를 제안하였다 .

우리는 inter-modal forgetting이라는 문제를 새롭게 정의하고, 그 원인이 modality gradient conflict에 있음을 설명하였다. 또한 모달리티별 업데이트를 분리하는 MoDE 구조를 설계함으로써, 이러한 충돌을 이론적·실험적으로 완화할 수 있음을 보였다 .

광범위한 실험을 통해 MoDE는 기존 최신 방법들보다 우수한 성능을 보였으며, 이를 통해 unified multimodal generation 모델에서의 확장 가능한 continual learning을 위한 효과적인 해결책임을 입증하였다 .

Reference

https://arxiv.org/pdf/2512.03125

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-338, Mitigating Intra- and Inter-modal Forgetting in Continual Learning of Unified Multimodal Models, NeurIPS 2025

Abstract

1 Introduction

2 Related Work

2.1 Unified Multimodal Generative Models (UMGM)

2.2 Mixture of Experts (MoE)

2.3 Catastrophic Forgetting

3. Inter-modal Catastrophic Forgetting in UMGMs

4. Methodology

4.1 Problem Formulation

4.2 Modality-Decoupled Experts (MoDE)

4.3 Knowledge Distillation

5. Experiments 핵심 요약

1. 사용 데이터 (Tasks)

2. 평가 지표 (Metrics)

3. 주요 비교 방법 (Baselines)

4. 핵심 결과 (Table 1 기준)

(1) Inter-modal forgetting (이미지 생성)

(2) Intra-modal (텍스트 task)

(3) Baseline 문제점

5. 핵심 Finding

① Inter-modal forgetting은 실제로 심각하다

② 원인은 modality gradient conflict

③ MoDE 효과

6. Conclusion

댓글

댓글 쓰기