NL-338, Mitigating Intra- and Inter-modal Forgetting in Continual Learning of Unified Multimodal Models, NeurIPS 2025

이미지
Abstract Unified Multimodal Generative Models (UMGMs)는 시각 이해와 이미지 생성을 하나의 자기회귀 프레임워크로 통합하지만, 새로운 태스크를 지속적으로 학습할 때 동일 모달리티 내(intra-modal)뿐 아니라 서로 다른 모달리티 간(inter-modal)에서도 발생하는 catastrophic forgetting 문제로 인해 성능이 크게 저하된다. 기존 연구는 intra-modal forgetting에는 집중해왔으나 inter-modal forgetting은 충분히 다뤄지지 않았다. 본 논문은 이 현상을 실험적으로 확인하고, 모달리티 간 gradient conflict에서 비롯된다는 이론적 설명을 제시한다. 이를 해결하기 위해, 모달리티별 업데이트를 분리하여 gradient 충돌을 줄이고 knowledge distillation을 통해 기존 성능을 유지하는 경량 구조인 Modality-Decoupled Experts (MoDE)를 제안한다. MoDE는 기존 방법과 달리 모달리티를 명시적으로 분리하여 간섭을 방지하며, 다양한 벤치마크에서 intra- 및 inter-modal forgetting을 동시에 효과적으로 완화하여 기존 continual learning 방법들을 능가하는 성능을 보인다.  1 Introduction 전통적인 멀티모달 모델은 일반적으로 두 가지 범주로 나뉜다: 멀티모달 이해(예: 이미지에 대한 질문 응답)와 멀티모달 생성(예: 텍스트로부터 이미지 생성) . Unified Multimodal Generative Models (UMGMs)는 이 두 작업을 하나의 프레임워크 안에서 통합하는 것을 목표로 한다. 최근 UMGMs의 발전은 시각 질의응답(VQA), 이미지 캡셔닝, 시각적 추론, 분류, 독해, 이미지 생성 등 다양한 작업에서 강력한 성능을 보여주고 있다. 이러한 모델들은 일반적으로 다양한 입력을 공통 표현 공간에 임베딩하고, 하나의 transformer backbone을 사용하여 모달리...

Audio 010, CosyVoice 3: Towards In-the-wild Speech Generation via Scaling-up and Post-training, Preprint 2025

Abstract 본 연구의 이전 작업에서 우리는 대규모 언어 모델(LLM)과 chunk-aware flow matching(FM) 모델을 결합한 확장 가능한 스트리밍 음성 합성 모델인 CosyVoice 2를 제안하였으며, 낮은 지연(latency)의 양방향 스트리밍 음성 합성과 인간 수준의 품질을 달성하였다. 그러나 이러한 발전에도 불구하고 CosyVoice 2는 언어 커버리지, 도메인 다양성, 데이터 규모, 텍스트 형식, 그리고 후속 학습(post-training) 기법 측면에서 한계를 보인다. 본 논문에서는 실제 환경(in-the-wild)에서의 제로샷 다국어 음성 합성을 목표로 하는 개선된 모델 CosyVoice 3를 제안한다. CosyVoice 3는 내용 일관성(content consistency), 화자 유사도(speaker similarity), 그리고 운율 자연스러움(prosody naturalness) 측면에서 기존 모델을 능가한다. CosyVoice 3의 주요 특징은 다음과 같다. 운율의 자연스러움을 향상시키기 위한 새로운 음성 토크나이저를 제안하며, 이는 음성 인식, 감정 인식, 언어 식별, 오디오 이벤트 탐지, 화자 분석을 포함한 지도 기반 다중 작업 학습을 통해 개발된다. CosyVoice 3뿐 아니라 다른 LLM 기반 음성 합성 모델에도 적용 가능한 새로운 미분 가능한 보상 모델(differentiable reward model)을 제안한다. 데이터 규모 확장: 학습 데이터를 1만 시간에서 100만 시간으로 확대하고, 9개 언어와 18개의 중국 방언을 포함하여 다양한 도메인과 텍스트 형식을 포괄한다. 모델 규모 확장: 파라미터를 0.5B에서 1.5B로 증가시켜 더 큰 모델 용량을 통해 다국어 벤치마크에서 성능을 향상시킨다. 이러한 발전은 실제 환경에서의 음성 합성 기술 진전에 크게 기여한다.  1 Introduction 생성 신경망의 급속한 발전과 함께 텍스트-음성 변환(TTS) 기술은 큰 진전을 이루었으며...

NL-328, ARR 202601

Horses for Courses: Implicit Emotion Analysis with Contextual and Personalized Awareness ◼ Comment 요약 본 논문은 암묵적 감정 분석을 위해 독자(사용자)의 프로필과 과거 행동을 활용하여, LLM 기반 Reader Agent로 사용자별 감정 피드백과 감정 평점을 생성하는 프레임워크를 제안한다. 생성된 감정 표현은 팔로잉 관계와 댓글 관계에 기반한 다중-뷰 전파를 통해 사회적·맥락적 정보를 반영하도록 확장된다. 최종적으로 이러한 통합 감정 표현을 사용해 감정을 분류한다. 강점 사용자의 관점을 모델링하기 위해, 사회적 맥락 정보를 활용해 감정 분류의 성능을 향상시킨다. LLM을 supervision이 아닌 중간 신호 생성기로 사용하여, 암묵적 감정이라는 직접 라벨링이 어려운 문제를 연속적인 감정 평점과 자연어 피드백으로 우회적으로 모델링한다. 단점 독자 인식에 대한 동기와 학습 목표 간의 불일치 본 논문은 동일한 콘텐츠가 독자에 따라 다르게 인식될 수 있음을 핵심 동기로 제시하지만, 실제 학습에서는 독자와 무관한 고정된 감정 레이블을 예측하도록 설계되어 있다. 이로 인해 독자별 감정 차이를 모델링하려는 문제 설정과, 단일 감정 레이블 분류라는 학습 목표 사이에 개념적 불일치가 존재한다. LLM 의존도가 높은 전체 파이프라인 설계 제안한 방법은 LLM을 활용해 감정 평점과 감정 피드백을 생성함으로써 정보량을 확장하지만, 이로 인해 LLM에 의존하게 된다. 특히 추론 단계에서도 이러한 LLM 기반 과정이 요구된다면, 모델의 실용성과 안정성 측면에서 한계가 발생할 수 있다. LLM 생성 감정 신호의 신뢰성 검증 부족 섹션 3.2에서 사용되는 LLM 기반 감정 평점과 감정 레이블은 핵심 중간 신호임에도 불구하고, 이들의 정확성이나 일관성에 대한 정량적 검증이 충분히 제공되지 않는다.  과도하게 많은 비교 모델과 제한적인 설명 표 1에는 다양한 비교 모델들이 포함되어 있으나, 각 ...