◼ Comment

논문의 내용은 멀티모달 의도 클러스터링 테스크를 해결하는 것이다.
이 분야는 잘 모르지만 논문은 나쁘지 않았다.
즉 데이터 하나가 text+video+audio가 한 쌍이고, 여러 데이터가 주어졌을 때, 클러스터링을 하는 문제이다.
그러기 위해서는 멀티모달 임베딩을 잘해야한다.

그 방법으로 제안한 게, 멀티모달 unsupervised pre-training이다.
핵심내용은 하나씩 모달리티를 빼서 augmentation하는 느낌이다.
text+audio+video feature = text+audio+video-zero feature
text+audito+video feature = text+audio+zero+video feature
위처럼, 하나의 멀티모달을 zero feature로 만들고 이게 같은 임베딩으로 되는 게 학습시키는 것이다.
여기서 각 모달리티들의 PLM을 사용하는데, text, video, audio 각각 bert, swin transformer, WavLM을 사용한다고 한다.

그 다음으로는 k-means++ 클러스터링을 한다.

근데 이것만으로는 부족해서, iteration하게 더 강화되는 알고리즘을 제안한다.
그게 density을 이용하는것인데 같은 클러스터로 10개의 데이터가 묶였다고 하자.
각 데이터끼리의 거리를 계산해서, 그 기반으로 고품질을 비율 t로 필터링한다.
직관적으로 다른 데이터와 평균 거리가 가까운 데이터들을 고품질로 간주하는 것
이렇게 고품질로 된 것에 대해서는 같은 클래스라고 확신을 하고, training을 다시한다.
그러면 멀티모달 모델들이 전체적으로 업데이트되고 이는 더 나은 임베딩을 만들 것이다.
그러면 위와 같은 작업을 한다.
작업이 진행되면서 고품질 샘플링하는 비율 t가 증가한다.

질문 포인트

pretraining에서 text 빼는건 왜 안하지?
정확히 K을 어떻게 설정? 각 클러스터의 최종 K 값은 가장 높은 cohension을 얻는 후보를 기반으로 결정됩니다.
K에 따른 분석이 필요해 보임
근데 classification모델하고는 비교 안하는지?
테이블 2,3 언급해주는게 좋음
pre-training의 데이터세트는 근데 뭐지? 다른 멀티모달 데이터로 하는게 일반적일거 같은데

0 Abstract

Multimodal intent discovery은 현실 세계의 다중모달 데이터 분석을 통해 인간의 의도를 파악하는 중요한 작업입니다.
기존의 의도 발견 알고리즘은 비언어적 정보를 활용하여 군집화를 개선하는 능력이 제한되어 있습니다.
본 논문에서는 이 작업에 혁신적인 기여를 하는 새로운 multimodal clustering method인 MMC를 제안합니다.
MMC는 우선 다중모달 데이터에 대한 부가적인 시각을 제공하는 방법론을 제시합니다.
이 부가적인 다중모달 데이터를 활용하여 군집화에 이어지는 잘 초기화된 표현을 구축하기 위해 사전 훈련을 진행합니다.
그런 다음 혁신적인 고품질 샘플 선택 전략을 도입합니다.
이 전략은 각 샘플의 최근접 이웃의 밀도를 기반으로 상위 고품질 샘플의 비율을 동적으로 선택합니다.
더 나아가 각 군집의 최적의 상위 K 매개변수 값을 자동으로 결정하여 샘플 선택을 미세 조정합니다.
마지막으로 high-quality and low-quality 샘플을 모두 활용하여 효과적인 군집화를 위한 표현을 학습합니다.
이 접근법의 타당성을 입증하기 위해 중요한 multimodal intent and dialogue act 데이터셋에서 벤치마크를 수립합니다.
제안된 방법은 기존의 최첨단 텍스트 군집화 방법보다 상당한 성능 향상을 보여주며, 이 연구 분야에서의 첫 번째 성공적인 시도를 나타냅니다.

1 Introduction

Multimodal intent discovery은 다중 모달 언어 이해에서 중요한 역할을 합니다.
여러 모달리티(텍스트, 비디오, 오디오 등)에서 정보를 효과적으로 활용하여 인간 언어에 내재된 복잡한 의미를 분석하여 서로 다른 잠재적 의도별 클러스터를 발견하는 것이 필요합니다.
이는 고객 서비스 시스템, 가상 어시스턴트, 콘텐츠 추천 엔진 등 다양한 응용 프로그램에서 사용자 상호 작용과 행동을 분류하는 데 도움이 됩니다.
Intent discovery은 자연어 처리(NLP)의 중요한 작업 중 하나로, 기본적으로 클러스터링 작업으로 작용합니다.

이 작업은 많은 효과적인 방법들이 개발되어 왔고, 비지도 학습(Unsupervised) 및 반지도 학습(Semi-supervised) 설정에서 모두 주목 받았습니다.
그러나 이러한 방법들은 주로 텍스트만 다루는 모달리티를 대상으로 설계되어 있으며, 실제 상황에서 다양한 모달리티를 다루는 데는 부적합합니다.
인간의 의도를 이해하기 위해 다중 모달 정보를 활용하기 위해 연구자들은 multimodal dialog act 및 multimodal intent와 같은 벤치마크 데이터셋을 만들었습니다.
그러나 이러한 데이터셋은 주로 recognition 작업에 사용되어 왔으며, 최신 다중 모달 융합 방법을 활용합니다.

텍스트 기반 intent discovery 및 multimodal intent recognition의 발전에도 불구하고, 효과적인 다중 모달 의도 발견 방법의 개발에는 여전히 상당한 공백이 존재합니다.
이 분야는 주로 두 가지 주요 도전 과제를 제기합니다.

첫째, 비언어 정보(예: 오디오 및 비디오 모달리티)를 어떻게 효과적으로 활용하여 텍스트 모달리티를 클러스터링 작업에서 보완할 것인가 하는 것입니다.
둘째, 품질 높은 지도 신호를 구성하고 클러스터링을 위한 강력한 다중 모달 표현을 학습하는 것은 특히 이전 지식이 없는 경우에는 여전히 열려 있는 문제입니다.
근데 intent discovery라는게, classification이 아닌 클러스터링으로 해결하는 문제인가?

이러한 도전 과제를 해결하기 위해 우리는 새로운 multimodal clustering approach인 MMC를 소개합니다.

이 방식은 다중 모달 의도 발견 작업을 효과적으로 다루기 위한 선구적인 노력을 나타냅니다.
비언어 모달리티에서 정보를 활용하기 위해 우리는 먼저 컴퓨터 비전 및 음성 신호 처리 분야의 고급 백본을 사용하여 비디오 및 오디오 모달리티에서 깊은 특성을 추출하고 깊은 의미를 캡처하기 위해 트랜스포머 인코더를 사용합니다.
우리는 텍스트 모달리티를 주요 모달리티로 지정하고, 세 가지 모달리티를 모두 다중 모달 표현으로 연결하고 비디오 또는 오디오 모달리티 중 하나를 제로 벡터로 마스킹하여 두 가지 양성 보강 뷰를 생성합니다.

클러스터링을 위한 효과적인 다중 모달 표현을 학습하기 위해, 우리는 세 단계로 구성된 새로운 알고리즘을 제안합니다.

먼저, 잘 초기화된 표현을 구축하기 위해 다중 모달 표현과 해당 보강을 위해 unsupervised contrastive loss 을 적용합니다.
두 번째 단계에서는 고품질 샘플 선택 전략을 도입합니다.

이 전략은 동적 샘플 선택 임계값 t를 사용하여 각 반복에서 높은 품질의 샘플 상위 t 비율을 선택하는 것을 목표로 합니다.
이 선택은 각 클러스터에서 각 샘플의 밀도를 계산하고 이에 따라 순위를 매기는 고유한 메커니즘을 기반으로 합니다.
또한 밀도를 계산하기 위해 사용되는 K nearest neighbors의 최적 하이퍼파라미터를 선택하기 위한 평가 과정이 포함되어 있습니다.

마지막 단계에서는 두 번째 단계에서 선택된 고품질 지표를 가이드로 하여 다중 모달 표현 학습을 진행합니다.

이 반복 프로세스는 먼저 supervised contrastive loss을 사용하여 고품질 샘플로부터 학습하고 그 다음에는 unsupervised contrastive loss을 사용하여 낮은 품질의 샘플을 정제합니다.

이 dual 접근은 고품질 샘플 간의 유익한 클래스 내 및 클래스 간 관계를 촉진하고 낮은 품질의 샘플을 서로 멀리 떨어뜨려 이후 클러스터링을 향상시킵니다.
이러한 전체 프로세스는 샘플 선택 임계값 t가 완전히 달성될 때까지 계속됩니다.

우리의 기여는 다음과 같이 요약됩니다:

(1) 우리는 다중 모달 의도 발견을 위한 벤치마크를 수립하는 pioneering 작업을 제시함으로써 이 연구 분야의 중요한 공백을 메우고 미래 연구를 위한 기초를 마련합니다.
(2) 다중 모달 데이터를 위한 새로운 데이터 증강 전략을 소개하고 클러스터링 친화적인 다중 모달 표현을 학습하는 데 도움이 되는 혁신적인 고품질 샘플 선택 전략을 개발합니다.
(3) 광범위한 실험을 통해 우리의 제안 방법이 기존의 최첨단 비지도 텍스트 클러스터링 접근법을 능가하며 두 가지 다중 모달 의도 및 대화 행위 데이터셋에서 새로운 벤치마크 성능을 달성함을 보여줍니다. 우리의 지식으로는 이 작업은 비언어 모달리티를 다중 모달 클러스터링에 활용한 첫 번째 성공적인 시도를 나타냅니다.

2 Related Works

2.1 Unimodal Unsupervised Clustering

2.2 Multimodal Unsupervised Clustering

2.3 Textual Intent Discovery

2.4 Multimodal Intent Discovery

3 Methodologies

이 섹션에서는 MMC(Multimodal Clustering)이라는 새로운 방법을 소개합니다.
전체 프레임워크에 대한 자세한 설명은 그림 1에서 제공됩니다.

3.1 Multimodal Representation

다중 모달 표현을 얻기 위해, 우리는 먼저 텍스트, 비디오 및 오디오 모달리티에서 깊은 피쳐를 추출합니다.
텍스트의 경우, 우리는 사전 훈련된 언어 모델 (PLM)인 BERT를 인코더로 사용하며, 원본 텍스트 입력에서 fine-tuning을 수행합니다.

초기 [CLS] 토큰 임베딩인 x_T ∈ R^DT 는 sentence-level representation으로 사용되며, 여기서 DT는 768의 feature 차원을 나타냅니다.
그런 다음 z_T ∈ R^DH 를 생성하는 선형 레이어인 fT(·)를 통합합니다.
여기서 H는 차원적으로 축소된 공간을 나타내며 계산 효율성을 높이고 주요 피쳐를 강조합니다.
BERT의 출력을 fT matrix을 통해 DH 차원으로 보낸다.

비디오와 오디오 모달리티의 영역에서는 의미론적으로 풍부한 특성을 입력으로 사용합니다.
비디오에 대해서는 우수한 컴퓨터 비전 백본인 Swin Transformer 를 사용하여 프레임 수준에서 비디오 특성 표현인 xV ∈ R LV×DV를 추출합니다.

여기서 LV는 비디오 길이를 나타내며, DV는 1024의 특성 차원입니다.

오디오에 대해서는 다양한 음성 작업에서 우수한 성능으로 알려진 WavLM 모델을 사용합니다.

먼저 오디오 파형을 추출한 다음 특성인 xA ∈ R LA×DA를 얻습니다.
여기서 LA와 DA는 각각 오디오 길이와 특성 차원을 나타냅니다.

오디오와 비디오 모달리티 모두에서, 먼저 텍스트 모달리티와 조화를 이루는 선형 레이어 fM(·)을 소개합니다.

오디오, 비디오 모달리티에서, 백본의 출력을 fM을 통해 BERT*fT와 같은 차원(DH) 및 공간으로 보내준다.

이후에는 Transformer인코더와 다중 헤드 어텐션 메커니즘을 적용하여 복잡한 의미적 관계와 시간적 세부 사항을 능숙하게 포착합니다.
마지막으로, 마지막 시퀀스 요소를 활용하여 문장 수준의 표현 zM을 얻습니다:

where M ∈ {A, V}, and z_M ∈ R^DH
M은 오디오 혹은 비디오
근데 오디오하고 비디오하고 왜 같은 matrix fM을 사용하지?

이후에는 표현 zT, zA 및 zV를 concat하고 비선형 퓨전 레이어 F : R^3DH → R^DH를 통과시킵니다.

이 레이어는 크로스 모달 상호작용을 학습하기 위해 설계되었으며, 결합된 표현 zTAV ∈ R^DH를 생성합니다:
feature을 concat하고(3DH 차원) F을 통해 최종적으로 DH차원으로 다시 보낸다.
여기서 F는 W1σGELU(Dropout(·)) + b1로 정의됩니다.
여기서 σGELU는 GELU activation 함수를 나타내며, W1와 b1은 각각 해당하는 weight and bias matrices입니다.
그 다음으로, 우리는 zTAV와 그 확장을 추가적인 클러스터링 및 표현 학습에 사용합니다.

3.2 Multimodal Unsupervised Pre-training

효과적인 사전 훈련 전략은 클러스터링에 적합한 잘 초기화된 표현을 제공할 수 있습니다.
Unsupervised contrastive learning은 비지도 클러스터링에 효과적인 접근 방법으로 나타났으며, 이 방법은 샘플들을 멀리 밀어내어 특성 공간에서 균일하게 분산되도록 만들면서 변형 사이의 암묵적인 유사성 관계를 포착합니다.
그러나 기존 방법들은 종종 다중 모달 데이터에 대한 효과적인 변형을 제공하지 못하는 한계가 있습니다.
본 연구에서는 이러한 공백을 해결하기 위해 (비언어)non-verbal modality masking의 새로운 방법을 소개합니다.
의도 분석에서 텍스트 모달리티의 주요 역할을 고려하여, 우리는 변형을 위한 핵심 모달리티로 그것을 유지합니다.
이에 기반하여 비디오 또는 오디오 모달리티 중 하나를 zero vectors로 대체하여 Eq. 2를 사용하여 표현 zTA0 및 zT0V를 생성합니다.

이러한 표현은 zTAV에 대한 두 가지 다른 변형으로 사용됩니다.
그런 다음 다중 모달 비지도 대조 학습 손실을 적용합니다:
여기서 sim(·)은 두 개의 L2-정규화된 벡터에 적용되는 점곱 연산을 나타내며, ϕ1(·)은 ReLU 활성화 함수를 갖는 비선형 레이어로 대조 헤드로 작동합니다.
매개변수 τ1은 온도를 나타내며, I[·]는 indicator function로, j = i인 경우에만 1을 출력하고 그렇지 않으면 0을 출력합니다.
표현 zi와 z′i는 각각 원래 샘플과 증강된 샘플에 해당하며, 여기서 zi ∈ {zTAV,i, zT0V,i, zTA0,i}입니다.
이러한 방법을 통해 우리는 다른 모달리티 간의 복잡한 관계를 포착하면서 학습된 표현에서 강건성을 보장하려고 합니다.
즉, text+audio+video feature = text+audio+video-zero feature
text+audito+video feature = text+audio+zero+video feature
text는 왜 안빼지?
이처럼 같은 입력에서는 모달리티를 하나씩 빼서, zero vector로 만든것과 1이되도록(일치하는의미) 학습시키는 것이다.
다른 입력과는 zero vector를 넣든 말든, 다른 것이기 때문에 0이 되도록 학습시킨다.

3.3 Clustering and High-Quality Sample Selection

사전 훈련 후에는 표현 zTAV를 사용하여 클러스터링을 수행합니다.
구체적으로, K-Means++ 알고리즘을 채택합니다.
이 알고리즘은 K-Means의 향상된 버전으로, 클러스터링 수렴 및 성능을 개선하기 위해 정교한 초기 중심 선택 방법을 사용합니다.
그러나 K-Means++에서 직접 얻은 클러스터 할당은 클러스터링을 위한 효과적인 다중 모달 표현의 학습을 안내하기에 충분히 고품질이 아닌 것으로 관찰됩니다.

이를 해결하기 위해 우리는 표현 학습에 고품질 샘플을 점진적으로 통합하는 전략을 도입합니다.

우리는 현재 훈련 반복에서 각 클러스터에서 선택된 샘플의 비율을 제어하는 샘플 선택 임계값인 t를 조정하기 위해 curriculum approach을 사용합니다.
임계값 t는 다음과 같이 선형적으로 업데이트됩니다:

여기서 t와 t0는 [0, 1] 범위 내에 있으며, t0는 초기 임계값을 나타내며, iter는 현재 반복 횟수를 나타내며, ∆는 각 훈련 에포크 후에 적용되는 incremental interval을 나타냅니다.

클러스터링 성능을 더욱 미세 조정하기 위해, 우리는 (Zhang et al., 2023)에서 제안된 centroid inheritance strategy을 채택합니다.

구체적으로, K-Means++는 첫 번째 훈련 반복에서만 사용됩니다.
그 다음 반복에서는 이전 훈련 반복에서의 클러스터 중심점이 현재 반복의 초기 중심점으로 사용됩니다.

이 접근 방식은 과거의 클러스터링 정보를 효과적으로 활용하여 현재 클러스터링 노력을 안내하고 개선하는 데 도움이 됩니다.

이후, 우리는 어떤 샘플이 표현 학습에 고품질로 적합한지 식별해야 합니다.
이를 위해 우리는 Figure 2에 나타낸 대로 새로운 고품질 샘플 선택 메커니즘을 제안합니다.

이 메커니즘은 두 가지 주요 단계로 구성되어 있습니다:

density calculation
high-quality sample selection and evaluation.

즉, k-means++로 먼저 클러스터링한다.

이것을 바로 쓰기엔 품질이 저조해서, 여기서 iteration으로 클러스터링을 조정한다.
조정하기 위해서 density calculation 와 high-quality sample selection and evaluation 기법?을 활용한다는 듯

3.3.1 Density Calculation

각 클러스터 내에서 고품질 샘플을 구별하기 위해 density를 기준으로 제안합니다.
이 기반 아이디어는 high-quality samples은 high local density를 나타낼 가능성이 높으며, 반면에 low-quality, 이상치 또는 잘못된 클러스터링된 데이터는 low local density를 가질 것으로 예상됩니다.
i번째 샘플에 대해 zTAV,i와 그의 상위 K개 최근접 이웃 사이의 평균 거리의 역수로 샘플의 밀도 ρi를 계산합니다.

여기서 K는 상위 K개 최근접 이웃의 수를 나타내며, dij는 i번째 샘플과 j번째 최근접 이웃 간의 유클리드 거리를 나타냅니다.
즉 하나의 샘플이 벡터 스페이스 어딘가에 있을 것이다.
이 샘플과 가까운 K개의 샘플과 distance을 계산한다.
이 합의 역수가 밀도가 되는 것
따라서 밀도가 높다는 것은, 다른 샘플들과 근접한 관계를 가진다는 것이고, 밀도가 낮다는 것은 다른 샘플들과 관계가 멀다는 것이다.

3.3.2 High-Quality Sample Selection and Evaluation

각 클러스터 내에서 각 샘플의 밀도를 계산한 후, 그들을 밀도에 따라 순위를 매깁니다.
구체적으로, k번째 클러스터 Ck 내에서 밀도가 ρi인 각 샘플에 대해, 우리는 다음과 같이 정렬된 인덱스 목록 IdxCk를 계산합니다:

여기서 argsort는 밀도를 오름차순으로 정렬할 때의 인덱스를 반환하는 함수이며, n은 Ck 내의 전체 샘플 수를 나타냅니다.
다음으로, 샘플 선택 임계값 t를 기반으로 Ck에서 상위 t 비율의 샘플을 선택합니다.

여기서 m = ⌊n ∗ t⌋로 정의하고, 선택된 샘플은 다음과 같이 표시됩니다:

zTAV(IdxCk,1), . . . , zTAV(IdxCk,m).
여기서 zTAV(IdxCk,i)는 밀도 순으로 정렬된 인덱스를 기반으로 클러스터 Ck에서 선택된 i번째 샘플 특성을 나타냅니다.

즉 각 클러스터링된 그룹에서 threshold t의 비율만큼만 샘플링해서 사용한다.

버림(n*t)의 개수만큼 가져간다.
따라서 클러스터링내 그룹에서 높은 density을 가지는 샘플들만 가져가게 된다.

실제 세계의 데이터는 각 클래스 간에 균일한 분포를 나타내지 않을 수 있으므로, 모든 클러스터에 고정된 K를 할당하는 것은 밀도 계산의 정확도를 저해할 수 있으며 이로 인해 고품질 샘플의 선택에 영향을 미칠 수 있습니다.

이를 해결하기 위해 우리는 각 클러스터에 대해 최적의 K를 자동으로 식별하도록 설계된 K 후보를 선택하기 위한 혁신적인 방법을 소개합니다.
즉 density을 계산할 때, 몇개의 주변 샘플과 비교할지 정해야한다.
고정된 K개랑 비교하는것은 클러스터링에 따라 맞지 않을 수 있기 때문에..
이를 잘 선택해보자!

K 후보의 범위가 주어진 경우, 우리는 선택된 샘플의 품질을 평가하여 이상적인 K 후보를 찾는 목적으로 이들을 열거합니다.
우리는 클러스터 cohesion을 측정 기준으로 사용하여 각 클러스터의 품질을 측정하고 클러스터 내 요소 간의 유사성 정도를 평가합니다.

클러스터링이 잘 됐는지 파악하기 위해 클러스터 cohension이라는 것을 계산한다.
이는 클러스터 내 요소간의 유사성 정도를 평가하는 개념?

cohesion coh(·)은 다음과 같이 정의됩니다:

여기서 m은 클러스터 Ck에서 선택된 샘플의 개수를 나타내며, d(·)는 유클리드 거리를 나타냅니다.
cohension은 효과적으로 선택된 샘플의 compactness을 캡처하고, 따라서 그들의 품질을 나타냅니다.
각 클러스터의 최종 K 값은 가장 높은 cohension을 얻는 후보를 기반으로 결정됩니다.

정확히 어떻게?

그런 다음 각 클러스터에서 selected index list(idx')를 집계하여 최종 선택된 인덱스 목록을 형성하고, 이 목록은 3.4 representation learning을 위해 고품질 샘플을 선택하는 데 사용됩니다.
상위 인덱스가 몇 개를 말하는 거지? 이거는 어떻게 정함?

즉 클러스터링 그룹 Ck내에 m개의 요소가 있다고 해보자.

i번째 요소에 대한 cohension은 i 요소와 다른 요소 벡터간의 거리의 평균이다.
각 요소에 대한 cohension을 계산하여 이를 더한게 클러스터의 cohension이 된다.
cohension이 높다는 것은, 요소들간의 평균거리가 멀다는 것이다.
그러면 각 클러스터의 cohension이 있을텐데, 가장 cohension이 높은 클러스터를 top C라고 해보자.
top C을 기준으로 몇 개의 샘플과 비교해서 density을 계산할지 (즉 K값) 정한다.

3.4 Multimodal Representation Learning

선택된 인덱스 Idx'로 식별된 고품질 샘플은 더 reliable pseudo labels을 가지는 경향이 있으므로, 우리는 이러한 샘플을 guiding set으로 사용하여 클러스터링을 위한 친숙한 표현 학습을 용이하게 합니다.
이러한 샘플을 활용하여 pairwise samples간의 고수준 유사성 관계를 캡처하고자 합니다.
이를 위해 다음과 같이 multimodal supervised contrastive loss을 도입합니다:

여기서 li = ϕ2(zi)이며, ϕ2는 ReLU 활성화 함수를 사용하는 비선형 레이어입니다.
이는 방정식 3과 일관성이 있습니다.
여기서 li는 {lTAV,i, lT0V,i, lTA0,i} 중 하나이며, τ2는 온도 매개변수를 나타냅니다.
P(i)는 동일한 클래스를 공유하는 확장된 샘플들의 인덱스 집합입니다.
이 손실을 사용하면 각 샘플은 자신의 확장에서만이 아니라 고품질 가상 레이블에서 파생된 클러스터링 정보에서도 학습할 수 있습니다.

정리하면

k-means++로 일단 클러스터링 N개의 클러스터링 그룹을 만든다.
각 그룹에서 각 샘플들의 density을 계산한다.
density을 계산할때, 샘플들과 비교할 주변 샘플들 K을 지정해야한다.
이 K을 지정할 때, cohension 개념을 통해, 주어진 데이터에 해당하는 K을 정한다.
어쨌든 클러스터내에서 density가 높은 샘플들만 남긴다. (고품질로 간주)
고품질 샘플들은 같은 그룹이니까, 비슷한 벡터를 가져야 하므로, 식 9처럼 학습시킨다. pretraining과 유사한 과정이라고 보면 된다.

반면에, 저품질 샘플은 오분류에 취약하며, 이로 인해 비슷하지 않은 샘플이 동일한 클래스로 묶일 수 있습니다.

이러한 잘못된 그룹화는 클러스터링 프로세스의 무결성을 깨뜨릴 수 있습니다.
이 문제를 완화하기 위해, 우리는 이러한 샘플에 대한 비지도 대조 손실의 적용을 제안합니다.
이 손실 함수는 다른 저품질 샘플 간의 분리를 증가시키도록 설계되어, 특징 공간에서 보다 균일한 분포를 장려합니다.
구체적으로, 방정식 2를 사용하되 ϕ1 대신 ϕ2로 대체하고, 이 수정된 방정식을 선택된 인덱스 Idx'를 제외한 훈련 세트의 나머지 샘플에 적용합니다.

우리의 접근 방식에서는 고품질 샘플에 다중 모달 지도 대조 학습을 반복적으로 적용하고, 저품질 샘플에는 비지도 대조 학습을 적용합니다.

이 중복 전략은 다중 모달 표현 학습과 클러스터링 프로세스를 동시에 강화하기 위해 고안되었습니다.
훈련 단계는 샘플 선택 임계값 t (방정식 4에서 정의된대로)이 100%에 도달할 때 종료됩니다.
추론 단계에서는 훈련된 모델을 사용하여 zTAV를 추출하고, 그런 다음 예측을 위해 K-Means++ 알고리즘을 적용합니다.
즉 한 step이 끝나면, representation이 강화될텐데, 이를 반복적으로 수행한다는 개념인듯

4 Experiments

4.1 Datasets

이 연구에서는 두 개의 다중 모달 데이터셋인 MIntRec과 MELD-DA를 사용하여 벤치마크를 수립합니다.
이 데이터셋들의 자세한 통계는 표 1에 제시되어 있습니다.
MIntRec:

이는 다중 모달 의도 인식을 위해 설계된 새로운 데이터셋입니다.
이 데이터셋은 20개의 imbalanced intent categories와 총 2,224개의 고품질 주석이 달린 다중 모달 샘플로 구성되어 있습니다.
데이터셋은 3:1:1 비율을 사용하여 훈련, 검증 및 테스트 세트로 분할되었습니다.

MELD-DA:

이 데이터셋은 원래 MELD 데이터셋(Poria 등, 2019)에서 파생되었습니다. EmoTyDA(Saha 등, 2020b)가 다중 모달 대화 행위 레이블을 추가로 제공하여 데이터셋을 보강했습니다.
본 연구에서는 이 데이터의 하위 집합을 사용하며, 이 하위 집합에는 총 9,582개의 샘플이 포함되어 있으며 12개의 클래스에 불균등하게 분포되어 있습니다.
데이터셋은 7:1:2 비율을 사용하여 훈련, 검증 및 테스트 세트로 나누어졌습니다.

4.2 Baselines

우리의 실험에서는 우리의 방법을 자연어 처리 및 컴퓨터 비전의 최신 비지도 클러스터링 방법 및 다중 모달 클러스터링 방법과 비교합니다.
기준 메소드에 대한 자세한 정보는 다음과 같습니다.
SCCL:

이 방법은 클러스터링 헤드를 위한 clustering head and an instance-wise contrastive loss을 위한 instance-CL 헤드를 공동으로 최적화합니다.
두 헤드의 학습률은 3e-5로 설정됩니다.

CC:

이 방법은 증강된 데이터로부터 특성 추출을 위해 공유 딥 네트워크를 사용하고 인스턴스 수준 및 클러스터 수준 학습을 위해 두 개의 별도 MLP 헤드를 사용합니다.
학습률은 3e-5로 설정됩니다.

USNID:

이 방법은 강력한 데이터 증강 방법을 사용하는 사전 훈련 단계를 포함합니다.
우리는 벤치마크 데이터셋에서 랜덤 erase 비율을 0.2로 설정할 때 이 알고리즘이 잘 수행된다는 것을 발견했습니다.

MCN:

이 방법은 동적으로 클러스터 중심을 얻기 위해 온라인 K-means 알고리즘을 적용하고 주기적으로 업데이트합니다.
상대적으로 작은 양의 훈련 데이터 때문에 각 에포크에서 모든 데이터에 대한 클러스터링을 위해 온라인 접근 방식 대신 K-means를 사용합니다.

근데 classification모델하고는 비교 안하는지?

4.3 Evaluation Metrics

우리는 실험의 효과를 평가하기 위해 다섯 가지 흔히 사용되는 클러스터링 평가 지표를 사용했습니다:

Normalized Mutual Information (NMI),
Accuracy (ACC),
Adjusted Rand Index (ARI),
Fowlkes-Mallows Index (FMI),
Purity.

특히, ACC는 Hungarian 알고리즘을 사용하여 예측과 실제값을 정렬하여 계산되며, 이는 (Zhang 등, 2021a, 2023)에서 설명한 대로 수행됩니다.
NMI, ACC, FMI 및 Purity의 경우 가능한 값 범위는 0에서 1까지이며, ARI의 경우 -1에서 1까지 범위를 갖습니다.
이러한 모든 지표의 높은 값은 더 나은 클러스터링 성능을 나타냅니다.

4.4 Experimental Setup

텍스트 모달리티에 대해서는 Huggingface Transformers 라이브러리를 사용하여 구현된 사전 훈련된 BERT 모델을 사용합니다.
우리는 AdamW 최적화기를 사용하여 모델을 최적화합니다.
MIntRec 및 MELD-DA 데이터셋의 경우, 시퀀스 길이 LT, LV, LA를 각각 (30, 230, 480) 및 (70, 250, 530)으로 설정합니다.
임계값 t0를 0.1로 초기화하고 간격 ∆로 0.05씩 증가시킵니다.
후보 K는 각 클러스터에 할당된 비율 목록 u에 따라 결정되며, 여기서 u는 0.1에서 0.3까지 0.02 간격으로 범위가 설정됩니다.
학습률은 2e-5로 설정합니다.
temperature 매개변수인 τ1 및 τ2는 각각 0.2 및 3으로 구성됩니다.
훈련, 검증 및 테스트 단계의 배치 크기를 128로 설정합니다.
각 실험은 동일한 랜덤 시드로 여러 번 실행되며, 이러한 실행의 평균 결과를 보고합니다.

4.5 Results

테이블 언급해주는게 좋음
이 섹션에서는 제안된 알고리즘의 결과를 제시하고 텍스트 또는 다중 모달 데이터를 사용하여 여러 기준 알고리즘과의 성능을 비교하여 효과를 평가합니다.
전반적으로, MMC는 대부분의 메트릭을 통해 MIntRec 및 MELD-DA 데이터셋 모두에서 평균적으로 2-3% 향상된 성능을 보여 최고의 기준 알고리즘에 비해 우수한 성능을 달성합니다.
이는 우리의 접근 방식이 이 어려운 작업을 해결하는 데 효과적임을 강조합니다.
MIntRec 데이터셋에서, MMC는 모든 기준 알고리즘을 능가하며 38.18%의 최첨단 평균 성능을 달성합니다.
이 결과는 MMC의 다중 모달 비지도 클러스터링에서의 우수성을 입증합니다.
그러나 MELD 데이터셋에서는 ACC 측면에서 기준 SCCL에 비해 약간 낮은 성능을 보이며, 이 결과는 약간의 단점을 시사하긴 하지만 MMC가 다른 메트릭에서 여전히 모든 기준 알고리즘을 능가하며 무엇보다도 평균적으로 성능이 우수하다는 점을 강조해야 합니다.
MELD에서 MMC의 약간 낮은 정확도 성능은 이 데이터셋의 특성에 기인할 수 있습니다.

MELD는 다른 인스턴스보다 oth 인스턴스의 비율이 높으며, 이는 MMC에게 독특한 도전 과제를 제공합니다.
MMC는 하나의 배치에서 두 개의 샘플이 동일한 클러스터에 속하는지 여부를 결정하도록 설계되었지만 oth로 분류된 두 개의 샘플이 반드시 의미적으로 유사하지는 않을 수 있으며, 최종 테스트 중에 오류를 일으킬 수 있습니다.
이 특별한 도전 과제를 해결하기 위해 더 깊은 분석과 알고리즘의 세밀한 조정이 필요할 수 있습니다.

4.6 Ablation Studies

MMC의 두 단계의 효과를 평가하기 위해, 우리는 제안된 방법을 그와 관련된 모델과 비교합니다.
구체적으로, 우리는 MMC의 pre-training and training 단계를 따로 제외하고 부분적인 교육 후 모델을 테스트합니다.
표 4에 나타난 결과는 일관되게 MIntRec 및 MELD 데이터셋에서 전체 모델과 비교하여 사전 교육 및 교육 단계가 없는 모델이 각각 6-12% 및 4-16%의 중요한 성능 하락을 나타냅니다.
이는 두 단계가 제안된 알고리즘에서 중요한 역할을 한다는 것을 나타냅니다.
pre-training의 데이터세트는 근데 뭐지?
더욱이, 사전 교육이 없는 모델이 교육 단계 없는 모델보다 더 나은 성능을 발휘하며, 두 데이터셋 모두에서 4-6%의 장점을 갖습니다.
특히, MMC의 어느 단계에서든 교육 결과는 두 데이터셋에서 각각 최소 7% 및 3% 이상의 MCN의 다중 모달 기준 모델보다 우수함을 나타내며, 우리 알고리즘의 각 단계가 다중 모달 데이터를 처리하고 그들의 잠재적인 연결을 발견하는 데 능숙하다는 것을 강조합니다.

5 Conclusions

이 논문은 다중 모달 의도 발견의 중요한 과제를 다루며, 이를 해결하기 위한 새로운 multimodal unsupervised clustering 방법을 소개합니다.
제안된 알고리즘은 다중 모달 데이터에 대한 긍정적인 보강을 혁신적으로 구성하고 효과적인 고품질 샘플 선택 전략을 개발합니다.
이 전략은 복잡한 하이퍼 파라미터 튜닝이 필요하지 않고 고품질 인덱스를 자동으로 선택하기 위해 설계되었습니다.
우리의 supervised and unsupervised contrastive learning 기술의 결합을 통해 high-quality and low-quality samples을 교육 프로세스에 통합합니다.
우리는 이 작업을 위한 벤치마크를 설정하는 데 상당한 노력을 기울였습니다.
다양한 실험 결과는 우리의 제안된 알고리즘이 두 가지 벤치마크 데이터셋에서 최첨단 텍스트 비지도 클러스터링 방법을 능가함을 입증하며, 그 효과성과 잠재력을 강조합니다.
우리는 이 작업에서 사용된 모든 코드와 데이터셋을 미래에 오픈 소스 자원으로 공개할 계획입니다.
이를 통해 다중 모달 의도 발견 분야에서의 추가 탐구와 발전을 가능하게 할 것입니다.

Limitations

이 연구는 우수한 성능을 나타내는 새로운 멀티모달 클러스터링 접근 방식을 제시합니다. 그러나 이 연구에는 제한 사항이 있습니다. 첫째, 멀티모달 콘텐츠 데이터셋의 제한된 가용성으로 인해 평가가 두 개의 데이터셋으로 제한되었으며, 이는 실제 세계 시나리오의 다양성을 완전히 대표하지 못할 수 있습니다. 둘째, 클러스터링 작업에서 최적의 클러스터 수를 결정하는 것은 여전히 중요한 과제이며, 우리의 방법은 이 문제를 직접 다루지 않습니다.
전망을 살펴보면, 우리는 모델을 확장하여 열린 클래스 내에서 새로운 의도 범주를 식별하는 것을 목표로 합니다. 예를 들어, MELD-DA와 같은 데이터셋에서는 'oth'와 같은 복잡한 범주가 존재합니다. 우리 모델은 알려진 의도를 정확하게 인식하는 데 그치지 않고, 의도 발견의 목적으로 열린 의도를 탐색하며 새로운 범주를 발견하도록 하는 것을 희망합니다. 궁극적으로, 멀티모달 의도 분석 분야에서 중요한 진전을 나타내는 의도 인식, 열린 의도 감지 및 새로운 의도 발견을 원활하게 연결하는 통합된 프레임워크를 그림으로 그리며 그 분야에서 중요한 진전을 나타내고자 합니다.

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-189, ARR Review 2308

◼ Comment

0 Abstract

1 Introduction

2 Related Works

2.1 Unimodal Unsupervised Clustering

2.2 Multimodal Unsupervised Clustering

2.3 Textual Intent Discovery

2.4 Multimodal Intent Discovery

3 Methodologies

3.1 Multimodal Representation

3.2 Multimodal Unsupervised Pre-training

3.3 Clustering and High-Quality Sample Selection

3.3.1 Density Calculation

3.3.2 High-Quality Sample Selection and Evaluation

3.4 Multimodal Representation Learning

4 Experiments

4.1 Datasets

4.2 Baselines

4.3 Evaluation Metrics

4.4 Experimental Setup

4.5 Results

4.6 Ablation Studies

5 Conclusions

Limitations

댓글

댓글 쓰기