NL-189, ARR Review 2308

◼ Comment

  • 논문의 내용은 멀티모달 의도 클러스터링 테스크를 해결하는 것이다.
  • 이 분야는 잘 모르지만 논문은 나쁘지 않았다.
  • 즉 데이터 하나가 text+video+audio가 한 쌍이고, 여러 데이터가 주어졌을 때, 클러스터링을 하는 문제이다.
  • 그러기 위해서는 멀티모달 임베딩을 잘해야한다.
    • 그 방법으로 제안한 게, 멀티모달 unsupervised pre-training이다.
    • 핵심내용은 하나씩 모달리티를 빼서 augmentation하는 느낌이다.
    • text+audio+video feature = text+audio+video-zero feature
    • text+audito+video feature = text+audio+zero+video feature
    • 위처럼, 하나의 멀티모달을 zero feature로 만들고 이게 같은 임베딩으로 되는 게 학습시키는 것이다.
    • 여기서 각 모달리티들의 PLM을 사용하는데, text, video, audio 각각 bert, swin transformer, WavLM을 사용한다고 한다.
  • 그 다음으로는 k-means++ 클러스터링을 한다.
    • 근데 이것만으로는 부족해서, iteration하게 더 강화되는 알고리즘을 제안한다.
    • 그게 density을 이용하는것인데 같은 클러스터로 10개의 데이터가 묶였다고 하자.
    • 각 데이터끼리의 거리를 계산해서, 그 기반으로 고품질을 비율 t로 필터링한다.
    • 직관적으로 다른 데이터와 평균 거리가 가까운 데이터들을 고품질로 간주하는 것
    • 이렇게 고품질로 된 것에 대해서는 같은 클래스라고 확신을 하고, training을 다시한다.
    • 그러면 멀티모달 모델들이 전체적으로 업데이트되고 이는 더 나은 임베딩을 만들 것이다.
    • 그러면 위와 같은 작업을 한다.
    • 작업이 진행되면서 고품질 샘플링하는 비율 t가 증가한다.
  • 질문 포인트
    • pretraining에서 text 빼는건 왜 안하지?
    • 정확히 K을 어떻게 설정? 각 클러스터의 최종 K 값은 가장 높은 cohension을 얻는 후보를 기반으로 결정됩니다. 
    • K에 따른 분석이 필요해 보임
    • 근데 classification모델하고는 비교 안하는지?
    • 테이블 2,3 언급해주는게 좋음
    • pre-training의 데이터세트는 근데 뭐지? 다른 멀티모달 데이터로 하는게 일반적일거 같은데

0 Abstract

  • Multimodal intent discovery은 현실 세계의 다중모달 데이터 분석을 통해 인간의 의도를 파악하는 중요한 작업입니다. 
  • 기존의 의도 발견 알고리즘은 비언어적 정보를 활용하여 군집화를 개선하는 능력이 제한되어 있습니다. 
  • 본 논문에서는 이 작업에 혁신적인 기여를 하는 새로운 multimodal clustering method인 MMC를 제안합니다. 
  • MMC는 우선 다중모달 데이터에 대한 부가적인 시각을 제공하는 방법론을 제시합니다. 
  • 이 부가적인 다중모달 데이터를 활용하여 군집화에 이어지는 잘 초기화된 표현을 구축하기 위해 사전 훈련을 진행합니다. 
  • 그런 다음 혁신적인 고품질 샘플 선택 전략을 도입합니다. 
  • 이 전략은 각 샘플의 최근접 이웃의 밀도를 기반으로 상위 고품질 샘플의 비율을 동적으로 선택합니다. 
  • 더 나아가 각 군집의 최적의 상위 K 매개변수 값을 자동으로 결정하여 샘플 선택을 미세 조정합니다. 
  • 마지막으로 high-quality and low-quality 샘플을 모두 활용하여 효과적인 군집화를 위한 표현을 학습합니다. 
  • 이 접근법의 타당성을 입증하기 위해 중요한 multimodal intent and dialogue act 데이터셋에서 벤치마크를 수립합니다. 
  • 제안된 방법은 기존의 최첨단 텍스트 군집화 방법보다 상당한 성능 향상을 보여주며, 이 연구 분야에서의 첫 번째 성공적인 시도를 나타냅니다.

1 Introduction

  • Multimodal intent discovery은 다중 모달 언어 이해에서 중요한 역할을 합니다. 
  • 여러 모달리티(텍스트, 비디오, 오디오 등)에서 정보를 효과적으로 활용하여 인간 언어에 내재된 복잡한 의미를 분석하여 서로 다른 잠재적 의도별 클러스터를 발견하는 것이 필요합니다. 
  • 이는 고객 서비스 시스템, 가상 어시스턴트, 콘텐츠 추천 엔진 등 다양한 응용 프로그램에서 사용자 상호 작용과 행동을 분류하는 데 도움이 됩니다.
  • Intent discovery은 자연어 처리(NLP)의 중요한 작업 중 하나로, 기본적으로 클러스터링 작업으로 작용합니다. 
    • 이 작업은 많은 효과적인 방법들이 개발되어 왔고, 비지도 학습(Unsupervised) 및 반지도 학습(Semi-supervised) 설정에서 모두 주목 받았습니다. 
    • 그러나 이러한 방법들은 주로 텍스트만 다루는 모달리티를 대상으로 설계되어 있으며, 실제 상황에서 다양한 모달리티를 다루는 데는 부적합합니다. 
    • 인간의 의도를 이해하기 위해 다중 모달 정보를 활용하기 위해 연구자들은 multimodal dialog act 및 multimodal intent와 같은 벤치마크 데이터셋을 만들었습니다. 
    • 그러나 이러한 데이터셋은 주로 recognition 작업에 사용되어 왔으며, 최신 다중 모달 융합 방법을 활용합니다.
  • 텍스트 기반 intent discovery 및 multimodal intent recognition의 발전에도 불구하고, 효과적인 다중 모달 의도 발견 방법의 개발에는 여전히 상당한 공백이 존재합니다. 
  • 이 분야는 주로 두 가지 주요 도전 과제를 제기합니다. 
    • 첫째, 비언어 정보(예: 오디오 및 비디오 모달리티)를 어떻게 효과적으로 활용하여 텍스트 모달리티를 클러스터링 작업에서 보완할 것인가 하는 것입니다. 
    • 둘째, 품질 높은 지도 신호를 구성하고 클러스터링을 위한 강력한 다중 모달 표현을 학습하는 것은 특히 이전 지식이 없는 경우에는 여전히 열려 있는 문제입니다.
    • 근데 intent discovery라는게, classification이 아닌 클러스터링으로 해결하는 문제인가?
  • 이러한 도전 과제를 해결하기 위해 우리는 새로운 multimodal clustering approach인 MMC를 소개합니다. 
    • 이 방식은 다중 모달 의도 발견 작업을 효과적으로 다루기 위한 선구적인 노력을 나타냅니다. 
    • 비언어 모달리티에서 정보를 활용하기 위해 우리는 먼저 컴퓨터 비전 및 음성 신호 처리 분야의 고급 백본을 사용하여 비디오 및 오디오 모달리티에서 깊은 특성을 추출하고 깊은 의미를 캡처하기 위해 트랜스포머 인코더를 사용합니다. 
    • 우리는 텍스트 모달리티를 주요 모달리티로 지정하고, 세 가지 모달리티를 모두 다중 모달 표현으로 연결하고 비디오 또는 오디오 모달리티 중 하나를 제로 벡터로 마스킹하여 두 가지 양성 보강 뷰를 생성합니다.
  • 클러스터링을 위한 효과적인 다중 모달 표현을 학습하기 위해, 우리는 세 단계로 구성된 새로운 알고리즘을 제안합니다. 
    • 먼저, 잘 초기화된 표현을 구축하기 위해 다중 모달 표현과 해당 보강을 위해 unsupervised contrastive loss 을 적용합니다. 
    • 두 번째 단계에서는 고품질 샘플 선택 전략을 도입합니다. 
      • 이 전략은 동적 샘플 선택 임계값 t를 사용하여 각 반복에서 높은 품질의 샘플 상위 t 비율을 선택하는 것을 목표로 합니다. 
      • 이 선택은 각 클러스터에서 각 샘플의 밀도를 계산하고 이에 따라 순위를 매기는 고유한 메커니즘을 기반으로 합니다. 
      • 또한 밀도를 계산하기 위해 사용되는 K nearest neighbors의 최적 하이퍼파라미터를 선택하기 위한 평가 과정이 포함되어 있습니다. 
    • 마지막 단계에서는 두 번째 단계에서 선택된 고품질 지표를 가이드로 하여 다중 모달 표현 학습을 진행합니다. 
  • 이 반복 프로세스는 먼저 supervised contrastive loss을 사용하여 고품질 샘플로부터 학습하고 그 다음에는 unsupervised contrastive loss을 사용하여 낮은 품질의 샘플을 정제합니다. 
    • 이 dual 접근은 고품질 샘플 간의 유익한 클래스 내 및 클래스 간 관계를 촉진하고 낮은 품질의 샘플을 서로 멀리 떨어뜨려 이후 클러스터링을 향상시킵니다. 
    • 이러한 전체 프로세스는 샘플 선택 임계값 t가 완전히 달성될 때까지 계속됩니다.
  • 우리의 기여는 다음과 같이 요약됩니다:
    • (1) 우리는 다중 모달 의도 발견을 위한 벤치마크를 수립하는 pioneering 작업을 제시함으로써 이 연구 분야의 중요한 공백을 메우고 미래 연구를 위한 기초를 마련합니다.
    • (2) 다중 모달 데이터를 위한 새로운 데이터 증강 전략을 소개하고 클러스터링 친화적인 다중 모달 표현을 학습하는 데 도움이 되는 혁신적인 고품질 샘플 선택 전략을 개발합니다.
    • (3) 광범위한 실험을 통해 우리의 제안 방법이 기존의 최첨단 비지도 텍스트 클러스터링 접근법을 능가하며 두 가지 다중 모달 의도 및 대화 행위 데이터셋에서 새로운 벤치마크 성능을 달성함을 보여줍니다. 우리의 지식으로는 이 작업은 비언어 모달리티를 다중 모달 클러스터링에 활용한 첫 번째 성공적인 시도를 나타냅니다.

2 Related Works 

2.1 Unimodal Unsupervised Clustering


2.2 Multimodal Unsupervised Clustering

  • d

2.3 Textual Intent Discovery

  • d

2.4 Multimodal Intent Discovery

  • d

3 Methodologies

  • 이 섹션에서는 MMC(Multimodal Clustering)이라는 새로운 방법을 소개합니다. 
  • 전체 프레임워크에 대한 자세한 설명은 그림 1에서 제공됩니다.

3.1 Multimodal Representation

  • 다중 모달 표현을 얻기 위해, 우리는 먼저 텍스트, 비디오 및 오디오 모달리티에서 깊은 피쳐를 추출합니다. 
  • 텍스트의 경우, 우리는 사전 훈련된 언어 모델 (PLM)인 BERT를 인코더로 사용하며, 원본 텍스트 입력에서 fine-tuning을 수행합니다. 
    • 초기 [CLS] 토큰 임베딩인 x_T ∈ R^DT 는 sentence-level representation으로 사용되며, 여기서 DT는 768의 feature 차원을 나타냅니다. 
    • 그런 다음 z_T ∈ R^DH 를 생성하는 선형 레이어인 fT(·)를 통합합니다. 
    • 여기서 H는 차원적으로 축소된 공간을 나타내며 계산 효율성을 높이고 주요 피쳐를 강조합니다.
    • BERT의 출력을 fT matrix을 통해 DH 차원으로 보낸다.
  • 비디오와 오디오 모달리티의 영역에서는 의미론적으로 풍부한 특성을 입력으로 사용합니다. 
  • 비디오에 대해서는 우수한 컴퓨터 비전 백본인 Swin Transformer 를 사용하여 프레임 수준에서 비디오 특성 표현인 xV ∈ R LV×DV를 추출합니다. 
    • 여기서 LV는 비디오 길이를 나타내며, DV는 1024의 특성 차원입니다. 
  • 오디오에 대해서는 다양한 음성 작업에서 우수한 성능으로 알려진 WavLM 모델을 사용합니다. 
    • 먼저 오디오 파형을 추출한 다음 특성인 xA ∈ R LA×DA를 얻습니다. 
    • 여기서 LA와 DA는 각각 오디오 길이와 특성 차원을 나타냅니다. 
  • 오디오와 비디오 모달리티 모두에서, 먼저 텍스트 모달리티와 조화를 이루는 선형 레이어 fM(·)을 소개합니다. 
    • 오디오, 비디오 모달리티에서, 백본의 출력을 fM을 통해 BERT*fT와 같은 차원(DH) 및 공간으로 보내준다.
  • 이후에는 Transformer인코더와 다중 헤드 어텐션 메커니즘을 적용하여 복잡한 의미적 관계와 시간적 세부 사항을 능숙하게 포착합니다. 
  • 마지막으로, 마지막 시퀀스 요소를 활용하여 문장 수준의 표현 zM을 얻습니다:
    • where M ∈ {A, V}, and z_M ∈ R^DH
    • M은 오디오 혹은 비디오
    • 근데 오디오하고 비디오하고 왜 같은 matrix fM을 사용하지?
  • 이후에는 표현 zT, zA 및 zV를 concat하고 비선형 퓨전 레이어 F : R^3DH → R^DH를 통과시킵니다. 
    • 이 레이어는 크로스 모달 상호작용을 학습하기 위해 설계되었으며, 결합된 표현 zTAV ∈ R^DH를 생성합니다:
    • feature을 concat하고(3DH 차원) F을 통해 최종적으로 DH차원으로 다시 보낸다.
    • 여기서 F는 W1σGELU(Dropout(·)) + b1로 정의됩니다. 
    • 여기서 σGELU는 GELU activation 함수를 나타내며, W1와 b1은 각각 해당하는 weight and bias matrices입니다. 
    • 그 다음으로, 우리는 zTAV와 그 확장을 추가적인 클러스터링 및 표현 학습에 사용합니다.

3.2 Multimodal Unsupervised Pre-training

  • 효과적인 사전 훈련 전략은 클러스터링에 적합한 잘 초기화된 표현을 제공할 수 있습니다. 
  • Unsupervised contrastive learning은 비지도 클러스터링에 효과적인 접근 방법으로 나타났으며, 이 방법은 샘플들을 멀리 밀어내어 특성 공간에서 균일하게 분산되도록 만들면서 변형 사이의 암묵적인 유사성 관계를 포착합니다. 
  • 그러나 기존 방법들은 종종 다중 모달 데이터에 대한 효과적인 변형을 제공하지 못하는 한계가 있습니다. 
  • 본 연구에서는 이러한 공백을 해결하기 위해 (비언어)non-verbal modality masking의 새로운 방법을 소개합니다.
  • 의도 분석에서 텍스트 모달리티의 주요 역할을 고려하여, 우리는 변형을 위한 핵심 모달리티로 그것을 유지합니다. 
  • 이에 기반하여 비디오 또는 오디오 모달리티 중 하나를 zero vectors로 대체하여 Eq. 2를 사용하여 표현 zTA0 및 zT0V를 생성합니다. 
    • 이러한 표현은 zTAV에 대한 두 가지 다른 변형으로 사용됩니다. 
    • 그런 다음 다중 모달 비지도 대조 학습 손실을 적용합니다:
    • 여기서 sim(·)은 두 개의 L2-정규화된 벡터에 적용되는 점곱 연산을 나타내며, ϕ1(·)은 ReLU 활성화 함수를 갖는 비선형 레이어로 대조 헤드로 작동합니다. 
    • 매개변수 τ1은 온도를 나타내며, I[·]는 indicator function로, j = i인 경우에만 1을 출력하고 그렇지 않으면 0을 출력합니다. 
    • 표현 zi와 z′i는 각각 원래 샘플과 증강된 샘플에 해당하며, 여기서 zi ∈ {zTAV,i, zT0V,i, zTA0,i}입니다. 
    • 이러한 방법을 통해 우리는 다른 모달리티 간의 복잡한 관계를 포착하면서 학습된 표현에서 강건성을 보장하려고 합니다.
    • 즉, text+audio+video feature = text+audio+video-zero feature
    • text+audito+video feature = text+audio+zero+video feature
    • text는 왜 안빼지?
    • 이처럼 같은 입력에서는 모달리티를 하나씩 빼서, zero vector로 만든것과 1이되도록(일치하는의미) 학습시키는 것이다.
    • 다른 입력과는 zero vector를 넣든 말든, 다른 것이기 때문에 0이 되도록 학습시킨다.

3.3 Clustering and High-Quality Sample Selection

  • 사전 훈련 후에는 표현 zTAV를 사용하여 클러스터링을 수행합니다. 
  • 구체적으로, K-Means++ 알고리즘을 채택합니다. 
  • 이 알고리즘은 K-Means의 향상된 버전으로, 클러스터링 수렴 및 성능을 개선하기 위해 정교한 초기 중심 선택 방법을 사용합니다.
  • 그러나 K-Means++에서 직접 얻은 클러스터 할당은 클러스터링을 위한 효과적인 다중 모달 표현의 학습을 안내하기에 충분히 고품질이 아닌 것으로 관찰됩니다. 
    • 이를 해결하기 위해 우리는 표현 학습에 고품질 샘플을 점진적으로 통합하는 전략을 도입합니다. 
  • 우리는 현재 훈련 반복에서 각 클러스터에서 선택된 샘플의 비율을 제어하는 샘플 선택 임계값인 t를 조정하기 위해 curriculum approach을 사용합니다. 
  • 임계값 t는 다음과 같이 선형적으로 업데이트됩니다:
    • 여기서 t와 t0는 [0, 1] 범위 내에 있으며, t0는 초기 임계값을 나타내며, iter는 현재 반복 횟수를 나타내며, ∆는 각 훈련 에포크 후에 적용되는 incremental interval을 나타냅니다.
  • 클러스터링 성능을 더욱 미세 조정하기 위해, 우리는 (Zhang et al., 2023)에서 제안된 centroid inheritance strategy을 채택합니다. 
    • 구체적으로, K-Means++는 첫 번째 훈련 반복에서만 사용됩니다. 
    • 그 다음 반복에서는 이전 훈련 반복에서의 클러스터 중심점이 현재 반복의 초기 중심점으로 사용됩니다. 
  • 이 접근 방식은 과거의 클러스터링 정보를 효과적으로 활용하여 현재 클러스터링 노력을 안내하고 개선하는 데 도움이 됩니다. 
    • 이후, 우리는 어떤 샘플이 표현 학습에 고품질로 적합한지 식별해야 합니다. 
    • 이를 위해 우리는 Figure 2에 나타낸 대로 새로운 고품질 샘플 선택 메커니즘을 제안합니다. 
  • 이 메커니즘은 두 가지 주요 단계로 구성되어 있습니다: 
    • density calculation 
    • high-quality sample selection and evaluation.
  • 즉, k-means++로 먼저 클러스터링한다.
    • 이것을 바로 쓰기엔 품질이 저조해서, 여기서 iteration으로 클러스터링을 조정한다.
    • 조정하기 위해서 density calculation 와 high-quality sample selection and evaluation 기법?을 활용한다는 듯

3.3.1 Density Calculation 

  • 각 클러스터 내에서 고품질 샘플을 구별하기 위해 density를 기준으로 제안합니다. 
  • 이 기반 아이디어는 high-quality samples은 high local density를 나타낼 가능성이 높으며, 반면에 low-quality, 이상치 또는 잘못된 클러스터링된 데이터는 low local density를 가질 것으로 예상됩니다. 
  • i번째 샘플에 대해 zTAV,i와 그의 상위 K개 최근접 이웃 사이의 평균 거리의 역수로 샘플의 밀도 ρi를 계산합니다.
    • 여기서 K는 상위 K개 최근접 이웃의 수를 나타내며, dij는 i번째 샘플과 j번째 최근접 이웃 간의 유클리드 거리를 나타냅니다.
    • 즉 하나의 샘플이 벡터 스페이스 어딘가에 있을 것이다.
    • 이 샘플과 가까운 K개의 샘플과 distance을 계산한다.
    • 이 합의 역수가 밀도가 되는 것
    • 따라서 밀도가 높다는 것은, 다른 샘플들과 근접한 관계를 가진다는 것이고, 밀도가 낮다는 것은 다른 샘플들과 관계가 멀다는 것이다.

3.3.2 High-Quality Sample Selection and Evaluation 

  • 각 클러스터 내에서 각 샘플의 밀도를 계산한 후, 그들을 밀도에 따라 순위를 매깁니다. 
  • 구체적으로, k번째 클러스터 Ck 내에서 밀도가 ρi인 각 샘플에 대해, 우리는 다음과 같이 정렬된 인덱스 목록 IdxCk를 계산합니다:
    • 여기서 argsort는 밀도를 오름차순으로 정렬할 때의 인덱스를 반환하는 함수이며, n은 Ck 내의 전체 샘플 수를 나타냅니다. 
    • 다음으로, 샘플 선택 임계값 t를 기반으로 Ck에서 상위 t 비율의 샘플을 선택합니다. 
  • 여기서 m = ⌊n ∗ t⌋로 정의하고, 선택된 샘플은 다음과 같이 표시됩니다: 
    • zTAV(IdxCk,1), . . . , zTAV(IdxCk,m). 
    • 여기서 zTAV(IdxCk,i)는 밀도 순으로 정렬된 인덱스를 기반으로 클러스터 Ck에서 선택된 i번째 샘플 특성을 나타냅니다.
  • 즉 각 클러스터링된 그룹에서 threshold t의 비율만큼만 샘플링해서 사용한다.
    • 버림(n*t)의 개수만큼 가져간다.
    • 따라서 클러스터링내 그룹에서 높은 density을 가지는 샘플들만 가져가게 된다.
  • 실제 세계의 데이터는 각 클래스 간에 균일한 분포를 나타내지 않을 수 있으므로, 모든 클러스터에 고정된 K를 할당하는 것은 밀도 계산의 정확도를 저해할 수 있으며 이로 인해 고품질 샘플의 선택에 영향을 미칠 수 있습니다. 
    • 이를 해결하기 위해 우리는 각 클러스터에 대해 최적의 K를 자동으로 식별하도록 설계된 K 후보를 선택하기 위한 혁신적인 방법을 소개합니다. 
    • 즉 density을 계산할 때, 몇개의 주변 샘플과 비교할지 정해야한다.
    • 고정된 K개랑 비교하는것은 클러스터링에 따라 맞지 않을 수 있기 때문에..
    • 이를 잘 선택해보자!
  • K 후보의 범위가 주어진 경우, 우리는 선택된 샘플의 품질을 평가하여 이상적인 K 후보를 찾는 목적으로 이들을 열거합니다. 
  • 우리는 클러스터 cohesion을 측정 기준으로 사용하여 각 클러스터의 품질을 측정하고 클러스터 내 요소 간의 유사성 정도를 평가합니다.
    • 클러스터링이 잘 됐는지 파악하기 위해 클러스터 cohension이라는 것을 계산한다.
    • 이는 클러스터 내 요소간의 유사성 정도를 평가하는 개념?
  • cohesion coh(·)은 다음과 같이 정의됩니다:
    • 여기서 m은 클러스터 Ck에서 선택된 샘플의 개수를 나타내며, d(·)는 유클리드 거리를 나타냅니다. 
    • cohension은 효과적으로 선택된 샘플의 compactness을 캡처하고, 따라서 그들의 품질을 나타냅니다. 
    • 각 클러스터의 최종 K 값은 가장 높은 cohension을 얻는 후보를 기반으로 결정됩니다. 
      • 정확히 어떻게?
    • 그런 다음 각 클러스터에서 selected index list(idx')를 집계하여 최종 선택된 인덱스 목록을 형성하고, 이 목록은 3.4 representation learning을 위해 고품질 샘플을 선택하는 데 사용됩니다.
    • 상위 인덱스가 몇 개를 말하는 거지? 이거는 어떻게 정함?
  • 즉 클러스터링 그룹 Ck내에 m개의 요소가 있다고 해보자.
    • i번째 요소에 대한 cohension은 i 요소와 다른 요소 벡터간의 거리의 평균이다.
    • 각 요소에 대한 cohension을 계산하여 이를 더한게 클러스터의 cohension이 된다.
    • cohension이 높다는 것은, 요소들간의 평균거리가 멀다는 것이다.
    • 그러면 각 클러스터의 cohension이 있을텐데, 가장 cohension이 높은 클러스터를 top C라고 해보자.
    • top C을 기준으로 몇 개의 샘플과 비교해서 density을 계산할지 (즉 K값) 정한다.

3.4 Multimodal Representation Learning

  • 선택된 인덱스 Idx'로 식별된 고품질 샘플은 더 reliable pseudo labels을 가지는 경향이 있으므로, 우리는 이러한 샘플을 guiding set으로 사용하여 클러스터링을 위한 친숙한 표현 학습을 용이하게 합니다. 
  • 이러한 샘플을 활용하여 pairwise samples간의 고수준 유사성 관계를 캡처하고자 합니다. 
  • 이를 위해 다음과 같이 multimodal supervised contrastive loss을 도입합니다:
    • 여기서 li = ϕ2(zi)이며, ϕ2는 ReLU 활성화 함수를 사용하는 비선형 레이어입니다. 
    • 이는 방정식 3과 일관성이 있습니다. 
    • 여기서 li는 {lTAV,i, lT0V,i, lTA0,i} 중 하나이며, τ2는 온도 매개변수를 나타냅니다. 
    • P(i)는 동일한 클래스를 공유하는 확장된 샘플들의 인덱스 집합입니다. 
    • 이 손실을 사용하면 각 샘플은 자신의 확장에서만이 아니라 고품질 가상 레이블에서 파생된 클러스터링 정보에서도 학습할 수 있습니다.
  • 정리하면
    • k-means++로 일단 클러스터링 N개의 클러스터링 그룹을 만든다.
    • 각 그룹에서 각 샘플들의 density을 계산한다.
    • density을 계산할때, 샘플들과 비교할 주변 샘플들 K을 지정해야한다.
    • 이 K을 지정할 때, cohension 개념을 통해, 주어진 데이터에 해당하는 K을 정한다.
    • 어쨌든 클러스터내에서 density가 높은 샘플들만 남긴다. (고품질로 간주)
    • 고품질 샘플들은 같은 그룹이니까, 비슷한 벡터를 가져야 하므로, 식 9처럼 학습시킨다. pretraining과 유사한 과정이라고 보면 된다.
  • 반면에, 저품질 샘플은 오분류에 취약하며, 이로 인해 비슷하지 않은 샘플이 동일한 클래스로 묶일 수 있습니다. 
    • 이러한 잘못된 그룹화는 클러스터링 프로세스의 무결성을 깨뜨릴 수 있습니다. 
    • 이 문제를 완화하기 위해, 우리는 이러한 샘플에 대한 비지도 대조 손실의 적용을 제안합니다. 
    • 이 손실 함수는 다른 저품질 샘플 간의 분리를 증가시키도록 설계되어, 특징 공간에서 보다 균일한 분포를 장려합니다. 
    • 구체적으로, 방정식 2를 사용하되 ϕ1 대신 ϕ2로 대체하고, 이 수정된 방정식을 선택된 인덱스 Idx'를 제외한 훈련 세트의 나머지 샘플에 적용합니다.
  • 우리의 접근 방식에서는 고품질 샘플에 다중 모달 지도 대조 학습을 반복적으로 적용하고, 저품질 샘플에는 비지도 대조 학습을 적용합니다. 
    • 이 중복 전략은 다중 모달 표현 학습과 클러스터링 프로세스를 동시에 강화하기 위해 고안되었습니다. 
    • 훈련 단계는 샘플 선택 임계값 t (방정식 4에서 정의된대로)이 100%에 도달할 때 종료됩니다. 
    • 추론 단계에서는 훈련된 모델을 사용하여 zTAV를 추출하고, 그런 다음 예측을 위해 K-Means++ 알고리즘을 적용합니다.
    • 즉 한 step이 끝나면, representation이 강화될텐데, 이를 반복적으로 수행한다는 개념인듯

4 Experiments

4.1 Datasets

  • 이 연구에서는 두 개의 다중 모달 데이터셋인 MIntRec과 MELD-DA를 사용하여 벤치마크를 수립합니다. 
  • 이 데이터셋들의 자세한 통계는 표 1에 제시되어 있습니다.
  • MIntRec: 
    • 이는 다중 모달 의도 인식을 위해 설계된 새로운 데이터셋입니다. 
    • 이 데이터셋은 20개의 imbalanced intent categories와 총 2,224개의 고품질 주석이 달린 다중 모달 샘플로 구성되어 있습니다. 
    • 데이터셋은 3:1:1 비율을 사용하여 훈련, 검증 및 테스트 세트로 분할되었습니다.
  • MELD-DA: 
    • 이 데이터셋은 원래 MELD 데이터셋(Poria 등, 2019)에서 파생되었습니다. EmoTyDA(Saha 등, 2020b)가 다중 모달 대화 행위 레이블을 추가로 제공하여 데이터셋을 보강했습니다. 
    • 본 연구에서는 이 데이터의 하위 집합을 사용하며, 이 하위 집합에는 총 9,582개의 샘플이 포함되어 있으며 12개의 클래스에 불균등하게 분포되어 있습니다. 
    • 데이터셋은 7:1:2 비율을 사용하여 훈련, 검증 및 테스트 세트로 나누어졌습니다.

4.2 Baselines

  • 우리의 실험에서는 우리의 방법을 자연어 처리 및 컴퓨터 비전의 최신 비지도 클러스터링 방법 및 다중 모달 클러스터링 방법과 비교합니다. 
  • 기준 메소드에 대한 자세한 정보는 다음과 같습니다.
  • SCCL: 
    • 이 방법은 클러스터링 헤드를 위한 clustering head and an instance-wise contrastive loss을 위한 instance-CL 헤드를 공동으로 최적화합니다. 
    • 두 헤드의 학습률은 3e-5로 설정됩니다.
  • CC: 
    • 이 방법은 증강된 데이터로부터 특성 추출을 위해 공유 딥 네트워크를 사용하고 인스턴스 수준 및 클러스터 수준 학습을 위해 두 개의 별도 MLP 헤드를 사용합니다. 
    • 학습률은 3e-5로 설정됩니다.
  • USNID: 
    • 이 방법은 강력한 데이터 증강 방법을 사용하는 사전 훈련 단계를 포함합니다. 
    • 우리는 벤치마크 데이터셋에서 랜덤 erase 비율을 0.2로 설정할 때 이 알고리즘이 잘 수행된다는 것을 발견했습니다.
  • MCN: 
    • 이 방법은 동적으로 클러스터 중심을 얻기 위해 온라인 K-means 알고리즘을 적용하고 주기적으로 업데이트합니다. 
    • 상대적으로 작은 양의 훈련 데이터 때문에 각 에포크에서 모든 데이터에 대한 클러스터링을 위해 온라인 접근 방식 대신 K-means를 사용합니다.
  • 근데 classification모델하고는 비교 안하는지?

4.3 Evaluation Metrics

  • 우리는 실험의 효과를 평가하기 위해 다섯 가지 흔히 사용되는 클러스터링 평가 지표를 사용했습니다: 
    • Normalized Mutual Information (NMI), 
    • Accuracy (ACC), 
    • Adjusted Rand Index (ARI), 
    • Fowlkes-Mallows Index (FMI), 
    • Purity.
  • 특히, ACC는 Hungarian 알고리즘을 사용하여 예측과 실제값을 정렬하여 계산되며, 이는 (Zhang 등, 2021a, 2023)에서 설명한 대로 수행됩니다. 
  • NMI, ACC, FMI 및 Purity의 경우 가능한 값 범위는 0에서 1까지이며, ARI의 경우 -1에서 1까지 범위를 갖습니다. 
  • 이러한 모든 지표의 높은 값은 더 나은 클러스터링 성능을 나타냅니다.

4.4 Experimental Setup

  • 텍스트 모달리티에 대해서는 Huggingface Transformers 라이브러리를 사용하여 구현된 사전 훈련된 BERT 모델을 사용합니다. 
  • 우리는 AdamW 최적화기를 사용하여 모델을 최적화합니다. 
  • MIntRec 및 MELD-DA 데이터셋의 경우, 시퀀스 길이 LT, LV, LA를 각각 (30, 230, 480) 및 (70, 250, 530)으로 설정합니다. 
  • 임계값 t0를 0.1로 초기화하고 간격 ∆로 0.05씩 증가시킵니다. 
  • 후보 K는 각 클러스터에 할당된 비율 목록 u에 따라 결정되며, 여기서 u는 0.1에서 0.3까지 0.02 간격으로 범위가 설정됩니다. 
  • 학습률은 2e-5로 설정합니다. 
  • temperature 매개변수인 τ1 및 τ2는 각각 0.2 및 3으로 구성됩니다. 
  • 훈련, 검증 및 테스트 단계의 배치 크기를 128로 설정합니다. 
  • 각 실험은 동일한 랜덤 시드로 여러 번 실행되며, 이러한 실행의 평균 결과를 보고합니다.

4.5 Results

  • 테이블 언급해주는게 좋음
  • 이 섹션에서는 제안된 알고리즘의 결과를 제시하고 텍스트 또는 다중 모달 데이터를 사용하여 여러 기준 알고리즘과의 성능을 비교하여 효과를 평가합니다. 
  • 전반적으로, MMC는 대부분의 메트릭을 통해 MIntRec 및 MELD-DA 데이터셋 모두에서 평균적으로 2-3% 향상된 성능을 보여 최고의 기준 알고리즘에 비해 우수한 성능을 달성합니다. 
  • 이는 우리의 접근 방식이 이 어려운 작업을 해결하는 데 효과적임을 강조합니다.
  • MIntRec 데이터셋에서, MMC는 모든 기준 알고리즘을 능가하며 38.18%의 최첨단 평균 성능을 달성합니다. 
  • 이 결과는 MMC의 다중 모달 비지도 클러스터링에서의 우수성을 입증합니다. 
  • 그러나 MELD 데이터셋에서는 ACC 측면에서 기준 SCCL에 비해 약간 낮은 성능을 보이며, 이 결과는 약간의 단점을 시사하긴 하지만 MMC가 다른 메트릭에서 여전히 모든 기준 알고리즘을 능가하며 무엇보다도 평균적으로 성능이 우수하다는 점을 강조해야 합니다.
  • MELD에서 MMC의 약간 낮은 정확도 성능은 이 데이터셋의 특성에 기인할 수 있습니다. 
    • MELD는 다른 인스턴스보다 oth 인스턴스의 비율이 높으며, 이는 MMC에게 독특한 도전 과제를 제공합니다. 
    • MMC는 하나의 배치에서 두 개의 샘플이 동일한 클러스터에 속하는지 여부를 결정하도록 설계되었지만 oth로 분류된 두 개의 샘플이 반드시 의미적으로 유사하지는 않을 수 있으며, 최종 테스트 중에 오류를 일으킬 수 있습니다. 
    • 이 특별한 도전 과제를 해결하기 위해 더 깊은 분석과 알고리즘의 세밀한 조정이 필요할 수 있습니다.

4.6 Ablation Studies

  • MMC의 두 단계의 효과를 평가하기 위해, 우리는 제안된 방법을 그와 관련된 모델과 비교합니다. 
  • 구체적으로, 우리는 MMC의 pre-training and training 단계를 따로 제외하고 부분적인 교육 후 모델을 테스트합니다. 
  • 표 4에 나타난 결과는 일관되게 MIntRec 및 MELD 데이터셋에서 전체 모델과 비교하여 사전 교육 및 교육 단계가 없는 모델이 각각 6-12% 및 4-16%의 중요한 성능 하락을 나타냅니다. 
  • 이는 두 단계가 제안된 알고리즘에서 중요한 역할을 한다는 것을 나타냅니다. 
  • pre-training의 데이터세트는 근데 뭐지?
  • 더욱이, 사전 교육이 없는 모델이 교육 단계 없는 모델보다 더 나은 성능을 발휘하며, 두 데이터셋 모두에서 4-6%의 장점을 갖습니다. 
  • 특히, MMC의 어느 단계에서든 교육 결과는 두 데이터셋에서 각각 최소 7% 및 3% 이상의 MCN의 다중 모달 기준 모델보다 우수함을 나타내며, 우리 알고리즘의 각 단계가 다중 모달 데이터를 처리하고 그들의 잠재적인 연결을 발견하는 데 능숙하다는 것을 강조합니다.

5 Conclusions 

  • 이 논문은 다중 모달 의도 발견의 중요한 과제를 다루며, 이를 해결하기 위한 새로운 multimodal unsupervised clustering 방법을 소개합니다. 
  • 제안된 알고리즘은 다중 모달 데이터에 대한 긍정적인 보강을 혁신적으로 구성하고 효과적인 고품질 샘플 선택 전략을 개발합니다. 
  • 이 전략은 복잡한 하이퍼 파라미터 튜닝이 필요하지 않고 고품질 인덱스를 자동으로 선택하기 위해 설계되었습니다. 
  • 우리의 supervised and unsupervised contrastive learning 기술의 결합을 통해 high-quality and low-quality samples을 교육 프로세스에 통합합니다. 
  • 우리는 이 작업을 위한 벤치마크를 설정하는 데 상당한 노력을 기울였습니다. 
  • 다양한 실험 결과는 우리의 제안된 알고리즘이 두 가지 벤치마크 데이터셋에서 최첨단 텍스트 비지도 클러스터링 방법을 능가함을 입증하며, 그 효과성과 잠재력을 강조합니다. 
  • 우리는 이 작업에서 사용된 모든 코드와 데이터셋을 미래에 오픈 소스 자원으로 공개할 계획입니다. 
  • 이를 통해 다중 모달 의도 발견 분야에서의 추가 탐구와 발전을 가능하게 할 것입니다.

Limitations

  • 이 연구는 우수한 성능을 나타내는 새로운 멀티모달 클러스터링 접근 방식을 제시합니다. 그러나 이 연구에는 제한 사항이 있습니다. 첫째, 멀티모달 콘텐츠 데이터셋의 제한된 가용성으로 인해 평가가 두 개의 데이터셋으로 제한되었으며, 이는 실제 세계 시나리오의 다양성을 완전히 대표하지 못할 수 있습니다. 둘째, 클러스터링 작업에서 최적의 클러스터 수를 결정하는 것은 여전히 중요한 과제이며, 우리의 방법은 이 문제를 직접 다루지 않습니다.
  • 전망을 살펴보면, 우리는 모델을 확장하여 열린 클래스 내에서 새로운 의도 범주를 식별하는 것을 목표로 합니다. 예를 들어, MELD-DA와 같은 데이터셋에서는 'oth'와 같은 복잡한 범주가 존재합니다. 우리 모델은 알려진 의도를 정확하게 인식하는 데 그치지 않고, 의도 발견의 목적으로 열린 의도를 탐색하며 새로운 범주를 발견하도록 하는 것을 희망합니다. 궁극적으로, 멀티모달 의도 분석 분야에서 중요한 진전을 나타내는 의도 인식, 열린 의도 감지 및 새로운 의도 발견을 원활하게 연결하는 통합된 프레임워크를 그림으로 그리며 그 분야에서 중요한 진전을 나타내고자 합니다.

댓글