NL-185, Non-contrastive sentence representations via self-supervision, EMNLP Review 2023

◼ Comment

  • 논문 요약
    • 이 논문은 text 모달리티에서 sample-contastive와 dimension-contrastive로 학습한 언어모델을 텍스트 임베딩으로 사용합니다. text 모달리티에서 유명한 simcse와 컴퓨터비전에서 유명한 BT, VICReg으로 모델 학습을 시도했습니다. 많은 경우에, simcse가 좋으나 다른 방법들이 좋은 경우도 존재합니다.
  • 장점
    • 컴퓨터비전에서 주로 사용되던, BT와 VICReg을 NLP 테스크들에 적용합니다.
    • sentence embedding에 관한 NLP 커뮤니티에서 참고하기 좋은 실험들입니다.
  • 단점
    • 학습과 테스트의 데이터가 다르기 때문에, STS-B 데이터세트에서 실제로는 최적이라고 선택된 pdo 및 pshuffle이 최적의 값이 아닐 수 있다. 따라서 테이블 2에서의 실험 결과들에 noise가 있을 것이 우려된다.
    • 왜 sample-contrastive(즉 simcse)가 dimension-contrastive보다 많은 경우에 좋은지 분석이 필요해보인다.
    • 이 논문의 노벨티가 부족하다. 새로운 임베딩 학습 방법을 제시한 것은 없고 기존의 방법들을 비교한 것 뿐이다.
    • 연구 논문보다는 테크니컬 리포트와 같은 성격으로 간주된다.
  • 질문
    • 표 1에서 upper와 quartile (q75, q50)이 의미하는 것이 정확히 어떤 내용입니까? 
    • 학습 모델의 체크포인트를 정할 때, Spearman's rank correlatiaon을 사용하고 테이블 1에서는 Pearson's correlation의 결과를 표기한다. 이렇게 correlation을 활용한 이유가 무엇입니까?
  • 제안
    • 본문에 테이블 2를 가리키는 문단이 없다. Results section에서 테이블 2를 언급하는게 좋다.

0. Abstract

  • 대부분의 비지도 학습 방법에서 텍스트와 문장 임베딩을 학습하는 데 기초가 되는 것은 보통 'contrastive 방법'으로 간단히 언급됩니다. 
  • 반면에, 컴퓨터 비전 커뮤니티에서는 다른 유형의 자가 지도 손실 함수와 방법이 고려되었으며 'dimension contrastive'이라고 불립니다. 
  • 이 논문에서는 우리는 이러한 방법 클래스를 대조적 문장 임베딩의 표준 기준인 SimCSE와 철저히 비교합니다. 
  • 우리는 self-supervised embeddings이 보조적인 손실 함수 없이도 다운스트림 작업에서 SimCSE보다 우수한 성능을 발휘할 수 있음을 발견했습니다.

1. Introduction

  • 텍스트 임베딩은 다양한 NLP 작업에 중요한 도구입니다. 주제 분류, 문서 군집화, 텍스트 마이닝, 정보 검색 등과 같은 문제에 대해 일반적이고 계산 효율적인 해결책을 제공합니다. 
  • 대부분의 최신 텍스트 임베딩 학습 기술은 대조적 손실을 최소화하는 데 의존합니다. 
  • 이를 위해서는 학습 세트의 각 예제 x에 대해 양의 예제 x+와 x와 관련된 음의 예제 집합 x−i를 식별해야 합니다. 
    • x+와 x−i의 선택은 이러한 기법들을 구분하는 주요 요소 중 하나입니다. 
  • Unsupervised methods은 xi-에 대해 인배치 음성(negative)을 사용하고, x+에 대해서는 데이터 증강을 활용합니다.
  • Supervised or weakly supervised methods은 양성과 음성 쌍을 구축하기 위해 채굴 휴리스틱이나 주석이 달린 데이터셋에 의존합니다. 
    • 예를 들어, entailment와 contradiction 쌍을 사용하는 것이 흔한 선택입니다. 
    • 이는 SNLI와 MNLI와 같이 사용됩니다.
  • 이 연구에서는 텍스트 임베딩 학습 문제를 어떤 목적 함수를 사용할 것인지의 관점에서 접근합니다. 
  • 우리는 컴퓨터 비전 문헌에서 소개된 두 가지 자기 지도적 표현 학습 알고리즘인 Barlow Twins (BT)와 VICReg을 고려합니다. 
  • 이 두 방법을 구분짓는 것은 Garrido의 분류에 따라 'dimension contrastive'인 성질을 가진다는 점입니다. 
  • 일반적인 contrastive 방법은 Garrido에 의해 'sample contrastive'으로 정의되며, 서로 다른 데이터 포인트에 해당하는 임베딩의 유사성을 벌점으로 주어서 학습된 표현의 붕괴를 피합니다. 
  • 반면에 dimension contrastive 방법은 목적 함수를 정규화함으로써 임베딩들을 각 차원별로 상관없게 만듭니다. 
  • 내가 알고있던 것은 sample contrastive였군. dimension contrastive은 각 차원을 독립적으로 만들도록 loss식을 설계하는 듯?
  • 샘플 대조적 방법과 차원 대조적 방법은 모두 비지도 학습 환경에서 데이터 증강에 의존합니다. 
  • 좋은 증강 함수는 이미지 데이터에 대해서는 잘 알려져 있고 흔히 사용되지만, 텍스트 데이터의 증강은 보통 더 어렵다고 여겨집니다.
  • SimCSE의 획기적인 발견 중 하나는 동일한 데이터 포인트에 대한 증강된 뷰를 정의하기 위해 모델 확률적 드롭아웃 마스크를 사용하는 것이 효과적이라는 것을 깨달았다는 것입니다.
  • 이 논문의 주요 목표는 sample-contrastive and dimension-contrastive으로 학습된 임베딩을 비교하고, 다양한 증강 전략을 조사하는 것입니다. 
    • 우리는 SimCSE를 샘플 대조 기준으로 사용하고, BT와 VICReg과 비교합니다. 
  • 우리의 주요 발견은 다음과 같습니다:
    • i) Barlow Twins는 비지도 SimCSE와 독립적인 목적 함수로 경쟁력이 있으며, RoBERTa 기반 아키텍처에서 MTEB 작업의 대다수에서 SimCSE보다 더 뛰어난 성능을 보입니다. 이는 Klein과 Nabi (2022) 및 Xu 등 (2023)의 결과와는 상반된 결과입니다. 이들은 BT 목적 함수만을 사용하여 좋은 성능을 얻지 못했습니다.
    • ii) VICReg는 Barlow Twins와 SimCSE보다 성능이 떨어집니다. 이를 최적화하기가 어렵다고 판단되며, 더 많은 하이퍼파라미터 탐색과 더 나은 데이터 증강을 통해 더 나은 결과를 얻을 수 있을 가능성이 배제되지 않습니다.
    • iii) 우리는 데이터 증강 대신 지도 학습을 사용하여 혼합된 결과를 얻었습니다. 어떠한 경우에도 지도 학습은 모든 MTEB 하위 작업 범주에서 더 나은 성능을 보장하지 않습니다. (예: NLI 데이터셋에서의 지도 학습을 이용하여 증강)

2 Contrastive techniques 

  • 우리가 이 논문에서 실험하는 모든 기법들은 통일된 방식으로 설명할 수 있습니다. 
  • 데이터 포인트들인 sn, n = 1, . . . , N (이 논문에서는 문장들)으로 구성된 배치를 고려해봅시다. 
  • 각 포인트의 표현 en은 파라미터화된 문장 인코더를 통해 얻어집니다 (이 논문에서는 BERT와 RoBERTa를 사용합니다): en = Eθ(sn). 
    • 어떤 유형의 데이터 증강을 고려하기 위해서는, Eθ가 두 번째 (가능한 무작위의) 파라미터 ϵ를 허용하며, 이는 증강을 지정하는데 사용됩니다: e′n = Eθ(sn, ϵ). 
    • self-supervised setting에서 Eθ를 훈련시킬 때, 배치 내 각 포인트에 대해 두 개의 임베딩 (views)인 e^(A,B)_n을 생성합니다. 
    • 각각은 파라미터화된 projector를 통해 고차원 공간으로 투영됩니다: zn ≡ Pθ(en). 
    • 이렇게 얻어진 D차원 벡터 zn은 각각의 기법에 특화된 손실 함수에서 사용됩니다.
  • 즉 BERT로 문장을 두개의 임베딩벡터 en로 만든다. (dropout, 데이터증강을 통해 다른 벡터로 유도한다.)
    • 두 벡터를 projector (linear matrix일듯?)을 통해 두 벡터로 또 projection 시킨다. (zn)
    • znA와 znB을 같게해서 학습시킨다. (positive sample)
  • SimCSE
    • 샘플 대조 방법에 대한 우리의 기준선은 SimCSE입니다. 
    • 이전 정의에 따르면, unsupervised 버전의 SimCSE는 배치 n = 1, . . . , N에 대해 contrastive 손실을 최소화합니다. 
    • 여기서 sim은 유사도 함수이며, 이 경우에는 표준 cosine 유사도를 사용합니다. 
    • Unsupervised SimCSE는 동일한 입력 데이터 포인트에 대해 서로 다른 드롭아웃 마스크를 적용하여 두 개의 뷰를 얻습니다.
  • Barlow Twins 
    • BT (Zbontar 등, 2021)은 우리가 고려하는 두 개의 dimension contrastive중 하나입니다. 
    • 각 배치는 임베딩 z(A)와 z(B)의 i번째와 j번째 항목 사이의 피어슨 상관관계 ρij에 의해 손실에 기여합니다.
    • 식 (2)의 첫 번째 항은 두 뷰 A와 B의 임베딩이 완벽하게 상관된다는 것을 강제합니다. 
    • 반면에 두 번째 항은 첫 번째 항을 규제하며, 서로 다른 임베딩 구성 요소들이 상관관계가 없어야하며 이상적으로 데이터에 대해 다른 정보를 인코딩해야 합니다.
    • BT와 VICReg의 입력인 두 문장은 simcse처럼 dropout만을 통해서 만들지는 않고, 다른 데이터증강 기법도 함께 사용해서 만든 문장이 pair로 들어가는 것 같음 (아래 method 참고)
    • https://kyujinpy.tistory.com/46
      • 위 블로그보면 식을 이해하는데 도움된다.
      • 일단 각 dimension마다 독립되고 특정한 feature을 가진다고 보는 것이다.
      • 따라서 같은 feature 을 가지는 차원끼리의 관련성은 1이되고 아닌 차원끼리의 관련성은 0이 되도록 학습하는 것이라 보면 된다.
  • VICReg 
    • 우리가 조사하는 차원 대조 기법의 두 번째 예는 VICReg입니다. 
    • 이 경우 손실 함수는 세 가지 항을 결합합니다.
    • 여기서 I = A, B이고, H = max(0, 1 − x)입니다. 
    • 식 (3)에서의 D × D 행렬 C는 배치 내에서 z (A,B) 벡터 구성요소의 공분산 행렬입니다. 
    • BT와 유사하게, 손실 함수의 첫 번째 항은 동일한 데이터 포인트의 두 뷰가 동일한 벡터로 표현되도록 이끕니다. 
    • 다른 두 항은 임베딩이 붕괴되는 것을 방지하기 위해 도입됩니다. 
    • 식 (3)의 마지막 항은 BT에서 사용되는 규제 기준과 유사하며, z (A,B) 벡터의 서로 다른 구성 요소들을 상관관계를 줄이기 위해 시도합니다. 
    • 두 번째 항은 힌지 손실로, 동일한 벡터의 각 구성 요소의 분산이 1의 순서로 되도록 장려합니다.
  • 다양한 contrastive 방법과 non-contrastive 방법에서는 표현을 이해하기 위한 방대한 연구가 이루어지고 있습니다. 
    • 그들의 성공 이유 또한 함께 연구되고 있습니다. 
  • 이들 연구 중에서도 특히 Garrido 등(2022)의 연구는 sample-contrastive과 dimension-contrastive 목적 사이의 유사성에 대해 광범위하게 논의되며, vision 도메인이긴하나, 다른 성능을 보인다는 점은 아키텍처와 하이퍼파라미터 선택과 관련이 있다고 설명합니다. 
  • 최종적으로, 이러한 방법 중 어떤 것이 텍스트 모달리티에서 더 나은 성능을 보이는지는 경험적인 질문입니다. 
    • 이 질문에 대답하려는 것이 본 논문의 주요 목표입니다.
    • 다양한 도메인에서 sample, dimesion-contrastive 기법이 연구되고 있는데
    • 이러한 여러 방법론을 text 도메인에서 적용해보고 성능을 비교해보는게 이 논문의 주요 목표

3 Methods

  • Gao와 비교하기 위해 우리는 그들이 비지도 학습 모델을 훈련시키는 데 사용한 Wikipedia 데이터셋과 동일한 데이터셋을 사용합니다.
  • 우리의 지도 학습 실험에서는 두 가지 다른 훈련 데이터셋을 사용해봅니다.
    • 첫 번째는 Gao가 사용한 것과 동일한 SNLI와 MNLI의 수반 문장 쌍들의 집합입니다. 어려운 부정적 예제들을 우리의 목적에 쉽게 통합하기 어려우므로, 긍정적인 예제들만 사용합니다. 
    • 또 다른 데이터셋으로는 WikiAuto가 있습니다. 이 데이터셋은 영어 위키피디아에서 그들에 해당하는 간단화된 영어 위키피디아 버전의 문장들을 포함합니다.
  • 우리는 실험을 위해 두 개의 베이스 모델, BERT-base와 RoBERTa-base를 고려합니다. 
  • 각 경우에 대해, 우리가 하위 작업에 사용하는 임베딩 Eθ는 [CLS] 토큰의 임베딩입니다. 
  • SimCSE를 위한 프로젝터 Pθ는 변형기 차원과 동일한 크기의 선형 레이어로 구성되며, 그 뒤에 tanh 활성화 함수를 따릅니다. 
    • BT와 VICReg는 Bardes를 따라 두 개의 선형 레이어를 사용하며, 둘 다 배치 정규화와 ReLU 활성화 함수가 적용되며, 추가적인 차원이 8192인 추가적인 선형 레이어가 뒤따릅니다. 
    • 더 큰 차원은 유사한 결과를 제공하며, 더 작은 차원은 점차 성능이 하락합니다.
  • SimCSE 모델들은 temperature τ 값이 0.05로 설정되고, BERT의 학습률은 3 × 10^(-5) 이며, RoBERTa의 학습률은 10^(-5)로 설정되어 훈련됩니다. 
    • 이 하이퍼파라미터들은 하이퍼파라미터 스윕(hyperparameter sweep) 과정을 통해 식별되었습니다.
  • 우리는 BT와 VICReg를 위해 세 가지 기본 유형의 증강(augmentation)을 실험해봅니다. 
  • Dropout: 
    • Gao와 마찬가지로 동일한 데이터 포인트의 각 뷰(view)에 서로 다른 드롭아웃 마스크를 적용합니다. 이 증강은 드롭아웃 확률 pdo = {0.05, 0.1, 0.2}로 매개변수화됩니다. 
  • Shuffling: 
    • 두 가지 분기(branch) 모두 입력 토큰의 일부인 ps = {0.05, 0.1, 0.2, 0.3, 0.5}를 선택하고 무작위 순열을 적용합니다. 
  • EDA: 
    • 우리는 동의어 대체, 무작위 삽입, 무작위 교환, 무작위 삭제에 대해 동일한 매개변수 α = {0.1, 0.2}를 사용하여 각 분기에 EDA를 적용합니다. 
  • 각 증강에 대해 학습률과 방정식 2와 3의 손실 계수들의 최적 값을 선택하기 위해 하이퍼파라미터 스캔을 수행합니다.
  • 우리는 Gao와 같이 STS-B 검증 세트에서 스피어만 상관계수(Spearman's rank correlation)를 측정하여 최상의 체크포인트를 선택합니다. 
    • STS-B: https://huggingface.co/datasets/stsb_multi_mt
    • 뭔가 모델을 선택하는게 특이한거 같은데?
    • 표에서는 피어슨 상관관계를 평가한거 같고..
  • 결과는 표 1에 표시되어 있습니다. 
    • 데이터 증강에 따른 개발 세트의 STS-B Pearson 상관계수 분포에 대한 최댓값(max), 상위 사분위수(upper quartile) 및 중앙값(median)은 다음과 같습니다. 각 모델에 대한 전체적으로 최고 점수는 굵게 표시되고, 증강별 최고 점수는 밑줄로 표시됩니다. VICReg의 경우, EDA만 α = 0.1로 실행했습니다.
    • max, q75, q50이 정확히 어떻게 작동하는 거지?
    • 이 표는 BERT-BT, RoBERTa-BT, BERT-VICReg, RoBERTa-VICReg 모델을 학습할 때,  최고의 적절한 하이퍼파리미터 및 데이터증강 기법을 선택하기 위해 실험한 표인듯?
      • BERT-BT-pdo-0.05
      • BERT-BT-pshuffle-0.5
      • BERT-VICReg-pdo-0.05
      • BERT-VICReg-pshuffle-0.5
      • RoBERTa-BT-pdo-0.1
      • RoBERTa-BT-pshuffle-0.5
      • RoBERTa-VICReg-pdo-0.2
      • RoBERTa-VICReg-pshuffle-0.5
    • 즉 이렇게 픽한 모델들과 Simcse을 Table 2에서 비교함.
  • 모델과 손실 함수에 걸쳐 작은 pdo와 큰 pshuffle 값이 선호되며, 특히 BT에서 이 효과가 더 강조됩니다. 
    • pdo는 drop의 확률이고, pshuffle은 셔플링할 토큰을 선택하고 셔플링할 확률?
    • 어쨌거나, 입력문장의 변화를 많이 줘서 많이 입력을 바꾸는건 별로라는 것
  • EDA는 모든 경우에 성능이 떨어집니다. 
  • 스캔에 대한 자세한 내용은 부록 A를 참조하십시오.

4 Results

  • 훈련된 임베딩을 다양한 하위 작업 범주에 대해 Massive Text Embedding Benchmark (MTEB)를 사용하여 평가하고, 테스트 세트의 평균 성능과 작업 범주별 성능을 보고합니다. 
  • 대부분의 작업에서 BERT 점수는 BT와 VICReg 모두에서 SimCSE보다 약간 낮습니다. 
  • 그러나 RoBERTa는 BT와 dropout을 사용할 때 두 가지 주목할만한 예외에서 SimCSE보다 뛰어난 성능을 보입니다. 
  • 페어 분류 작업의 경우 모델 아키텍처나 목적에 관계없이 셔플 증강으로 훈련된 임베딩이 드롭아웃으로 훈련된 것보다 우수함을 알 수 있습니다. 
  • STS 결과는 STS-B 개발 세트에 대한 과적합의 정도를 나타냅니다. 
  • 이는 VICReg에 더 심각하게 나타나며, Tab. 1에서 개발 세트 성능이 BT보다 높습니다. 
  • 모델 체크포인트를 선택하기 위해 STS 작업에서 평가하는 것은 일반적인 접근 방식이지만, 이에 대한 비판이 있습니다. 
    • 왜냐하면 STS 성능과 하위 작업 성능 간에 상관관계가 없기 때문입니다. 
    • 학습과 테스트할때 데이터가 다른 형태이기 때문에
  • 마지막으로, 지도학습 데이터셋으로 훈련된 모델이 일부 하위 작업에서 비지도학습 방법보다 우수한 성능을 보일 수 있지만, 명확한 우승자는 없습니다. 
  • 이는 Muennighoff의 결과와 일치하며, 하나의 모델이 모든 작업에서 승리하지 않고 서로 다른 작업에서 단일 모델 성능이 크게 다양하게 나타나는 것을 확인할 수 있습니다.
    • 이 논문에서의 새로운 발견은 대체 무엇인가?
  • 우리는 또한 샘플 대조적 임베딩 기법을 분석할 때 일반적으로 고려되는 두 가지 지표인 alignment and uniformity을 보고합니다. 
    • 표준 sample contrastive 목적은 무한히 많은 부정적 샘플에 대해 이들을 최적화합니다(Wang 및 Isola, 2020). 
  • 이러한 지표들은 실증적으로 하위 작업에서 임베딩 성능과 상관관계가 있다고 알려져 있지만, 왜 uniformity이 필요한지에 대한 이해는 부족합니다. 
  • Huang은 alignment, divergence, and concentration이라는 세 가지 지표를 기반으로 분류 작업에 대한 오류율의 상한을 도출합니다. 
  • 직관적으로, 후자 두 지표는 임베딩 공간에서 다양한 클래스의 중심점이 얼마나 분리되어 있는지와 각 클래스의 확장된 멤버 표현이 얼마나 중심점 주변에 집중되어 있는지를 나타냅니다. 
  • Huang은 InfoNCE (van den Oord et al., 2019)와 BT가 이러한 기준을 만족시킵니다. 
  • 정렬성과 균일성에 대한 자세한 논의는 부록 B를 참조하십시오.
    • 이것을 가리키는 문장이 없음

5 Conclusions  

  • 이 연구에서는 문장 임베딩을 학습하기 위해 샘플 대조적(SimCSE) 및 차원 대조적(Barlow Twins, VICReg) 훈련 목적을 비교합니다. 
  • 우리의 결과는 이러한 대체 self-supervision 학습 목적이 좋은 표현을 학습할 수 있음을 보여줍니다. 
  • SimCSE로부터 얻은 임베딩과 동등하거나 더 나은 성능을 보입니다. 
  • Dimension contrastive 기법은 주로 컴퓨터 비전 문헌에서만 다뤄졌으며, 이 연구가 NLP 커뮤니티에서 이러한 기법들을 보급하는 방향으로 한 걸음 나아갈 수 있기를 바랍니다.

Limitations 

  • 이 짧은 논문의 목표는 차원 대조적 목적이 표준 샘플 대조적 기법에 대한 실용적인 대안임을 보여주는 것입니다. 
  • 우리는 기준으로 SimCSE를 사용했지만, DiffCSE, InfoCSE, 그리고 PromptBERT와 같은 sample contrastive 손실 함수를 BT 또는 VICReg에 적용하여 표준 대조적 손실 함수를 사용하여 얻은 동일한 성능 향상이 BT 또는 VICReg에도 적용되는지 확인하는 것이 흥미로울 것입니다.
  • 또한, 디코더 전용 모델 (Muenighoff, 2022)이나 인코더-디코더 모델 (Ni et al., 2022a)과 같은 다양한 모델 구조를 연구하는 것도 흥미로울 것입니다.
  • 더불어, 우리의 연구는 영어 문서에 대한 문장 임베딩에 한정되었지만, 이러한 방법들은 다국어 말뭉치에 적용 가능하며, 이러한 맥락에서 탐구하는 것이 가치가 있을 것입니다

Reference

댓글