NL-190, Stochastic Optimization of Text Set Generation for Learning Multiple Query Intent Representations, CIKM 2022

◼ Comment

  • 약간 논문이 아쉬운 느낌이 있다.
    • 만약 내가 리뷰했다면 reject 줬을 것 같긴 함;
  • short라 그런지 실험도 주장하는바를 보이기에 약간 부족한 느낌도 있음
  • 일단 NMIR저자가 future work로 쓴건데, NMIR 논문에 써있는 실험세팅이 오타라고 언급해준다.
    • 학습/테스트 데이터모두 MIMICS-Click을 사용했다고 한다.
    • 보통 다른 facet generation 논문에서는 학습은 MIMICS-Click, 테스트는 MIMICS-Manual을 사용하는 경우가 대부분이다.
    • 즉 실험세팅이 일단 조금 다르다.
  • 그리고 모델이 NMIR을 따른다고 하는데, query<->document matching 부분을 어떻게 없앴는지 언급을 안한다.
    • 추측하기론 모든 doument을 넣은 것으로 추측된다.
  • loss쪽에서 facet들의 permutation을 고려해서 loss을 설계하고
  • 각 facet 첫번째 토큰부터 position을 0으로 재설정해서 position embedding 부분을 바꾼게 컨트리뷰션이다.
  • 모든 permutation에 대해 loss을 계산해서 minimum loss으로 학습하는게 facet 순서를 고려안하도록 모델이 학습하게 하는 거지만 이는 cost가 많이 든다.
    • 따라서 facet 순서를 매번 랜덤 샘플링해서 학습시켜도 비슷한 결과가 나온다고 한다.
    • 근데 용지 여백으로 인해 실험을 추가 못했다고 한다;; (이게뭐지?)
  • 어쨌거나 facet순서를 고려해서 모델 학습을 하는 첫 시도라서 괜찮은 접근이라는 생각은 든다.
  • 다른 모델에서 facet generation 학습할 때, 이런식으로 facet 순서를 랜덤 샘플링해서 하면 성능이 진짜 더 좋아질까? 라는 의문은 있다.

0 Abstract

  • 쿼리에 대한 여러 의도 표현을 학습하는 것은 facet generation, document ranking, search result diversification, and search explanation과 같은 다양한 응용 분야에서 잠재적으로 활용 가능합니다. 
  • 이 작업을 위한 최신 모델은 intent representations의 시퀀스가 있다고 가정합니다. 
  • 본 논문에서는 모델이 정확하고 완전한 intent representations 세트를 생성하는 한 처벌되지 않아야 한다는 주장을 제시합니다. 
  • 이 직관을 기반으로 우리는 이러한 네트워크를 최적화하기 위한 stochastic permutation invariant approach을 제안합니다. 
  • 우리는 제안한 방법을 facet generation 작업에서 외부 평가하고 competitive baselines에 비해 중요한 개선 사항을 보여줍니다.
  • 우리의 분석 결과, 제안한 permutation invariant approach이 potential intents가 더 많은 쿼리에 가장 큰 영향을 미친다는 것을 보여줍니다.

1 INTRODUCTION

  • 효과적인 query representations 학습은 정보 검색 (IR) 시스템에서 항상 중요한 역할을 해왔습니다. 
  • 초기의 query representation 접근법은 주로 term-based representations에 중점을 두었다(예: 벡터 공간 모델에서의 TF-IDF 가중치).
  • 그들의 semantic representations은 또한 latent semantic indexing (LSI), bag-of-words embedding-based models, 그리고 contextual embedding-based models 에서도 연구되었습니다.
  • 정확한 query representations을 얻기 위한 최첨단 솔루션은 대개 다운스트림 검색 작업에서 BERT 및 BART와 같은 대규모 언어 모델을 미세 조정합니다. 
    • 이러한 방법은 종종 각 query or query term에 대한 single representation을 학습합니다. 
    • 그러나 이는 다중 다양한 의도에 연관될 수 있는 모호하거나 다면적인(faceted) 쿼리를 나타내기 위한 차선책 솔루션이다.
  • 이 문제를 해결하기 위해, 최근 Hashemi는 NMIR을 제안했습니다. 
    • NMIR은 쿼리의 여러 벡터를 학습하는 인코더-디코더 프레임워크로, 각각이 잠재적인 쿼리 의도를 나타냅니다. 
    • NMIR은 다른 query intent descriptions을 생성하여 multiple representations을 학습하는 것을 목표로 합니다. 
    • NMIR이 이룬 강력한 효과에도 불구하고, 쿼리 의도의 permutation invariance 특성을 무시합니다. 
    • 다시 말하면, 이는 쿼리 의도가 시퀀스로 생성되어야 한다는 가정을 기반으로 합니다.
    • 이 가정에 따라 정확한 query representations을 학습하고 query intent descriptions을 생성하지만 그 순서가 기준과 다를 경우 loss 함수를 크게 penalized하게 됩니다. 
    • 이 논문에서는 이러한 근본적인 결점을 해결하기 위한 해결책을 제안합니다.
  • 제안된 접근 방식인 PINMIR은 query intents 를 시퀀스가 아닌 집합으로 간주합니다.
    • unordered structure of sets를 고려하여, PINMIR은 최적화를 위해 permutation invariant loss function를 사용하며, 이를 통해 더 정확한 쿼리 표현을 학습합니다. 
    • Permutation invariant losses은 예측된 출력의 모든 가능한 permutations을 고려하는 경우가 많은데, intents 수가 증가함에 따라 계산 효율성이 빠르게 감소합니다. 
    • 이 문제를 해결하기 위해, 우리는 stochastic variation of permutation invariant loss도 제안합니다. 
    • 손실 함수 외에도, 우리는 permutation invariant decoding을 위해 변환기 디코더의 positional embedding을 재설정하는 간단한 해결책을 사용합니다.
    • 이 부분이 이 논문의 동기이자 핵심!
  • 쿼리의 multiple intent representations을 학습하기 위한 선구적 작업으로, Hashemi은 query facet generation이 학습된 query representations의 외부 평가에 성공적으로 활용될 수 있다는 것을 입증했습니다. 
    • 그들의 제안을 따라, 우리는 query facet generation작업에서 모델을 평가합니다. 
    • 즉 query facet을 잘 생성하는 rerpresentation은 multiple intent representation의 성능이 좋다는 뜻이므로, query facet generation 테스크를 타겟으로 한다.
  • 대규모 MIMICS 데이터셋에서의 실험은 최첨단 기준에 비해 제안된 해결책의 효과를 입증합니다. 
  • 실험 결과는 제안된 permutation invariant 접근 방식이 더 많은 의도를 가진 쿼리에 가장 큰 영향을 미친다는 것을 시사합니다. 
  • 또한 우리의 stochastic loss이 exact permutation invariant loss과 동등하게 효과적이지만 더 효율적임을 보여줍니다. 
  • 또한, 여러 쿼리 표현을 학습하기 위한 NMIR을 기반으로 제안된 최적화 접근 방식을 제시하였으며, 이는 정렬되지 않은 텍스트 조각 집합을 생성하는 모든 sequence-to-sequence model에 간단하게 적용 가능하다는 점이 주목할 만합니다.

2 RELATED WORK

  • 이 섹션에서는 다중 쿼리 표현 학습 및 세트 신경망과 관련된 이전 연구를 간략하게 검토합니다.
  • Query Representation. 
    • 전통적으로 쿼리는 term occurrences and frequencies에 기반하여 표현되었습니다 [32]. 
    • 그러나 이러한 모델들은 어휘 불일치 문제에 고통받습니다. 
    • 몇몇 연구는 주로 query expansion and pseudo-relevance feedback을 통해 이 문제를 해결하려고 노력해 왔습니다 [2, 18, 31, 47]. 
    • Latent semantic indexing (LSI)은 쿼리와 문서를 위한 의미적 표현을 학습하기 위한 초기 접근 방식 중 하나입니다. 
    • 이것은 텍스트 조각에 대한 용어 빈도 매트릭스를 계산하고, 주어진 텍스트를 의미적 공간에 포함시키기 위해 특이 값 분해를 사용합니다. 
    • 단어 임베딩 모델, 예를 들어 word2vec 및 GloVe은 텍스트에서 다음 단어를 예측함으로써 단어 표현을 학습합니다. 
      • 따라서 쿼리는 각각의 query term embeddings에 기반하여 표현될 수 있습니다 [45]. 
    • 가장 최근에는 BERT와 같은 대규모 언어 모델이 쿼리와 문서를 표현하는 데 사용됩니다. 
      • 이러한 모든 접근 방식은 쿼리 또는 쿼리 용어 당 하나의 표현만 생성합니다. 
    • 우리의 지식에 따르면, NMIR은 검색 쿼리를 위해 여러 의도 표현을 학습하는 유일한 신경망 접근 방식입니다. 
      • 그러나 이 접근 방식은 쿼리 의도의 순열 불변성 특성을 무시합니다. 
    • 이러한 단순화된 가정은 sub-optimal solution으로 이끕니다 [50]. 
    • 본 논문은 NMIR의 순열 불변성 변형을 소개함으로써 이 결점을 해결합니다.
  • Query Facet Extraction and Generation. 
    • 우리의 실험에서는 외부 평가 방법론으로서 facet generation을 사용합니다. 
    • 초기의 연구는 외부 리소스와 메타데이터를 활용하여 e-commerce and digital libraries을 위한 facet extraction and generation에 중점을 두었습니다 [3, 11, 17, 21, 35]. 
    • 그러나 이러한 모델들은 웹 검색과 같은 오픈 도메인 설정에는 적용되지 않습니다 [39]. 
    • facet generation 방법을 오픈 도메인에 적용하기 위해, 일부 방법은 쿼리에 대한 응답으로 상위 retrieved documents에 대한 로컬 분석을 수행합니다. 
    • 예를 들어, Kong와 Allan은 웹에서의 facet extraction을 위한 감독 학습 방법을 제안했습니다 [12–14]. 
    • Dou은 QDMiner라는 하이브리드 모델을 사용하는 페이셋 추출 방법을 제안했습니다. 
    • 본 논문은 이러한 모델을 기준선으로 사용합니다. 
    • 또한 query variations을 연구하는 연구 분야도 있습니다. 
    • 예를 들어, Xue와 Croft [42]는 쿼리를 query variations에 대한 분포로 모델링했습니다. 
    • 여러 쿼리 벡터를 학습하는 것은 이러한 모든 작업에 잠재적인 영향을 미칠 수 있습니다.
  • Set Neural Networks. 
    • Set neural networks은 set-input networks and set-output networks으로 간주될 수 있습니다. 
    • 대부분의 기존 모델은 set-input problems에 중점을 둡니다. 
      • 여기서 네트워크의 입력은 항목 집합입니다. 
    • set-input problems에 대한 알고리즘은 두 가지 조건을 만족해야 합니다. 
    • 첫째, permutation invariant을 만족해야 합니다. 
      • 이것은 모델의 예측이 입력의 어떠한 permutation에도 동일하게 유지되어야 함을 의미합니다. 
    • 둘째, 이러한 모델은 variable input size을 받아야 합니다. 
      • 따라서 기존의 네트워크 아키텍처인 MLP와 RNN과 같은 것들은 input sets에 사용할 수 없습니다 [27, 28, 38]. 
    • set inputs을 처리하기 위한 한 가지 방법은 permutation invariant mapping을 위해 pooling architectures를 사용하는 것입니다 [24, 33, 34, 36]. 
      • 그들의 핵심 아이디어는 각 set item에 neural function 𝐹를 적용하고 pooling permutation invariant function (e.g., sum or average)를 적용하는 것입니다. 
      • Zaheer et al. [44]은 set pooling methods의 구조를 논의하고 그것들이 어떤 set function에 대한 근사자(universal approximator)임을 증명합니다. 
      • 더 최근에는 집합 네트워크에 대한 어텐션 기반 접근 방식이 나오게 되었습니다 [9, 40, 43]. 
      • 예를 들어, Lee 등 [19]은 Set Transformer를 제안했으며, 이 모델은 집합 내 항목들 간의 쌍 또는 고차 상호 작용을 인코딩할 수 있게 합니다.
      • 즉, permutation에 상관없이 동일한 출력이 나와야하는 경우, 입력을 각각 임베딩하고 이를 pooling(avg or mean)등을 통해서 뉴럴 네트워크를 태우는게 기본적인 방법?
      • 그러면, 가변적인 길이에도 대응가능하고, position 정보에도 영향 안받는 상황이됨
    • Set-output networks는 덜 탐구된 영역입니다. 
      • set-output network를 설계하기 위해서는 모델은 두 가지 조건을 만족해야 합니다. 
      • 첫째, 모델은 순열 동형(permutation-equivariant)이어야 하며, 이는 출력의 특정 순열을 생성하는 확률이 다른 순열과 동일하게 확률적이어야 함을 의미합니다. 
      • 둘째, loss function는 permutation invariant이어야 합니다. 
      • 최근에 Zhang 등 [49]은 permutation-equivariant set generation을 위한 모델을 소개했습니다. 
      • 그들의 연구를 따라, 연구자들은 set of object properties을 예측하기 위한 transformer variant 모델에 대해 작업했습니다 [15, 23]. 
      • 이러한 접근 방식 중 대다수는 컴퓨터 비전 문제를 연구하며 텍스트 집합 생성에 중점을 두지 않습니다.
      • 텍스트에서는 아직 permutation invariant output에 대해 큰 연구가 되지 않았나봄

3 METHODOLOGY

  • single query 또는 일반적으로 말하자면 a piece of text에 대한 여러 표현을 학습하는 것은 간단한 작업이 아닙니다. 
  • 표현의 수가 다른 인스턴스 간에 다양한 경우, 이는 더욱 어려운 과제가 됩니다.
  • Hashemi에 의해 제안된 NMIR은 이 분야의 선도적인 작업이며 또한 검색 쿼리에 대한 여러 표현을 학습하기 위한 현재의 최첨단 접근 방식입니다. 
  • 이 섹션에서는 permutation invariance constraint을 충족하는 PINMIR을 소개합니다. 
  • 먼저 NMIR을 간단히 소개한 다음 우리의 확장에 대해 설명합니다. 
  • 제안된 최적화 접근 방식은 네트워크 아키텍처에 제한되지 않으며 NMIR 이외의 다른 네트워크에도 적용할 수 있습니다. 
  • 우리가 제안하는 training schema는 unordered text pieces set을 생성하는 다른 모든 네트워크에 적용 가능합니다.
  • Problem Statement. 
    • 𝑄 = {𝑞1, 𝑞2, . . . , 𝑞𝑛}은 𝑛개의 쿼리로 구성된 training query set이며, 𝐷𝑖 = {𝑑𝑖1, 𝑑𝑖2, . . . , 𝑑𝑖𝑚}는 임의의 검색 모델 𝑀을 사용하여 쿼리 𝑞𝑖에 대한 top 𝑚 retrieved documents입니다. 
    • 또한, 𝐹𝑖 = {𝑓𝑖1, 𝑓𝑖2, . . . , 𝑓𝑖𝑘𝑖}은 쿼리 𝑞𝑖와 관련된 모든 의도 descriptions (facets) 집합을 나타내며, 여기서 𝑘𝑖는 쿼리 의도의 수이며 쿼리마다 다를 수 있습니다. 
    • 이 작업의 목표는 쿼리 𝑞𝑖에 대한 각각의 쿼리 의도와 연결된 표현인 𝑅𝑖 = {𝑅𝑖1, 𝑅𝑖2, . . . , 𝑅𝑖𝑘𝑖}를 학습하는 것입니다.
    • 근데 이럴 경우, 테스트시 쿼리당 몇 개의 facets을 가지는지 모르는데, 몇개의 R을 만들지 어케 알지?
    • NMIR때 생각해보면, 검색된 문서를 각 facet으로 매칭해서 학습시켰었음
    • 예로, 검색된문서 D1, D3가 f1에 쓰일 것으로 매핑해서 학습한것

3.1 A Brief Overview of NMIR

  • 우리의 접근법은 NMIR [8]를 확장하는데, NMIR은 인코더-디코더 트랜스포머 아키텍처를 사용합니다. 
  • 𝜙 (·) 및 𝜓 (·)는 각각 텍스트 인코더와 디코더를 나타냅니다. 
  • 인코더는 쿼리 𝑞𝑖와 문서 𝐷𝑖를 입력으로 사용합니다. 
  • 모델은 top retrieved documents가 쿼리와 관련이 있다고 가정하며, retrieval model 𝑀은 다양한 set of documents를 검색합니다. 
  • 핵심 아이디어는 쿼리와 상위 검색된 문서를 사용하여 query intent descriptions or facets을 생성하기 위해 그 중 일부 정보를 추출하는 것입니다.
  • 다른 query facets으로 이어지는 표현은 쿼리의 여러 representations으로 사용될 수 있습니다.
  • 더 precise facets이 생성될수록 더 정확한 multiple representations이 예상됩니다. 
    • 즉 좋은 facets을 생성하는 중간의 인코딩된 벡터가 좋은 representations이라고 보는 듯 하다.
  • NMIR는 top retrieved documents를 클러스터링하고 각 클러스터를 greedy 알고리즘(예: 𝛾)을 사용하여 facet 𝑓𝑖𝑗 ∈ 𝐹𝑖에 할당합니다.
    • C∗𝑖 = {𝐶 ∗ 𝑖1 ,𝐶∗ 𝑖2 , . . . ,𝐶∗ 𝑖𝑘𝑖 }는 문서 집합입니다. 
    • 각 𝐶∗𝑖𝑗는 인코더에 의해 생성된 문서 표현을 클러스터링하기 위해 k-means를 사용하여 𝑓𝑖𝑗에 할당된 𝐷𝑖의 문서 집합입니다. 
  • 학습때 클러스터 수는 ground truth query intents 수에 따라 정의됩니다. 
  • 그러나 inference 시간에는 클러스터 수가 알려지지 않습니다. 
  • NMIR은 두 가지 시나리오를 고려합니다. 
    • 첫 번째 시나리오에서는 모든 쿼리에 대해 클러스터 수가 일정하다고 가정하며, 
    • 두 번째 시나리오에서는 동적 클러스터 수를 처리하기 위해 nonparametric K-Means [25]를 사용합니다. 
  • 𝑗 번째 facet을 생성하는 디코더의 입력은 특수 토큰으로 구분된 쿼리 문자열과 처음 𝑗 - 1 facet의 연결로 구성됩니다. 
    • 이전까지 생성된 facet이 현재 생성할 facet에 영향을 주도록 설계
  • NMIR은 시퀀스-투-시퀀스 모델의 교차 엔트로피 손실 함수를 사용하며, 따라서 예측이 라벨 데이터와 동일한 순서를 따르기를 기대합니다. 
  • NMIR 매개변수는 BART 사전 훈련 매개변수 [20]를 사용하여 초기화되며, 각 문서 클러스터를 기반으로 쿼리 표현을 조정하기 위해 Guided Transformer [7]가 사용됩니다. 
  • 제안된 최적화 솔루션은 네트워크 아키텍처 선택과는 별개이므로 NMIR 아키텍처에 대한 자세한 정보는 [8]을 참조하십시오.

3.2 The Permutation Invariant NMIR

  • NMIR는 강력한 성능을 가지고 있지만 여전히 몇 가지 제한 사항이 있습니다. 
    • 첫째, NMIR은 표준 sequence-to-sequence 최적화를 사용하므로 query intents가 순서가 있는 것으로 가정하고 모델을 최적화하여 라벨 데이터의 순서대로 facet을 생성하려고 시도합니다. 
    • 둘째, NMIR은 학습 중에 각 클러스터를 ground truth query intent에 할당하기 위해 greedy 알고리즘을 사용합니다. 
    • 따라서 모델의 성능은 이 heuristic cluster-intent assignment algorithm에 따라 달라집니다. 
  • 이 논문에서는 텍스트 생성을 위한 permutation invariant optimization 솔루션을 소개하며, 집합의 각 요소가 텍스트의 일부분인 경우를 다룹니다. 
  • 이 모델을 NMIR의 변형으로 설명하며, 모델의 성능이 생성된 query intent descriptions의 순서에 민감하지 않습니다. 
  • 이 모델에서는 더 이상 intent-cluster matching algorithm이 필요하지 않으며 generated intents의 순서는 중요하지 않습니다. 
    • 여기까지만 봤을 때, 각 facet을 생성할 때, 아마 문서전체가 들어가서 관여하는 느낌으로 갈듯
    • 또한 각 facet이 생성될 때, 서로를 attention같은거 시켜서 관여하게 만들것 같은 느낌
    • 따라서 병렬적으로 facet이 생성되도록 할 거 같음
  • 부가적인 benefit은 현실에서 때로는 문서가 하나 이상의 쿼리 의도를 다루고 하나의 문서에만 의도를 할당하는 것이 최적이 아닐 수 있다는 것입니다. 
    • 이 문제도 NMIR에 있었는데, PNMIR에서는 이 문제가 없어진다고 함
  • 먼저 모델을 교육하기 위한 permutation invariant loss function를 정의해야 합니다. 
  • 일반적인 permutation invariant loss 함수에는 Chamfer loss 및 Hungarian loss가 포함됩니다. 
  • Chamfer loss는 컴퓨터 비전에서 처음 소개된 Chamfer 거리에 기반하며 더 효율적이지만 텍스트 생성을 위한 디코더 설계로 인해 우리 작업에는 적용할 수 없습니다. 
    • 그 이유는 디코더가 토큰별로 출력을 생성하고 가장 가까운 라벨 데이터 특성은 특성이 완전히 생성될 때까지 알 수 없기 때문입니다. 
  • 따라서 우리는 텍스트 집합 생성을위한 Hungarian loss [16]를 확장합니다. 
  • 쿼리 𝑞𝑖에 대한 제안된 loss 함수는 다음과 같이 계산됩니다:
  • 여기서, 𝜋(𝐹𝑖)는 쿼리 𝑞𝑖에 대한 ground truth intents의 모든 permutations을 나타냅니다. 
    • 따라서 𝜋 (𝐹𝑖)의 크기는 𝑘𝑖! 와 같습니다. 
  • 손실 함수 𝐿_𝐶𝐸는 각 특성 설명을 생성하는 데 사용되는 average sequence-to-sequence 손실이며, 𝑣는 encoder representation을 나타냅니다. 
  • 직관적으로, 제안된 loss 함수는 ground truth set의 모든 순열을 계산하고 생성된 집합에 대한 가장 closest ground truth 순서에 대한 손실 값을 고려합니다. 
  • 따라서 원래 ground truth 텍스트의 순서는 손실 값에 영향을 미치지 않습니다. 
  • 이 손실 함수는 모든 query intents의 permutation에 대해, 이 프로세스를 반복해야하므로 계산 비용이 상당히 비싸질 수 있습니다. 
  • 이 손실의 stochastic variation을 사용하는 것을 제안하며, 가능한 모든 permutations을 반복하는 대신 permutations 집합에서 𝑠 샘플을 가져와 샘플링된 query intent sequences를 기반으로 손실을 계산합니다. 
    • 매번 모든 permutation에 대해 loss을 계산해서, minimum loss을 선택하는건 비용이 많이드니까..
    • 모든 permutation에서 랜덤으로 샘플링해서, 이를 기반으로 loss을 계산한다.
    • 매번 랜덤샘플링하면 사실 순서는 크게 중요하지 않게 모델이 인식할 것으로 간주하는 개념이라고 보면 될듯
    • 즉 다른 모델로 학습시킬 때, 그냥 간편히 랜덤으로 순서 정해서 학습하는게 효과적일 것이다?
  • 실험 결과에서는 확률적 손실이 계산 비용이 높은 non-stochastic 손실과 비슷한 성능을 보여줍니다.
  • Position Resetting. 
    • 우리의 작업에서는 일반적인 set networks의 표준 가정과는 달리, set elements 간의 순서는 중요하지 않지만 각 개별 element 내에서는 순서가 중요합니다. 
    • 다시 말해, 모델이 다양한 facets을 생성하는 순서는 중요하지 않지만 각 facets의 토큰 시퀀스가 의미론적으로나 구문적으로 적절하게 생성되는 것이 중요합니다. 
    • 이 개념을 모델이 캡처하는 데 도움을 주기 위해 우리는 트랜스포머의 표준 디코더 아키텍처를 수정합니다. 
    • 디코더는 토큰을 하나씩 생성하며 각 토큰은 다음 토큰을 생성하기 위한 디코더의 입력이됩니다. 
    • 표준 트랜스포머 디코더는 모든 토큰에 대해 position embedding을 사용합니다. 
    • 그러나 PINMIR에서는 각 facet의 디코더의 position embedding을 재설정합니다. 
    • 다시 말해, 각 새로운 facet의 시작 위치는 모든 intents에 대해 동일합니다. 
    • 이 경우 주어진 set of intents의 모든 permutation에 대한 디코더 표현은 동일하게 될 것입니다.
    • 이해하기론, 각 facet을 생성할 때, 첫번째 토큰이 position=0이 되는 것. 당연히 같은 facet내에서 그 다음부터는 1씩 늠
    • 즉 이걸 통해, 모델이 봤을 때 순서가 없다는 것을 인식시키려고 하는 거 같음.
  • intent-cluster matching algorithm이 필요없다는데 그럼 입력이 어떻게 되는거지?
    • 이 부분에 대한 설명이 없는데...
    • 근데 permutation loss을 쓴다고 가정했을 때, 입력 document는 매번 all document가 들어가는 형식으로 추정됨
    • 즉 입력은 똑같고 다양한 facet permutation에 대한 loss을 계산한다면 말이 되는 듯

4 EXPERIMENTS

  • Hashemi을 따라, 우리는 query facet generation 작업에서 모델을 평가합니다.
  • 이 작업은 주어진 multi-faceted query에 대한 여러 개의 텍스트 특징 설명을 생성하는 것으로 정의됩니다.
  • Data. 
    • 저희 실험에서는 MIMICS 컬렉션을 사용합니다. 
    • 이 컬렉션은 세 개의 데이터셋으로 구성되어 있습니다. 
    • 우리는 MIMICS-Click을 사용하며, 이는 가장 큰 MIMICS 데이터셋으로 40만 개가 넘는 고유한 웹 검색 쿼리를 포함하고 있습니다. 
      • NMIR 논문[8]에서는 평가를 위해 MIMICS-Manual을 사용한다고 언급합니다. 그러나 이는 오타였으며 MIMICS-Click 데이터세트의 10%를 사용했습니다.
      • 엥? NMIR도 테스트세트로 MIMICS-Click 데이터세트를 사용했다는 것..
      • 이 논문과 비교하려면 실험세팅을 수정해야 되겠네
    • 데이터의 80%를 훈련에, 10%를 검증에, 그리고 10%를 테스트 세트에 할당합니다. 
    • 각 쿼리에 대한 상위 검색 문서는 Bing의 공개 웹 검색 API를 사용하여 얻습니다. 
    • 우리는 문서를 나타내는 데 문서 스니펫만 사용합니다.
  • Evaluation Metrics. 
    • 우리는 모델을 평가하기 위해 네 가지 다른 메트릭을 사용합니다. 
    • 첫 번째 그룹은 "term overlap" 메트릭이며, 이 메트릭은 특성 추출 모델에 사용되었습니다 [12]. 
      • 모델 예측과 실제 값 사이의 precision, recall, and macro-averaged F1 점수를 비교합니다. 
    • 두 번째 그룹은 "exact match"입니다. 
      • 이 그룹 또한 정확한 특성 설명에 대한 정밀도, 재현율 및 매크로 평균 F1 점수를 계산합니다. 
    • 세 번째 메트릭은 Set BLEU [8]를 기반으로 합니다. 
    • 이 메트릭은 모든 순열에서 최적의 순서인 𝑅 ∗를 선택하여 계산됩니다. 
    • 여기서 𝑅 ∗ = arg max𝑅′∈perm(𝑅) 1/𝑀 sigma𝑀 𝑖=1 BLEU-4(𝑅 ′ 𝑖 ,𝐺𝑖)이고, 여기서 𝑖는 특성 인덱스를 나타내며, 𝐺𝑖는 𝑖 번째 실제 특성이며, 𝑀 = max(|𝐺|, |𝑅|)입니다. 
    • 마지막으로, 모든 n-gram에 대한 Set BLEU 점수는 1/𝑀 sigma 𝑀 𝑖=1 BLEU-n(𝑅 ∗ 𝑖 ,𝐺𝑖)로 계산됩니다. 
    • 마지막 메트릭인 BERTScore [48]은 BERT를 사용하여 모델 예측과 실제 값 사이의 의미적 유사성을 찾는 신경 기반 메트릭입니다. 
      • Set BLEU와 유사하게, Set BERT-Score는 1/𝑀 sigma𝑀 𝑖=1 BERT-Score(𝑅 ∗ 𝑖 ,𝐺𝑖)로 계산됩니다.
  • Results and Discussion. 
    • 우리는 모델을 다음과 같은 기준선 모델과 비교합니다: 
      • (1) Xue와 Croft가 제안한 QDist 모델에 의해 생성된 query variations , 
      • (2, 3) web search에서 facet extraction을 위해 제안된 효과적인 graphical models 두 가지, 즉 QFI와 QFJ 
      • (4) web search을 위한 query facet extraction을 위한 hybrid 방법인 QDMiner, 
      • (5) 사전 훈련된 변환 인코더-디코더 아키텍처를 사용하는 BART 모델을 활용한 특성 생성을 위한 fine-tuned BART model, 
      • 그리고 마지막으로 (6) Hashemi 등이 개발한 NMIR 모델, 이 모델은 permutation invariance nature of intents을 고려하지 않는 우리 모델과 동일합니다.
  • MIMICS 데이터셋의 각 쿼리는 two ~ five facets을 포함하고 있으며, 이 데이터셋의 대다수 쿼리는 두 개의 특성만 가지고 있습니다. 
  • 우리 데이터셋의 각 쿼리는 평균 2.81개의 facets 을 포함하고 있습니다. 
  • 첫 번째 실험 결과는 표 1에 보고되었으며 (# facets = variable) 제안된 방법이 일반적으로 모든 baselines 모델을 능가합니다. 
  • exact match 면에서의 개선은 미미하나, term overlap F1, BLEU 4-gram, and Set BERT-Score에서 유의한 개선을 관찰합니다. 
  • 직관적으로, permutation invariant loss 은 더 많은 facets을 가진 쿼리에 더 큰 영향을 미칠 것으로 예상됩니다. 
  • 두 번째 실험 세트에서는 오직 5개의 facets을 가진 쿼리에 초점을 맞추었습니다 (즉, MIMICS에서의 최대 facets 수). 
    • 표 1에 따르면, 5개의 facets 을 가진 쿼리에서 상당히 큰 개선을 관찰합니다. 
    • 개선은 term overlap recall and Set BERT-Score recall을 제외한 거의 모든 경우에 통계적으로 유의미합니다. 
  • 이 관찰은 permutation invariant model이 더 많은 intents를 가진 쿼리에 더 큰 영향을 미치는 것을 보여줍니다. 
  • 섹션 3.2에서 언급했듯이, 본 논문에서는 효율성을 고려하여 Stochastic Hungarian loss을 제안합니다. 
  • 우리 실험에서 우리는 Hungarian loss로 훈련된 모델과 그 확률적 변형 (세 가지 샘플 포함)의 효과 사이에 통계적으로 유의미한 차이를 관찰하지 않습니다. 
    • Hungarian loss은 3개 facets을 가진 쿼리에 대해 0.4724의 용어 중복 F1을 달성하고, 확률적 Hungarian loss의 경우 이 값은 0.4731입니다. 
    • 다른 메트릭에 대해서도 비슷한 관찰을 하였으나, 공간 제한으로 인해 보고하지 않았습니다. 
    • 모든 permutation이 아닌 랜덤으로 몇 개의 permutation 추출해서 그냥 loss 계산하는 방식과 큰 차이가 없으나, 공간상으로 실험을 첨부하지 않았다? --> appendix에는 왜 없나..
    • 따라서 exact Hungarian loss과 stochastic Hungarian losses은 비슷하게 성능을 발휘합니다. 
    • 이것은 stochastic variation 이 모든 순열에서 샘플링하여 더 많은 facets 을 효율적으로 다룰 수 있다는 장점을 가지고 있음을 의미합니다.

5 CONCLUSIONS AND FUTURE WORK

  • 이 연구에서는 permutation invariant 방식으로 텍스트 조각 집합을 생성하는 모델을 소개했습니다. 
  • 우리는 Hashemi 등 [8]에 의해 최근 제안된 기존 모델인 NMIR과 비교하여 우리의 모델을 설명했습니다. 
  • 이 모델은 검색 쿼리에 대한 여러 표현을 학습하는 것입니다. 
  • NMIR은 강력한 성능을 보이지만 몇 가지 설계 제한 사항에 영향을 받습니다. 
  • 특히, NMIR이 쿼리에 대한 여러 표현을 얻기 위한 솔루션은 해당 쿼리와 관련된 모든 쿼리 의도를 생성하는 것입니다. 
  • 그러나 모델은 출력이 기존 데이터와 정확히 동일한 순서로 나타날 것으로 예상합니다. 
  • 우리는 NMIR의 단점을 보상하고 서로 다른 의도에 대해 순열 불변인 모델을 만드는 NMIR의 새로운 변형을 소개했습니다. 
  • 우리는 새로운 손실 함수를 도입하여 모델을 확률적으로 훈련시켰습니다. 
  • 모델이 생성한 각 의도 설명에 대해 위치 임베딩을 재설정함으로써 모델의 디코더도 순열 불변성을 가지도록 보장했습니다. 
  • 우리 모델이 특징 생성 작업에서 경쟁 기준을 능가한다는 것을 보여주었습니다.
  • 미래에는 순열 불변성 모델이 문서 순위 매기기, 검색 결과 다양성 및 질문 선택에 미치는 영향을 평가할 예정입니다. 
  • 또한 제안된 솔루션이 다양한 텍스트 집합 생성 작업에 일반화될 수 있다고 믿습니다. 이 방향을 미래 연구에서 탐구할 것입니다.

Reference

댓글