◼ Comment

약간 논문이 아쉬운 느낌이 있다.

만약 내가 리뷰했다면 reject 줬을 것 같긴 함;

short라 그런지 실험도 주장하는바를 보이기에 약간 부족한 느낌도 있음
일단 NMIR저자가 future work로 쓴건데, NMIR 논문에 써있는 실험세팅이 오타라고 언급해준다.

학습/테스트 데이터모두 MIMICS-Click을 사용했다고 한다.
보통 다른 facet generation 논문에서는 학습은 MIMICS-Click, 테스트는 MIMICS-Manual을 사용하는 경우가 대부분이다.
즉 실험세팅이 일단 조금 다르다.

그리고 모델이 NMIR을 따른다고 하는데, query<->document matching 부분을 어떻게 없앴는지 언급을 안한다.

추측하기론 모든 doument을 넣은 것으로 추측된다.

loss쪽에서 facet들의 permutation을 고려해서 loss을 설계하고
각 facet 첫번째 토큰부터 position을 0으로 재설정해서 position embedding 부분을 바꾼게 컨트리뷰션이다.
모든 permutation에 대해 loss을 계산해서 minimum loss으로 학습하는게 facet 순서를 고려안하도록 모델이 학습하게 하는 거지만 이는 cost가 많이 든다.

따라서 facet 순서를 매번 랜덤 샘플링해서 학습시켜도 비슷한 결과가 나온다고 한다.
근데 용지 여백으로 인해 실험을 추가 못했다고 한다;; (이게뭐지?)

어쨌거나 facet순서를 고려해서 모델 학습을 하는 첫 시도라서 괜찮은 접근이라는 생각은 든다.
다른 모델에서 facet generation 학습할 때, 이런식으로 facet 순서를 랜덤 샘플링해서 하면 성능이 진짜 더 좋아질까? 라는 의문은 있다.

0 Abstract

쿼리에 대한 여러 의도 표현을 학습하는 것은 facet generation, document ranking, search result diversification, and search explanation과 같은 다양한 응용 분야에서 잠재적으로 활용 가능합니다.
이 작업을 위한 최신 모델은 intent representations의 시퀀스가 있다고 가정합니다.
본 논문에서는 모델이 정확하고 완전한 intent representations 세트를 생성하는 한 처벌되지 않아야 한다는 주장을 제시합니다.
이 직관을 기반으로 우리는 이러한 네트워크를 최적화하기 위한 stochastic permutation invariant approach을 제안합니다.
우리는 제안한 방법을 facet generation 작업에서 외부 평가하고 competitive baselines에 비해 중요한 개선 사항을 보여줍니다.
우리의 분석 결과, 제안한 permutation invariant approach이 potential intents가 더 많은 쿼리에 가장 큰 영향을 미친다는 것을 보여줍니다.

1 INTRODUCTION

효과적인 query representations 학습은 정보 검색 (IR) 시스템에서 항상 중요한 역할을 해왔습니다.
초기의 query representation 접근법은 주로 term-based representations에 중점을 두었다(예: 벡터 공간 모델에서의 TF-IDF 가중치).
그들의 semantic representations은 또한 latent semantic indexing (LSI), bag-of-words embedding-based models, 그리고 contextual embedding-based models 에서도 연구되었습니다.
정확한 query representations을 얻기 위한 최첨단 솔루션은 대개 다운스트림 검색 작업에서 BERT 및 BART와 같은 대규모 언어 모델을 미세 조정합니다.

이러한 방법은 종종 각 query or query term에 대한 single representation을 학습합니다.
그러나 이는 다중 다양한 의도에 연관될 수 있는 모호하거나 다면적인(faceted) 쿼리를 나타내기 위한 차선책 솔루션이다.

이 문제를 해결하기 위해, 최근 Hashemi는 NMIR을 제안했습니다.

NMIR은 쿼리의 여러 벡터를 학습하는 인코더-디코더 프레임워크로, 각각이 잠재적인 쿼리 의도를 나타냅니다.
NMIR은 다른 query intent descriptions을 생성하여 multiple representations을 학습하는 것을 목표로 합니다.
NMIR이 이룬 강력한 효과에도 불구하고, 쿼리 의도의 permutation invariance 특성을 무시합니다.
다시 말하면, 이는 쿼리 의도가 시퀀스로 생성되어야 한다는 가정을 기반으로 합니다.
이 가정에 따라 정확한 query representations을 학습하고 query intent descriptions을 생성하지만 그 순서가 기준과 다를 경우 loss 함수를 크게 penalized하게 됩니다.
이 논문에서는 이러한 근본적인 결점을 해결하기 위한 해결책을 제안합니다.

제안된 접근 방식인 PINMIR은 query intents 를 시퀀스가 아닌 집합으로 간주합니다.

unordered structure of sets를 고려하여, PINMIR은 최적화를 위해 permutation invariant loss function를 사용하며, 이를 통해 더 정확한 쿼리 표현을 학습합니다.
Permutation invariant losses은 예측된 출력의 모든 가능한 permutations을 고려하는 경우가 많은데, intents 수가 증가함에 따라 계산 효율성이 빠르게 감소합니다.
이 문제를 해결하기 위해, 우리는 stochastic variation of permutation invariant loss도 제안합니다.
손실 함수 외에도, 우리는 permutation invariant decoding을 위해 변환기 디코더의 positional embedding을 재설정하는 간단한 해결책을 사용합니다.
이 부분이 이 논문의 동기이자 핵심!

쿼리의 multiple intent representations을 학습하기 위한 선구적 작업으로, Hashemi은 query facet generation이 학습된 query representations의 외부 평가에 성공적으로 활용될 수 있다는 것을 입증했습니다.

그들의 제안을 따라, 우리는 query facet generation작업에서 모델을 평가합니다.
즉 query facet을 잘 생성하는 rerpresentation은 multiple intent representation의 성능이 좋다는 뜻이므로, query facet generation 테스크를 타겟으로 한다.

대규모 MIMICS 데이터셋에서의 실험은 최첨단 기준에 비해 제안된 해결책의 효과를 입증합니다.
실험 결과는 제안된 permutation invariant 접근 방식이 더 많은 의도를 가진 쿼리에 가장 큰 영향을 미친다는 것을 시사합니다.
또한 우리의 stochastic loss이 exact permutation invariant loss과 동등하게 효과적이지만 더 효율적임을 보여줍니다.
또한, 여러 쿼리 표현을 학습하기 위한 NMIR을 기반으로 제안된 최적화 접근 방식을 제시하였으며, 이는 정렬되지 않은 텍스트 조각 집합을 생성하는 모든 sequence-to-sequence model에 간단하게 적용 가능하다는 점이 주목할 만합니다.

2 RELATED WORK

이 섹션에서는 다중 쿼리 표현 학습 및 세트 신경망과 관련된 이전 연구를 간략하게 검토합니다.
Query Representation.

전통적으로 쿼리는 term occurrences and frequencies에 기반하여 표현되었습니다 [32].
그러나 이러한 모델들은 어휘 불일치 문제에 고통받습니다.
몇몇 연구는 주로 query expansion and pseudo-relevance feedback을 통해 이 문제를 해결하려고 노력해 왔습니다 [2, 18, 31, 47].
Latent semantic indexing (LSI)은 쿼리와 문서를 위한 의미적 표현을 학습하기 위한 초기 접근 방식 중 하나입니다.
이것은 텍스트 조각에 대한 용어 빈도 매트릭스를 계산하고, 주어진 텍스트를 의미적 공간에 포함시키기 위해 특이 값 분해를 사용합니다.
단어 임베딩 모델, 예를 들어 word2vec 및 GloVe은 텍스트에서 다음 단어를 예측함으로써 단어 표현을 학습합니다.

따라서 쿼리는 각각의 query term embeddings에 기반하여 표현될 수 있습니다 [45].

가장 최근에는 BERT와 같은 대규모 언어 모델이 쿼리와 문서를 표현하는 데 사용됩니다.

이러한 모든 접근 방식은 쿼리 또는 쿼리 용어 당 하나의 표현만 생성합니다.

우리의 지식에 따르면, NMIR은 검색 쿼리를 위해 여러 의도 표현을 학습하는 유일한 신경망 접근 방식입니다.

그러나 이 접근 방식은 쿼리 의도의 순열 불변성 특성을 무시합니다.

이러한 단순화된 가정은 sub-optimal solution으로 이끕니다 [50].
본 논문은 NMIR의 순열 불변성 변형을 소개함으로써 이 결점을 해결합니다.

Query Facet Extraction and Generation.

우리의 실험에서는 외부 평가 방법론으로서 facet generation을 사용합니다.
초기의 연구는 외부 리소스와 메타데이터를 활용하여 e-commerce and digital libraries을 위한 facet extraction and generation에 중점을 두었습니다 [3, 11, 17, 21, 35].
그러나 이러한 모델들은 웹 검색과 같은 오픈 도메인 설정에는 적용되지 않습니다 [39].
facet generation 방법을 오픈 도메인에 적용하기 위해, 일부 방법은 쿼리에 대한 응답으로 상위 retrieved documents에 대한 로컬 분석을 수행합니다.
예를 들어, Kong와 Allan은 웹에서의 facet extraction을 위한 감독 학습 방법을 제안했습니다 [12–14].
Dou은 QDMiner라는 하이브리드 모델을 사용하는 페이셋 추출 방법을 제안했습니다.
본 논문은 이러한 모델을 기준선으로 사용합니다.
또한 query variations을 연구하는 연구 분야도 있습니다.
예를 들어, Xue와 Croft [42]는 쿼리를 query variations에 대한 분포로 모델링했습니다.
여러 쿼리 벡터를 학습하는 것은 이러한 모든 작업에 잠재적인 영향을 미칠 수 있습니다.

Set Neural Networks.

Set neural networks은 set-input networks and set-output networks으로 간주될 수 있습니다.
대부분의 기존 모델은 set-input problems에 중점을 둡니다.

여기서 네트워크의 입력은 항목 집합입니다.

set-input problems에 대한 알고리즘은 두 가지 조건을 만족해야 합니다.
첫째, permutation invariant을 만족해야 합니다.

이것은 모델의 예측이 입력의 어떠한 permutation에도 동일하게 유지되어야 함을 의미합니다.

둘째, 이러한 모델은 variable input size을 받아야 합니다.

따라서 기존의 네트워크 아키텍처인 MLP와 RNN과 같은 것들은 input sets에 사용할 수 없습니다 [27, 28, 38].

set inputs을 처리하기 위한 한 가지 방법은 permutation invariant mapping을 위해 pooling architectures를 사용하는 것입니다 [24, 33, 34, 36].

그들의 핵심 아이디어는 각 set item에 neural function 𝐹를 적용하고 pooling permutation invariant function (e.g., sum or average)를 적용하는 것입니다.
Zaheer et al. [44]은 set pooling methods의 구조를 논의하고 그것들이 어떤 set function에 대한 근사자(universal approximator)임을 증명합니다.
더 최근에는 집합 네트워크에 대한 어텐션 기반 접근 방식이 나오게 되었습니다 [9, 40, 43].
예를 들어, Lee 등 [19]은 Set Transformer를 제안했으며, 이 모델은 집합 내 항목들 간의 쌍 또는 고차 상호 작용을 인코딩할 수 있게 합니다.
즉, permutation에 상관없이 동일한 출력이 나와야하는 경우, 입력을 각각 임베딩하고 이를 pooling(avg or mean)등을 통해서 뉴럴 네트워크를 태우는게 기본적인 방법?
그러면, 가변적인 길이에도 대응가능하고, position 정보에도 영향 안받는 상황이됨

Set-output networks는 덜 탐구된 영역입니다.

set-output network를 설계하기 위해서는 모델은 두 가지 조건을 만족해야 합니다.
첫째, 모델은 순열 동형(permutation-equivariant)이어야 하며, 이는 출력의 특정 순열을 생성하는 확률이 다른 순열과 동일하게 확률적이어야 함을 의미합니다.
둘째, loss function는 permutation invariant이어야 합니다.
최근에 Zhang 등 [49]은 permutation-equivariant set generation을 위한 모델을 소개했습니다.
그들의 연구를 따라, 연구자들은 set of object properties을 예측하기 위한 transformer variant 모델에 대해 작업했습니다 [15, 23].
이러한 접근 방식 중 대다수는 컴퓨터 비전 문제를 연구하며 텍스트 집합 생성에 중점을 두지 않습니다.
텍스트에서는 아직 permutation invariant output에 대해 큰 연구가 되지 않았나봄

3 METHODOLOGY

single query 또는 일반적으로 말하자면 a piece of text에 대한 여러 표현을 학습하는 것은 간단한 작업이 아닙니다.
표현의 수가 다른 인스턴스 간에 다양한 경우, 이는 더욱 어려운 과제가 됩니다.
Hashemi에 의해 제안된 NMIR은 이 분야의 선도적인 작업이며 또한 검색 쿼리에 대한 여러 표현을 학습하기 위한 현재의 최첨단 접근 방식입니다.
이 섹션에서는 permutation invariance constraint을 충족하는 PINMIR을 소개합니다.
먼저 NMIR을 간단히 소개한 다음 우리의 확장에 대해 설명합니다.
제안된 최적화 접근 방식은 네트워크 아키텍처에 제한되지 않으며 NMIR 이외의 다른 네트워크에도 적용할 수 있습니다.
우리가 제안하는 training schema는 unordered text pieces set을 생성하는 다른 모든 네트워크에 적용 가능합니다.
Problem Statement.

𝑄 = {𝑞1, 𝑞2, . . . , 𝑞𝑛}은 𝑛개의 쿼리로 구성된 training query set이며, 𝐷𝑖 = {𝑑𝑖1, 𝑑𝑖2, . . . , 𝑑𝑖𝑚}는 임의의 검색 모델 𝑀을 사용하여 쿼리 𝑞𝑖에 대한 top 𝑚 retrieved documents입니다.
또한, 𝐹𝑖 = {𝑓𝑖1, 𝑓𝑖2, . . . , 𝑓𝑖𝑘𝑖}은 쿼리 𝑞𝑖와 관련된 모든 의도 descriptions (facets) 집합을 나타내며, 여기서 𝑘𝑖는 쿼리 의도의 수이며 쿼리마다 다를 수 있습니다.
이 작업의 목표는 쿼리 𝑞𝑖에 대한 각각의 쿼리 의도와 연결된 표현인 𝑅𝑖 = {𝑅𝑖1, 𝑅𝑖2, . . . , 𝑅𝑖𝑘𝑖}를 학습하는 것입니다.
근데 이럴 경우, 테스트시 쿼리당 몇 개의 facets을 가지는지 모르는데, 몇개의 R을 만들지 어케 알지?
NMIR때 생각해보면, 검색된 문서를 각 facet으로 매칭해서 학습시켰었음
예로, 검색된문서 D1, D3가 f1에 쓰일 것으로 매핑해서 학습한것

3.1 A Brief Overview of NMIR

우리의 접근법은 NMIR [8]를 확장하는데, NMIR은 인코더-디코더 트랜스포머 아키텍처를 사용합니다.
𝜙 (·) 및 𝜓 (·)는 각각 텍스트 인코더와 디코더를 나타냅니다.
인코더는 쿼리 𝑞𝑖와 문서 𝐷𝑖를 입력으로 사용합니다.
모델은 top retrieved documents가 쿼리와 관련이 있다고 가정하며, retrieval model 𝑀은 다양한 set of documents를 검색합니다.
핵심 아이디어는 쿼리와 상위 검색된 문서를 사용하여 query intent descriptions or facets을 생성하기 위해 그 중 일부 정보를 추출하는 것입니다.
다른 query facets으로 이어지는 표현은 쿼리의 여러 representations으로 사용될 수 있습니다.
더 precise facets이 생성될수록 더 정확한 multiple representations이 예상됩니다.

즉 좋은 facets을 생성하는 중간의 인코딩된 벡터가 좋은 representations이라고 보는 듯 하다.

NMIR는 top retrieved documents를 클러스터링하고 각 클러스터를 greedy 알고리즘(예: 𝛾)을 사용하여 facet 𝑓𝑖𝑗 ∈ 𝐹𝑖에 할당합니다.

C∗𝑖 = {𝐶 ∗ 𝑖1 ,𝐶∗ 𝑖2 , . . . ,𝐶∗ 𝑖𝑘𝑖 }는 문서 집합입니다.
각 𝐶∗𝑖𝑗는 인코더에 의해 생성된 문서 표현을 클러스터링하기 위해 k-means를 사용하여 𝑓𝑖𝑗에 할당된 𝐷𝑖의 문서 집합입니다.

학습때 클러스터 수는 ground truth query intents 수에 따라 정의됩니다.
그러나 inference 시간에는 클러스터 수가 알려지지 않습니다.
NMIR은 두 가지 시나리오를 고려합니다.

첫 번째 시나리오에서는 모든 쿼리에 대해 클러스터 수가 일정하다고 가정하며,
두 번째 시나리오에서는 동적 클러스터 수를 처리하기 위해 nonparametric K-Means [25]를 사용합니다.

𝑗 번째 facet을 생성하는 디코더의 입력은 특수 토큰으로 구분된 쿼리 문자열과 처음 𝑗 - 1 facet의 연결로 구성됩니다.

이전까지 생성된 facet이 현재 생성할 facet에 영향을 주도록 설계

NMIR은 시퀀스-투-시퀀스 모델의 교차 엔트로피 손실 함수를 사용하며, 따라서 예측이 라벨 데이터와 동일한 순서를 따르기를 기대합니다.
NMIR 매개변수는 BART 사전 훈련 매개변수 [20]를 사용하여 초기화되며, 각 문서 클러스터를 기반으로 쿼리 표현을 조정하기 위해 Guided Transformer [7]가 사용됩니다.
제안된 최적화 솔루션은 네트워크 아키텍처 선택과는 별개이므로 NMIR 아키텍처에 대한 자세한 정보는 [8]을 참조하십시오.

3.2 The Permutation Invariant NMIR

NMIR는 강력한 성능을 가지고 있지만 여전히 몇 가지 제한 사항이 있습니다.

첫째, NMIR은 표준 sequence-to-sequence 최적화를 사용하므로 query intents가 순서가 있는 것으로 가정하고 모델을 최적화하여 라벨 데이터의 순서대로 facet을 생성하려고 시도합니다.
둘째, NMIR은 학습 중에 각 클러스터를 ground truth query intent에 할당하기 위해 greedy 알고리즘을 사용합니다.
따라서 모델의 성능은 이 heuristic cluster-intent assignment algorithm에 따라 달라집니다.

이 논문에서는 텍스트 생성을 위한 permutation invariant optimization 솔루션을 소개하며, 집합의 각 요소가 텍스트의 일부분인 경우를 다룹니다.
이 모델을 NMIR의 변형으로 설명하며, 모델의 성능이 생성된 query intent descriptions의 순서에 민감하지 않습니다.
이 모델에서는 더 이상 intent-cluster matching algorithm이 필요하지 않으며 generated intents의 순서는 중요하지 않습니다.

여기까지만 봤을 때, 각 facet을 생성할 때, 아마 문서전체가 들어가서 관여하는 느낌으로 갈듯
~~또한 각 facet이 생성될 때, 서로를 attention같은거 시켜서 관여하게 만들것 같은 느낌~~
~~따라서 병렬적으로 facet이 생성되도록 할 거 같음~~

부가적인 benefit은 현실에서 때로는 문서가 하나 이상의 쿼리 의도를 다루고 하나의 문서에만 의도를 할당하는 것이 최적이 아닐 수 있다는 것입니다.

이 문제도 NMIR에 있었는데, PNMIR에서는 이 문제가 없어진다고 함

먼저 모델을 교육하기 위한 permutation invariant loss function를 정의해야 합니다.
일반적인 permutation invariant loss 함수에는 Chamfer loss 및 Hungarian loss가 포함됩니다.
Chamfer loss는 컴퓨터 비전에서 처음 소개된 Chamfer 거리에 기반하며 더 효율적이지만 텍스트 생성을 위한 디코더 설계로 인해 우리 작업에는 적용할 수 없습니다.

그 이유는 디코더가 토큰별로 출력을 생성하고 가장 가까운 라벨 데이터 특성은 특성이 완전히 생성될 때까지 알 수 없기 때문입니다.

따라서 우리는 텍스트 집합 생성을위한 Hungarian loss [16]를 확장합니다.
쿼리 𝑞𝑖에 대한 제안된 loss 함수는 다음과 같이 계산됩니다:
여기서, 𝜋(𝐹𝑖)는 쿼리 𝑞𝑖에 대한 ground truth intents의 모든 permutations을 나타냅니다.

따라서 𝜋 (𝐹𝑖)의 크기는 𝑘𝑖! 와 같습니다.

손실 함수 𝐿_𝐶𝐸는 각 특성 설명을 생성하는 데 사용되는 average sequence-to-sequence 손실이며, 𝑣는 encoder representation을 나타냅니다.
직관적으로, 제안된 loss 함수는 ground truth set의 모든 순열을 계산하고 생성된 집합에 대한 가장 closest ground truth 순서에 대한 손실 값을 고려합니다.
따라서 원래 ground truth 텍스트의 순서는 손실 값에 영향을 미치지 않습니다.
이 손실 함수는 모든 query intents의 permutation에 대해, 이 프로세스를 반복해야하므로 계산 비용이 상당히 비싸질 수 있습니다.
이 손실의 stochastic variation을 사용하는 것을 제안하며, 가능한 모든 permutations을 반복하는 대신 permutations 집합에서 𝑠 샘플을 가져와 샘플링된 query intent sequences를 기반으로 손실을 계산합니다.

매번 모든 permutation에 대해 loss을 계산해서, minimum loss을 선택하는건 비용이 많이드니까..
모든 permutation에서 랜덤으로 샘플링해서, 이를 기반으로 loss을 계산한다.
매번 랜덤샘플링하면 사실 순서는 크게 중요하지 않게 모델이 인식할 것으로 간주하는 개념이라고 보면 될듯
즉 다른 모델로 학습시킬 때, 그냥 간편히 랜덤으로 순서 정해서 학습하는게 효과적일 것이다?

실험 결과에서는 확률적 손실이 계산 비용이 높은 non-stochastic 손실과 비슷한 성능을 보여줍니다.
Position Resetting.

우리의 작업에서는 일반적인 set networks의 표준 가정과는 달리, set elements 간의 순서는 중요하지 않지만 각 개별 element 내에서는 순서가 중요합니다.
다시 말해, 모델이 다양한 facets을 생성하는 순서는 중요하지 않지만 각 facets의 토큰 시퀀스가 의미론적으로나 구문적으로 적절하게 생성되는 것이 중요합니다.
이 개념을 모델이 캡처하는 데 도움을 주기 위해 우리는 트랜스포머의 표준 디코더 아키텍처를 수정합니다.
디코더는 토큰을 하나씩 생성하며 각 토큰은 다음 토큰을 생성하기 위한 디코더의 입력이됩니다.
표준 트랜스포머 디코더는 모든 토큰에 대해 position embedding을 사용합니다.
그러나 PINMIR에서는 각 facet의 디코더의 position embedding을 재설정합니다.
다시 말해, 각 새로운 facet의 시작 위치는 모든 intents에 대해 동일합니다.
이 경우 주어진 set of intents의 모든 permutation에 대한 디코더 표현은 동일하게 될 것입니다.
이해하기론, 각 facet을 생성할 때, 첫번째 토큰이 position=0이 되는 것. 당연히 같은 facet내에서 그 다음부터는 1씩 늠
즉 이걸 통해, 모델이 봤을 때 순서가 없다는 것을 인식시키려고 하는 거 같음.

intent-cluster matching algorithm이 필요없다는데 그럼 입력이 어떻게 되는거지?

이 부분에 대한 설명이 없는데...
근데 permutation loss을 쓴다고 가정했을 때, 입력 document는 매번 all document가 들어가는 형식으로 추정됨
즉 입력은 똑같고 다양한 facet permutation에 대한 loss을 계산한다면 말이 되는 듯

4 EXPERIMENTS

Hashemi을 따라, 우리는 query facet generation 작업에서 모델을 평가합니다.
이 작업은 주어진 multi-faceted query에 대한 여러 개의 텍스트 특징 설명을 생성하는 것으로 정의됩니다.
Data.

저희 실험에서는 MIMICS 컬렉션을 사용합니다.
이 컬렉션은 세 개의 데이터셋으로 구성되어 있습니다.
우리는 MIMICS-Click을 사용하며, 이는 가장 큰 MIMICS 데이터셋으로 40만 개가 넘는 고유한 웹 검색 쿼리를 포함하고 있습니다.

NMIR 논문[8]에서는 평가를 위해 MIMICS-Manual을 사용한다고 언급합니다. 그러나 이는 오타였으며 MIMICS-Click 데이터세트의 10%를 사용했습니다.
엥? NMIR도 테스트세트로 MIMICS-Click 데이터세트를 사용했다는 것..
이 논문과 비교하려면 실험세팅을 수정해야 되겠네

데이터의 80%를 훈련에, 10%를 검증에, 그리고 10%를 테스트 세트에 할당합니다.
각 쿼리에 대한 상위 검색 문서는 Bing의 공개 웹 검색 API를 사용하여 얻습니다.
우리는 문서를 나타내는 데 문서 스니펫만 사용합니다.

Evaluation Metrics.

우리는 모델을 평가하기 위해 네 가지 다른 메트릭을 사용합니다.
첫 번째 그룹은 "term overlap" 메트릭이며, 이 메트릭은 특성 추출 모델에 사용되었습니다 [12].

모델 예측과 실제 값 사이의 precision, recall, and macro-averaged F1 점수를 비교합니다.

두 번째 그룹은 "exact match"입니다.

이 그룹 또한 정확한 특성 설명에 대한 정밀도, 재현율 및 매크로 평균 F1 점수를 계산합니다.

세 번째 메트릭은 Set BLEU [8]를 기반으로 합니다.
이 메트릭은 모든 순열에서 최적의 순서인 𝑅 ∗를 선택하여 계산됩니다.
여기서 𝑅 ∗ = arg max𝑅′∈perm(𝑅) 1/𝑀 sigma𝑀 𝑖=1 BLEU-4(𝑅 ′ 𝑖 ,𝐺𝑖)이고, 여기서 𝑖는 특성 인덱스를 나타내며, 𝐺𝑖는 𝑖 번째 실제 특성이며, 𝑀 = max(|𝐺|, |𝑅|)입니다.
마지막으로, 모든 n-gram에 대한 Set BLEU 점수는 1/𝑀 sigma 𝑀 𝑖=1 BLEU-n(𝑅 ∗ 𝑖 ,𝐺𝑖)로 계산됩니다.
마지막 메트릭인 BERTScore [48]은 BERT를 사용하여 모델 예측과 실제 값 사이의 의미적 유사성을 찾는 신경 기반 메트릭입니다.

Set BLEU와 유사하게, Set BERT-Score는 1/𝑀 sigma𝑀 𝑖=1 BERT-Score(𝑅 ∗ 𝑖 ,𝐺𝑖)로 계산됩니다.

Results and Discussion.

우리는 모델을 다음과 같은 기준선 모델과 비교합니다:

(1) Xue와 Croft가 제안한 QDist 모델에 의해 생성된 query variations ,
(2, 3) web search에서 facet extraction을 위해 제안된 효과적인 graphical models 두 가지, 즉 QFI와 QFJ
(4) web search을 위한 query facet extraction을 위한 hybrid 방법인 QDMiner,
(5) 사전 훈련된 변환 인코더-디코더 아키텍처를 사용하는 BART 모델을 활용한 특성 생성을 위한 fine-tuned BART model,
그리고 마지막으로 (6) Hashemi 등이 개발한 NMIR 모델, 이 모델은 permutation invariance nature of intents을 고려하지 않는 우리 모델과 동일합니다.

MIMICS 데이터셋의 각 쿼리는 two ~ five facets을 포함하고 있으며, 이 데이터셋의 대다수 쿼리는 두 개의 특성만 가지고 있습니다.
우리 데이터셋의 각 쿼리는 평균 2.81개의 facets 을 포함하고 있습니다.
첫 번째 실험 결과는 표 1에 보고되었으며 (# facets = variable) 제안된 방법이 일반적으로 모든 baselines 모델을 능가합니다.
exact match 면에서의 개선은 미미하나, term overlap F1, BLEU 4-gram, and Set BERT-Score에서 유의한 개선을 관찰합니다.
직관적으로, permutation invariant loss 은 더 많은 facets을 가진 쿼리에 더 큰 영향을 미칠 것으로 예상됩니다.
두 번째 실험 세트에서는 오직 5개의 facets을 가진 쿼리에 초점을 맞추었습니다 (즉, MIMICS에서의 최대 facets 수).

표 1에 따르면, 5개의 facets 을 가진 쿼리에서 상당히 큰 개선을 관찰합니다.
개선은 term overlap recall and Set BERT-Score recall을 제외한 거의 모든 경우에 통계적으로 유의미합니다.

이 관찰은 permutation invariant model이 더 많은 intents를 가진 쿼리에 더 큰 영향을 미치는 것을 보여줍니다.
섹션 3.2에서 언급했듯이, 본 논문에서는 효율성을 고려하여 Stochastic Hungarian loss을 제안합니다.
우리 실험에서 우리는 Hungarian loss로 훈련된 모델과 그 확률적 변형 (세 가지 샘플 포함)의 효과 사이에 통계적으로 유의미한 차이를 관찰하지 않습니다.

Hungarian loss은 3개 facets을 가진 쿼리에 대해 0.4724의 용어 중복 F1을 달성하고, 확률적 Hungarian loss의 경우 이 값은 0.4731입니다.
다른 메트릭에 대해서도 비슷한 관찰을 하였으나, 공간 제한으로 인해 보고하지 않았습니다.
모든 permutation이 아닌 랜덤으로 몇 개의 permutation 추출해서 그냥 loss 계산하는 방식과 큰 차이가 없으나, 공간상으로 실험을 첨부하지 않았다? --> appendix에는 왜 없나..
따라서 exact Hungarian loss과 stochastic Hungarian losses은 비슷하게 성능을 발휘합니다.
이것은 stochastic variation 이 모든 순열에서 샘플링하여 더 많은 facets 을 효율적으로 다룰 수 있다는 장점을 가지고 있음을 의미합니다.

5 CONCLUSIONS AND FUTURE WORK

이 연구에서는 permutation invariant 방식으로 텍스트 조각 집합을 생성하는 모델을 소개했습니다.
우리는 Hashemi 등 [8]에 의해 최근 제안된 기존 모델인 NMIR과 비교하여 우리의 모델을 설명했습니다.
이 모델은 검색 쿼리에 대한 여러 표현을 학습하는 것입니다.
NMIR은 강력한 성능을 보이지만 몇 가지 설계 제한 사항에 영향을 받습니다.
특히, NMIR이 쿼리에 대한 여러 표현을 얻기 위한 솔루션은 해당 쿼리와 관련된 모든 쿼리 의도를 생성하는 것입니다.
그러나 모델은 출력이 기존 데이터와 정확히 동일한 순서로 나타날 것으로 예상합니다.
우리는 NMIR의 단점을 보상하고 서로 다른 의도에 대해 순열 불변인 모델을 만드는 NMIR의 새로운 변형을 소개했습니다.
우리는 새로운 손실 함수를 도입하여 모델을 확률적으로 훈련시켰습니다.
모델이 생성한 각 의도 설명에 대해 위치 임베딩을 재설정함으로써 모델의 디코더도 순열 불변성을 가지도록 보장했습니다.
우리 모델이 특징 생성 작업에서 경쟁 기준을 능가한다는 것을 보여주었습니다.
미래에는 순열 불변성 모델이 문서 순위 매기기, 검색 결과 다양성 및 질문 선택에 미치는 영향을 평가할 예정입니다.
또한 제안된 솔루션이 다양한 텍스트 집합 생성 작업에 일반화될 수 있다고 믿습니다. 이 방향을 미래 연구에서 탐구할 것입니다.

Reference

https://ciir-publications.cs.umass.edu/getpdf.php?id=1457

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-190, Stochastic Optimization of Text Set Generation for Learning Multiple Query Intent Representations, CIKM 2022

◼ Comment

0 Abstract

1 INTRODUCTION

2 RELATED WORK

3 METHODOLOGY

3.1 A Brief Overview of NMIR

3.2 The Permutation Invariant NMIR

4 EXPERIMENTS

5 CONCLUSIONS AND FUTURE WORK

댓글

댓글 쓰기