◼ Comment

이 논문은 검색 다양화를 할 때, novelty-based에 초점을 맞추는데 이는 implict 방법을 말한다.

coverage-based(e.g. explict)방법은 facet을 미리 생성하기 때문에 해석가능성이 있는 장점이 있지만, 쿼리 생성을 위한 외부시스템에 의존해야하는 아래의 단점이 있다고함.
첫째, 훈련 및/또는 추론 비용이 높거나 광범위한 사용에 대한 제한 등으로 인해 이러한 쿼리 측면 획득 시스템의 가용성을 항상 보장할 수 없습니다.
둘째, 쿼리 측면 획득이 실제로 재랭킹해야 할 문서가 아닌 쿼리 로그 및 클릭 데이터를 기반으로 이루어지기 때문에 제공된 쿼리 측면이 후보 문서와 관련성이 있을 것이라는 보장이 없습니다. 이는 재랭킹 과정을 저해할 수 있습니다.
마지막으로, 쿼리 측면 획득 시스템은 검색 결과 다각화라는 최종 목표에 맞추어 최적화될 수 없습니다.
최적화는 안되긴 하지만.. 애초에 facet을 잘 생성하면 되지 않나? using LLM..

SRD 방법론을 점수매기는 방식으로도 구분지을 수 있다고 함

1. 점수 부여 후 정렬(score-and-sort)

점수 부여 후 정렬 패러다임【69, 97, 98】에서는 후보 문서들을 집합적으로 평가한 후 재정렬합니다.
일단 문서를 각각 점수화한후 재정렬 하는 것이고, 이 논문의 방법

2. 다음 문서 선택(next-document).

반면, 다음 문서 선택 패러다임【14, 48, 70, 78, 81, 84, 85】에서는 각 단계마다 쿼리에 대한 관련성과 이전에 선택된 문서들에 대한 참신성을 최대화하는 문서를 탐욕적으로 선택합니다.
매 스텝에서, 이전에 선택된 문서와는 다른 참신한 문서를 선택하는 느낌

이는 아마도 novelty-based 방법론에서 한번더 구분짓는 느낌임.

방법론

방법론은 사실 좀 복잡하다
간단히 보면, 맨 처음에 query, docs 들을 인코딩을 통해 벡터화한다.
이 벡터끼리 비교해서 일부 doc만 남긴다.

정확히는 passage을 남기는건데, doc이 여러개 passage로 있을 것이고, 각 passage와 query 벡터를 비교해서 유사도 높은 passage만 남김

즉 query와 유사한 passage들만 남기는데, 2가지 방법으로 남긴다.

threshold 기반 / top-k개
이를 통해 남겨진 doc embedding을 뽑는다

남겨진 doc embedding과 query을 다시 조합해서 aspect embedding을 만든다.
여기서 multi-head attention을 이용하는데, 각각의 head에 따른 embedding이 aspect가 되는 개념이다. (즉 해석은 불가능)
다양하게 뽑힌 aspect들을 미분가능한 clustering 하는 알고리즘 넣어서 최종적으로 학습시킨다.

0 ABSTRACT

우리는 종종 별도의 구성 요소로 구성되고 쿼리 측면에 대해 외부 시스템에 의존하는 커버리지 기반 검색 결과 다각화 모델의 한계를 다룹니다.
이러한 문제를 극복하기 위해 DUB이라는 엔드 투 엔드 학습 프레임워크를 도입합니다.
우리의 접근법은 커버리지 기반 방법의 고유한 해석 가능성을 유지하면서 다각화 성능을 향상시킵니다.
information bottleneck 방법에서 영감을 받아, diversified document re-ranking 작업을 위한 정보 병목으로 최적화된 쿼리 측면 임베딩을 생성하는 측면 추출기를 제안합니다.
실험 결과, DUB이 최신 다각화 모델보다 우수한 성능을 보임을 입증합니다.

1 INTRODUCTION

검색 결과 다각화(SRD)는 종종 명확하지 않은 사용자 검색 쿼리에 대응하여 사용자 정보 요구를 충족시킬 가능성을 높이기 위해 오랫동안 연구되어 왔습니다[80].
Spärck Jones 등[83]은 검색 엔진이 주어진 쿼리와 관련된 다양한 잠재적 정보 요구(쿼리 측면 또는 하위 주제로도 알려짐)에 비추어 문서의 관련성을 고려해야 한다고 제안했습니다.
다각화 전략에 기반한 SRD 접근 방식은 크게 두 가지 범주로 나눌 수 있습니다: coverage-based and novelty-based[80].

coverage-based

커버리지 기반 접근 방식은 특정 문서가 쿼리의 다양한 측면을 얼마나 잘 다루는지를 측정하는 데 중점을 둡니다.
Knowledge Enhanced Search Result Diversification에서 말하는 explicit을 말하는 듯

novelty-based

반면에 참신성 기반 접근 방식은 검색된 문서들 간의 비교를 통해 새로운 정보를 촉진합니다.
Knowledge Enhanced Search Result Diversification에서 말하는 implicit을 의미하는 듯

커버리지 기반 접근 방식의 한 가지 장점은 모델 해석 가능성과 투명성이 높다는 점입니다[62].

이는 사용자들이 문서가 다양한 측면을 어떻게 다루는지 쉽게 이해할 수 있기 때문입니다.

반면, 참신성 기반 접근 방식은 문서 임베딩 간의 비유사성 같은 측정에 의존하는 경우가 많아 인간이 이해하기 어렵습니다[84, 85, 97, 98].
커버리지 기반 접근 방식은 일반적으로 해석 가능성으로 인정받고 있지만, 쿼리 측면 획득을 위해 외부 시스템에 의존하는 경우가 많습니다.

쿼리 측면을 따로 생성해야하는 느낌이 있어서 그런 듯
예를 들어 (독점적인) 구글 쿼리 제안[44, 48, 69, 70] 또는 쿼리 로그로 훈련된 쿼리 완성 모델[62] 등이 이에 해당합니다.

이러한 외부 시스템에 대한 의존성은 몇 가지 단점을 초래합니다.

첫째, 훈련 및/또는 추론 비용이 높거나 광범위한 사용에 대한 제한 등으로 인해 이러한 쿼리 측면 획득 시스템의 가용성을 항상 보장할 수 없습니다.
둘째, 쿼리 측면 획득이 실제로 재랭킹해야 할 문서가 아닌 쿼리 로그 및 클릭 데이터를 기반으로 이루어지기 때문에 제공된 쿼리 측면이 후보 문서와 관련성이 있을 것이라는 보장이 없습니다. 이는 재랭킹 과정을 저해할 수 있습니다.
마지막으로, 쿼리 측면 획득 시스템은 검색 결과 다각화라는 최종 목표에 맞추어 최적화될 수 없습니다.
외부 모듈로 facet 생성하고 검색 다양화하는 것의 단점?

심지어 오픈 소스 대안으로 간주될 수 있는 IntenT5[62]의 경우에도 쿼리 측면이 텍스트 형태로 표현되어 있어 다각화 지향 손실을 쿼리 제안 모델 자체에 역전파할 수 없습니다.
이러한 공동 최적화의 부족은 쿼리 측면 획득과 다각화된 재랭킹의 동시 개선을 저해합니다.
본 연구의 주요 목표는 내재적 해석 가능성과 효과성을 통합한 SRD(검색 결과 다각화) 프레임워크를 개발하는 것입니다.
이 목표를 달성하기 위해 우리는 Information Bottleneck Method [86]에서 영감을 받았습니다.

이 방법은 정보 X의 요약을 생성하는 데 중점을 두고 있으며 이를 최적화하여 다른 관련 정보 Y를 예측합니다.
이 접근법에서 영감을 받아 우리는 DUB(Diversification Using Bottlenecks)이라고하는 커버리지 기반 다각화 프레임워크를 소개합니다.

DUB에서 우리는 후보 문서에서 관련 정보를 "요약"하여 잠재적인 측면 임베딩으로 설계합니다.
이는 다운스트림 다양화된 재랭킹 작업을 향상시키기 위해 최적화됩니다.
이 구성 요소는 쿼리 측면 획득과 문서 재랭킹의 동시 최적화의 필요성을 해결합니다.
우리는 쿼리 측면 추출을 위해 두 가지 구현을 제안합니다.

첫 번째 접근 방식은 멀티 헤드 어텐션[89]을 사용하며, 각 헤드는 특정 쿼리 측면의 표현을 학습합니다.
두 번째 접근 방식은 문서 세그먼트(패스지)를 클러스터링하는 것으로, 각 클러스터는 구별되는 쿼리 측면을 나타냅니다.

우리는 측면 매칭이라는 새로운 사전 훈련 작업을 소개합니다.

이 작업은 데이터셋 구성 접근 방식과 두 가지 사전 훈련 목표를 포함합니다.
측면 매칭을 DUB에 통합함으로써, Wikipedia에서 발견된 풍부한 쿼리-측면 관계를 효과적으로 활용할 수 있습니다.
이는 검색 결과 다양화의 발전을 방해하는 데이터 부족 문제를 심각하게 완화시킵니다.

우리는 DUB의 검색 결과 다양화 측면에서의 광범위한 평가를 수행합니다.
특히, DUB는 Google 쿼리 제안[44]과 대형 언어 모델(예: GPT-3.5 [12])에서 명시적인 쿼리 측면을 얻는 접근 방식을 능가할 수 있습니다.
구체적으로, TREC Web 트랙[21-24]에서의 다양성 작업에서 가장 강력한 기준과 비교할 때 DUB는 4.3%의 성능 향상을 보입니다.
또한, 단일 단어 언어 모델로 표현된 잠재적인 측면을 사용하는 외부 평가 결과, DUB가 라벨이 지정된 관련 문서와 더 높은 관련성을 나타내어 재랭킹 목적에 더 적합하게 만든다는 것을 보여줍니다.

2 RELATED WORK AND BACKGROUND

DUB은 검색 결과로부터 명시적으로 추출된 잠재적인 쿼리 측면을 사용하는 검색 결과 다각화 프레임워크입니다.

실제로 서비스에서 고려하는 방법 및 IntenT5와 연관이 있을듯

따라서 우리의 작업은 쿼리 측면 획득과 검색 결과 다각화와 관련이 있습니다.

2.1 Query Aspect Acquisition

모호한 쿼리에 대한 쿼리 측면(또는 하위 주제, 면, 의도)을 획득하는 것은 쿼리 제안[3, 8], 검색 결과 다각화[80], 명확화 질문[4, 102]과 같은 다양한 정보 검색 작업에서 유익한 것으로 입증되었습니다.
쿼리 측면은 쿼리 로그[7, 49, 72, 91, 103], 앵커 텍스트[27, 54], 지식 베이스[10, 47], 전체 말뭉치[8], 상위 검색 결과 또는 이들의 조합[34, 42]과 같은 다양한 자원에서 획득할 수 있습니다.
특히 검색 결과에서 쿼리 측면을 추출하는 것과 관련하여, Dou 등[35, 36]은 상위 검색 결과 내의 자유 텍스트, HTML 태그 및 반복되는 영역에서 빈번한 목록을 추출하고 그룹화하여 쿼리 측면을 자동으로 추출하는 QDMiner를 제안합니다.
Kong과 Allan[52]은 쿼리 측면 추출을 위한 학습 가능한 그래픽 모델을 소개합니다.
최근에는 Transformer 기반 언어 모델[50, 57, 74]이 쿼리 측면을 생성하는 데 사용되고 있습니다.
IntenT5[62]는 쿼리 로그[26]를 학습하여 주어진 쿼리의 다음 용어를 의도로 예측합니다.
Samarinas 등[77]은 몇 가지 쿼리-측면 쌍 예시를 프롬프트로 사용하여 대형 언어 모델을 프롬프트하여 쿼리 측면을 생성하는 방법을 제안합니다.
그들의 연구 결과는 전용 측면 생성 데이터셋을 사용한 평가에서는 이 방법이 문서 기반 측면 생성 모델[36, 40]보다 효과적이지 않지만, 인간이 수행한 수동 평가에서는 동등하게 잘 수행된다는 것을 보여줍니다.
우리는 검색 결과 다각화를 위해 GPT-3.5가 생성한 측면을 사용하는 평가를 섹션 5에서 제시합니다.
Rahimi 등[75]과 Yu 등[100]은 문서별로 쿼리 측면을 생성하는 텍스트 생성 모델을 설계합니다.
NMIR[40]과 그 순열 불변 버전인 PINMIR[41]은 주어진 쿼리와 상위 검색된 문서들을 기반으로 여러 쿼리 의도를 출력하는 언어 생성 모델을 사용합니다.
그러나 이러한 구성은 BART[57]의 1024 토큰과 같은 생성 모델의 최대 입력 한도를 초과하지 않도록 쿼리와 문서 클러스터(NMIR의 경우) 또는 모든 후보 문서(PINMIR의 경우)의 결합 길이를 제한하는 제약을 가집니다.
이 제한은 더 긴 문서의 큰 컬렉션에서 쿼리 측면을 추출할 때 비현실적이 됩니다.

2.2 Search Result Diversification

검색 결과 다양화(SRD)에 대한 접근 방식은 다양화 전략에 따라 세 가지 범주로 분류할 수 있습니다:

1. coverage-based (문서가 쿼리의 여러 측면을 포함하는 정도를 추정)
2. novelty-based (검색된 문서들을 서로 비교)
3. 두 가지의 조합(하이브리드)【58, 69, 70, 79】.

Radlinski et al. [71]에 따르면, 참신성과 범위는 각각 외재적 다양성과 내재적 다양성의 개념과 관련이 있습니다.
또한, 최근 문헌에서 일반적으로 사용되는 또 다른 분류 방법은 명시적 접근과 암시적 접근의 구분입니다.

명시적 접근은 명시적 측면 표현을 사용하므로 일반적으로 범위 기반 또는 하이브리드로 간주되며, 암시적 접근은 참신성 기반으로 생각할 수 있습니다.
명시적 / 암시적: Knowledge Enhanced Search Result Diversification에서 말한 분류 방법

문서가 점수를 매기는 방식에 따라 SRD 방법은 두 가지 주요 패러다임으로 분류할 수 있습니다:

1. 점수 부여 후 정렬(score-and-sort)

점수 부여 후 정렬 패러다임【69, 97, 98】에서는 후보 문서들을 집합적으로 평가한 후 재정렬합니다.
일단 문서를 각각 점수화한후 재정렬 하는 듯

2. 다음 문서 선택(next-document).

반면, 다음 문서 선택 패러다임【14, 48, 70, 78, 81, 84, 85】에서는 각 단계마다 쿼리에 대한 관련성과 이전에 선택된 문서들에 대한 참신성을 최대화하는 문서를 탐욕적으로 선택합니다.
매 스텝에서, 이전에 선택된 문서와는 다른 참신한 문서를 선택하는 느낌

최근의 신경망 기반 접근 방식들은 암시적 방법을 채택하고 명시적 측면 표현에 의존하지 않습니다【84, 85, 93, 94, 97, 98, 105】.

최근 트렌드는 암시적 방법?
이러한 접근 방식들은 직접적으로 문서 표현을 비교하여 참신성을 계산하기보다는【14】, 그래프 신경망【51】이나 문서 상호작용 네트워크【67】를 활용하여 문서 상호작용과 표현 업데이트를 수행합니다.
업데이트된 문서 표현은 참신성 점수【84, 85】 또는 최종 순위 점수【97, 98】를 추론하는 데 사용됩니다.

일부 암시적 접근 방식은 문서 관계 분류기【84】나 엔터티 관련 정보【85】와 같은 외부 지식을 통합할 수도 있습니다.
반면, 명시적 및 하이브리드 다양화 접근 방식은 외부 소스에서 얻은 쿼리 측면 표현에 의존합니다.
다양한 쿼리 확장(DQE)【88】은 지식 베이스【10】, 단어 임베딩【66】, 쿼리 로그【59】를 포함한 여러 외부 소스를 사용하여 원래 쿼리를 확장합니다.

이 확장은 쿼리에 더 다양한 용어를 도입하여 더 넓은 범위의 다양한 문서를 검색할 수 있게 합니다.

xQuAD【78】, PM2【29】 및 HxQuAD/HPM2【44】와 같은 비지도 명시적 접근 방식은 쿼리 재구성이나 제안을 사용합니다【44】.
DSSA【48】, DESA【69】 및 GDESA【70】와 같은 지도 명시적 접근 방식은 유사한 정보를 쿼리 측면으로 사용하지만, 서브토픽 수준의 관련성 판단을 사용하여 학습할 수 있습니다.
많은 연구들은 서브토픽 마이닝【90】, 서브토픽 검색【15, 16】 및 검색 결과 다양화【43, 64, 81】에 클러스터링을 사용하는 것을 탐구했습니다.
"쿼리 특화 클러스터링" 개념【43】에 따라, 우리의 제안된 프레임워크는 클러스터링을 종단 간 학습 모델의 근본적인 구성 요소로 통합하여 차별화됩니다.
해석 가능성은 범위 기반 접근 방식의 주요 동기이지만, 해석 가능성 평가에는 측면 설명 가독성, 측면 다양성, 측면 충실성, 그리고 다양화 효과성과의 트레이드오프와 같은 여러 요인이 포함됩니다.

coveraged-based 방법은 해석가능성의 장점이 있긴하지만 다양한 효과성과의 trade-off가 있다고 함

해석 가능성에 대한 검토는 본 연구의 범위를 벗어나며, 이는 추후 연구 과제로 남깁니다.

2.3 Background

다중 헤드 어텐션(Multi-Head Attention)과 차별화 가능한 K-평균(Differentiable K-Means)을 간단히 소개합니다.
이들은 섹션 3에서 DUB를 설명하는 데 필요합니다.

2.3.1 Multi-Head Attention.

쿼리, 키, 그리고 값 행렬 \(\mathbf{Q}\), \(\mathbf{K}\), \(\mathbf{V}\)가 주어졌을 때, 어텐션(Attn)과 다중 헤드 어텐션(MHA) 함수 [89]는 다음과 같이 정의됩니다:
여기서 \(h\)는 어텐션 헤드의 수이고, \(d\)는 임베딩 차원입니다. 직관적으로, 어텐션 계산은 \(d/h\) 차원의 \(h\)개의 하위 공간에서 병렬로 수행된 후, 다시 \(d\) 차원의 메인 공간으로 집계됩니다.
Projection matrices \(\mathbf{W}_Q^i\), \(\mathbf{W}_K^i\), \(\mathbf{W}_V^i\), 그리고 \(\mathbf{W}^O\)는 학습 가능한 매개변수입니다.

2.3.2 Differentiable 𝐾-means.

DKM [20]은 주의(attention) 기반의 클러스터링 층으로, 역전파(backpropagation)를 통해 전체 작업의 손실 함수를 최적화하여 종단 간 학습을 가능하게 합니다.
우리의 경우, 종단 간 학습은 측면 추출과 다양화된 재정렬에 적합한 표현을 학습할 수 있다는 장점을 제공합니다.
DKM은 K-평균 [63]의 하드 클러스터링 할당을 attention-based의 소프트 할당으로 대체하여 미분 가능성을 달성합니다.
이는 각 인스턴스가 다른 주의 가중치를 가지고 모든 클러스터에 소속될 수 있게 합니다.
그러나 DKM은 모든 클러스터가 동일한 인스턴스 세트를 포함하게 되는, 즉 모든 인스턴스가 동일한 K 클러스터로 수렴하는 자명한 해결책에 도달합니다.
Cho et al. [20]은 최대 다섯 번의 클러스터링 반복을 설정하여 이러한 바람직하지 않은 수렴 행동을 피하기 위해 조기 중단을 적용합니다.
미리 정의된 클러스터링 반복 횟수는 유사한 인스턴스 세트를 클러스터링하는 경우에는 효과적일 수 있지만, 다양한 쿼리에 대한 동적으로 변화하는 문단 세트를 클러스터링하는 데는 적합하지 않습니다.
바람직한 클러스터링 반복 횟수는 쿼리에 따라 다를 수 있습니다.
섹션 3.3에서는 우리의 특정 작업에 적용될 때 DKM의 이러한 한계를 해결하는 Generalized DKM을 소개합니다.

3 METHODOLOGY

3.1 Task Formulation and Framework Overview

우리의 제안된 방법은 score-and-sort 및 next-document 랭킹 패러다임(섹션 2.2)에 모두 호환됩니다.
우리는 주로 효율성 때문에 score-and-sort 접근 방식에 집중합니다.
형식적으로, 검색 쿼리를 \(q\)로 나타내고, 후보 문서들의 정렬된 리스트를 \(R\)로 나타냅니다.
SRD 모델 \(F\)는 랭킹 점수 리스트 \(S = F(q, R)\)를 생성합니다.
목표는 \(S\)에 따라 재정렬된 리스트 \(\pi(R)\)를 얻는 것이며, 이는 원래의 정렬된 리스트 \(R\)보다 더 높은 다양성을 나타낼 것으로 예상됩니다.
우리 연구의 DUB 프레임워크 \(F\)는 그림 1에 나타난 것처럼 세 가지 학습 가능한 구성 요소로 구성됩니다:

텍스트 인코더 \(E\) (1),
측면 추출기 \(A\) (2),
그리고 다양화된 랭커 \(P\) (3).

텍스트 인코더 \(E\)는 쿼리 임베딩 \(\mathbf{q}\)와 문단 임베딩 \(\mathbf{P}\)를 얻는 역할을 합니다.
이러한 임베딩은 후보 문단 임베딩 \(\mathbf{P}^*\)를 선택하고, 쿼리 편향 문서 임베딩 \(\mathbf{D}\)를 구축하는 데 사용됩니다.
이후, 측면 추출기 \(A\)는 후보 문단 임베딩 \(\mathbf{P}^*\)와 쿼리 임베딩 \(\mathbf{q}\)를 활용하여 다양화 작업을 위한 정보 병목 역할을 하는 측면 임베딩 \(\mathbf{A}\)를 생성합니다.
마지막으로, 다양화된 랭커 \(P\)는 측면 임베딩 \(\mathbf{A}\)와 쿼리 편향 문서 임베딩 \(\mathbf{D}\)를 받아들여, 문서-측면 커버리지를 문서 특징으로 계산하고, 스칼라 랭킹 점수 \(S\)를 출력합니다.
이제 각 구성 요소를 자세히 소개하겠습니다.
이 논문은 암시적 방법인거 같고, score-and-sort 방식 기준으로 포커싱하고 있음

즉 query facet을 먼저 생성하지 않고
query와 documents을 각각 입력으로 받아서, 최종적으로 document에 대해 점수를 매겨서 이를 재정렬하는 방식

3.2 Text Encoder

최근 검색 결과 다양화 연구 [37, 48, 69, 70, 84, 85, 95, 97, 98]에서는 쿼리, 측면 및 문서를 표현하기 위해 비지도 학습된 Doc2Vec 임베딩 [56]을 주로 사용합니다.
이에 반해, 우리는 다양한 NLP 및 IR 작업에서 문맥화된 표현의 효과적인 사용에 영감을 받아, 쿼리와 문서 인코더로서 공유된 Transformer 언어 모델을 사용합니다.
이는 DUB가 입력 텍스트에 대해 종단 간 최적화될 수 있도록 합니다.
우리는 긴 문서를 겹치는 문단으로 분할하고 문단 단위의 인코딩을 수행합니다.
이러한 접근 방식의 동기는 세 가지 주요 요인에 기반합니다:

1. 문서의 길이가 BERT의 512 토큰 제한과 같은 인코더의 입력 길이 제한을 초과하는 경우가 많다.
2. 긴 문서의 일부만 쿼리와 관련이 있을 수 있다 [87].
3. 긴 문서는 여러 쿼리 측면을 다룰 수 있으며, 단일 임베딩이 전체 문서를 표현하면 정보 손실이 발생할 수 있다 [61].
그러면 각 문서는 여러 문단으로 되어있을텐데.. 이를 분리해서 BERT에 넣어서 각각의 임베딩을 구함
(하나의 BERT가 query, document을 두 형식 데이터를 모두 임베딩 추출하는 것)

우리는 마지막 인코더 층의 토큰 임베딩의 평균을 취해 쿼리 임베딩(\(\mathbf{q}\))과 문단 임베딩(\(\mathbf{P}\))을 얻습니다.
모든 문서의 모든 문단을 인코딩한 후, 덜 관련된 문단을 필터링하고 두 가지 유형의 표현을 도출합니다:

측면 추출을 위한 후보 문단 임베딩과
문서 점수를 매기기 위한 쿼리 편향 문서 임베딩.

후보 문단 임베딩의 경우, 쿼리와의 유사도가 설정된 임계값 \(\theta\) 이상인 문단이 선택됩니다.

모든 후보 문서에서 유지된 문단의 임베딩은 \(\mathbf{P}^* = \{\mathbf{p} | \cos(\mathbf{q}, \mathbf{p}) \geq \theta, \mathbf{p} \in \mathbf{P}\}\)로 나타내며, 이는 측면 추출에 사용됩니다.
즉, 쿼리 임베딩과 각 문단의 임베딩과 cosine 유사도가 높은 문단만 남긴다.
남겨진 문단의 임베딩의 평균 = 문서 임베딩
이는 threshold 기반으로 문서를 남기는 것으로 "후보 문단 임베딩"이라고 부름

문단 표현으로부터 쿼리 편향 문서 임베딩을 만들기 위해, 문서에서 쿼리 임베딩과 가장 유사한 상위 \(n\)개의 문단을 선택하고 이를 평균하여 문서의 쿼리 편향 임베딩을 구성합니다.

이는 유사도가 높은 top-n개의 문단을 남겨서 평규내는 식으로
이를 "쿼리 편향 문서 임베딩"이라고 부름
이는 \(\mathbf{d}\)로 나타냅니다.
쿼리에 대해 모든 후보 문서의 쿼리 편향 문서 임베딩은 \(\mathbf{D}\)로 나타냅니다.

두 가지 선택 방법 모두 모델에서 관련 없는 컨텍스트를 필터링하는 것을 목표로 합니다.
두 가지 다른 선택 기준을 채택한 주된 이유는 후보 집합 내의 관련 없는 문서를 처리하기 위함입니다.
임계값 기반 선택만을 사용하면 일부 문서에서는 쿼리 편향 문서 임베딩 \(\mathbf{D}\)를 구성하기에 적합한 문단이 부족할 수 있기 때문입니다.

3.3 Aspect Extractor

쿼리 임베딩 \(\mathbf{q}\)와 후보 문단 임베딩 \(\mathbf{P}^*\)를 얻은 후, 측면 추출기 \(A\)를 사용하여 고정된 수(𝐾)의 측면 임베딩 \(\mathbf{A} = A(\mathbf{q}, \mathbf{P}^*)\)를 생성합니다.
여기서 \(\mathbf{A} \in \mathbb{R}^{K \times d}\)입니다.
각 측면 임베딩은 검색된 문서가 포함하고 있는 쿼리와 관련된 정보의 특정 측면을 포착하는 것을 목표로 합니다.
우리는 쿼리 측면을 추출하기 위해 두 가지 다른 접근 방식을 조사합니다.
Aspect Extractor Using Multi-Head Attention.

DUB 측면 추출기의 첫 번째 디자인은 유사한 문단들로부터 쿼리 측면을 구성하기 위해 다중 헤드 어텐션(MHA)을 기반으로 합니다.
그러나 우리는 원래 MHA [89]와 측면 기반 밀집 검색에서의 적용 [53]에 수정을 도입합니다.
구체적으로, 각 어텐션 헤드의 출력을 쿼리 측면의 잠재적 표현으로 간주하며, 이는 Chen et al. [19]이 제안한 의도 모델링 접근 방식과 유사합니다.
이 측면 추출기에서는 ℎ = 𝐾개의 어텐션 헤드의 출력이 Eq. 2에서 표현된 것처럼 단일 출력으로 결합되지 않고, 𝐾개의 측면 임베딩으로 개별적으로 보존됩니다.
따라서, \(A\)의 형식적 구현은 다음과 같이 정의될 수 있습니다:
이 구성에서, 쿼리 임베딩 \(\mathbf{q}\)는 셀프 어텐션 모듈의 쿼리 행렬 역할을 하며, 후보 문단 임베딩 \(\mathbf{P}^*\)는 키와 값 행렬로 처리됩니다.
특히, DUB의 측면 추출기에서 입력 투영 행렬 \(\mathbf{W}_Q^i\), \(\mathbf{W}_K^i\), \(\mathbf{W}_V^i\)는 \( \mathbb{R}^{d \times d} \) 차원을 가지며, 이는 Eq. 3의 \( \mathbb{R}^{d \times d/h} \) 차원과 다릅니다.
이 수정은 측면 추출기에서 각 헤드의 출력이 \(d\) 차원을 가지도록 하여 하나의 쿼리 측면을 나타낼 수 있도록 보장합니다.

Aspect Extractor using GDKM-based Clustering.

쿼리 측면 추출에 대한 또 다른 직관은 동일한 쿼리 측면을 다루는 passages가 다른 측면을 다루는 passages에 비해 더 유사한 임베딩을 가진다는 것이다 [84].
같은 query aspect(facet)을 가지는 passages끼리 유사한 임베딩을 가진다
그래서 top-n개의 passages가 같은 query aspect을 가져 다양성이 없는 문제가 있단건가?
이 직관에 기반하여, 후보 구절 임베딩 𝑷*에 클러스터링을 수행하여 측면의 표현을 도출한다.
클러스터링 기반 측면 추출기 구성 요소에서는 구절 상호작용을 직접 통합한다.
이는 쿼리 임베딩과의 유사성을 통해 구절 상호작용을 간접적으로 포착하는 MHA 기반 접근 방식과 대조적이다.
클러스터링 기반 측면 추출에는 두 단계가 포함된다.
Step 1: Clustering passages with Generalized Differentiable Kmeans.

측면 추출을 위한 클러스터링 구성 요소는 인코더(E) 파라미터가 손실 함수의 그라디언트를 통해 최적화될 수 있도록 미분 가능해야 한다.
쿼리 특정 구절 클러스터링(섹션 2.3.2)에 대한 DKM [20]의 한계를 해결하기 위해, 각 인스턴스(구절)가 할당될 수 있는 클러스터 수를 제한하여 DKM을 일반화한 GDKM을 제안한다.
구절은 여러 클러스터에 속할 수 있지만 모든 클러스터에 속할 수는 없다.
이를 위해 최대 클러스터 수를 나타내는 하이퍼 파라미터 자유도를 𝜈로 도입한다.
GDKM은 𝜈=1로 설정하면 원래의 𝐾-평균 알고리즘 [63]으로 환원되고, 𝜈를 𝐾로 설정하면 DKM으로 환원되기 때문에 일반화된 것이다.
𝜈를 1과 𝐾 사이의 정수로 설정하면, GDKM은 DKM의 수렴 문제(섹션 2.3.2) 없이 쿼리의 여러 측면을 다루는 구절을 모델링할 수 있다.
GDKM의 의사 코드는 알고리즘 1에 제시되어 있다.
강조된 줄은 DKM에 대한 확장을 나타낸다.
각 구절 임베딩에 대해 클러스터링 레이어는 먼저 잠재 클러스터 내의 멤버십 확률을 추정하여, 라인 5에서 주목 행렬 𝜶를 생성한다.
이 주목 행렬을 사용하여 새로운 중심을 계산하는 대신, 각 구절마다 가장 높은 𝜈 주목 가중치만 유지하고 나머지는 작은 상수 값 𝜄로 마스킹한다(라인 10 및 12).
새로운 클러스터 중심은 마스킹된 주목 행렬 𝜶˜를 기반으로 계산된다.
수렴 후, GDKM은 최종 반복에서 클러스터 할당 𝜶˜ 및 클러스터 중심 𝝁˜을 출력한다.

Step 2: Generating aspect embeddings from clusters.

한 구절이 최대 𝜈 개의 클러스터에 속할 수 있다는 것은 해당 구절이 최대 𝜈 가지 방식으로 표현될 수 있음을 의미한다.
따라서 DUB는 각 구절을 쿼리 측면 중 하나에 해당하는 𝜈 개의 임베딩으로 표현한다.
이를 위해 DUB는 초기 임베딩 𝑷*와 클러스터 할당 𝜶˜으로부터 구절 𝑷˜의 측면별 표현을 학습하기 위해 T로 표시된 다중 레이어 Transformer를 포함한다(텍스트 인코더 E와는 다름).
이 과정은 그림 2에 설명되어 있다.
우리는 클러스터 할당 𝜶˜을 사용하여 𝑷*를 𝐾개의 구절 임베딩 시퀀스로 구성하며, 여기서 𝑷*에서의 구절 임베딩은 𝜈번 복사된다.
짧은 시퀀스는 배칭을 위해 0 벡터로 패딩하고, 패딩된 시퀀스 길이를 𝐿로 표시한다.
우리는 𝜶˜을 𝜄로 마스킹된 항목을 제거하고 패딩된 임베딩에 대해 𝜄 항목을 추가하여 𝜶′로 재구성하여, 𝜶′ ∈ R𝐾×𝐿로 만든다.
그런 다음, 다중 레이어 Transformer T는 시퀀스 내(클러스터 내) 자가 주목을 통해 구절 임베딩을 업데이트한다.
각 구절 임베딩은 동일한 클러스터 내의 다른 구절을 기반으로 업데이트되어 동일한 쿼리 측면을 다룬다.
이렇게 얻은 측면별 구절 임베딩 𝑷˜은 𝑷*에 비해 모호성이 적어 더 정확한 측면 임베딩을 도출할 수 있다.
마지막으로, 측면 임베딩 𝑨는 측면별 임베딩 𝑷˜ ∈ R𝐾×𝐿×𝑑을 그들의 멤버십 정도 𝜶′ ∈ R𝐾×𝐿로 가중 평균하여 얻는다.
즉, 𝑨 = Softmax(𝜶′)𝑷˜⊺으로, 여기서 𝑷˜⊺는 𝑷˜의 첫 두 차원을 전치한 것이다.
섹션 5.7에서는 측면 표현으로서 GDKM의 클러스터 중심 𝝁˜를 직접 사용하는 것에 비해 T의 효능을 입증한다.

이해하기론...

한 문서의 passage가 여러 개 있다.
query와 passage간의 유사도를 통해 passage을 선택하면 같은 query aspect을 가지는 passage위주로 추출될 수 있다.
따라서 다양한 query aspect을 추출하기 위해 클러스터링을 통해 passage을 묶어준다.
여기서 같은 aspect을 가진 passage끼리 묶여야 할텐데? 이건 어떻게 컨트롤한거지?
여기서 클러스터링하는건 학습시 미분이 가능한 방법임
이 때 한 passage가 여러 개 클러스터링에 포함될 수 있음 (최대 v개)
묶인 passage의 가중치 합으로 각각 aspect embedding을 구한다.

3.4 Diversified Ranker

후보 문서가 가능한 쿼리 측면을 명시적으로 모델링함으로써, 그들의 해당 측면에 대한 중요성을 추정하고 검색된 결과물의 다양한 순위를 제공할 수 있다.

이는 명시적 모델들 [28, 30, 44, 48, 58, 69, 70, 78, 79, 82]과 유사하다.
여기서 추출한 aspect embedding이 사실 intenT5와 같이 query aspect을 미리 생성하고 embedding한것을 대체한다고 보면 되는 듯
사실 근데 이건, query와 document을 결합하여 생성된 aspect이긴함

이를 위해, 우리는 먼저 쿼리 편향된 문서 임베딩 𝑫과 측면 임베딩 𝑨의 코사인 유사도를 통해 문서-측면 커버리지를 추정한다.
또한, 문서 임베딩 𝑫과 원래 쿼리 임베딩 𝒒 간의 코사인 유사도를 사용하여 문서가 쿼리에 대한 전반적인 관련성을 표현한다.
그림 1의 오른쪽 위
따라서 문서는 총 𝐾 + 1개의 특성으로 표현된다 (𝐾는 측면 수이고, 1은 쿼리를 나타낸다).
점수 및 정렬 재랭킹 패러다임에서, 우리는 배치 정규화가 포함된 다층 피드포워드 신경망 P를 채택하여 다양한 순위 지정자로 사용한다.
이는 이전 연구들의 접근 방식을 따른다 [97, 98].
diversified ranker P의 형식적 정의는 다음과 같이 나타낼 수 있다:

4 TRAINING

DUB는 세 가지 학습 가능한 구성 요소 F = {E, A, P}를 가지고 있습니다.
DUB는 텍스트 인코더 E와 측면 추출기 A를 최종 목표인 다양화된 재랭킹을 향해 최적화할 수 있도록 search result diversification(SRD) 데이터셋으로 종단 간 학습이 가능합니다.
그러나 TREC Web Tracks [21–24]와 같은 가장 큰 공개 SRD 데이터셋에서도 학습에 사용할 수 있는 쿼리 수가 200개 미만으로 제한되어 있기 때문에 데이터 부족 문제가 발생합니다.
이 문제를 해결하기 위해, 선택적인 사전 학습과 종단 간 SRD 학습을 제안합니다.
즉, 모델 F의 매개변수가 많은 구성 요소 {E, A}를 더 많은 약한 감독 데이터가 있는 관련 작업에 먼저 학습시킬 수 있습니다.
그 후, 전체 모델 F = {E, A, P}를 종단 간 SRD 학습을 통해 최적화합니다.
사전 학습 단계는 선택 사항임을 강조합니다.
이후 실험에서 보듯이, 더 큰 SRD 데이터셋(자동으로 생성된 8K 이상의 쿼리)으로 DUB를 학습하는 것이 사전 학습 없이도 가능합니다.

4.1 Optional Pretraining Using Aspect Matching

이전 연구에서 Wikipedia의 방대한 양의 엔티티-헤딩-섹션 구조 데이터를 사용하여 정보 검색 작업에서 쿼리-측면-패시지 구조를 복제한 것을 참고하여【33, 75, 100】, 우리는 자동 주석 접근 방식을 사용하여 약한 학습 데이터를 생성합니다.
이 접근 방식의 세부 사항은 섹션 5.1에 설명되어 있습니다.
각 학습 샘플은 쿼리 𝑞, 𝐾개의 참조 측면 𝐴𝑟로 나타내며, 쿼리와 특정 참조 측면 모두와 관련 있는 패시지로 구성됩니다.
참조 측면의 임베딩은 𝑨𝒓 = E (𝐴𝑟)로 표현되며, 여기서 𝑨𝒓 ∈ R^𝐾×𝑑입니다.
예측된 측면(𝑨)과 임베딩 공간에서 참조 측면(𝑨𝒓)을 정렬하기 위해서는, 이들 간의 차이를 정량화하는 목적을 채택할 필요가 있습니다.
그러나 두 측면 임베딩 집합 간의 명확한 정렬이 부족하기 때문에, 쌍별 차이를 최소화하는 것은 어려운 과제가 됩니다. 우리는 두 가지 해결책을 제시합니다.
Optimal-Transport Based Objective.

예측된 측면 임베딩과 참조 측면 임베딩의 정렬을 optimal transport(OT) 문제의 한 예로 간주하고, 기존 OT 솔버를 사용하여 이를 해결합니다.
이는 서로 다른 언어의 토큰 임베딩 정렬에 대한 연구【5, 45, 65】에서 영감을 받았습니다.
이 OT 정식화에서, 비용 행렬 𝑴을 정의해야 하며, 여기서 𝑚𝑖𝑗는 𝑖번째 예측 측면 임베딩 𝒂𝒊와 𝑗번째 참조 측면 임베딩 𝒂𝒓𝒋 사이의 거리를 반영합니다.
이 비용으로 코사인 거리를 선택합니다: 𝑚𝑖𝑗 = 1 − cos(𝒂𝒊 , 𝒂𝒓𝒋). 𝑨에서 𝑨𝒓로의 총 수송 비용은 γ · 𝑴로 정의되며, 여기서 γ ∈ R 𝐾×𝐾는 수송 행렬이라고 합니다.
수송 비용을 최소화하는 γ∗는 최적 수송 행렬이라고 하며, 이는 직관적으로 𝑨와 𝑨𝒓 간의 최적 정렬을 나타냅니다.
γ∗를 찾기 위한 선형 프로그래밍 솔루션의 계산 불가능성을 극복하기 위해 IPOT 알고리즘【96】을 사용하여 이 OT 행렬을 계산합니다.
마지막으로, 측면 매칭을 위한 목적을 최적 수송 비용으로 정의합니다.

Teacher-Forcing Based Objective.

클러스터링 기반 측면 추출기는 대체 목표로 학습될 수 있습니다.
이 측면 추출기는 학습 가능한 매개변수가 없는 GDKM 클러스터링 층과 학습 가능한 매개변수를 가진 다층 Transformer T로 구성됩니다.
예측된 측면 임베딩과 참조 측면 임베딩 간의 비결정론적 매칭을 유발하는 것은 GDKM뿐입니다.
따라서 사전 학습 단계에서는 GDKM을 건너뛰고, 실제 "클러스터링" 할당 𝜶ˆ를 T의 입력으로 직접 제공합니다.
이는 시퀀스 생성 모델을 학습할 때 사용되는 teacher-forcing 학습【92】과 유사합니다【73】.
이 접근 방식은 OT 솔버로부터 발생할 수 있는 임베딩 집합의 잠재적 불일치를 제거하여 학습 안정성을 제공합니다.
이 학습 방법의 손실 함수는 매칭된 임베딩의 코사인 거리를 기반으로 정의됩니다:

We observe slightly better performance of DUB-GDKM using this loss for pretraining compared with the OT-based loss (Eq. 7).

4.2 End-to-end SRD Trainin

섹션 3.4에서 설명한 바와 같이, 다층 피드포워드 신경망 P는 측면 커버리지와 쿼리 유사성의 (𝐾 + 1)차원 특징을 기반으로 𝑅 내의 문서에 대한 랭킹 점수 𝑆를 예측합니다.
우리는 측면 수준의 관련성 판단을 포함한 학습 데이터를 사용하여 전체 DUB 모델 F = {E, A, P}를 최적화하기 위해 𝛼-DCG 손실【97】를 사용합니다.
공간 제약으로 인해 𝛼-DCG 손실의 공식적인 정의는 여기에서 반복하지 않습니다.
이 방식은 쿼리와 각 문서의 관련성을 측면별로 평가하여 더 정확한 랭킹을 제공하는 것을 목표로 합니다.
𝛼-DCG 손실 함수는 랭킹 모델의 성능을 평가하고 최적화하는 데 사용되며, 각 문서의 예측된 랭킹 점수와 실제 관련성 간의 차이를 최소화합니다.
이 접근법을 통해 DUB 모델은 검색 결과의 다양성을 유지하면서도 사용자 쿼리에 더 잘 맞는 문서를 상위에 배치하도록 학습할 수 있습니다.

5 EXPERIMENT

6 CONCLUSIONS AND FUTURE WORK

DUB는 검색 결과 다양화를 위한 종단 간 학습 가능한 프레임워크입니다.
이 프레임워크는 텍스트 인코더, 쿼리 측면 추출기, 다양화된 문서 랭커의 공동 최적화를 용이하게 하는 잠재적 측면 임베딩을 통합합니다.
또한 DUB는 선택적인 사전 학습을 통해 Wikipedia의 지식을 활용할 수 있어, 검색 결과 다양화에서의 데이터 부족 문제를 해결합니다.
앞으로의 연구에서는 검색 결과 다양화 모델의 해석 가능성을 평가하기 위한 공식적인 평가를 수행하는 데 관심을 가지고 있습니다.

Reference

https://maroo.cs.umass.edu/pub/web/getpdf.php?id=1483

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-220, Search Result Diversification Using Query Aspects as Bottlenecks, CIKM 2023

◼ Comment

0 ABSTRACT

1 INTRODUCTION

2 RELATED WORK AND BACKGROUND

2.1 Query Aspect Acquisition

2.2 Search Result Diversification

2.3 Background

2.3.1 Multi-Head Attention.

2.3.2 Differentiable 𝐾-means.

3 METHODOLOGY

3.1 Task Formulation and Framework Overview

3.2 Text Encoder

3.3 Aspect Extractor

3.4 Diversified Ranker

4 TRAINING

4.1 Optional Pretraining Using Aspect Matching

4.2 End-to-end SRD Trainin

5 EXPERIMENT

6 CONCLUSIONS AND FUTURE WORK

댓글

댓글 쓰기