0 Abstract

검색 결과 다각화는 주어진 쿼리에 대한 결과의 중복을 줄이고 하위 주제의 풍부함을 향상시키는 데 중점을 둡니다.
대부분의 기존 접근법은 주로 텍스트나 사전 학습된 표현을 기반으로 문서 다양성을 측정합니다.
그러나 쿼리와 문서 간의 일부 기본적인 관계는 내용만으로 모델이 포착하기 어렵습니다.
지식 베이스는 잘 정의된 엔터티와 엔터티 간의 명확한 관계를 제공할 수 있기 때문에, 우리는 쿼리와 문서 간의 관계를 모델링하기 위해 지식을 활용하여 KEDIV라는 지식 강화 검색 결과 다각화 접근법을 제안합니다.
구체적으로, 엔터티 관점에서 복잡한 쿼리-문서 관계를 모델링하기 위해 쿼리별 관계 그래프를 구축합니다.
그런 다음 그래프 신경망과 노드 가중치 조정 알고리즘을 관계 그래프에 적용하여 각 선택 단계에서 문맥 인식 엔터티 표현과 문서 표현을 얻습니다.
다양성 특징은 관계 그래프의 업데이트된 노드 표현에서 파생됩니다. 이 방법으로 엔터티의 풍부한 정보를 활용하여 검색 결과 다각화에서 문서의 다양성을 모델링할 수 있습니다.
일반적으로 사용되는 데이터셋에 대한 실험 결과, 제안된 접근법이 최신 방법들을 능가할 수 있음을 보여줍니다.

1 INTRODUCTION

검색 결과 다각화는 다양한 하위 주제를 다루는 문서의 순위를 조정하여 검색 결과의 품질을 향상시키는 것을 목표로 합니다.
일반적인 검색(Ad-hoc retrieval)과는 달리, 검색 결과 다각화 접근 방식은 주어진 쿼리에 대해 관련성 있는 다양한 문서를 제공하는 것을 기대합니다.
따라서 정확한 쿼리 의도를 파악하고 중복 문서를 제거하는 것은 검색 결과 다각화 작업에서 중요한 부분입니다.
기존 접근 방식은 명시적(explicit) 접근 방식과 암시적(implicit) 접근 방식으로 대략 분류할 수 있습니다.

명시적 방법은 문서의 하위 주제 커버리지를 기반으로 문서의 다양성을 모델링합니다[9, 17, 19, 25, 27].
반면에 암시적 방법은 선택된 문서 및 후보 문서와의 유사성 모델링을 통해 문서의 참신성을 측정합니다[4, 35, 50].

대부분의 접근 방식은 샘플링의 계산 복잡성을 줄이기 위해 탐욕적 선택 전략(greedy selection strategy)을 채택합니다.
그러나 대부분의 기존 접근 방식은 주로 문서의 텍스트 유사성을 기반으로 문서 다양성을 모델링하며, 이는 쿼리와 문서 간의 미묘하지만 중요한 관계를 모델이 학습하기 어려울 수 있습니다.
우리의 관점에서는 텍스트에만 의존하여 문서 다양성을 모델링하는 것은 충분하지 않습니다.
이는 쿼리가 종종 모호하기 때문입니다.
문서에 자주 등장하는 엔티티와 지식 베이스의 명확하고 의미 있는 명시적 관계를 이용하는 것은 자연스러운 동기입니다.
지식 베이스를 검색 결과 다각화에 활용하는 데에는 적어도 두 가지 이점이 있습니다:

(1) 엔티티가 포함한 명시적 의미는 단어의 모호성을 해소하고 문서의 주제를 추론하는 데 도움을 줄 수 있습니다.
(2) 지식 베이스가 제공하는 풍부한 정보와 잘 조직된 관계는 텍스트만으로는 학습하기 어려운 문서 간의 잠재적 관계를 반영할 수 있습니다.

이전 연구[14, 16]는 지식 베이스가 쿼리의 의미를 이해하는 데 유용한 자원임을 입증했습니다. 그러나 지식은 그 이상으로 활용될 수 있습니다.
구체적으로, 우리는 쿼리와 문서에서 추출된 엔티티를 활용하여 검색 결과 다각화에서 문서와 쿼리 간의 관계를 설정할 수 있습니다.
예를 들어, 그림 1에 나타난 바와 같이, 문서 𝑑1은 "Titan (Saturn’s moon)"이라는 엔티티를 포함하고 있어 천문학 주제를 다룰 가능성이 더 높고, 문서 𝑑2는 "Titan (football team)"이라는 엔티티를 언급하여 스포츠 주제를 다룰 가능성이 더 높습니다.

쿼리 측면에서는 "titan"이라는 용어만 사용하여 정확한 쿼리 의도를 결정하기 어렵습니다.
그러나 엔티티 연결(entity linking)을 통해 다양한 문서에 나타나는 다른 "Titan" 엔티티와의 관계를 발견하는 것이 더 쉬워집니다.
더 중요한 것은 엔티티의 풍부한 정보(예: 카테고리)를 문서의 다양성을 측정하는 데 사용할 수 있다는 것입니다.
즉, 질의와 검색된 문서를 함께 봐서 어떤 카테고리인지 (엔티티) 알 수 있고
이 엔티티를 통해서 문서의 다양성을 측정하는데 사용 가능

지식이 강력하고 검색 결과 다각화에 적합하다는 점을 감안하여, 우리는 문서의 다양성을 모델링하기 위해 엔티티와 그 관계를 활용하는 지식 기반 검색 결과 다각화 접근 방식인 KEDIV를 제안합니다.
구체적으로, 쿼리와 문서에서 공통적으로 언급된 주요 엔티티를 추출할 수 있습니다.
또한 대부분의 문서에서 자주 나타나는 엔티티도 고려합니다.
지식 베이스에 포함된 풍부한 정보를 최대한 활용하기 위해, 검색 결과 다각화 작업과 관련된 네 가지 주요 관계(공동 출현, 카테고리, 지식, 문서-엔티티 관계)를 엔티티에서 추출합니다.
그런 다음, 쿼리, 엔티티 및 문서의 관계를 종합적으로 모델링하기 위해 쿼리 특화 관계 그래프를 구축합니다.
relation graph에서 the query, entities, and documents가 노드로 나타나며, 네 가지 관계가 이들 간의 엣지로 변환됩니다.
관계 그래프는 효과적이고 설명 가능하며, 예를 들어, 관계 그래프의 문서 노드는 해당 문서에 속하는 엔티티 노드로 연결됩니다.

그런 다음, 포함된 엔티티 집합을 기반으로 문서의 참신성을 측정할 수 있습니다.
관계 그래프에서 정보를 더 통합하기 위해 그래프 신경망을 적용하여 그래프의 노드 표현을 업데이트합니다.

문서 선택 절차 동안 엔티티와 문서의 참신성이 변동됨을 고려하여, 엔티티 노드의 가중치를 동적으로 조정하고 컨텍스트 인식 엔티티 및 문서 표현에서 다양성 기능을 도출합니다.
일반적으로 사용되는 데이터셋에서의 실험 결과는 우리가 제안한 KEDIV 방법이 기존의 최신 모델들보다 우수함을 보여줍니다.
일련의 추가 연구는 우리가 제안한 관계 그래프와 그 조정 알고리즘의 효과를 검증합니다.
우리의 주요 기여는 다음과 같습니다:

(1) 대부분의 다각화 방법에서 간과된 엔티티와 그 관계를 활용하여 검색 결과 다각화에서 문서의 참신성을 측정하는 방법을 제안합니다.
(2) 지식 베이스에서 네 가지 주요 관계를 추출하여 문서와 쿼리의 관계를 모델링합니다. 나아가 쿼리, 엔티티 및 문서의 관계를 종합적으로 모델링하기 위해 쿼리 특화 관계 그래프를 구축합니다.
(3) 문서 선택에 따라 노드 가중치를 동적으로 조정하고, 다양성 점수를 위해 컨텍스트 인식 문서 표현을 도출합니다.

2 RELATED WORK

2.1 Search Result Diversification

검색 결과 다양화는 문서의 신선도와 중복성을 측정해야 합니다.
명시적(explicit) 접근 방식은 다양한 쿼리 측면을 다루는 문서의 범위를 활용하여 새로운 하위 주제를 다루는 문서를 파악하는 반면,

명시적인건 쿼리의 하위의도를 가지는 문서를 명시적으로 노출시키려고 하는 느낌
뭔가 업무랑 연관성이 더 있어 보이는 듯

암시적(implicit) 방법은 문서 간의 관계(예: 비유사성)를 모델링하여 중복성을 줄이는 데 중점을 둡니다.

암시적인건 이미 나온 결과에서 중복을 줄이는 느낌?

Implicit Methods

MMR [4]은 문서의 관련성과 신선도를 균형 있게 조정하기 위해 파라미터 𝜆를 활용하는 초기 비지도 방법입니다.
다양화 작업이 NP-하드 문제이기 때문에 MMR은 각 단계에서 가장 신선한 문서를 선택하는 탐욕적 선택 전략을 사용했습니다.
최근에는 여러 지도 학습 방법이 제안되었습니다.
예를 들어, SVM-DIV [45]는 구조적 SVM 프레임워크를 통해 문서의 다양한 하위 집합을 예측하는 방법을 학습했습니다.
R-LTR [50]은 다양한 수작업 신선도 특징을 기반으로 관계 학습-순위화 작업으로 다양화를 공식화했습니다.
PAMM [35]은 긍정 및 부정 순위 간의 거리를 최대화했습니다.
R-LTR과 PAMM을 기반으로 NTN [36]은 신경 텐서 네트워크를 통해 문서의 다양성 특징을 자동으로 생성했습니다.
Yan et al. [43]는 전체 문서 목록의 순위 품질을 직접 측정하는 근사 손실을 제안했습니다.
Graph4DIV [28]는 문서의 유사성을 의도 범위 유사성으로 처리했습니다.
이러한 방법들과 비교할 때, 우리의 접근법은 또한 지도 학습 접근법이지만, 엔티티와 그 관계를 기반으로 쿼리와 문서 간의 관계를 모델링합니다.
또한 Graph4DIV에서 사용된 외부 분류기에 의존하지 않습니다.

Explicit Methods.

명시적 접근 방식은 주어진 쿼리의 다양한 하위 주제를 최대한 많이 다루는 문서의 범위를 극대화하는 것을 목표로 합니다.
Santos et al. [27]은 확률적 방법을 활용하여 다양한 측면을 다루는 문서의 범위를 측정하고 xQuAD를 제안했습니다.
Dang과 Croft [9]는 주제의 인기도를 활용하여 문서가 다루는 하위 주제의 비율을 조정하는 PM2를 제안했습니다.
이후 이러한 방법들은 용어 정보 [10]와 하위 주제의 계층 구조 [15]를 도입하여 강화되었습니다.
최근에는 검색 결과 다양화를 위한 많은 명시적 지도 학습 접근법이 제안되었습니다.
예를 들어, DSSA [17]는 RNN과 주의 메커니즘을 사용하여 문서의 하위 주제 범위를 측정했습니다.
Qin et al. [25]은 트랜스포머 [32]를 활용하여 모든 문서와 하위 주제의 전역 관계를 모델링함으로써 탐욕적 선택 과정을 피했습니다.
Liu et al. [19]은 학습 샘플 부족 문제를 해결하기 위해 GAN 프레임워크를 적응시켰습니다.
명시적 방법과는 다르게, 우리는 하위 주제 범위가 아닌 엔티티와 그 관계를 사용하여 문서의 다양성을 모델링합니다.
이 논문은 명시적이 아닌 암시적인 방법에 중점을 맞춘듯

기타 방법

위에서 언급한 두 가지 범주 외에도 다양한 목적을 위해 설계된 여러 다양화 접근법 [44, 48, 49]이 있습니다.
예를 들어, 탐욕적 선택 전략을 피하기 위해 여러 접근법이 제안되어 근사 최적 순위 결과를 계산합니다 [11, 37].
MDP-DIV [37]는 사용자의 브라우징 행동을 모방하여 문서를 선택하기 위해 마르코프 결정 프로세스를 활용했습니다.
MDP-DIV를 기반으로 M2Div [11]는 몬테카를로 트리 탐색을 활용하여 MDP 절차 중 가능한 순위를 탐색했습니다.
Xu et al. [41]는 동일한 쿼리 내에서 두 문서 목록을 비교하는 쌍별 정책 기울기 전략을 제안하여 좋은 성능을 달성했습니다.
이러한 방법들과는 다르게, KEDIV는 지식을 활용하여 검색 결과 다양화에서 문서의 관계를 모델링하는 암시적 접근 방식입니다.

2.2 Knowledge Base for IR

초기 연구들 [5, 12, 13, 26, 31]은 정보 검색 분야에서 지식 베이스(예: Wikipedia)의 응용을 탐구했습니다.
최근에는 지식이 정보 검색(IR) [16, 20, 22, 38, 39]과 자연어 처리(NLP) 작업 [2, 23, 24, 29, 30, 47]에서 계속해서 돌파구를 만들고 있습니다.
지식이 가져오는 풍부한 다차원 정보는 텍스트의 기본 관계를 포착하는 데 유용하다는 것이 밝혀졌습니다.
예를 들어, Xiong et al. [40]은 엔티티를 활용하여 학술 검색에서 일치 정확도를 향상시켰습니다.
Xiong et al. [39]은 신경 순위 모델에 지식 그래프를 도입하여 일반화 능력을 크게 향상시켰습니다.
Xiong et al. [38]은 단어와 엔티티의 표현을 결합하여 주의 메커니즘을 통해 순위 모델을 향상시켰습니다.
또한, 지식은 쿼리와 문서를 이해하는 데 도움이 되는 신뢰할 수 있는 자원입니다.
예를 들어, Jiang et al. [16]은 지식 베이스를 기반으로 다양한 쿼리 측면을 생성하여 지식이 모호한 쿼리에 대한 보완 설명이 될 수 있음을 보여주었습니다.
Lu et al. [22]는 개인화된 검색에서 사용자 기록과 현재 쿼리 간의 관계를 포착하기 위해 지식을 활용했습니다.
이러한 방법들과는 달리, 우리는 검색 결과 다양화에 중점을 두고 문서의 관계를 모델링하기 위해 지식을 활용합니다.

3 DIVERSIFICATION FRAMEWORK OF KEDIV

검색 결과 다양화는 순위 목록 상단의 중복성을 줄이는 것을 목표로 합니다.
그러나 일부 기본적인 쿼리-문서 및 문서-문서 관계는 텍스트 내용만으로 모델이 학습하기 어렵습니다.
본 논문에서는 검색 결과 다양화에서 문서 간 관계 모델링을 강화하기 위해 지식 베이스를 활용하는 방법을 제안합니다.
구체적으로, 우리는 쿼리, 문서, 그리고 그 안에 포함된 엔티티들의 복잡한 관계를 나타내기 위해 query-specific relation graph를 구축합니다.
그런 다음, 그래프 합성 네트워크를 적용하여 관계 그래프의 정보를 집약하고, 문서 표현은 그들의 엔티티 노드에 의해 업데이트됩니다.
더 나아가, 문서 선택에 따라 그래프의 노드 가중치를 동적으로 조정합니다.

3.1 Problem Formulation

주어진 쿼리 \( q \)와 이를 통해 검색된 문서 집합 \( D \)에 대해, 검색 결과 다양화 모델은 관련성 외에도 문서의 다양성을 고려한 재정렬 문서 목록 \( R \)을 제공해야 합니다.
후보 문서의 모든 가능한 순열을 모델에 대해 열거하는 것은 불가능하므로, 대부분의 기존 접근 방식은 탐욕적 선택 전략을 따릅니다:

후보 문서 집합 \( C \)에서 가장 새롭고 (관련성 있는) 문서 \( d^* \)를 반복적으로 선택하고 이를 선택된 순위 목록 \( S \)에 추가합니다.
초기 상태에서는 \( C = D \), \( S = ∅ \)입니다.

따라서, 각 단계에서 다양화 점수 함수 \( f(q, d_i, S) \)를 기반으로 다양화된 순위 목록 \( R \)을 생성할 수 있습니다.
엔티티 관점에서 함수 \( f \)는 \( f(q, d_i, E_{d_i}, E_s) \)로 설명될 수 있으며, 여기서 \( E_{d_i} \)는 문서 \( d_i \)가 포함하는 엔티티 집합이고, \( E_s \)는 선택된 문서 순서 \( S \)가 포함하는 엔티티 집합입니다.
즉, 기존에 추가됐던 문서와 질의와 비교하여 가장 새롭고 관련있는 문서를 하나씩 추가해간다.

+엔티티 정보도 활용해서 문서를 선택

3.2 Architecture of KEDIV

우리 접근 방식인 KEDIV의 전체 구조는 그림 2에 나와 있습니다.
쿼리 \( q \), 문서 집합 \( D \), 그리고 그들의 엔티티 집합 \( E \)의 복잡한 관계를 고려하기 위해, 우리는 네 가지 유형의 관계를 활용하여 관계 그래프 \( G_e \)를 구축합니다.
관계 그래프에 그래프 신경망을 적용하여 각 후보 문서 \( d_i \)에 대한 다양성 특징 \( H_i \)를 생성합니다.
각 단계에서 최종 순위 점수 \( f(q, d_i, E_{d_i}, E_s) \)는 가중 매개변수 \( \lambda \)와 함께 관련성 부분 \( S_{rel}(q, d_i) \)과 다양성 부분 \( S_{div}(q, d_i, E_{d_i}, E_s) \)으로 구성됩니다.