*NL-219, Knowledge Enhanced Search Result Diversification, KDD 2022
0 Abstract
- 검색 결과 다각화는 주어진 쿼리에 대한 결과의 중복을 줄이고 하위 주제의 풍부함을 향상시키는 데 중점을 둡니다.
- 대부분의 기존 접근법은 주로 텍스트나 사전 학습된 표현을 기반으로 문서 다양성을 측정합니다.
- 그러나 쿼리와 문서 간의 일부 기본적인 관계는 내용만으로 모델이 포착하기 어렵습니다.
- 지식 베이스는 잘 정의된 엔터티와 엔터티 간의 명확한 관계를 제공할 수 있기 때문에, 우리는 쿼리와 문서 간의 관계를 모델링하기 위해 지식을 활용하여 KEDIV라는 지식 강화 검색 결과 다각화 접근법을 제안합니다.
- 구체적으로, 엔터티 관점에서 복잡한 쿼리-문서 관계를 모델링하기 위해 쿼리별 관계 그래프를 구축합니다.
- 그런 다음 그래프 신경망과 노드 가중치 조정 알고리즘을 관계 그래프에 적용하여 각 선택 단계에서 문맥 인식 엔터티 표현과 문서 표현을 얻습니다.
- 다양성 특징은 관계 그래프의 업데이트된 노드 표현에서 파생됩니다. 이 방법으로 엔터티의 풍부한 정보를 활용하여 검색 결과 다각화에서 문서의 다양성을 모델링할 수 있습니다.
- 일반적으로 사용되는 데이터셋에 대한 실험 결과, 제안된 접근법이 최신 방법들을 능가할 수 있음을 보여줍니다.
1 INTRODUCTION
- 검색 결과 다각화는 다양한 하위 주제를 다루는 문서의 순위를 조정하여 검색 결과의 품질을 향상시키는 것을 목표로 합니다.
- 일반적인 검색(Ad-hoc retrieval)과는 달리, 검색 결과 다각화 접근 방식은 주어진 쿼리에 대해 관련성 있는 다양한 문서를 제공하는 것을 기대합니다.
- 따라서 정확한 쿼리 의도를 파악하고 중복 문서를 제거하는 것은 검색 결과 다각화 작업에서 중요한 부분입니다.
- 기존 접근 방식은 명시적(explicit) 접근 방식과 암시적(implicit) 접근 방식으로 대략 분류할 수 있습니다.
- 명시적 방법은 문서의 하위 주제 커버리지를 기반으로 문서의 다양성을 모델링합니다[9, 17, 19, 25, 27].
- 반면에 암시적 방법은 선택된 문서 및 후보 문서와의 유사성 모델링을 통해 문서의 참신성을 측정합니다[4, 35, 50].
- 대부분의 접근 방식은 샘플링의 계산 복잡성을 줄이기 위해 탐욕적 선택 전략(greedy selection strategy)을 채택합니다.
- 그러나 대부분의 기존 접근 방식은 주로 문서의 텍스트 유사성을 기반으로 문서 다양성을 모델링하며, 이는 쿼리와 문서 간의 미묘하지만 중요한 관계를 모델이 학습하기 어려울 수 있습니다.
- 우리의 관점에서는 텍스트에만 의존하여 문서 다양성을 모델링하는 것은 충분하지 않습니다.
- 이는 쿼리가 종종 모호하기 때문입니다.
- 문서에 자주 등장하는 엔티티와 지식 베이스의 명확하고 의미 있는 명시적 관계를 이용하는 것은 자연스러운 동기입니다.
- 지식 베이스를 검색 결과 다각화에 활용하는 데에는 적어도 두 가지 이점이 있습니다:
- (1) 엔티티가 포함한 명시적 의미는 단어의 모호성을 해소하고 문서의 주제를 추론하는 데 도움을 줄 수 있습니다.
- (2) 지식 베이스가 제공하는 풍부한 정보와 잘 조직된 관계는 텍스트만으로는 학습하기 어려운 문서 간의 잠재적 관계를 반영할 수 있습니다.
- 이전 연구[14, 16]는 지식 베이스가 쿼리의 의미를 이해하는 데 유용한 자원임을 입증했습니다. 그러나 지식은 그 이상으로 활용될 수 있습니다.
- 구체적으로, 우리는 쿼리와 문서에서 추출된 엔티티를 활용하여 검색 결과 다각화에서 문서와 쿼리 간의 관계를 설정할 수 있습니다.
- 예를 들어, 그림 1에 나타난 바와 같이, 문서 𝑑1은 "Titan (Saturn’s moon)"이라는 엔티티를 포함하고 있어 천문학 주제를 다룰 가능성이 더 높고, 문서 𝑑2는 "Titan (football team)"이라는 엔티티를 언급하여 스포츠 주제를 다룰 가능성이 더 높습니다.
- 쿼리 측면에서는 "titan"이라는 용어만 사용하여 정확한 쿼리 의도를 결정하기 어렵습니다.
- 그러나 엔티티 연결(entity linking)을 통해 다양한 문서에 나타나는 다른 "Titan" 엔티티와의 관계를 발견하는 것이 더 쉬워집니다.
- 더 중요한 것은 엔티티의 풍부한 정보(예: 카테고리)를 문서의 다양성을 측정하는 데 사용할 수 있다는 것입니다.
- 즉, 질의와 검색된 문서를 함께 봐서 어떤 카테고리인지 (엔티티) 알 수 있고
- 이 엔티티를 통해서 문서의 다양성을 측정하는데 사용 가능
- 지식이 강력하고 검색 결과 다각화에 적합하다는 점을 감안하여, 우리는 문서의 다양성을 모델링하기 위해 엔티티와 그 관계를 활용하는 지식 기반 검색 결과 다각화 접근 방식인 KEDIV를 제안합니다.
- 구체적으로, 쿼리와 문서에서 공통적으로 언급된 주요 엔티티를 추출할 수 있습니다.
- 또한 대부분의 문서에서 자주 나타나는 엔티티도 고려합니다.
- 지식 베이스에 포함된 풍부한 정보를 최대한 활용하기 위해, 검색 결과 다각화 작업과 관련된 네 가지 주요 관계(공동 출현, 카테고리, 지식, 문서-엔티티 관계)를 엔티티에서 추출합니다.
- 그런 다음, 쿼리, 엔티티 및 문서의 관계를 종합적으로 모델링하기 위해 쿼리 특화 관계 그래프를 구축합니다.
- relation graph에서 the query, entities, and documents가 노드로 나타나며, 네 가지 관계가 이들 간의 엣지로 변환됩니다.
- 관계 그래프는 효과적이고 설명 가능하며, 예를 들어, 관계 그래프의 문서 노드는 해당 문서에 속하는 엔티티 노드로 연결됩니다.
- 그런 다음, 포함된 엔티티 집합을 기반으로 문서의 참신성을 측정할 수 있습니다.
- 관계 그래프에서 정보를 더 통합하기 위해 그래프 신경망을 적용하여 그래프의 노드 표현을 업데이트합니다.
- 문서 선택 절차 동안 엔티티와 문서의 참신성이 변동됨을 고려하여, 엔티티 노드의 가중치를 동적으로 조정하고 컨텍스트 인식 엔티티 및 문서 표현에서 다양성 기능을 도출합니다.
- 일반적으로 사용되는 데이터셋에서의 실험 결과는 우리가 제안한 KEDIV 방법이 기존의 최신 모델들보다 우수함을 보여줍니다.
- 일련의 추가 연구는 우리가 제안한 관계 그래프와 그 조정 알고리즘의 효과를 검증합니다.
- 우리의 주요 기여는 다음과 같습니다:
- (1) 대부분의 다각화 방법에서 간과된 엔티티와 그 관계를 활용하여 검색 결과 다각화에서 문서의 참신성을 측정하는 방법을 제안합니다.
- (2) 지식 베이스에서 네 가지 주요 관계를 추출하여 문서와 쿼리의 관계를 모델링합니다. 나아가 쿼리, 엔티티 및 문서의 관계를 종합적으로 모델링하기 위해 쿼리 특화 관계 그래프를 구축합니다.
- (3) 문서 선택에 따라 노드 가중치를 동적으로 조정하고, 다양성 점수를 위해 컨텍스트 인식 문서 표현을 도출합니다.
2 RELATED WORK
2.1 Search Result Diversification
- 검색 결과 다양화는 문서의 신선도와 중복성을 측정해야 합니다.
- 명시적(explicit) 접근 방식은 다양한 쿼리 측면을 다루는 문서의 범위를 활용하여 새로운 하위 주제를 다루는 문서를 파악하는 반면,
- 명시적인건 쿼리의 하위의도를 가지는 문서를 명시적으로 노출시키려고 하는 느낌
- 뭔가 업무랑 연관성이 더 있어 보이는 듯
- 암시적(implicit) 방법은 문서 간의 관계(예: 비유사성)를 모델링하여 중복성을 줄이는 데 중점을 둡니다.
- 암시적인건 이미 나온 결과에서 중복을 줄이는 느낌?
- Implicit Methods
- MMR [4]은 문서의 관련성과 신선도를 균형 있게 조정하기 위해 파라미터 𝜆를 활용하는 초기 비지도 방법입니다.
- 다양화 작업이 NP-하드 문제이기 때문에 MMR은 각 단계에서 가장 신선한 문서를 선택하는 탐욕적 선택 전략을 사용했습니다.
- 최근에는 여러 지도 학습 방법이 제안되었습니다.
- 예를 들어, SVM-DIV [45]는 구조적 SVM 프레임워크를 통해 문서의 다양한 하위 집합을 예측하는 방법을 학습했습니다.
- R-LTR [50]은 다양한 수작업 신선도 특징을 기반으로 관계 학습-순위화 작업으로 다양화를 공식화했습니다.
- PAMM [35]은 긍정 및 부정 순위 간의 거리를 최대화했습니다.
- R-LTR과 PAMM을 기반으로 NTN [36]은 신경 텐서 네트워크를 통해 문서의 다양성 특징을 자동으로 생성했습니다.
- Yan et al. [43]는 전체 문서 목록의 순위 품질을 직접 측정하는 근사 손실을 제안했습니다.
- Graph4DIV [28]는 문서의 유사성을 의도 범위 유사성으로 처리했습니다.
- 이러한 방법들과 비교할 때, 우리의 접근법은 또한 지도 학습 접근법이지만, 엔티티와 그 관계를 기반으로 쿼리와 문서 간의 관계를 모델링합니다.
- 또한 Graph4DIV에서 사용된 외부 분류기에 의존하지 않습니다.
- Explicit Methods.
- 명시적 접근 방식은 주어진 쿼리의 다양한 하위 주제를 최대한 많이 다루는 문서의 범위를 극대화하는 것을 목표로 합니다.
- Santos et al. [27]은 확률적 방법을 활용하여 다양한 측면을 다루는 문서의 범위를 측정하고 xQuAD를 제안했습니다.
- Dang과 Croft [9]는 주제의 인기도를 활용하여 문서가 다루는 하위 주제의 비율을 조정하는 PM2를 제안했습니다.
- 이후 이러한 방법들은 용어 정보 [10]와 하위 주제의 계층 구조 [15]를 도입하여 강화되었습니다.
- 최근에는 검색 결과 다양화를 위한 많은 명시적 지도 학습 접근법이 제안되었습니다.
- 예를 들어, DSSA [17]는 RNN과 주의 메커니즘을 사용하여 문서의 하위 주제 범위를 측정했습니다.
- Qin et al. [25]은 트랜스포머 [32]를 활용하여 모든 문서와 하위 주제의 전역 관계를 모델링함으로써 탐욕적 선택 과정을 피했습니다.
- Liu et al. [19]은 학습 샘플 부족 문제를 해결하기 위해 GAN 프레임워크를 적응시켰습니다.
- 명시적 방법과는 다르게, 우리는 하위 주제 범위가 아닌 엔티티와 그 관계를 사용하여 문서의 다양성을 모델링합니다.
- 이 논문은 명시적이 아닌 암시적인 방법에 중점을 맞춘듯
- 기타 방법
- 위에서 언급한 두 가지 범주 외에도 다양한 목적을 위해 설계된 여러 다양화 접근법 [44, 48, 49]이 있습니다.
- 예를 들어, 탐욕적 선택 전략을 피하기 위해 여러 접근법이 제안되어 근사 최적 순위 결과를 계산합니다 [11, 37].
- MDP-DIV [37]는 사용자의 브라우징 행동을 모방하여 문서를 선택하기 위해 마르코프 결정 프로세스를 활용했습니다.
- MDP-DIV를 기반으로 M2Div [11]는 몬테카를로 트리 탐색을 활용하여 MDP 절차 중 가능한 순위를 탐색했습니다.
- Xu et al. [41]는 동일한 쿼리 내에서 두 문서 목록을 비교하는 쌍별 정책 기울기 전략을 제안하여 좋은 성능을 달성했습니다.
- 이러한 방법들과는 다르게, KEDIV는 지식을 활용하여 검색 결과 다양화에서 문서의 관계를 모델링하는 암시적 접근 방식입니다.
2.2 Knowledge Base for IR
- 초기 연구들 [5, 12, 13, 26, 31]은 정보 검색 분야에서 지식 베이스(예: Wikipedia)의 응용을 탐구했습니다.
- 최근에는 지식이 정보 검색(IR) [16, 20, 22, 38, 39]과 자연어 처리(NLP) 작업 [2, 23, 24, 29, 30, 47]에서 계속해서 돌파구를 만들고 있습니다.
- 지식이 가져오는 풍부한 다차원 정보는 텍스트의 기본 관계를 포착하는 데 유용하다는 것이 밝혀졌습니다.
- 예를 들어, Xiong et al. [40]은 엔티티를 활용하여 학술 검색에서 일치 정확도를 향상시켰습니다.
- Xiong et al. [39]은 신경 순위 모델에 지식 그래프를 도입하여 일반화 능력을 크게 향상시켰습니다.
- Xiong et al. [38]은 단어와 엔티티의 표현을 결합하여 주의 메커니즘을 통해 순위 모델을 향상시켰습니다.
- 또한, 지식은 쿼리와 문서를 이해하는 데 도움이 되는 신뢰할 수 있는 자원입니다.
- 예를 들어, Jiang et al. [16]은 지식 베이스를 기반으로 다양한 쿼리 측면을 생성하여 지식이 모호한 쿼리에 대한 보완 설명이 될 수 있음을 보여주었습니다.
- Lu et al. [22]는 개인화된 검색에서 사용자 기록과 현재 쿼리 간의 관계를 포착하기 위해 지식을 활용했습니다.
- 이러한 방법들과는 달리, 우리는 검색 결과 다양화에 중점을 두고 문서의 관계를 모델링하기 위해 지식을 활용합니다.
3 DIVERSIFICATION FRAMEWORK OF KEDIV
- 검색 결과 다양화는 순위 목록 상단의 중복성을 줄이는 것을 목표로 합니다.
- 그러나 일부 기본적인 쿼리-문서 및 문서-문서 관계는 텍스트 내용만으로 모델이 학습하기 어렵습니다.
- 본 논문에서는 검색 결과 다양화에서 문서 간 관계 모델링을 강화하기 위해 지식 베이스를 활용하는 방법을 제안합니다.
- 구체적으로, 우리는 쿼리, 문서, 그리고 그 안에 포함된 엔티티들의 복잡한 관계를 나타내기 위해 query-specific relation graph를 구축합니다.
- 그런 다음, 그래프 합성 네트워크를 적용하여 관계 그래프의 정보를 집약하고, 문서 표현은 그들의 엔티티 노드에 의해 업데이트됩니다.
- 더 나아가, 문서 선택에 따라 그래프의 노드 가중치를 동적으로 조정합니다.
3.1 Problem Formulation
- 주어진 쿼리 \( q \)와 이를 통해 검색된 문서 집합 \( D \)에 대해, 검색 결과 다양화 모델은 관련성 외에도 문서의 다양성을 고려한 재정렬 문서 목록 \( R \)을 제공해야 합니다.
- 후보 문서의 모든 가능한 순열을 모델에 대해 열거하는 것은 불가능하므로, 대부분의 기존 접근 방식은 탐욕적 선택 전략을 따릅니다:
- 후보 문서 집합 \( C \)에서 가장 새롭고 (관련성 있는) 문서 \( d^* \)를 반복적으로 선택하고 이를 선택된 순위 목록 \( S \)에 추가합니다.
- 초기 상태에서는 \( C = D \), \( S = ∅ \)입니다.
- 따라서, 각 단계에서 다양화 점수 함수 \( f(q, d_i, S) \)를 기반으로 다양화된 순위 목록 \( R \)을 생성할 수 있습니다.
- 엔티티 관점에서 함수 \( f \)는 \( f(q, d_i, E_{d_i}, E_s) \)로 설명될 수 있으며, 여기서 \( E_{d_i} \)는 문서 \( d_i \)가 포함하는 엔티티 집합이고, \( E_s \)는 선택된 문서 순서 \( S \)가 포함하는 엔티티 집합입니다.
- 즉, 기존에 추가됐던 문서와 질의와 비교하여 가장 새롭고 관련있는 문서를 하나씩 추가해간다.
- +엔티티 정보도 활용해서 문서를 선택
3.2 Architecture of KEDIV
- 우리 접근 방식인 KEDIV의 전체 구조는 그림 2에 나와 있습니다.
- 쿼리 \( q \), 문서 집합 \( D \), 그리고 그들의 엔티티 집합 \( E \)의 복잡한 관계를 고려하기 위해, 우리는 네 가지 유형의 관계를 활용하여 관계 그래프 \( G_e \)를 구축합니다.
- 관계 그래프에 그래프 신경망을 적용하여 각 후보 문서 \( d_i \)에 대한 다양성 특징 \( H_i \)를 생성합니다.
- 각 단계에서 최종 순위 점수 \( f(q, d_i, E_{d_i}, E_s) \)는 가중 매개변수 \( \lambda \)와 함께 관련성 부분 \( S_{rel}(q, d_i) \)과 다양성 부분 \( S_{div}(q, d_i, E_{d_i}, E_s) \)으로 구성됩니다.
Reference
댓글
댓글 쓰기