NL-223, (xQuAD) Exploiting Query Reformulations for Web Search Result Diversification, WWW 2010

◼ Comment

  • 검색 결과 다각화에서 오래된 논문인데 많이 인용되는 초기 방법이다.
  • 핵심 흐름을 살펴보면
    • 1) 초기 질의로 검색하면 여러 문서가(=초기문서들이라고 하자) 검색될 것이다
    • 2) 초기질의의 하위질의들을 생성한다 (외부 시스템 모듈)
      • 요즘에는 이 하위질의를 딥러닝으로 생성할 수 있을 듯
    • 3) 하위질의들과 초기문서들과 연관성을 비교해서 리랭킹을 한다
      • 리랭킹하는 알고리즘이 xQuAD라고 보면 된다
  • xQuAD 알고리즘
    • 이 알고리즘이 리즈너블로 모델링한 것 같다
    • 왼쪽 term: 초기질의에 문서 스코어 (초기문서 랭킹점수, 연관성을 의미)
    • 오른쪽 term: 기존선택되지 않은 문서들과 해당문서를 동시에 관찰할 확률이란 개념인데 이게 다양성을 의미한다고 한다
    • 알고리즘은 문서가 10개라고 하면 top-1 문서 고르고, 나머지에서 top-1 고르고, 나머지에서 top-1 고르고 ,... 이런식으로 된다.
    • 따라서 해당 문서 score을 계산할때 S-가 모두 다르게 된다.
    • 오른쪽 term을 분리하면 아래와 같다
      • 즉 d와 S-가 독립이라는 가정이 들어감
      • 하위질의에 대해 d가 관측될 확률
      • 하위질의에 대해 남은문서과 관측될 확률
      • 이 값들이 커질수록 하위질의에 대해 관측될 점수가 높게 매겨지니까 다양성이란 개념인듯?
    • 즉 p(하위질의|기존질의)가 등장하게 되고 이를 모델링하는데에도 변화가 생긴다
  • 이 알고리즘을 그대로 구현할일은 없을거 같고..
    • 비슷한 컨셉으로 한다면, score(문서|초기질의)+score(문서|하위질의)p(하위질의|초기질의) 이렇게 하는게 가장 심플해보인다.
    • 물론 위에서 다양성의 개념은 빠지긴한다. 따라서 상위 랭킹 문서와 비슷한 문서라면 이를 경감해주는 로직이 필요하긴 한다.
    • 이를 반영하려면 -score(기존문서들|문서)을 어떻게 계산할지 고민해볼 필요가 있겠다

Abstract 

  • 웹 사용자의 기본적인 정보 필요가 초기 쿼리에서 명확하게 명시되지 않은 경우, 효과적인 접근 방식은 해당 쿼리에 대한 검색 결과를 다양화하는 것입니다. 
  • 이 논문에서는 명시되지 않은 쿼리와 관련된 다양한 측면(aspects)을 명확히 고려하는 웹 검색 결과 다양화를 위한 새로운 확률적 프레임워크를 소개합니다. 
  • 특히, 특정 문서가 발견된 각 측면을 얼마나 잘 충족하는지와 전체 랭킹이 다양한 측면을 얼마나 충족하는지를 추정함으로써 문서 랭킹을 다양화합니다. 
  • 우리는 TREC 2009 웹 트랙의 다양성 과제를 통해 이 프레임워크를 철저히 평가했습니다. 
  • 더 나아가, 주요 웹 검색 엔진(WSE) 세 곳에서 제공하는 쿼리 재구성을 활용하여 다양한 쿼리 측면을 발견하는 방법을 탐구했습니다. 
  • 결과는 문헌에 있는 최신 다양화 접근 방식과 비교할 때 우리의 프레임워크의 효과를 입증합니다. 
  • 또한, 공식 TREC 데이터에서 상한 쿼리 재구성 메커니즘을 시뮬레이션하여, 다양한 WSE에서 생성된 쿼리 재구성이 다양성을 촉진하는 효과에 대한 유용한 통찰을 제공합니다.

1. INTRODUCTION

  • 웹 검색 엔진에 제출된 쿼리는 본질적으로 더 복잡한 정보 요구를 명확히 나타내지 않는 표현으로, 종종 모호합니다[29]. 
  • 이러한 모호성은 여러 방식으로 나타납니다. 
  • 예를 들어, 쿼리가 명확하게 정의된 의미를 표현하지 않을 수 있습니다(예: ‘java’). 
    • 또는 명확하게 정의된 의미의 더 넓은 범위를 필요로 할 수도 있습니다(예: ‘자바 프로그래밍 언어’). 
    • 첫 번째 경우, 쿼리는 다양한 해석이 가능합니다(예: 프로그래밍 언어, 커피, 섬). 
    • 반면 두 번째 경우, 사용자는 쿼리의 근본적인 다양한 측면에 관심이 있을 수 있습니다(예: 개발 키트 다운로드, 강좌, 책, 언어 사양, 튜토리얼) [11].
  • 쿼리와 관련된 모호성의 정도가 어떠하든, 검색 엔진은 이를 처리해야 합니다. 
  • 가장 간단한 접근 방식은 모호성을 완전히 무시하고 쿼리를 단일하고 명확하게 정의된 정보 요구로 간주하는 것입니다. 
    • 이는 사용자의 필요를 우연히 만족시키는 결과를 초래할 수 있습니다. 
  • 또 다른 접근 방식은 쿼리에 내재된 가장 그럴듯한 의미(예: 가장 인기 있는 의미)를 추론하고, 해당 의미를 만족시키는 결과에 초점을 맞추는 것입니다. 
    • 그러나 이는 잘못된 추측으로 인해 사용자를 만족시키지 못할 수 있는 위험한 선택이 될 수 있습니다. 
  • 또 다른 대안은 사용자에게 쿼리의 올바른 의미에 대한 피드백을 명시적으로 요청하는 것입니다. 
    • 이는 많은 웹 검색 엔진에서 취한 접근 방식 중 하나로, 사용자에게 원래 쿼리의 다양한 재구성을 제시하는 방식입니다. 
    • 그러나 사용자가 항상 검색 엔진에게 정확히 무슨 의미인지 말해줄 것이라고 기대할 수 없으며 [16], 설령 그렇게 한다 하더라도 그들의 근본적인 필요는 여전히 지정된 의미와 관련된 여러 측면일 수 있습니다. 
    • 이러한 시나리오에서는 (대개 짧은) 쿼리가 사용자의 정보 요구에 대한 유일한 증거인 경우, 보다 합리적인 접근 방식은 이 쿼리에 대해 검색된 결과를 다양화하여 적어도 하나의 결과가 사용자를 만족시키기를 기대하는 것입니다 [1].
  • 검색 결과를 다양화하는 것은 정보 검색(IR)의 잘 알려진 확률 순위 원칙에 기반한 독립적인 문서 관련성 가정에서 벗어나는 경우가 많습니다[12, 24]. 
    • 실제로, 사용자가 이미 자신들의 정보 필요를 충족하는 다른 문서를 본 후에도 특정 문서를 여전히 관련성이 있다고 생각할지 여부는 논쟁의 여지가 있습니다. 
    • 따라서 검색 엔진은 각 개별 문서의 관련성뿐만 아니라 다른 검색된 문서들을 고려하여 해당 문서가 얼마나 관련성이 있는지도 고려해야 합니다[13]. 
    • 이렇게 함으로써 검색된 문서들은 쿼리의 가능한 측면에 대해 최대한의 범위와 최소한의 중복성을 제공해야 합니다[10]. 
  • 이상적으로, 커버된 측면들은 사용자 집단이 인식하는 상대적인 중요성도 반영해야 합니다[1]. 
  • 일반적인 형태로 보면, 이는 NP-하드 문제입니다[1, 6]. 
  • 이 문제에 대한 대부분의 이전 접근 방식은 최대 한계 관련성 개념에서 영감을 받아 탐욕적인 근사 알고리즘에 기반하고 있습니다[5]. 
    • 이들은 공통적으로 특정 쿼리에 대해 검색된 문서들을 서로 직접 비교하여, 쿼리에 가장 관련성이 있으면서도 이미 선택된 문서들과 가장 유사하지 않은 문서들을 반복적으로 선택하여 다양성을 촉진하려고 합니다. 
    • 따라서 이러한 접근 방식들은 유사한 문서들이 쿼리의 유사한 해석이나 측면을 다룰 것이므로 다양화된 순위를 달성하기 위해 이를 억제해야 한다고 암묵적으로 가정합니다.
  • 다른 방법으로는, 모호하거나 명확히 지정되지 않은 쿼리의 광범위한 주제는 보통 그 구성 서브 주제로 분해될 수 있습니다. 
    • 따라서 우리는 쿼리의 다양한 측면을 명시적으로 고려하여 다양한 결과 순위를 생성할 수 있습니다. 
    • 우리가 보통 고려하는 방법.. sub intents을 생성해서 결과를 다양하게 뽑기
  • 이 논문에서는 이러한 직관을 활용한 검색 결과 다양화를 위한 새로운 프레임워크를 소개합니다. 
  • 특히, 우리 프레임워크는 하위 쿼리 형태로 원래 쿼리에 내재된 다양한 측면을 발견하고, 검색된 문서들이 각 식별된 하위 쿼리에 대한 관련성을 추정합니다. 
  • 결과적으로, 우리는 단일 문서가 커버하는 다양한 측면뿐만 아니라 이미 검색된 다른 문서들이 커버한 측면에 비해 해당 문서의 참신성도 고려할 수 있습니다. 
  • 또한, 각 식별된 하위 쿼리의 상대적인 중요성도 직접 프레임워크에 통합할 수 있어, 초기 쿼리의 더 그럴듯한 측면을 향해 다양화 과정을 편향시킬 수 있습니다. 
  • 철저한 실험을 통해, 우리는 TREC 2009 웹 트랙의 다양성 과제(context)에서 우리의 프레임워크의 효과를 평가했습니다[9]. 
  • 추가적으로, 실제 상황에서의 적용 가능성을 증명하기 위해, 세 주요 웹 검색 엔진이 제공하는 쿼리 재구성을 기반으로 두 가지 다른 하위 쿼리 생성 전략을 조사했습니다. 
  • 결과는 현재 최첨단 다양화 접근 방식과 비교했을 때 우리 프레임워크의 효과를 입증합니다.
  • 이 논문의 나머지 부분은 다음과 같이 구성됩니다. 
    • 2장에서는 검색 결과 다양화에 대한 관련 연구를 개관합니다. 3장에서는 우리의 주요 기여를 자세히 설명합니다. 4장에서는 다양화 문제에 대한 우리의 제안된 프레임워크, 그 확률적 도출 및 구성 요소의 추정을 소개합니다. 5장과 6장에서는 각각 TREC 2009 웹 트랙의 맥락에서 제안된 프레임워크의 실험 설정 및 평가를 설명합니다. 마지막으로 7장에서는 결론을 제시합니다.

2. RELATED WORK

3. CONTRIBUTIONS OF THIS PAPER

  • 이 논문의 주요 기여는 다음과 같습니다:
    • 모호한 쿼리의 정보 요구를 하위 쿼리 집합으로 명시적으로 모델링하는 새로운 확률적 검색 결과 다양화 프레임워크를 제안했습니다.
    • 세 주요 웹 검색 엔진이 제공하는 두 가지 유형의 쿼리 재구성에서 파생된 하위 쿼리의 효과에 대한 분석을 수행했습니다.
    • 다양화 문제의 다양한 차원을 자연스럽게 모델링하는 우리 프레임워크의 여러 구성 요소에 대한 철저한 평가를 진행했습니다.

4. EXPLICIT QUERY ASPECT DIVERSIFICATION

  • 다양화 문제는 관련성과 참신성 간의 균형을 맞추는 문제로 자연스럽게 표현될 수 있습니다. 
  • 즉, 쿼리 \( q \)에 대한 초기 랭킹 \( R \)이 주어졌을 때, \( q \)에 내재된 다양한 측면에 대해 최대한의 범위와 최소한의 중복성을 가지는 재랭킹 \( S \)를 찾는 것이 문제입니다.
  • 2장에서 논의된 바와 같이, 이 이항 기준 최적화 문제는 최대 범위 문제에서 축소될 수 있으며[18], 이는 NP-하드 문제입니다[1]. 
  • 다행히도, 이 문제에 대한 잘 알려진 근사 방법이 있으며[5], 실제로 잘 작동합니다[6]. 
    • 이 방법은 2장에서 제시된 대부분의 검색 결과 다양화 접근 방식의 핵심입니다. 
    • 그러나 이러한 접근 방식의 대부분은 문서들을 서로 직접 비교하는 데 상당한 비용이 들며, 이로 인해 다양화 목표를 달성하려고 합니다. 
  • 반면, 초기 쿼리와 관련된 측면을 명시적으로 고려하는 접근 방식들도 자체적인 한계가 있습니다. 
    • 예를 들어, 이러한 접근 방식들은 필터링 휴리스틱[23], 사전 정의된 분류 체계[1], 또는 초기 쿼리에서 검색된 문서에 기반한 쿼리 측면의 추정[7]에 의존합니다.
  • 이에 비해, 본 연구에서는 쿼리와 관련된 측면을 원칙적이면서도 실용적인 방식으로 모델링할 것을 제안합니다. 
  • 특히, 우리는 모호한 쿼리를 단일 정보 요구의 표현이 아닌 복합체로 간주합니다. 
  • 이후 이 쿼리를 다양한 방법으로 추정할 수 있는 하위 쿼리 집합으로 모델링합니다. 
  • 본 연구에서는 주요 웹 검색 엔진이 제공하는 쿼리 재구성에서 파생된 하위 쿼리로 실험을 진행합니다. 
  • 이 내용은 4.2.2장에서 논의됩니다.

4.1 The xQuAD Framework

  • 이 섹션에서는 xQuAD(eXplicit Query Aspect Diversification)라는 새로운 확률적 프레임워크를 소개합니다. 
  • 이 프레임워크는 모호한 쿼리를 일련의 하위 쿼리로 명시적으로 모델링하여 검색 결과를 다양화합니다. 
  • 초기 쿼리와 연관된 하위 쿼리는 대부분의 최신 웹 검색 엔진에서 제공하는 메커니즘(예: 이전 사용자 상호작용을 기반으로 한 쿼리 재작성)을 사용하여 효과적으로 발견할 수 있습니다 [3].
  • 더욱이, 확률 이론은 쿼리로 정보 요구를 명확히 하지 못한 경우 발생하는 불확실성을 처리하기 위한 적절한 기반을 xQuAD에 제공합니다. 
  • 특히, 섹션 2에서 설명한 일반적인 다양화 문제의 근사치를 고려하여 프레임워크를 도출합니다. 
  • xQuAD의 작업 방식은 알고리즘 1에 설명되어 있습니다.
  • 주어진 모호한 쿼리 q와 이 쿼리에 대해 생성된 초기 순위 R을 사용하여, 다음 확률 혼합 모델에 따라 R에서 τ개의 가장 높은 점수를 받은 문서를 반복적으로 선택하여 새로운 순위 S를 구축합니다:
    • 여기서 P(d|q)는 초기 쿼리 q가 주어졌을 때 문서 d가 관찰될 가능성이고, 
    • P(d, S¯|q)는 이전 반복에서 선택된 문서가 아닌 문서 d를 관찰할 가능성입니다.
    • q에서 d문서를 관측할 확률 (관련성) + 아직 남은 문서들중 d를 관측할 확률 (다양성)
      • S+S- = 전체문서인듯
      • "쿼리 q가 주어졌을 때, d 문서를 관찰하고 이미 선택된 문서들(S)에 포함되지 않은 다른 문서들을 관찰할 확률"
    • 특히, 이 두 확률은 각각 관련성과 다양성을 모델링하는 것으로 간주될 수 있으며, 혼합 파라미터 λ는 두 가지 사이의 균형을 조절합니다.
  • 초기 쿼리 q에 대한 여러 측면을 하위 쿼리 집합으로 명시적으로 고려하여 P(d, S¯|q)를 도출하기 위해, 어떤 메커니즘 Q에 의해 생성된 하위 쿼리 집합 Q = {q1, · · · , qk}로 설정합니다. 
    • 다른 알고리즘으로 sub-intents을 따로 미리 생성해야한다?
  • P(qi|q) = 1을 만족시키도록 강제함으로써, 여러 하위 쿼리에 걸쳐 P(d, S¯|q)를 다음과 같이 마지널라이즈할 수 있습니다:
    • 여기서 P(qi|q)는 q와 관련된 다른 하위 쿼리에 비해 하위 쿼리 qi의 상대적 중요도를 측정하는 것으로 볼 수 있습니다. 
    • 예를 들어, 이 확률은 사용자 집단 중 하위 쿼리 qi로 표현된 측면에 관심이 있는 비율을 반영할 수 있습니다. 
  • 다음으로, 하위 쿼리 qi에 대해 문서 d의 관찰이 이미 S에 있는 문서와 독립적이라고 가정하면(해당 반복에서 S의 문서가 고정되므로), P(d,S¯|qi)를 다음과 같이 분해할 수 있습니다:
    • 여기서 P(d|qi)는 하위 쿼리 qi에 대한 문서 d의 커버리지를 측정하는 지표입니다. 
    • 반면 P(S¯|qi)는 S에 이미 선택된 문서들 중 어느 것도 qi를 만족시키지 못할 확률로, 새로움을 측정합니다.
    • 즉 d가 qi 의도에 만족할 확률 * S-(선택안된 문서들)이 qi 의도에 만족할 확률 로 각각이 커질수록 전체값이 커진다?
    • 이렇게하려면 d와 S-가 독립적이란 가정이 필요하다는 것
  • 방정식 (3)에서의 독립성 가정은 미묘하지만 중요한 의미를 가집니다. 
    • 이는 문서 간의 직접 비교를 통해 새로움을 계산하는 대신, 문서가 만족시키는 하위 쿼리의 한계 효용을 추정하는 방식으로 변환됩니다. 
    • 즉, 암시적 다양화 접근 방식이 S에 이미 선택된 모든 문서와 문서 d를 비교하는 대신, 문서 d가 하위 쿼리 qi를 얼마나 잘 만족시키는지에 따라 그 효용을 추정합니다. 
    • 우리는 동일한 새로움을 촉진하는 목표를 달성하지만, 훨씬 더 효율적인 방식으로 이를 수행합니다. 
  • 특히, 초기 순위 R의 모든 문서에 포함된 용어를 직접 비교할 필요가 없으며, 대신 주어진 하위 쿼리에 대한 각 문서의 관련성을 기반으로 새로움 추정을 업데이트합니다. 
  • 암시적 접근 방식과 달리, 이는 하위 쿼리 용어와 일치하는 문서에 대한 몇 가지 추가된 인버티드 파일 조회만 필요합니다.
  • P(S¯|qi)를 도출하기 위해, S의 특정 하위 쿼리 qi에 대한 문서 dj의 관련성이 동일 하위 쿼리에 대한 다른 문서들의 관련성과 독립적이라고 가정합니다. 
  • 우리의 목표가 하위 쿼리 qi를 만족시키지 못하는 순위 S(문서의 전체 집합)의 확률을 추정하는 것이므로, 이는 그럴듯한 가정입니다. 
  • 이 가정하에, 우리는 다음과 같이 작성할 수 있습니다:
    • S는 이미 선택된 문서들이므로, 각 선택된 문서들(dj)가 qi를 만족시키지 못하는 확률을 곱하면 P(S-|qi)가 된다는 것
  • 마지막으로, 방정식 (1)에 방정식 (2), (3) 및 (4)를 대입하면, xQuAD에 의해 계산된 최종 점수는 다음과 같습니다:

4.2 Components Estimation

  • xQuAD 프레임워크 내에서 다양화 문제의 여러 차원은 개별적인 확률로 자연스럽게 모델링됩니다. 
  • 실제로는 이러한 확률 각각을 프레임워크의 개별 구성 요소로 추정합니다. 
  • 하위 쿼리 생성 메커니즘과 함께, 이러한 구성 요소는 다음과 같이 요약될 수 있습니다:
  • 이 섹션의 나머지 부분에서는 이러한 구성 요소들을 추정하기 위한 적합한 대안들을 제안합니다. 
  • 섹션 6에서는 xQuAD의 다양화 성능에 대한 각 구성 요소의 영향을 철저히 조사합니다.

4.2.1 Document Relevance, Coverage, and Novelty

  • xQuAD 프레임워크의 문서 관련성, 커버리지, 그리고 참신성 구성 요소는 관련성 추정에 기반을 두고 있습니다. 
  • 특히, 문서 관련성 구성 요소는 초기 쿼리에 대한 문서의 관련성을 추정하는 반면, 커버리지와 참신성 구성 요소는 하위 쿼리에 대한 관련성 추정을 기반으로 합니다. 
    • 즉 하위쿼리는 문서의 커버리지, 참신성을 계산하는데 작동하는 것
  • 실제로는 이러한 추정을 생성하기 위해 임의의 확률적 검색 접근법이 사용될 수 있으며, 예를 들어 언어 모델링 [17]이 있습니다. 
  • 또한, 각 개별 구성 요소에 대한 관련성 추정을 생성하기 위해 서로 다른 접근법이 적용될 수 있습니다.
  • 섹션 6에서는 이러한 구성 요소들을 추정하기 위해 서로 다른 확률 모델 계열에 속하는 세 가지 효과적인 문서 가중치 모델을 실험합니다. 
    • 실제로는 초기 쿼리와 생성된 하위 쿼리 각각에 대해 문서 순위를 생성합니다. 
    • 명확성을 위해, 초기 쿼리에 대해 생성된 순위를 기본 순위라고 하며, 하위 쿼리들에 대해 생성된 순위를 하위 순위라고 합니다.
    • 초기 쿼리에 대한 랭킹과 하위 쿼리에 대한 랭킹을 가중치로 결합하는 방법?

4.2.2 Sub-Query Generation

  • 서브 쿼리는 제안된 다양화 프레임워크에서 중요한 역할을 합니다. 
  • 실제로 이 구성 요소의 도입을 통해, 검색된 문서들을 서로 직접 비교하는 보통 비효율적인 접근법에서 벗어날 수 있습니다. 
  • 더 중요한 점은, 유사한 문서들이 쿼리의 유사한 측면을 다룰 것이라는 암묵적인 가정에서 벗어난다는 것입니다. 
  • 대신, 이러한 측면들을 서브 쿼리의 형태로 명시적으로 모델링함으로써, 더 효과적인 검색 결과 다양화를 이룰 수 있다고 주장합니다.
  • 서브 쿼리의 형태로 쿼리 측면의 키워드 기반 표현을 생성하기 위해 여러 기법이 사용될 수 있습니다. 
    • 예를 들어, 대상 문서 컬렉션 자체를 사용하여, 기본 순위의 상위 검색 문서들 또는 이 순위에서 식별된 다른 문서 클러스터들로부터 ‘확장된 서브 쿼리’를 생성하기 위해 전통적인 쿼리 확장 기법을 적용할 수 있습니다 [26, 27, 32]. 
    • 또는, 쿼리 로그와 같은 외부 자원을 사용하여, 쿼리 리포뮬레이션 패턴을 분석하거나, 이들의 초기 쿼리에 대한 거리를 양분 클릭스루 그래프에서 분석함으로써 초기 쿼리와 관련된 서브 쿼리를 추출할 수 있습니다 [3, 31]. 
    • 예를 들어, 'java' 쿼리에 대해 클릭된 문서들이 'sun microsystems' 쿼리에 대해서도 클릭될 가능성이 높다는 것을 관찰할 수 있습니다. 
    • 또 다른 관찰로는 사용자가 'java' 쿼리를 'java development kit'으로 자주 리포뮬레이트하고, 'java indonesia tourism'으로는 덜 리포뮬레이트한다는 것입니다.
    • 이 시절 고려하면 당연히 모델 학습 방식은 아니고 로그분석같은걸 통해서 하위 쿼리 생성 모듈을 만든 듯
  • 이 연구에서는 세 주요 웹 검색 엔진(WSE)이 제공하는 쿼리 리포뮬레이션을 다양화 프레임워크의 서브 쿼리 생성 메커니즘(Q)으로 사용하는 효과를 조사합니다. 
    • 익명성을 유지하기 위해, 이 검색 엔진들을 A, B, C로 칭합니다. 
    • 외부 모듈 WSE을 통해 하위 쿼리를 생성하는 것을 시도했다고 함 (뭔지는 익명으로 함)
  • 섹션 5에서 자세히 설명된 바와 같이, 이 WSE들 각각과 우리 조사의 50개 TREC 2009 웹 트랙 쿼리에 대해, 2009년 7월 말에 추출된 두 세트의 서브 쿼리를 도출합니다:
    • related sub-queries: 초기 쿼리의 결과와 함께 WSE의 인터페이스에 표시된 서브 쿼리.
    • suggested sub-queries: 초기 쿼리를 WSE의 검색창에 입력할 때 드롭다운 목록에 표시된 서브 쿼리.
  • 표 1은 생성된 서브 쿼리의 주요 통계를 보여줍니다: 초기 쿼리당 서브 쿼리의 평균 개수(h|Q|i), 생성된 서브 쿼리의 평균 길이(h|qi|i), 그리고 Google WSE에 따라 각 서브 쿼리에 관련된 결과의 평균 개수(hnw(qi)i).
  • 표 1에서 볼 수 있듯이, 세 WSE는 대체로 비슷한 수의 서브 쿼리를 평균적으로 제공하며, 이는 관련 서브 쿼리와 제안된 서브 쿼리 간에 고르게 분포되어 있습니다. 
  • 예외적으로 WSE C는 다른 WSE와 비교할 때 관련 서브 쿼리의 수를 거의 두 배로 제공합니다.
  • 서브 쿼리의 평균 길이도 WSE들 간에 매우 유사하며, 짧은 서브 쿼리는 전형적인 웹 쿼리와 비슷합니다 [19]. 
  • 그러나 이 서브 쿼리들은 전반적으로 우리 실험에서 고려된 50개의 쿼리보다 길이가 깁니다. 
  • 실제로, TREC 2009 웹 트랙 쿼리의 평균 길이는 2.1개 용어로 구성되어 있습니다. 
  • 이 관찰은 생성된 서브 쿼리가 초기 쿼리의 대안적인 전문화와 일치할 가능성이 높음을 시사합니다 [4]. 
  • 마지막으로, 평균 서브 쿼리의 추정된 결과 집합 크기도 WSE들 간에 높은 유사성을 보이며, 관련 서브 쿼리가 제안된 서브 쿼리에 비해 일관되게 더 큰 크기를 나타냅니다.
  • 이러한 WSE들이 쿼리 리포뮬레이션을 생성하는 데 사용하는 정확한 메커니즘은 공개되지 않았지만, 이 메커니즘들은 클릭 데이터가 풍부하게 제공된다는 점에서 최신 쿼리 로그 마이닝을 수행한다고 볼 수 있습니다. 
  • 또한, xQuAD의 서브 쿼리 생성 구성 요소로서 이들을 블랙박스 구현으로 평가함으로써, 초기 쿼리의 다양한 측면을 효과적으로 다루는 데 있어 이들의 효율성에 관한 유용한 통찰을 얻을 수 있습니다.

4.2.3 Sub-Query Importance

  • 사용자 집단의 관심사 측면을 보다 잘 반영하는 서브 쿼리를 선호하기 위해, 우리는 프레임워크 내에서 서브 쿼리 중요성 구성 요소 \( P(q_i|q) \)를 추정하는 세 가지 방법을 제안합니다. 
  • 이들 방법 중 첫 번째는 기본적인 추정 메커니즘으로, 모든 서브 쿼리를 동일하게 중요하다고 가정합니다:
    • 여기서 \( Q \)는 초기 쿼리 \( q \)에 대해 생성된 서브 쿼리 집합을 나타냅니다.
    • 첫 번째 방법은 그냥 모든 하위 쿼리가 같은 중요도라고 가정
  • 그러나 초기 쿼리에서 생성된 서브 쿼리의 상대적 중요성은 이상적으로 정보 소비자(즉, 사용자 집단)의 특정 측면에 대한 관심을 반영해야 합니다 [10]. 
  • 이를 추정하기 위해, 예를 들어, 쿼리 로그에서 각 서브 쿼리의 상대적 빈도를 기반으로 추정할 수 있습니다. 
  • 하위 쿼리가 초기 쿼리 입장에서 얼마나 중요한지를 알아야 한다!
  • 만약 특정 측면에 대한 정보 소비자의 관심을 추정할 수 있는 데이터가 없다면, 정보 제공자 측면에서 이 관심을 추정할 수 있는 대안이 있습니다.
  • 특히, 우리는 각 서브 쿼리의 상대적 중요성을 주어진 컬렉션에서 얼마나 잘 다루어지고 있는지에 따라 추정할 것을 제안합니다. 
  • 우리의 다음 중요성 추정기는 이 아이디어를 기반으로 하며, 모든 주요 웹 검색 엔진에서 제공된 정보를 다시 활용합니다. 
  • 이 방법은 다음과 같이 주어집니다:
    • 여기서 \( n_w(q_i) \)는 검색 엔진 \( w \)에 따라 서브 쿼리 \( q_i \)에 대해 검색된 결과의 추정 수입니다. 
    • 4.2.2절에서 논의된 바와 같이, 우리는 Google의 추정치를 의존합니다.
    • 두 번째 방법은 검색 결과 문서의 수로 중요도 따지기
    • 내부 정보 사용이 가능하면, 초기 쿼리 검색하고 하위 커리 검색한 빈도수를 따지는 것도 가능할거 같음
  • 외부 자원에 의존하는 대신, 우리는 로컬 코퍼스만을 기반으로 하는 유사한 추정기를 제안합니다. 
  • 특히, 각 생성된 서브 쿼리의 상대적 중요성을 로컬 코퍼스에서 이 서브 쿼리를 다루는 문서 샘플로서 생성된 순위를 고려하여 추정합니다. 
  • 이 추정 메커니즘은 분산 정보 검색에서 중앙 순위 기반 컬렉션 선택(CRCS [28]) 알고리즘에서 영감을 받았습니다. 
  • CRCS는 주어진 쿼리에 대해 분산된 문서 컬렉션을 순위화하기 위해, 서로 다른 컬렉션에서 샘플링된 문서의 중앙화된 순위를 구축합니다. 
  • 각 후보 컬렉션의 순위는 추정된 크기와 중앙화된 순위에서의 문서 순위를 기반으로 계산됩니다. 
  • CRCS에서 영감을 받아, 우리는 세 번째이자 마지막 서브 쿼리 중요성 추정 메커니즘을 다음과 같이 고안했습니다:
    • 여기서 \( n_c(q_i) \)는 로컬 코퍼스에서 \( q_i \)에 대해 검색된 결과의 총 수, \( \hat{n}_c(q_i) \)는 서브 쿼리 \( q_i \)와 관련된 결과 중 초기 쿼리 \( q \)에 대해 상위 \( \tau \)개 순위에 있는 결과의 수를 나타내며, \( j(d, q) \)는 문서 \( d \)가 쿼리 \( q \)에 대해 가지는 순위 위치를 제공합니다.
    • 이것은 초기쿼리 검색결과과 하위쿼리 검색결과를 joint하여 중요도를 평가한 방법
    • 마지막으로, 추정기 \( ic(q_i|q) \)는 확률 분포를 생성하기 위해 추가적으로 정규화됩니다:

5. EXPERIMENTAL SETUP

  • 이 섹션에서는 제안된 프레임워크의 평가를 지원하는 실험 설정을 설명하며, 이 평가는 섹션 6에 보고됩니다. 
  • 특히, 우리의 실험은 다음 세 가지 주요 연구 질문에 답하는 것을 목표로 합니다:
    • 1. 쿼리의 측면을 명시적으로 모델링하는 것이 이 쿼리의 결과를 다양화하는 데 도움이 되는가?
    • 2. 웹 검색 엔진에서 제공하는 쿼리 제안이 명시적 다양화에 효과적인 자원인가?
    • 3. xQuAD의 구성 요소가 전체 프레임워크의 성능에 미치는 영향은 무엇인가?
  • 다음으로, 평가에 사용된 문서 컬렉션, 주제 및 메트릭을 자세히 설명합니다. 
  • 또한, 우리의 접근법이 비교되는 기준선(baseline)과 그들의 파라미터를 설정하기 위한 학습 절차에 대해서도 설명합니다. 
  • Terrier IR 플랫폼[21]이 Porter의 스테머(stemmer)와 표준 영어 불용어 제거를 사용하여 인덱싱 및 검색에 사용되었습니다.

5.1 Collection and Topics

  • 우리의 실험은 TREC 2009 웹 트랙의 다양성 과제(TREC 2009 Web Track)의 맥락에서 수행되었습니다. 
  • 이 과제의 목표는 주어진 쿼리에 대해 가능한 다양한 측면을 최대한 포괄하면서, 이들 측면과 관련된 중복성을 줄이는 문서 순위를 생성하는 것입니다. 
  • 이 과제에서 사용된 테스트 컬렉션은 새로운 TREC ClueWeb09 데이터셋입니다.
  • 우리의 실험에서는 TREC 2009 웹 트랙에서 사용된 이 컬렉션의 하위 집합을 고려하며, 여기에는 총 5천만 개의 영어 웹 문서가 포함됩니다. 
  • 이 과제를 위해 총 50개의 주제가 제공되었습니다. 
  • 각 주제는 TREC 평가자에 의해 식별된 3개에서 8개의 하위 주제를 포함하며, 관련성 평가는 하위 주제 수준에서 제공됩니다. 
  • 그림 1은 식별된 하위 주제를 포함한 다양한 필드를 가진 주제의 예를 보여줍니다. 
  • 실험에서 각 주제의 '쿼리' 필드는 초기 쿼리로 사용됩니다. 
  • 섹션 4.2.2에서 논의한 바와 같이, 고려된 50개의 쿼리에 대해 WSE(웹 검색 엔진)의 재구성을 기반으로 생성된 하위 쿼리 외에도, 제공된 공식 하위 주제에서 대안적인 하위 쿼리 세트를 구축합니다. 
  • 이는 고려된 WSE에서 파생된 하위 쿼리를 평가하기 위한 상한선 하위 쿼리 생성 메커니즘을 제공합니다. 
  • 또한, 이 상한선을 일관되고 표준적인 설정으로 활용함으로써, 프레임워크에 의해 배포된 다양화 전략을 최첨단 다양화 접근 방식과 비교하여 평가하는 데 집중할 수 있습니다.

5.2 Evaluation Metrics

  • TREC 2009 웹 트랙의 다양성 과제에서 평가 결과는 두 가지 공식 메트릭인 α-NDCG와 IA-P에 따라 보고됩니다. 
  • α-정규화된 할인 누적 이득(α-NDCG [10]) 메트릭은 튜닝 파라미터 α를 통해 관련성과 다양성의 균형을 맞춥니다. 
  • α 값이 클수록 다양성이 더 많이 보상됩니다. 
  • 반면, α = 0일 때는 오직 관련성만이 보상되며, 이 메트릭은 전통적인 NDCG [20]와 동일합니다.
  • α-NDCG 외에도, 우리의 평가는 순위의 다양성을 보상하는 표준 정보 검색(IR) 메트릭의 일반화에 기반합니다. 
  • 특히, 우리는 쿼리의 다양한 측면과 그 상대적 중요성을 고려하기 위해 전통적인 정밀도의 개념을 확장한 의도-인지 정밀도(IA-P [1]) 메트릭을 사용합니다.
  • 평가에서는 α-NDCG와 IA-P 모두 5, 10, 100의 세 가지 서로 다른 랭크 컷오프에서 보고됩니다. 
  • 이러한 컷오프는 웹 검색 환경에서 특히 중요한 초기 랭크에 대한 평가에 중점을 둡니다 [19]. 
  • α-NDCG와 IA-P는 TREC 2009 웹 트랙에서의 표준 관행을 따르며 계산됩니다 [9]. 
  • 특히, α-NDCG는 관련성과 다양성에 동일한 가중치를 부여하기 위해 α = 0.5로 계산되며, IA-P는 모든 쿼리 측면을 동일하게 중요한 것으로 간주하여 계산됩니다.

5.3 Retrieval Baselines 

  • 우리는 xQuAD의 효과를 평가하여 세 가지 효과적인 확률적 문서 가중치 모델인 BM25 [25], DPH 무작위성과의 발산(DFR) 모델 [2], Hiemstra의 언어 모델링(LM) [17]이 생성한 검색 결과의 다양화를 시도합니다. 
  • 특히, 이들 가중치 모델은 자주 권장되는 기본 설정으로 사용됩니다: 
    • BM25의 b = 0.75 [25], 
    • DPH의 c = 1.0 [2], 그리고 
    • LM의 λLM = 0.15 [17]. 
  • 섹션 4.2.1에서 논의된 바와 같이, 이러한 가중치 모델은 초기 쿼리에 대한 기본 순위뿐만 아니라 다양한 하위 쿼리에 대한 하위 순위를 생성하는 데 사용됩니다.
  • 기본 쿼리에 대해 생성된 기본 순위 외에도, 우리는 xQuAD를 이 기본 순위 위에 배치된 암시적 및 명시적 다양화 접근 방식과 비교합니다. 
  • 이러한 접근 방식과 기본 순위를 구별하기 위해, 전자는 다양화 기준선(baseline)이라고 합니다. 
  • 여기에는 섹션 2에서 설명한 Carbonell과 Goldstein [5], Radlinski와 Dumais [23], 그리고 Agrawal 등 [1]의 접근 방식이 포함됩니다. 
  • 특히, 후자의 두 가지 접근 방식은 쿼리 로그 또는 분류 체계와 같은 외부 자원이나 판단을 활용하며, 이는 현재 사용 중인 테스트 컬렉션에서는 사용할 수 없습니다. 
  • 따라서, 우리는 공식적으로 제공된 하위 주제를 이들의 다양화 모델에 입력으로 사용하여 최상의 시나리오를 시뮬레이션합니다. 
  • Radlinski와 Dumais [23]의 접근 방식을 시뮬레이션하기 위해, 공식 웹 트랙 하위 주제는 쿼리 로그 재구성의 대체물로 직접 사용됩니다. 
  • Agrawal 등의 접근 방식 [1]의 경우, 공식 하위 주제는 분류 체계 클래스의 표현으로 사용됩니다. 
  • 한편, 특정 클래스에 대한 문서의 분류 신뢰도는 그 클래스의 하위 주제에 대한 문서의 예상 관련성으로 대체됩니다. 
  • 모든 기술은 각 쿼리에 대해 기본 순위에서 검색된 상위 τ = 1000개의 문서를 재순위하는 데 적용됩니다.

5.4 Training Procedure

6. EXPERIMENTAL EVALUATION

6.1 Framework Performance

  • 이 실험에서는 명시적으로 쿼리의 다양한 측면을 고려하는 것이 해당 쿼리의 결과를 다양화하는 데 도움이 되는지에 대한 첫 번째 연구 질문에 답하고자 합니다. 이를 조사하기 위해, 우리는 xQuAD가 BM25, DPH, LM의 세 가지 다른 가중치 모델이 생성한 기본 순위를 다양화하는 성능을 평가했습니다. 추가로, xQuAD의 성능을 세 가지 다양화 기준선과 비교했습니다. 암시적 다양화 접근 방식의 대표로는 Carbonell과 Goldstein [5]의 전통적인 MMR 방법을 사용했습니다. 명시적 다양화 기준선으로는 Radlinski와 Dumais [23]의 접근 방식(Q-Filter)과 Agrawal 등 [1]의 접근 방식(IA-Select)의 시뮬레이션 버전을 고려했습니다. 섹션 5에서 논의한 바와 같이, 이 시뮬레이션에서 우리는 xQuAD와 이 명시적 다양화 기준선을 공식 TREC 2009 웹 트랙 하위 주제를 사용하여 실험했습니다. 이를 통해, 쿼리 생성 구성 요소의 영향을 배제하고 이들 접근 방식이 제공하는 다양화 전략을 비교하는 데 집중할 수 있었습니다.
  • 표 2는 α-NDCG와 IA-P 메트릭에 따른 평가 결과를 보여줍니다. 각 기본 순위에서 최고의 결과는 굵게 표시되었습니다. 다른 쿼리 측면의 상대적 중요성을 고려하지 않는 다양화 기준선과의 공정한 비교를 위해, xQuAD는 방정식 (6)에서 주어진 Pu 중요도 추정치를 사용하여 적용되었으며, 이를 xQuADu로 표시했습니다.
  • 표 2에서 먼저 관찰할 수 있는 것은 xQuAD가 대부분의 설정에서 다양화 기준선을 현저히 능가한다는 점입니다. 특히, BM25, DPH, LM이 제공한 초기 기본 순위를 일관되게 향상시킨 유일한 접근 방식으로, 최대 30%의 성능 향상(BM25, α-NDCG@5)을 달성했습니다. 유일한 예외는 DPH 기본 순위의 IA-P 메트릭으로, 이 경우 초기 순위 자체가 가장 좋은 성능을 보였으며, 다른 접근 방식들이 그 뒤를 바짝 따랐습니다. 그러나 Wilcoxon 부호 순위 검정(p < 0.05)에 따르면, 이러한 차이 중 어느 것도 통계적으로 유의하지 않았습니다. 추가 조사에서는 보고된 메트릭이 강조하듯이, 고려된 가중치 모델들이 특히 초기 랭크에서 일부 쿼리에 대해 성능이 저조하다는 것을 확인했습니다. 이러한 가중치 모델들이 생성한 관련성 평가를 개선하면 추가적인 성능 향상이 있을 수 있다고 가정합니다. 이 방향에 대한 초기 분석은 섹션 6.2.3에서 수행되었습니다. 전반적으로, 얻어진 결과는 다른 다양화 접근 방식과 비교했을 때 xQuAD가 구현한 명시적 다양화 전략의 효과를 입증합니다.

6.2 Components Performance

  • 이전 섹션에서는 최첨단 다양화 접근 방식과 비교했을 때, 다양한 기본 순위에서 검색 결과를 다양화하는 데 있어 xQuAD 프레임워크의 효과를 입증했습니다. 
  • 이 섹션의 나머지 부분에서는 xQuAD의 구성 요소에 대한 대체 구현의 성능을 조사하고, 이러한 구현이 프레임워크 전체의 성능에 어떤 영향을 미치는지 살펴봅니다.

6.2.1 Sub-Query Generation

  • 주요 연구 질문을 다시 상기하면, 이번 실험에서는 세 가지 주요 웹 검색 엔진(WSE)이 제공하는 쿼리 재구성을 다각화 작업에 사용하는 효과를 조사합니다. 특히, 이러한 WSE들이 제공하는 관련 및 추천 하위 쿼리를 활용하여 xQuAD의 하위 쿼리 생성 구성 요소를 구현합니다. 표 3은 이전 실험에서 사용된 동일한 기준 순위(BM25, DPH, LM)에 대해 얻은 하위 쿼리를 사용하여 결과를 재정렬한 xQuAD의 성능을 보여줍니다. 
  • 각 기준에 대해 가장 좋은 성능은 굵게 표시되었습니다. 다시 한 번, xQuAD는 Pu 하위 쿼리 중요도 추정기를 사용하여 적용되었습니다.
  • 표 3에서 먼저 관찰할 수 있는 점은, 일반적으로 표 2의 결과와 비교했을 때 성능이 낮다는 것입니다. 표 2는 상위 경계 쿼리 생성 메커니즘을 시뮬레이션한 결과입니다. 그럼에도 불구하고 대부분의 설정에서 초기 순위보다 향상된 결과를 얻었습니다. 세 가지 WSE가 제공한 쿼리 재구성을 사용한 xQuAD의 성능을 비교할 때, 명확한 경향은 관찰되지 않았습니다. 이는 고려된 WSE들의 쿼리 재구성 메커니즘이 초기 쿼리의 다양한 측면을 다루는 데 있어 유사한 효과를 보인다는 것을 시사합니다. 그러나 WSE에서 파생된 두 가지 유형의 하위 쿼리 간에는 구별이 가능합니다. 특히, 대부분의 설정에서 추천된 하위 쿼리가 관련된 하위 쿼리보다 더 나은 성능을 보였습니다. 표 1로 돌아가 보면, 추천된 하위 쿼리가 상당히 작은 결과 집합을 생성하는 경향이 있다는 점은 이 쿼리가 쿼리의 다른 측면을 구별하는 데 적합할 수 있음을 나타냅니다.

6.2.2 Sub-Query Importance

  • 우리는 양질의 하위 쿼리 세트를 생성하는 것 외에도 각 하위 쿼리에 부여된 상대적 중요도가 프레임워크의 전체 다각화 성능에 영향을 미칠 수 있다고 가정합니다. 이를 조사하기 위해, 우리는 4.2.3절에서 소개한 세 가지 서로 다른 하위 쿼리 중요도 추정기를 사용하여 xQuAD 실험을 진행했습니다. 특히, 표 4는 이전에 소개된 균일한 중요도 추정기 Pu와 비교하여 두 가지 컬렉션 기반 중요도 추정기를 사용한 xQuAD의 성능을 보여줍니다. 
  • 4.2.3절에서 논의된 바와 같이, Pw 추정기(식 (7))는 Google WSE가 제공한 하위 쿼리 결과 집합의 크기를 기반으로 하며, Pc 추정기(식 (9))는 리소스 선택 접근 방식을 참고하여 타겟 컬렉션에서 도출된 추정치에 의존합니다. 표 4에서 이 추정기들은 각각의 하위 첨자로 나타내어 xQuAD에서 사용된 것을 표시합니다(예: xQuADu는 Pu 중요도 추정기를 사용한 xQuAD를 의미). 이전 실험과 마찬가지로 다각화 성능은 세 가지 기준 순위를 기준으로 α-NDCG 및 IA-P 측정 지표에 따라 다양한 컷오프에서 평가되었습니다. 각 기준 순위와 각 평가 지표에서 가장 좋은 값은 굵게 표시되었습니다.
  • 표 4에서 관찰할 수 있듯이, Pu 추정기가 일관되게 다른 추정기들보다 우수한 성능을 보였습니다. (그냥 동일 가중치) 컬렉션 기반 추정기(Pw 및 Pc) 중에서는 일반적으로 Pw가 더 나은 성능을 보였습니다. 4.2.3절에서 논의한 바와 같이, 이 추정기는 ClueWeb09 데이터셋보다 훨씬 큰 리소스인 Google 인덱스를 기반으로 하고 있습니다. 예외는 LM 기준 순위로, α-NDCG와 IA-P 모두에서 리소스 선택에 영감을 받은 Pc 추정기의 성능이 크게 향상되었습니다. 
  • 전반적으로, 더 간단한 균일 추정기(Pu)가 최고의 성능을 낸 것은 그리 놀라운 일은 아닙니다. α-NDCG나 IA-P는 비균일한 측면 중요도 분포를 고려하는 접근 방식에 보상을 주지 않기 때문입니다. 그럼에도 불구하고, 우리는 좋은 중요도 추정기가 하위 쿼리의 상대적 인기 외의 다른 요소들과 관련이 있을 수 있다고 가정합니다. 
    • 평가 메트릭이 살짝 아쉽긴하다
  • 예를 들어, 서로 다른 하위 쿼리에서 생성된 하위 순위 간의 중복이 xQuAD의 성능에 영향을 미칠 수 있습니다. 왜냐하면 xQuAD의 커버리지와 참신성 구성 요소는 문서가 여러 하위 쿼리에 얼마나 관련이 있는지를 추정하기 때문입니다. 이 조사는 차후 연구 과제로 남겨둡니다.

6.2.3 Relevance, Coverage, and Novelty

  • 섹션 6.2.1과 6.2.2에서는 각각 xQuAD 성능에 미치는 다양한 하위 쿼리 생성과 중요도 추정기의 영향을 조사했습니다. 이번 섹션에서는 프레임워크의 세 가지 다른 중요한 구성 요소의 영향을 조사합니다. 4.2.1절에서 설명한 바와 같이, 관련성 구성 요소는 초기 쿼리에 대한 관련성 추정에 기반하며, 커버리지와 참신성 구성 요소는 하위 쿼리에 대한 관련성 추정에 의존합니다. 따라서, 이 세 가지 구성 요소에 대해 문서 가중치 모델을 개선하는 실험을 진행했습니다.
  • 이번 실험에서는 DFR 프레임워크의 pBiL 근접 모델을 적용하여 쿼리 용어가 가까운 거리에서 등장하는 문서를 우선하는 방식으로 성능을 향상시켰습니다. 특히, 이 모델의 변형은 여러 TREC 컬렉션에서 임시 검색 성능을 개선한 것으로 나타났습니다. 본 실험에서는 이 모델을 기준 순위(관련성 구성 요소)와 다양한 하위 쿼리에 대해 생성된 하위 순위(커버리지와 참신성 구성 요소)에 모두 적용했습니다. 표 5는 이 실험의 결과를 보여줍니다. 
  • 표에서 (b)와 (s)는 각각 기준 순위와 하위 순위를 개선하기 위해 pBiL 근접 모델을 적용한 경우를 의미하며, (bs)는 두 구성 요소에 모두 적용한 경우를 나타냅니다. 일관성을 위해, 이번에도 xQuAD는 Pu 중요도 추정기를 사용했습니다. 성능 개선이 없는 xQuAD는 추가적인 기준선으로 포함되었습니다.
  • 표 5에서 알 수 있듯이, 기준 순위(b), 하위 순위(s), 또는 둘 다(bs)를 개선하면 xQuAD의 다각화 성능이 더욱 향상될 수 있습니다. 그러나 이러한 개선은 주로 초기의 성능이 낮은 LM 기준 순위에서 일관되게 나타났습니다. LM의 경우, α-NDCG와 IA-P 지표에서 컷오프 전반에 걸쳐 개선이 크게 나타났으며, 특히 모든 구성 요소를 개선했을 때(bs 변형)가 두드러졌습니다. 그러나 BM25와 DPH의 경우, 개별 구성 요소의 성능을 개선하면 오히려 xQuAD의 전체 다각화 성능이 악화될 수 있습니다. 이는 앞서 언급한 관련성과 다양성 간의 상충관계 때문일 가능성이 높으며, 강화된 구성 요소에 대해 xQuAD의 혼합 매개변수 λ를 적절하게 학습시킴으로써 해결할 수 있을 것입니다.
  • 마지막으로, 이러한 구성 요소의 개선이 다른 구성 요소의 성능에도 영향을 미칠 수 있음을 관찰할 수 있습니다. 이 효과를 설명하기 위해, 표 6은 표 5와 유사한 결과를 보여주지만, 균일 추정기(Pu) 대신 리소스 선택에 영감을 받은 중요도 추정기(Pc)를 사용했습니다. 
  • 이 추정기는 특정 하위 쿼리에 대해 검색된 문서들이 초기 쿼리와 얼마나 잘 연관되는지를 고려하므로, 기준 순위와 하위 순위 모두의 개선으로 인해 상당한 이점을 얻을 수 있습니다.
  • 표 6에서 알 수 있듯이, 모든 기준 순위에서 개선이 가능하며, 특히 LM 기준 순위에서의 개선이 두드러집니다. 실제로, 상대적으로 약한 LM 기준 순위의 성능이 BM25나 DPH를 사용하는 프레임워크와 비슷한 수준으로 향상되었습니다. 이러한 관찰은 xQuAD의 관련성, 커버리지, 참신성 구성 요소를 개선할 때 얻을 수 있는 잠재적 이점을 보여줍니다. 또한, 이러한 구성 요소들을 통합된 다각화 프레임워크 내에서 처리하여 다양한 추정 방식을 원칙적으로 선택할 수 있는 이점을 강조합니다.

7. CONCLUSIONS AND FUTURE WORK

  • 검색 결과 다각화 프레임워크, 특히 **xQuAD**(eXplicit Query Aspect Diversification) 프레임워크는 초기 쿼리에 내재된 다양한 측면을 하위 쿼리의 형태로 명시적으로 모델링합니다. 
  • 문서 간의 비교를 수행하는 대신, xQuAD는 검색된 문서가 여러 하위 쿼리와 관련성을 직접적으로 추정하여 효과적인 다각화 성능을 달성합니다. 
  • 이는 실제로 효율적일 뿐만 아니라, xQuAD의 원칙적인 구성은 다각화 작업에서 중요한 여러 차원을 자연스럽게 모델링합니다. 여기에는 초기 쿼리와 여러 하위 쿼리에 대한 문서의 관련성, 각 하위 쿼리의 상대적 중요성, 그리고 각 하위 쿼리를 만족하는 문서가 얼마나 참신한지에 대한 평가가 포함됩니다.
  • 우리는 TREC 2009 웹 트랙의 다각화 작업에서 제공하는 표준 실험 패러다임 내에서 웹 검색 결과를 다각화하는 데 있어 xQuAD 프레임워크의 효율성을 철저히 조사했습니다. 특히, 상위 경계 하위 쿼리 생성 메커니즘을 시뮬레이션하여, 다양한 설정에서 기존의 암시적 및 명시적 다각화 접근 방식을 능가하는 성능을 보여주었습니다. 프레임워크의 각 구성 요소의 영향을 조사한 결과, 주요 웹 검색 엔진이 제공하는 쿼리 재구성을 기반으로 효과적인 하위 쿼리를 생성할 수 있음을 확인했습니다. 추천된 쿼리 형태로 제공된 재구성은 초기 쿼리에 내재된 다양한 측면을 대표하는 데 유망한 가능성을 보였습니다.
  • 또한, 로컬 컬렉션에서 도출된 통계와 Google 웹 검색 엔진 인덱스에서 얻은 데이터를 기반으로 각 하위 쿼리의 상대적 중요성을 추정하는 다양한 메커니즘을 실험했습니다. 결과적으로, 이러한 추정기는 특히 xQuAD의 관련성 및 커버리지 구성 요소를 더 잘 추정할 때 성능 향상을 가져올 수 있음을 확인했습니다.
  • 향후에는 각 구성 요소를 추정하는 대체 메커니즘을 조사하여 xQuAD를 더욱 개선할 계획입니다. 예를 들어, 더 효과적인 하위 쿼리를 생성하고, 다른 하위 쿼리와의 상대적 중요성을 더 잘 추정하기 위해 다양한 쿼리 재구성 접근 방식을 연구할 수 있습니다. 또한, 더 정교한 문서 검색 기술을 활용하여 관련성, 커버리지, 참신성 구성 요소를 강화할 수 있을 것입니다. 탐색적 하위 쿼리와 정보성 하위 쿼리처럼 각 하위 쿼리 유형에 대한 분석도 흥미로운 연구 방향이 될 수 있습니다. 예를 들어, 탐색적 하위 쿼리는 정보성 하위 쿼리보다 링크 분석 기법을 더 잘 활용할 가능성이 높습니다.

Reference

댓글