NL-220, Search Result Diversification Using Query Aspects as Bottlenecks, CIKM 2023

◼ Comment

  • 이 논문은 검색 다양화를 할 때, novelty-based에 초점을 맞추는데 이는 implict 방법을 말한다.
    • coverage-based(e.g. explict)방법은 facet을 미리 생성하기 때문에 해석가능성이 있는 장점이 있지만, 쿼리 생성을 위한 외부시스템에 의존해야하는 아래의 단점이 있다고함.
    • 첫째, 훈련 및/또는 추론 비용이 높거나 광범위한 사용에 대한 제한 등으로 인해 이러한 쿼리 측면 획득 시스템의 가용성을 항상 보장할 수 없습니다. 
    • 둘째, 쿼리 측면 획득이 실제로 재랭킹해야 할 문서가 아닌 쿼리 로그 및 클릭 데이터를 기반으로 이루어지기 때문에 제공된 쿼리 측면이 후보 문서와 관련성이 있을 것이라는 보장이 없습니다. 이는 재랭킹 과정을 저해할 수 있습니다. 
    • 마지막으로, 쿼리 측면 획득 시스템은 검색 결과 다각화라는 최종 목표에 맞추어 최적화될 수 없습니다. 
    • 최적화는 안되긴 하지만.. 애초에 facet을 잘 생성하면 되지 않나? using LLM..
  • SRD 방법론을 점수매기는 방식으로도 구분지을 수 있다고 함
    • 1. 점수 부여 후 정렬(score-and-sort)
      • 점수 부여 후 정렬 패러다임【69, 97, 98】에서는 후보 문서들을 집합적으로 평가한 후 재정렬합니다. 
      • 일단 문서를 각각 점수화한후 재정렬 하는 것이고, 이 논문의 방법
    • 2. 다음 문서 선택(next-document).
      • 반면, 다음 문서 선택 패러다임【14, 48, 70, 78, 81, 84, 85】에서는 각 단계마다 쿼리에 대한 관련성과 이전에 선택된 문서들에 대한 참신성을 최대화하는 문서를 탐욕적으로 선택합니다.
      • 매 스텝에서, 이전에 선택된 문서와는 다른 참신한 문서를 선택하는 느낌
    • 이는 아마도 novelty-based 방법론에서 한번더 구분짓는 느낌임.
  • 방법론
    • 방법론은 사실 좀 복잡하다
    • 간단히 보면, 맨 처음에 query, docs 들을 인코딩을 통해 벡터화한다.
    • 이 벡터끼리 비교해서 일부 doc만 남긴다.
      • 정확히는 passage을 남기는건데, doc이 여러개 passage로 있을 것이고, 각 passage와 query 벡터를 비교해서 유사도 높은 passage만 남김
    • 즉 query와 유사한 passage들만 남기는데, 2가지 방법으로 남긴다.
      • threshold 기반 / top-k개
      • 이를 통해 남겨진 doc embedding을 뽑는다
    • 남겨진 doc embedding과 query을 다시 조합해서 aspect embedding을 만든다.
    • 여기서 multi-head attention을 이용하는데, 각각의 head에 따른 embedding이 aspect가 되는 개념이다. (즉 해석은 불가능)
    • 다양하게 뽑힌 aspect들을 미분가능한 clustering 하는 알고리즘 넣어서 최종적으로 학습시킨다.

0 ABSTRACT

  • 우리는 종종 별도의 구성 요소로 구성되고 쿼리 측면에 대해 외부 시스템에 의존하는 커버리지 기반 검색 결과 다각화 모델의 한계를 다룹니다. 
  • 이러한 문제를 극복하기 위해 DUB이라는 엔드 투 엔드 학습 프레임워크를 도입합니다. 
  • 우리의 접근법은 커버리지 기반 방법의 고유한 해석 가능성을 유지하면서 다각화 성능을 향상시킵니다. 
  • information bottleneck 방법에서 영감을 받아, diversified document re-ranking 작업을 위한 정보 병목으로 최적화된 쿼리 측면 임베딩을 생성하는 측면 추출기를 제안합니다. 
  • 실험 결과, DUB이 최신 다각화 모델보다 우수한 성능을 보임을 입증합니다.

1 INTRODUCTION

  • 검색 결과 다각화(SRD)는 종종 명확하지 않은 사용자 검색 쿼리에 대응하여 사용자 정보 요구를 충족시킬 가능성을 높이기 위해 오랫동안 연구되어 왔습니다[80]. 
  • Spärck Jones 등[83]은 검색 엔진이 주어진 쿼리와 관련된 다양한 잠재적 정보 요구(쿼리 측면 또는 하위 주제로도 알려짐)에 비추어 문서의 관련성을 고려해야 한다고 제안했습니다.
  • 다각화 전략에 기반한 SRD 접근 방식은 크게 두 가지 범주로 나눌 수 있습니다: coverage-based and novelty-based[80]. 
    • coverage-based 
      • 커버리지 기반 접근 방식은 특정 문서가 쿼리의 다양한 측면을 얼마나 잘 다루는지를 측정하는 데 중점을 둡니다. 
      • Knowledge Enhanced Search Result Diversification에서 말하는 explicit을 말하는 듯
    • novelty-based
      • 반면에 참신성 기반 접근 방식은 검색된 문서들 간의 비교를 통해 새로운 정보를 촉진합니다. 
      • Knowledge Enhanced Search Result Diversification에서 말하는 implicit을 의미하는 듯
  • 커버리지 기반 접근 방식의 한 가지 장점은 모델 해석 가능성과 투명성이 높다는 점입니다[62]. 
    • 이는 사용자들이 문서가 다양한 측면을 어떻게 다루는지 쉽게 이해할 수 있기 때문입니다. 
  • 반면, 참신성 기반 접근 방식은 문서 임베딩 간의 비유사성 같은 측정에 의존하는 경우가 많아 인간이 이해하기 어렵습니다[84, 85, 97, 98].
  • 커버리지 기반 접근 방식은 일반적으로 해석 가능성으로 인정받고 있지만, 쿼리 측면 획득을 위해 외부 시스템에 의존하는 경우가 많습니다. 
    • 쿼리 측면을 따로 생성해야하는 느낌이 있어서 그런 듯
    • 예를 들어 (독점적인) 구글 쿼리 제안[44, 48, 69, 70] 또는 쿼리 로그로 훈련된 쿼리 완성 모델[62] 등이 이에 해당합니다. 
  • 이러한 외부 시스템에 대한 의존성은 몇 가지 단점을 초래합니다. 
    • 첫째, 훈련 및/또는 추론 비용이 높거나 광범위한 사용에 대한 제한 등으로 인해 이러한 쿼리 측면 획득 시스템의 가용성을 항상 보장할 수 없습니다. 
    • 둘째, 쿼리 측면 획득이 실제로 재랭킹해야 할 문서가 아닌 쿼리 로그 및 클릭 데이터를 기반으로 이루어지기 때문에 제공된 쿼리 측면이 후보 문서와 관련성이 있을 것이라는 보장이 없습니다. 이는 재랭킹 과정을 저해할 수 있습니다. 
    • 마지막으로, 쿼리 측면 획득 시스템은 검색 결과 다각화라는 최종 목표에 맞추어 최적화될 수 없습니다. 
    • 외부 모듈로 facet 생성하고 검색 다양화하는 것의 단점?
  • 심지어 오픈 소스 대안으로 간주될 수 있는 IntenT5[62]의 경우에도 쿼리 측면이 텍스트 형태로 표현되어 있어 다각화 지향 손실을 쿼리 제안 모델 자체에 역전파할 수 없습니다. 
  • 이러한 공동 최적화의 부족은 쿼리 측면 획득과 다각화된 재랭킹의 동시 개선을 저해합니다.
  • 본 연구의 주요 목표는 내재적 해석 가능성과 효과성을 통합한 SRD(검색 결과 다각화) 프레임워크를 개발하는 것입니다. 
  • 이 목표를 달성하기 위해 우리는 Information Bottleneck Method [86]에서 영감을 받았습니다. 
    • 이 방법은 정보 X의 요약을 생성하는 데 중점을 두고 있으며 이를 최적화하여 다른 관련 정보 Y를 예측합니다. 
    • 이 접근법에서 영감을 받아 우리는 DUB(Diversification Using Bottlenecks)이라고하는 커버리지 기반 다각화 프레임워크를 소개합니다. 
  • DUB에서 우리는 후보 문서에서 관련 정보를 "요약"하여 잠재적인 측면 임베딩으로 설계합니다. 
  • 이는 다운스트림 다양화된 재랭킹 작업을 향상시키기 위해 최적화됩니다. 
  • 이 구성 요소는 쿼리 측면 획득과 문서 재랭킹의 동시 최적화의 필요성을 해결합니다. 
  • 우리는 쿼리 측면 추출을 위해 두 가지 구현을 제안합니다. 
    • 첫 번째 접근 방식은 멀티 헤드 어텐션[89]을 사용하며, 각 헤드는 특정 쿼리 측면의 표현을 학습합니다. 
    • 두 번째 접근 방식은 문서 세그먼트(패스지)를 클러스터링하는 것으로, 각 클러스터는 구별되는 쿼리 측면을 나타냅니다.
  • 우리는 측면 매칭이라는 새로운 사전 훈련 작업을 소개합니다. 
    • 이 작업은 데이터셋 구성 접근 방식과 두 가지 사전 훈련 목표를 포함합니다. 
    • 측면 매칭을 DUB에 통합함으로써, Wikipedia에서 발견된 풍부한 쿼리-측면 관계를 효과적으로 활용할 수 있습니다. 
    • 이는 검색 결과 다양화의 발전을 방해하는 데이터 부족 문제를 심각하게 완화시킵니다.
  • 우리는 DUB의 검색 결과 다양화 측면에서의 광범위한 평가를 수행합니다. 
  • 특히, DUB는 Google 쿼리 제안[44]과 대형 언어 모델(예: GPT-3.5 [12])에서 명시적인 쿼리 측면을 얻는 접근 방식을 능가할 수 있습니다. 
  • 구체적으로, TREC Web 트랙[21-24]에서의 다양성 작업에서 가장 강력한 기준과 비교할 때 DUB는 4.3%의 성능 향상을 보입니다. 
  • 또한, 단일 단어 언어 모델로 표현된 잠재적인 측면을 사용하는 외부 평가 결과, DUB가 라벨이 지정된 관련 문서와 더 높은 관련성을 나타내어 재랭킹 목적에 더 적합하게 만든다는 것을 보여줍니다.

2 RELATED WORK AND BACKGROUND

  • DUB은 검색 결과로부터 명시적으로 추출된 잠재적인 쿼리 측면을 사용하는 검색 결과 다각화 프레임워크입니다. 
    • 실제로 서비스에서 고려하는 방법 및 IntenT5와 연관이 있을듯
  • 따라서 우리의 작업은 쿼리 측면 획득과 검색 결과 다각화와 관련이 있습니다.

2.1 Query Aspect Acquisition

  • 모호한 쿼리에 대한 쿼리 측면(또는 하위 주제, 면, 의도)을 획득하는 것은 쿼리 제안[3, 8], 검색 결과 다각화[80], 명확화 질문[4, 102]과 같은 다양한 정보 검색 작업에서 유익한 것으로 입증되었습니다. 
  • 쿼리 측면은 쿼리 로그[7, 49, 72, 91, 103], 앵커 텍스트[27, 54], 지식 베이스[10, 47], 전체 말뭉치[8], 상위 검색 결과 또는 이들의 조합[34, 42]과 같은 다양한 자원에서 획득할 수 있습니다. 
  • 특히 검색 결과에서 쿼리 측면을 추출하는 것과 관련하여, Dou 등[35, 36]은 상위 검색 결과 내의 자유 텍스트, HTML 태그 및 반복되는 영역에서 빈번한 목록을 추출하고 그룹화하여 쿼리 측면을 자동으로 추출하는 QDMiner를 제안합니다. 
  • Kong과 Allan[52]은 쿼리 측면 추출을 위한 학습 가능한 그래픽 모델을 소개합니다.
  • 최근에는 Transformer 기반 언어 모델[50, 57, 74]이 쿼리 측면을 생성하는 데 사용되고 있습니다. 
  • IntenT5[62]는 쿼리 로그[26]를 학습하여 주어진 쿼리의 다음 용어를 의도로 예측합니다. 
  • Samarinas 등[77]은 몇 가지 쿼리-측면 쌍 예시를 프롬프트로 사용하여 대형 언어 모델을 프롬프트하여 쿼리 측면을 생성하는 방법을 제안합니다. 
  • 그들의 연구 결과는 전용 측면 생성 데이터셋을 사용한 평가에서는 이 방법이 문서 기반 측면 생성 모델[36, 40]보다 효과적이지 않지만, 인간이 수행한 수동 평가에서는 동등하게 잘 수행된다는 것을 보여줍니다. 
  • 우리는 검색 결과 다각화를 위해 GPT-3.5가 생성한 측면을 사용하는 평가를 섹션 5에서 제시합니다. 
  • Rahimi 등[75]과 Yu 등[100]은 문서별로 쿼리 측면을 생성하는 텍스트 생성 모델을 설계합니다. 
  • NMIR[40]과 그 순열 불변 버전인 PINMIR[41]은 주어진 쿼리와 상위 검색된 문서들을 기반으로 여러 쿼리 의도를 출력하는 언어 생성 모델을 사용합니다. 
  • 그러나 이러한 구성은 BART[57]의 1024 토큰과 같은 생성 모델의 최대 입력 한도를 초과하지 않도록 쿼리와 문서 클러스터(NMIR의 경우) 또는 모든 후보 문서(PINMIR의 경우)의 결합 길이를 제한하는 제약을 가집니다. 
  • 이 제한은 더 긴 문서의 큰 컬렉션에서 쿼리 측면을 추출할 때 비현실적이 됩니다.

2.2 Search Result Diversification

  • 검색 결과 다양화(SRD)에 대한 접근 방식은 다양화 전략에 따라 세 가지 범주로 분류할 수 있습니다: 
    • 1. coverage-based (문서가 쿼리의 여러 측면을 포함하는 정도를 추정)
    • 2. novelty-based (검색된 문서들을 서로 비교)
    • 3. 두 가지의 조합(하이브리드)【58, 69, 70, 79】.
  • Radlinski et al. [71]에 따르면, 참신성과 범위는 각각 외재적 다양성과 내재적 다양성의 개념과 관련이 있습니다. 
  • 또한, 최근 문헌에서 일반적으로 사용되는 또 다른 분류 방법은 명시적 접근과 암시적 접근의 구분입니다. 
    • 명시적 접근은 명시적 측면 표현을 사용하므로 일반적으로 범위 기반 또는 하이브리드로 간주되며, 암시적 접근은 참신성 기반으로 생각할 수 있습니다.
    • 명시적 / 암시적: Knowledge Enhanced Search Result Diversification에서 말한 분류 방법 
  • 문서가 점수를 매기는 방식에 따라 SRD 방법은 두 가지 주요 패러다임으로 분류할 수 있습니다: 
    • 1. 점수 부여 후 정렬(score-and-sort)
      • 점수 부여 후 정렬 패러다임【69, 97, 98】에서는 후보 문서들을 집합적으로 평가한 후 재정렬합니다. 
      • 일단 문서를 각각 점수화한후 재정렬 하는 듯
    • 2. 다음 문서 선택(next-document).
      • 반면, 다음 문서 선택 패러다임【14, 48, 70, 78, 81, 84, 85】에서는 각 단계마다 쿼리에 대한 관련성과 이전에 선택된 문서들에 대한 참신성을 최대화하는 문서를 탐욕적으로 선택합니다.
      • 매 스텝에서, 이전에 선택된 문서와는 다른 참신한 문서를 선택하는 느낌
  • 최근의 신경망 기반 접근 방식들은 암시적 방법을 채택하고 명시적 측면 표현에 의존하지 않습니다【84, 85, 93, 94, 97, 98, 105】. 
    • 최근 트렌드는 암시적 방법?
    • 이러한 접근 방식들은 직접적으로 문서 표현을 비교하여 참신성을 계산하기보다는【14】, 그래프 신경망【51】이나 문서 상호작용 네트워크【67】를 활용하여 문서 상호작용과 표현 업데이트를 수행합니다. 
    • 업데이트된 문서 표현은 참신성 점수【84, 85】 또는 최종 순위 점수【97, 98】를 추론하는 데 사용됩니다. 
  • 일부 암시적 접근 방식은 문서 관계 분류기【84】나 엔터티 관련 정보【85】와 같은 외부 지식을 통합할 수도 있습니다. 
  • 반면, 명시적 및 하이브리드 다양화 접근 방식은 외부 소스에서 얻은 쿼리 측면 표현에 의존합니다.
  • 다양한 쿼리 확장(DQE)【88】은 지식 베이스【10】, 단어 임베딩【66】, 쿼리 로그【59】를 포함한 여러 외부 소스를 사용하여 원래 쿼리를 확장합니다. 
    • 이 확장은 쿼리에 더 다양한 용어를 도입하여 더 넓은 범위의 다양한 문서를 검색할 수 있게 합니다. 
  • xQuAD【78】, PM2【29】 및 HxQuAD/HPM2【44】와 같은 비지도 명시적 접근 방식은 쿼리 재구성이나 제안을 사용합니다【44】. 
  • DSSA【48】, DESA【69】 및 GDESA【70】와 같은 지도 명시적 접근 방식은 유사한 정보를 쿼리 측면으로 사용하지만, 서브토픽 수준의 관련성 판단을 사용하여 학습할 수 있습니다. 
  • 많은 연구들은 서브토픽 마이닝【90】, 서브토픽 검색【15, 16】 및 검색 결과 다양화【43, 64, 81】에 클러스터링을 사용하는 것을 탐구했습니다. 
  • "쿼리 특화 클러스터링" 개념【43】에 따라, 우리의 제안된 프레임워크는 클러스터링을 종단 간 학습 모델의 근본적인 구성 요소로 통합하여 차별화됩니다.
  • 해석 가능성은 범위 기반 접근 방식의 주요 동기이지만, 해석 가능성 평가에는 측면 설명 가독성, 측면 다양성, 측면 충실성, 그리고 다양화 효과성과의 트레이드오프와 같은 여러 요인이 포함됩니다. 
    • coveraged-based 방법은 해석가능성의 장점이 있긴하지만 다양한 효과성과의 trade-off가 있다고 함
  • 해석 가능성에 대한 검토는 본 연구의 범위를 벗어나며, 이는 추후 연구 과제로 남깁니다.

2.3 Background 

  • 다중 헤드 어텐션(Multi-Head Attention)과 차별화 가능한 K-평균(Differentiable K-Means)을 간단히 소개합니다. 
  • 이들은 섹션 3에서 DUB를 설명하는 데 필요합니다.

2.3.1 Multi-Head Attention.

  • 쿼리, 키, 그리고 값 행렬 \(\mathbf{Q}\), \(\mathbf{K}\), \(\mathbf{V}\)가 주어졌을 때, 어텐션(Attn)과 다중 헤드 어텐션(MHA) 함수 [89]는 다음과 같이 정의됩니다:
  • 여기서 \(h\)는 어텐션 헤드의 수이고, \(d\)는 임베딩 차원입니다. 직관적으로, 어텐션 계산은 \(d/h\) 차원의 \(h\)개의 하위 공간에서 병렬로 수행된 후, 다시 \(d\) 차원의 메인 공간으로 집계됩니다. 
  • Projection matrices \(\mathbf{W}_Q^i\), \(\mathbf{W}_K^i\), \(\mathbf{W}_V^i\), 그리고 \(\mathbf{W}^O\)는 학습 가능한 매개변수입니다.

2.3.2 Differentiable 𝐾-means. 

  • DKM [20]은 주의(attention) 기반의 클러스터링 층으로, 역전파(backpropagation)를 통해 전체 작업의 손실 함수를 최적화하여 종단 간 학습을 가능하게 합니다. 
  • 우리의 경우, 종단 간 학습은 측면 추출과 다양화된 재정렬에 적합한 표현을 학습할 수 있다는 장점을 제공합니다. 
  • DKM은 K-평균 [63]의 하드 클러스터링 할당을 attention-based의 소프트 할당으로 대체하여 미분 가능성을 달성합니다. 
  • 이는 각 인스턴스가 다른 주의 가중치를 가지고 모든 클러스터에 소속될 수 있게 합니다. 
  • 그러나 DKM은 모든 클러스터가 동일한 인스턴스 세트를 포함하게 되는, 즉 모든 인스턴스가 동일한 K 클러스터로 수렴하는 자명한 해결책에 도달합니다. 
  • Cho et al. [20]은 최대 다섯 번의 클러스터링 반복을 설정하여 이러한 바람직하지 않은 수렴 행동을 피하기 위해 조기 중단을 적용합니다. 
  • 미리 정의된 클러스터링 반복 횟수는 유사한 인스턴스 세트를 클러스터링하는 경우에는 효과적일 수 있지만, 다양한 쿼리에 대한 동적으로 변화하는 문단 세트를 클러스터링하는 데는 적합하지 않습니다. 
  • 바람직한 클러스터링 반복 횟수는 쿼리에 따라 다를 수 있습니다. 
  • 섹션 3.3에서는 우리의 특정 작업에 적용될 때 DKM의 이러한 한계를 해결하는 Generalized DKM을 소개합니다.

3 METHODOLOGY

3.1 Task Formulation and Framework Overview

  • 우리의 제안된 방법은 score-and-sort 및 next-document 랭킹 패러다임(섹션 2.2)에 모두 호환됩니다. 
  • 우리는 주로 효율성 때문에 score-and-sort 접근 방식에 집중합니다. 
  • 형식적으로, 검색 쿼리를 \(q\)로 나타내고, 후보 문서들의 정렬된 리스트를 \(R\)로 나타냅니다. 
  • SRD 모델 \(F\)는 랭킹 점수 리스트 \(S = F(q, R)\)를 생성합니다. 
  • 목표는 \(S\)에 따라 재정렬된 리스트 \(\pi(R)\)를 얻는 것이며, 이는 원래의 정렬된 리스트 \(R\)보다 더 높은 다양성을 나타낼 것으로 예상됩니다.
  • 우리 연구의 DUB 프레임워크 \(F\)는 그림 1에 나타난 것처럼 세 가지 학습 가능한 구성 요소로 구성됩니다: 
    • 텍스트 인코더 \(E\) (1), 
    • 측면 추출기 \(A\) (2), 
    • 그리고 다양화된 랭커 \(P\) (3). 
  • 텍스트 인코더 \(E\)는 쿼리 임베딩 \(\mathbf{q}\)와 문단 임베딩 \(\mathbf{P}\)를 얻는 역할을 합니다. 
  • 이러한 임베딩은 후보 문단 임베딩 \(\mathbf{P}^*\)를 선택하고, 쿼리 편향 문서 임베딩 \(\mathbf{D}\)를 구축하는 데 사용됩니다. 
  • 이후, 측면 추출기 \(A\)는 후보 문단 임베딩 \(\mathbf{P}^*\)와 쿼리 임베딩 \(\mathbf{q}\)를 활용하여 다양화 작업을 위한 정보 병목 역할을 하는 측면 임베딩 \(\mathbf{A}\)를 생성합니다. 
  • 마지막으로, 다양화된 랭커 \(P\)는 측면 임베딩 \(\mathbf{A}\)와 쿼리 편향 문서 임베딩 \(\mathbf{D}\)를 받아들여, 문서-측면 커버리지를 문서 특징으로 계산하고, 스칼라 랭킹 점수 \(S\)를 출력합니다. 
  • 이제 각 구성 요소를 자세히 소개하겠습니다.
  • 이 논문은 암시적 방법인거 같고, score-and-sort 방식 기준으로 포커싱하고 있음
    • 즉 query facet을 먼저 생성하지 않고
    • query와 documents을 각각 입력으로 받아서, 최종적으로 document에 대해 점수를 매겨서 이를 재정렬하는 방식

3.2 Text Encoder

  • 최근 검색 결과 다양화 연구 [37, 48, 69, 70, 84, 85, 95, 97, 98]에서는 쿼리, 측면 및 문서를 표현하기 위해 비지도 학습된 Doc2Vec 임베딩 [56]을 주로 사용합니다. 
  • 이에 반해, 우리는 다양한 NLP 및 IR 작업에서 문맥화된 표현의 효과적인 사용에 영감을 받아, 쿼리와 문서 인코더로서 공유된 Transformer 언어 모델을 사용합니다. 
  • 이는 DUB가 입력 텍스트에 대해 종단 간 최적화될 수 있도록 합니다.
  • 우리는 긴 문서를 겹치는 문단으로 분할하고 문단 단위의 인코딩을 수행합니다. 
  • 이러한 접근 방식의 동기는 세 가지 주요 요인에 기반합니다:
    • 1. 문서의 길이가 BERT의 512 토큰 제한과 같은 인코더의 입력 길이 제한을 초과하는 경우가 많다.
    • 2. 긴 문서의 일부만 쿼리와 관련이 있을 수 있다 [87].
    • 3. 긴 문서는 여러 쿼리 측면을 다룰 수 있으며, 단일 임베딩이 전체 문서를 표현하면 정보 손실이 발생할 수 있다 [61].
    • 그러면 각 문서는 여러 문단으로 되어있을텐데.. 이를 분리해서 BERT에 넣어서 각각의 임베딩을 구함
    • (하나의 BERT가 query, document을 두 형식 데이터를 모두 임베딩 추출하는 것)
  • 우리는 마지막 인코더 층의 토큰 임베딩의 평균을 취해 쿼리 임베딩(\(\mathbf{q}\))과 문단 임베딩(\(\mathbf{P}\))을 얻습니다. 
  • 모든 문서의 모든 문단을 인코딩한 후, 덜 관련된 문단을 필터링하고 두 가지 유형의 표현을 도출합니다: 
    • 측면 추출을 위한 후보 문단 임베딩과 
    • 문서 점수를 매기기 위한 쿼리 편향 문서 임베딩. 
  • 후보 문단 임베딩의 경우, 쿼리와의 유사도가 설정된 임계값 \(\theta\) 이상인 문단이 선택됩니다. 
    • 모든 후보 문서에서 유지된 문단의 임베딩은 \(\mathbf{P}^* = \{\mathbf{p} | \cos(\mathbf{q}, \mathbf{p}) \geq \theta, \mathbf{p} \in \mathbf{P}\}\)로 나타내며, 이는 측면 추출에 사용됩니다. 
    • 즉, 쿼리 임베딩과 각 문단의 임베딩과 cosine 유사도가 높은 문단만 남긴다.
    • 남겨진 문단의 임베딩의 평균 = 문서 임베딩 
    • 이는 threshold 기반으로 문서를 남기는 것으로 "후보 문단 임베딩"이라고 부름
  • 문단 표현으로부터 쿼리 편향 문서 임베딩을 만들기 위해, 문서에서 쿼리 임베딩과 가장 유사한 상위 \(n\)개의 문단을 선택하고 이를 평균하여 문서의 쿼리 편향 임베딩을 구성합니다. 
    • 이는 유사도가 높은 top-n개의 문단을 남겨서 평규내는 식으로
    • 이를 "쿼리 편향 문서 임베딩"이라고 부름
    • 이는 \(\mathbf{d}\)로 나타냅니다. 
    • 쿼리에 대해 모든 후보 문서의 쿼리 편향 문서 임베딩은 \(\mathbf{D}\)로 나타냅니다.
  • 두 가지 선택 방법 모두 모델에서 관련 없는 컨텍스트를 필터링하는 것을 목표로 합니다. 
  • 두 가지 다른 선택 기준을 채택한 주된 이유는 후보 집합 내의 관련 없는 문서를 처리하기 위함입니다. 
  • 임계값 기반 선택만을 사용하면 일부 문서에서는 쿼리 편향 문서 임베딩 \(\mathbf{D}\)를 구성하기에 적합한 문단이 부족할 수 있기 때문입니다.

3.3 Aspect Extractor

  • 쿼리 임베딩 \(\mathbf{q}\)와 후보 문단 임베딩 \(\mathbf{P}^*\)를 얻은 후, 측면 추출기 \(A\)를 사용하여 고정된 수(𝐾)의 측면 임베딩 \(\mathbf{A} = A(\mathbf{q}, \mathbf{P}^*)\)를 생성합니다. 
  • 여기서 \(\mathbf{A} \in \mathbb{R}^{K \times d}\)입니다. 
  • 각 측면 임베딩은 검색된 문서가 포함하고 있는 쿼리와 관련된 정보의 특정 측면을 포착하는 것을 목표로 합니다. 
  • 우리는 쿼리 측면을 추출하기 위해 두 가지 다른 접근 방식을 조사합니다.
  • Aspect Extractor Using Multi-Head Attention.
    • DUB 측면 추출기의 첫 번째 디자인은 유사한 문단들로부터 쿼리 측면을 구성하기 위해 다중 헤드 어텐션(MHA)을 기반으로 합니다. 
    • 그러나 우리는 원래 MHA [89]와 측면 기반 밀집 검색에서의 적용 [53]에 수정을 도입합니다. 
    • 구체적으로, 각 어텐션 헤드의 출력을 쿼리 측면의 잠재적 표현으로 간주하며, 이는 Chen et al. [19]이 제안한 의도 모델링 접근 방식과 유사합니다. 
    • 이 측면 추출기에서는 ℎ = 𝐾개의 어텐션 헤드의 출력이 Eq. 2에서 표현된 것처럼 단일 출력으로 결합되지 않고, 𝐾개의 측면 임베딩으로 개별적으로 보존됩니다. 
    • 따라서, \(A\)의 형식적 구현은 다음과 같이 정의될 수 있습니다:
    • 이 구성에서, 쿼리 임베딩 \(\mathbf{q}\)는 셀프 어텐션 모듈의 쿼리 행렬 역할을 하며, 후보 문단 임베딩 \(\mathbf{P}^*\)는 키와 값 행렬로 처리됩니다. 
    • 특히, DUB의 측면 추출기에서 입력 투영 행렬 \(\mathbf{W}_Q^i\), \(\mathbf{W}_K^i\), \(\mathbf{W}_V^i\)는 \( \mathbb{R}^{d \times d} \) 차원을 가지며, 이는 Eq. 3의 \( \mathbb{R}^{d \times d/h} \) 차원과 다릅니다. 
    • 이 수정은 측면 추출기에서 각 헤드의 출력이 \(d\) 차원을 가지도록 하여 하나의 쿼리 측면을 나타낼 수 있도록 보장합니다.
  • Aspect Extractor using GDKM-based Clustering. 
    • 쿼리 측면 추출에 대한 또 다른 직관은 동일한 쿼리 측면을 다루는 passages가 다른 측면을 다루는 passages에 비해 더 유사한 임베딩을 가진다는 것이다 [84]. 
    • 같은 query aspect(facet)을 가지는 passages끼리 유사한 임베딩을 가진다
    • 그래서 top-n개의 passages가 같은 query aspect을 가져 다양성이 없는 문제가 있단건가?
    • 이 직관에 기반하여, 후보 구절 임베딩 𝑷*에 클러스터링을 수행하여 측면의 표현을 도출한다. 
    • 클러스터링 기반 측면 추출기 구성 요소에서는 구절 상호작용을 직접 통합한다. 
    • 이는 쿼리 임베딩과의 유사성을 통해 구절 상호작용을 간접적으로 포착하는 MHA 기반 접근 방식과 대조적이다. 
    • 클러스터링 기반 측면 추출에는 두 단계가 포함된다. 
    • Step 1: Clustering passages with Generalized Differentiable Kmeans.
      • 측면 추출을 위한 클러스터링 구성 요소는 인코더(E) 파라미터가 손실 함수의 그라디언트를 통해 최적화될 수 있도록 미분 가능해야 한다. 
      • 쿼리 특정 구절 클러스터링(섹션 2.3.2)에 대한 DKM [20]의 한계를 해결하기 위해, 각 인스턴스(구절)가 할당될 수 있는 클러스터 수를 제한하여 DKM을 일반화한 GDKM을 제안한다. 
      • 구절은 여러 클러스터에 속할 수 있지만 모든 클러스터에 속할 수는 없다. 
      • 이를 위해 최대 클러스터 수를 나타내는 하이퍼 파라미터 자유도를 𝜈로 도입한다. 
      • GDKM은 𝜈=1로 설정하면 원래의 𝐾-평균 알고리즘 [63]으로 환원되고, 𝜈를 𝐾로 설정하면 DKM으로 환원되기 때문에 일반화된 것이다. 
      • 𝜈를 1과 𝐾 사이의 정수로 설정하면, GDKM은 DKM의 수렴 문제(섹션 2.3.2) 없이 쿼리의 여러 측면을 다루는 구절을 모델링할 수 있다. 
      • GDKM의 의사 코드는 알고리즘 1에 제시되어 있다. 
      • 강조된 줄은 DKM에 대한 확장을 나타낸다. 
      • 각 구절 임베딩에 대해 클러스터링 레이어는 먼저 잠재 클러스터 내의 멤버십 확률을 추정하여, 라인 5에서 주목 행렬 𝜶를 생성한다. 
      • 이 주목 행렬을 사용하여 새로운 중심을 계산하는 대신, 각 구절마다 가장 높은 𝜈 주목 가중치만 유지하고 나머지는 작은 상수 값 𝜄로 마스킹한다(라인 10 및 12). 
      • 새로운 클러스터 중심은 마스킹된 주목 행렬 𝜶˜를 기반으로 계산된다. 
      • 수렴 후, GDKM은 최종 반복에서 클러스터 할당 𝜶˜ 및 클러스터 중심 𝝁˜을 출력한다.
  • Step 2: Generating aspect embeddings from clusters. 
    • 한 구절이 최대 𝜈 개의 클러스터에 속할 수 있다는 것은 해당 구절이 최대 𝜈 가지 방식으로 표현될 수 있음을 의미한다. 
    • 따라서 DUB는 각 구절을 쿼리 측면 중 하나에 해당하는 𝜈 개의 임베딩으로 표현한다. 
    • 이를 위해 DUB는 초기 임베딩 𝑷*와 클러스터 할당 𝜶˜으로부터 구절 𝑷˜의 측면별 표현을 학습하기 위해 T로 표시된 다중 레이어 Transformer를 포함한다(텍스트 인코더 E와는 다름). 
    • 이 과정은 그림 2에 설명되어 있다. 
    • 우리는 클러스터 할당 𝜶˜을 사용하여 𝑷*를 𝐾개의 구절 임베딩 시퀀스로 구성하며, 여기서 𝑷*에서의 구절 임베딩은 𝜈번 복사된다. 
    • 짧은 시퀀스는 배칭을 위해 0 벡터로 패딩하고, 패딩된 시퀀스 길이를 𝐿로 표시한다. 
    • 우리는 𝜶˜을 𝜄로 마스킹된 항목을 제거하고 패딩된 임베딩에 대해 𝜄 항목을 추가하여 𝜶′로 재구성하여, 𝜶′ ∈ R𝐾×𝐿로 만든다. 
    • 그런 다음, 다중 레이어 Transformer T는 시퀀스 내(클러스터 내) 자가 주목을 통해 구절 임베딩을 업데이트한다. 
    • 각 구절 임베딩은 동일한 클러스터 내의 다른 구절을 기반으로 업데이트되어 동일한 쿼리 측면을 다룬다. 
    • 이렇게 얻은 측면별 구절 임베딩 𝑷˜은 𝑷*에 비해 모호성이 적어 더 정확한 측면 임베딩을 도출할 수 있다.
    • 마지막으로, 측면 임베딩 𝑨는 측면별 임베딩 𝑷˜ ∈ R𝐾×𝐿×𝑑을 그들의 멤버십 정도 𝜶′ ∈ R𝐾×𝐿로 가중 평균하여 얻는다. 
    • 즉, 𝑨 = Softmax(𝜶′)𝑷˜⊺으로, 여기서 𝑷˜⊺는 𝑷˜의 첫 두 차원을 전치한 것이다. 
    • 섹션 5.7에서는 측면 표현으로서 GDKM의 클러스터 중심 𝝁˜를 직접 사용하는 것에 비해 T의 효능을 입증한다.
  • 이해하기론... 
    • 한 문서의 passage가 여러 개 있다.
    • query와 passage간의 유사도를 통해 passage을 선택하면 같은 query aspect을 가지는 passage위주로 추출될 수 있다.
    • 따라서 다양한 query aspect을 추출하기 위해 클러스터링을 통해 passage을 묶어준다.
    • 여기서 같은 aspect을 가진 passage끼리 묶여야 할텐데? 이건 어떻게 컨트롤한거지?
    • 여기서 클러스터링하는건 학습시 미분이 가능한 방법임
    • 이 때 한 passage가 여러 개 클러스터링에 포함될 수 있음 (최대 v개)
    • 묶인 passage의 가중치 합으로 각각 aspect embedding을 구한다.

3.4 Diversified Ranker

  • 후보 문서가 가능한 쿼리 측면을 명시적으로 모델링함으로써, 그들의 해당 측면에 대한 중요성을 추정하고 검색된 결과물의 다양한 순위를 제공할 수 있다. 
    • 이는 명시적 모델들 [28, 30, 44, 48, 58, 69, 70, 78, 79, 82]과 유사하다. 
    • 여기서 추출한 aspect embedding이 사실 intenT5와 같이 query aspect을 미리 생성하고 embedding한것을 대체한다고 보면 되는 듯
    • 사실 근데 이건, query와 document을 결합하여 생성된 aspect이긴함
  • 이를 위해, 우리는 먼저 쿼리 편향된 문서 임베딩 𝑫과 측면 임베딩 𝑨의 코사인 유사도를 통해 문서-측면 커버리지를 추정한다. 
  • 또한, 문서 임베딩 𝑫과 원래 쿼리 임베딩 𝒒 간의 코사인 유사도를 사용하여 문서가 쿼리에 대한 전반적인 관련성을 표현한다. 
  • 그림 1의 오른쪽 위
  • 따라서 문서는 총 𝐾 + 1개의 특성으로 표현된다 (𝐾는 측면 수이고, 1은 쿼리를 나타낸다). 
  • 점수 및 정렬 재랭킹 패러다임에서, 우리는 배치 정규화가 포함된 다층 피드포워드 신경망 P를 채택하여 다양한 순위 지정자로 사용한다. 
  • 이는 이전 연구들의 접근 방식을 따른다 [97, 98]. 
  • diversified ranker P의 형식적 정의는 다음과 같이 나타낼 수 있다:

4 TRAINING

  • DUB는 세 가지 학습 가능한 구성 요소 F = {E, A, P}를 가지고 있습니다. 
  • DUB는 텍스트 인코더 E와 측면 추출기 A를 최종 목표인 다양화된 재랭킹을 향해 최적화할 수 있도록 search result diversification(SRD) 데이터셋으로 종단 간 학습이 가능합니다. 
  • 그러나 TREC Web Tracks [21–24]와 같은 가장 큰 공개 SRD 데이터셋에서도 학습에 사용할 수 있는 쿼리 수가 200개 미만으로 제한되어 있기 때문에 데이터 부족 문제가 발생합니다.
  • 이 문제를 해결하기 위해, 선택적인 사전 학습과 종단 간 SRD 학습을 제안합니다. 
  • 즉, 모델 F의 매개변수가 많은 구성 요소 {E, A}를 더 많은 약한 감독 데이터가 있는 관련 작업에 먼저 학습시킬 수 있습니다. 
  • 그 후, 전체 모델 F = {E, A, P}를 종단 간 SRD 학습을 통해 최적화합니다. 
  • 사전 학습 단계는 선택 사항임을 강조합니다. 
  • 이후 실험에서 보듯이, 더 큰 SRD 데이터셋(자동으로 생성된 8K 이상의 쿼리)으로 DUB를 학습하는 것이 사전 학습 없이도 가능합니다.

4.1 Optional Pretraining Using Aspect Matching

  • 이전 연구에서 Wikipedia의 방대한 양의 엔티티-헤딩-섹션 구조 데이터를 사용하여 정보 검색 작업에서 쿼리-측면-패시지 구조를 복제한 것을 참고하여【33, 75, 100】, 우리는 자동 주석 접근 방식을 사용하여 약한 학습 데이터를 생성합니다. 
  • 이 접근 방식의 세부 사항은 섹션 5.1에 설명되어 있습니다. 
  • 각 학습 샘플은 쿼리 𝑞, 𝐾개의 참조 측면 𝐴𝑟로 나타내며, 쿼리와 특정 참조 측면 모두와 관련 있는 패시지로 구성됩니다. 
  • 참조 측면의 임베딩은 𝑨𝒓 = E (𝐴𝑟)로 표현되며, 여기서 𝑨𝒓 ∈ R^𝐾×𝑑입니다. 
  • 예측된 측면(𝑨)과 임베딩 공간에서 참조 측면(𝑨𝒓)을 정렬하기 위해서는, 이들 간의 차이를 정량화하는 목적을 채택할 필요가 있습니다. 
  • 그러나 두 측면 임베딩 집합 간의 명확한 정렬이 부족하기 때문에, 쌍별 차이를 최소화하는 것은 어려운 과제가 됩니다. 우리는 두 가지 해결책을 제시합니다.
  • Optimal-Transport Based Objective. 
    • 예측된 측면 임베딩과 참조 측면 임베딩의 정렬을 optimal transport(OT) 문제의 한 예로 간주하고, 기존 OT 솔버를 사용하여 이를 해결합니다. 
    • 이는 서로 다른 언어의 토큰 임베딩 정렬에 대한 연구【5, 45, 65】에서 영감을 받았습니다. 
    • 이 OT 정식화에서, 비용 행렬 𝑴을 정의해야 하며, 여기서 𝑚𝑖𝑗는 𝑖번째 예측 측면 임베딩 𝒂𝒊와 𝑗번째 참조 측면 임베딩 𝒂𝒓𝒋 사이의 거리를 반영합니다. 
    • 이 비용으로 코사인 거리를 선택합니다: 𝑚𝑖𝑗 = 1 − cos(𝒂𝒊 , 𝒂𝒓𝒋). 𝑨에서 𝑨𝒓로의 총 수송 비용은 γ · 𝑴로 정의되며, 여기서 γ ∈ R 𝐾×𝐾는 수송 행렬이라고 합니다. 
    • 수송 비용을 최소화하는 γ∗는 최적 수송 행렬이라고 하며, 이는 직관적으로 𝑨와 𝑨𝒓 간의 최적 정렬을 나타냅니다. 
    • γ∗를 찾기 위한 선형 프로그래밍 솔루션의 계산 불가능성을 극복하기 위해 IPOT 알고리즘【96】을 사용하여 이 OT 행렬을 계산합니다. 
    • 마지막으로, 측면 매칭을 위한 목적을 최적 수송 비용으로 정의합니다.
  • Teacher-Forcing Based Objective. 
    • 클러스터링 기반 측면 추출기는 대체 목표로 학습될 수 있습니다. 
    • 이 측면 추출기는 학습 가능한 매개변수가 없는 GDKM 클러스터링 층과 학습 가능한 매개변수를 가진 다층 Transformer T로 구성됩니다. 
    • 예측된 측면 임베딩과 참조 측면 임베딩 간의 비결정론적 매칭을 유발하는 것은 GDKM뿐입니다. 
    • 따라서 사전 학습 단계에서는 GDKM을 건너뛰고, 실제 "클러스터링" 할당 𝜶ˆ를 T의 입력으로 직접 제공합니다. 
    • 이는 시퀀스 생성 모델을 학습할 때 사용되는 teacher-forcing 학습【92】과 유사합니다【73】. 
    • 이 접근 방식은 OT 솔버로부터 발생할 수 있는 임베딩 집합의 잠재적 불일치를 제거하여 학습 안정성을 제공합니다. 
    • 이 학습 방법의 손실 함수는 매칭된 임베딩의 코사인 거리를 기반으로 정의됩니다:
  • We observe slightly better performance of DUB-GDKM using this loss for pretraining compared with the OT-based loss (Eq. 7).

4.2 End-to-end SRD Trainin

  • 섹션 3.4에서 설명한 바와 같이, 다층 피드포워드 신경망 P는 측면 커버리지와 쿼리 유사성의 (𝐾 + 1)차원 특징을 기반으로 𝑅 내의 문서에 대한 랭킹 점수 𝑆를 예측합니다. 
  • 우리는 측면 수준의 관련성 판단을 포함한 학습 데이터를 사용하여 전체 DUB 모델 F = {E, A, P}를 최적화하기 위해 𝛼-DCG 손실【97】를 사용합니다. 
  • 공간 제약으로 인해 𝛼-DCG 손실의 공식적인 정의는 여기에서 반복하지 않습니다.
  • 이 방식은 쿼리와 각 문서의 관련성을 측면별로 평가하여 더 정확한 랭킹을 제공하는 것을 목표로 합니다.
  • 𝛼-DCG 손실 함수는 랭킹 모델의 성능을 평가하고 최적화하는 데 사용되며, 각 문서의 예측된 랭킹 점수와 실제 관련성 간의 차이를 최소화합니다. 
  • 이 접근법을 통해 DUB 모델은 검색 결과의 다양성을 유지하면서도 사용자 쿼리에 더 잘 맞는 문서를 상위에 배치하도록 학습할 수 있습니다.

5 EXPERIMENT

6 CONCLUSIONS AND FUTURE WORK

  • DUB는 검색 결과 다양화를 위한 종단 간 학습 가능한 프레임워크입니다. 
  • 이 프레임워크는 텍스트 인코더, 쿼리 측면 추출기, 다양화된 문서 랭커의 공동 최적화를 용이하게 하는 잠재적 측면 임베딩을 통합합니다. 
  • 또한 DUB는 선택적인 사전 학습을 통해 Wikipedia의 지식을 활용할 수 있어, 검색 결과 다양화에서의 데이터 부족 문제를 해결합니다. 
  • 앞으로의 연구에서는 검색 결과 다양화 모델의 해석 가능성을 평가하기 위한 공식적인 평가를 수행하는 데 관심을 가지고 있습니다.

Reference

댓글