NL-211, Query Expansion by Prompting Large Language Models, Preprint 2024

◼ Comment

  • 논문 자체의 핵심은 짧고 간결하다.
    • query2doc과 거의 유사한 연구이며, 좀 더 다양한 실험을 했다고 보면 된다.
    • query2doc MS에서 나왔고, 이 논문은 google에서 나온거 보면 검색시스템에 이러한 접근법을 활용하려고 하는게 아닌지..
  • 즉 query와 관련된 document도 생성해보고, keywords로 생성해보고, 답변하기위한 rationale을 생성해보고...
    • 뭐가 검색시스템에 효과적인지를 실험해 본 것이다.
  • 즉 다양하게 프롬프트 엔지니어링을 했다고 볼 수도 있다.
    • 입력으로 질의에 대한 검색 문서를 넣어줘보기도 한다. (=PRF)
    • 즉 타겟과 PRF의 사용여부에 따른 다양한 프롬프트가 구성된다.
    • 결론적으로는 CoT가 제일 효과적이다. 즉 질의에 해당하는 keywords/documents보다도 이 질의에 대해 답변을 하려면 필요한 "근거"를 생성하도록 해서 이를 검색시스템의 입력으로 사용하는 것이 제일이다.
    • PRF는 모델 사이즈에 따라 다른데, LLM 사이즈가 작은편이면 PRF을 사용하는게 좋고, 사이즈가 크면 사용안하는게 좋다.
  • 검색시스템은 간단하게 BM25을 사용했다고 한다.
    • 딥러닝향 검색시스템에 대해서는 실험안해본게 한계라고 말함
  • 개인적으로 생각해보면
    • LLM의 학습 데이터에 웹코퍼스가 엄청 많을 것이다.
    • 즉 이 코퍼스들을 통해 LLM은 이미 질의와 연관된 정보들을 갖고 있을 것이다.
    • 따라서 LLM으로 생성한 정보가 검색문서를 찾는데 도움이 될 수 밖에 없는 구조이다.
  • 예를 들어보면, "캠핑"이란 질의에 대해 생각해보자.
    • LLM은 "캠핑 용품" / "캠핑 장소" 등등을 포함한 다양한 확장 어구를 담은 문서들로부터 학습이 되었을 것이다.
    • 그렇다면 LLM에게 "캠핑"을 입력으로 넣으면, "용품" 혹은 "장소"와 관련된 무엇인가를 생성할 것이다.
    • 만약 "용품"이란 단어가 "캠핑"과 많이 동시에 등장했다면 "용품"은 더더욱 생성될 가능성이 높을 것이고..
    • 즉 이렇게 생성된 정보는 당연히 검색문서를 찾아내는데 도움이 될 수밖에 없는게 직관적인 이해다.
    • 개념은 사실 word2vec과도 일맥상 통하는 것 같음
  • 실질적으로 이 방법을 사용하려면, LLM을 매번 인퍼런스 할 수는 없다.
    • 따라서 qc높은 질의들에 대해 캐시로 저장을 해두는 것도 방법이고
    • small model에 distillation해서 일부분은 실시간으로 처리해보는 것도 방법일 수 있겠다.

Abstract 

  • 쿼리 확장은 검색 시스템의 검색 결과 반환율을 향상시키는 데 널리 사용되는 기술입니다. 
  • 본 논문에서는 Large Language Models (LLMs)의 생성 능력을 활용한 쿼리 확장 방법을 제안합니다. 
  • Pseudo-Relevance Feedback (PRF)와 같은 전통적인 쿼리 확장 방법은 좋은 가상 관련 문서 세트를 검색하여 쿼리를 확장하는 데 의존하는 반면, 우리는 LLM의 생성적이고 창의적인 능력을 활용하고 모델에 내재된 지식을 활용합니다. 
  • 우리는 제로샷, 퓨샷 및 Chain-of-Thought (CoT)를 포함한 다양한 프롬프트를 연구했습니다. 
  • 우리는 CoT 프롬프트가 특히 쿼리 확장에 유용하다는 것을 발견했습니다. 
  • 이러한 프롬프트는 모델에게 쿼리를 단계별로 분해하도록 지시하고 원래 쿼리와 관련된 많은 용어를 제공할 수 있습니다. 
  • MS-MARCO 및 BEIR에서의 실험 결과는 LLM에 의해 생성된 쿼리 확장이 전통적인 쿼리 확장 방법보다 더 강력할 수 있다는 것을 보여줍니다. 

1 INTRODUCTION

  • 쿼리 확장은 원래 쿼리에 추가 용어를 추가하여 검색 시스템의 검색 결과 반환율을 향상시키는 널리 사용되는 기술입니다. 
  • 확장된 쿼리는 원래 쿼리와 어휘적으로 겹치지 않는 관련 문서를 복구할 수 있습니다. 
  • 전통적인 쿼리 확장 접근 방법은 일반적으로 Pseudo-Relevance Feedback (PRF) [1, 20, 21, 23]에 기반을 두고 있습니다. 
  • 이는 원래 쿼리로부터 검색된 문서 집합을 "pseudo-relevant" 것으로 취급하고 해당 문서의 내용을 사용하여 새로운 쿼리 용어를 추출합니다. 
  • 그러나 PRF 기반 접근 방법은 상위 검색된 문서가 쿼리와 관련이 있다고 가정합니다. 
    • 실제로 초기 검색된 문서는 쿼리가 짧거나 모호한 경우에 특히 원래 쿼리와 완벽하게 일치하지 않을 수 있습니다.
    • 결과적으로 PRF 기반 접근 방식은 초기 검색된 문서 세트가 충분히 좋지 않은 경우 실패할 수 있습니다. 
    • 즉 상위 검색문서가 꼭 원래 쿼리와 완벽하게 일치하지 않을 수 있는 문제가 있다?
  • 본 논문에서는 Large Language Models (LLMs) [3, 8, 19]의 사용을 제안하여 쿼리 확장을 지원합니다. 
  • LLMs는 최근 몇 년간 정보 검색 (IR) 커뮤니티에서 큰 관심을 받고 있습니다. 
    • 이들은 질문에 답하고 텍스트를 생성하는 능력을 포함하여 여러 속성을 보유하고 있어 강력한 도구로 작용합니다. 
    • 우리는 이러한 생성 능력을 사용하여 유용한 쿼리 확장을 생성하는 것을 제안합니다. 
    • 특히, 우리는 LLM을 프롬프트하고 원본 쿼리에 대한 다양한 대안 및 새로운 용어를 생성하도록 하는 방법을 조사합니다. 
    • 이는 PRF 문서 내의 지식이나 어휘 지식 베이스에 의존하는 대신 LLM 내재된 지식에 의존한다는 것을 의미합니다. 
  • 제안된 방법론의 예시는 도형 1에 제시되어 있습니다.
  • 이 연구의 주요 기여는 다음과 같습니다: 
    • 첫째, 우리는 쿼리 확장을 수행하기 위한 다양한 프롬프트를 정식화하여 (제로 샷, 퓨 샷 및 CoT) PRF의 사용여부에 따라 상대적인 성능을 연구합니다. 
    • 둘째, 우리는 Chain-of-Thought (CoT) 프롬프트가 가장 잘 수행되며, 이는 CoT 프롬프트가 모델에게 답변을 단계별로 분해하도록 지시하기 때문에 쿼리 확장에 도움이 되는 많은 키워드를 포함한다고 가설을 제시합니다. 
    • 마지막으로, 우리는 다양한 모델 크기 간의 성능을 연구하여 쿼리 확장에 대한 LLM 접근 방식의 실제 기능과 제한을 더 잘 이해하고자 합니다.

2 RELATED WORK

  • 쿼리 확장은 광범위하게 연구되었습니다 [4, 11]. 
    • 쿼리 확장의 핵심은 검색 시스템이 쿼리 용어를 새로운 용어로 확장하여 동일한 개념이나 정보 필요를 표현하고, 코퍼스의 문서와의 어휘적 일치 가능성을 증가시키는 데 도움을 줍니다. 
    • 초기 쿼리 확장 작업은 어휘 지식 기반 [2, 18, 29] 또는 Pseudo-Relevance Feedback (PRF) [1, 20, 23]를 사용하는 데 중점을 두었습니다. 
    • PRF 기반 접근 방식은 특히 도메인별 지식 기반을 구축할 필요가 없으며 모든 코퍼스에 적용할 수 있기 때문에 실제로 유용합니다. 
    • 쿼리 확장과는 별개로 문서 확장 [10, 16, 25, 33]은 유사한 기술을 적용하지만 쿼리 용어가 아닌 검색 중에 문서 용어를 확장합니다. 
    • 최근 쿼리 확장 작업은 신경망을 활용하여 확장 용어를 생성하거나 선택하는 데 중점을 두었습니다 [13, 24, 33, 34], 일반적으로 모델을 훈련하거나 미세 조정합니다. 
    • 반면, 우리의 작업은 모델을 훈련하거나 미세 조정할 필요 없이 일반 목적의 LLM에 내재된 능력을 활용합니다.
  • 우리의 작업은 최근의 [7] 및 [31]의 작업과 유사하다는 점을 강조합니다: 
    • LLM을 활용하여 쿼리를 확장합니다. 
    • 그러나 우리의 작업은 몇 가지 중요한 방법으로 다릅니다. 
    • 첫째, 우리는 여러 가지 다른 프롬프트를 연구하고 있으며, [31]은 단일 퓨 샷 프롬프트에 중점을 두고 있으며 [7]은 프롬프트를 연구하지 않습니다. 
    • 둘째, [31] 및 [7]과 달리, 우리는 전체 가짜 문서 대신 쿼리 확장 용어를 생성하는 데 중점을 두고 있습니다. 
    • 즉 query2doc과 달리 query2expansion에 초점을 맞추는 느낌? 사실 거기서 거기인듯. 그리고 프롬프트를 좀 더 많이 시도했다는 것 같음
    • 이를 위해 우리는 우리의 프롬프트의 성능을 다양한 작은 모델 크기로 시연하여 쿼리 확장에 대한 LLM 접근 방식의 한계와 실제 기능을 이해하는 데 도움이 됩니다. 
    • 마지막으로, 우리는 완전히 오픈 소스 모델로 실험을 진행하여 연구의 재현성과 개방성을 유도하고, [31]은 제3자 API를 통해서만 접근 가능한 단일 유형의 모델로 실험을 진행합니다.

3 METHODOLOGY

  • 우리는 쿼리 확장 문제를 다음과 같이 정의합니다: 
    • 주어진 쿼리 𝑞가 있을 때, 관련 문서를 검색하는 데 도움이 될 수 있는 추가 쿼리 용어를 포함하는 확장된 쿼리 𝑞'를 생성하고자 합니다. 
  • 특히, 우리는 LLM을 사용하여 쿼리 용어를 확장하고 새로운 쿼리 𝑞'를 생성하는 방법을 연구합니다. 
  • LLM 출력이 장황할 수 있기 때문에, 상대적인 중요성을 높이기 위해 원래의 쿼리 용어를 5번 반복하여 중복합니다. 
    • 이는 [31]에서 사용된 트릭과 동일합니다.
  • More formally:
    • 여기서 Concat은 문자열 연결 연산자이며, 𝑞는 원래의 쿼리, LLM은 Large Language Model이며 prompt 𝑞는 쿼리에 기반한 생성된 프롬프트입니다 (그리고 포괄적으로는 few-shot 예제나 PRF 문서와 같은 부가 정보도 포함됩니다).
  • In this paper we study eight different prompts:
    • Q2D 
      • The Query2Doc [31] few-shot prompt, asking the model to write a passage that answers the query. 
    • Q2D/ZS 
      • A zero-shot version of Q2D. 
    • Q2D/PRF 
      • A zero-shot prompt like Q2D/ZS but which also contains extra context in the form of top-3 retrieved PRF documents for the query.
      • 즉 이건, 검색된 문서를 context로 넣어주는게 다른 듯. 약간 이전의 방법 스타일
    • Q2E 
      • Similar to the Query2Doc 
      • few-shot prompt but with examples of query expansion terms instead of documents.
      • 이 논문과 Q2D와의 다른점
    • Q2E/ZS 
      • A zero-shot version of Q2E. 
      • Q2E/PRF A zero-shot prompt like Q2E/ZS but with extra context in the form of PRF documents like 
    • Q2D/PRF. 
      • CoT A zero-shot Chain-of-Thought prompt which instructs the model to provide rationale for its answer. 
    • CoT/PRF 
      • A prompt like CoT but which also contains extra context in the form of top-3 retrieved PRF documents for the query.
  • Zero-shot prompts (Q2D/ZS 및 Q2E/ZS)는 간단한 일반 텍스트 지시와 입력 쿼리로 구성되어 가장 간단합니다. 
  • Fewshot 프롬프트 (Q2D 및 Q2E)는 추가로 쿼리와 해당 확장을 포함하여 컨텍스트 학습을 지원하는 여러 예제를 포함합니다. 
  • Chain-of-Thought (CoT) 프롬프트는 모델로부터 보다 장황한 출력을 얻기 위해 단계별로 응답을 분해하도록 요청하여 지시를 정의합니다. 
    • 단순히 생성을 지시하는게 아니라, CoT 방식으로 생성하라는것. 
    • CoT/PRF = 검색된 문서를 주고 CoT 스타일로 생성을 지시하는 것?
    • 표3 보면, Give the rationale before answering 문구가 있음
  • 마지막으로, Pseudo-Relevance Feedback (·/PRF) 프롬프트의 변형은 모델에 대한 추가적인 컨텍스트로 상위 3개의 검색된 문서를 사용합니다. 
  • 실험에서 사용된 정확한 프롬프트는 부록 A를 참조하십시오.

4 EXPERIMENTS

  • LLM 기반 쿼리 확장의 효과를 검증하기 위해 MS-MARCO [15] 패스지 검색 및 BEIR [27]에서 두 가지 검색 작업에 대한 실험을 진행합니다. 
  • 검색 시스템으로는 Terrier [17]에서 구현된 BM25 [21, 22]를 사용합니다. 
  • Terrier에서 제공하는 기본 BM25 매개변수 (𝑏 = 0.75, 𝑘1 = 1.2, 𝑘3 = 8.0)를 사용합니다.
    • Terrier 어떻게 쓰는지 궁금하긴 하네

4.1 Baselines 

  • LLM 기반 쿼리 확장 방법을 분석하기 위해 몇 가지 기존 PRF 기반 쿼리 확장 방법[1]과 비교합니다.
    • Bo1: Bose-Einstein 1 weighting 
    • Bo2: Bose-Einstein 2 weighting 
    • KL: Kullback-Leibler weighting
  • 이러한 구현은 Terrier에서 제공됩니다. 
  • 모든 경우에 우리는 쿼리 확장을 위해 Terrier의 기본 설정을 사용합니다: 
    • 3개의 PRF 문서 및 10개의 확장 용어입니다. 
    • 또한, 우리는 Query2Doc [31]의 프롬프트를 베이스라인으로 포함합니다. 
    • 그러나, 우리는 그들의 정확한 설정과 비교하지 않습니다. 
    • 왜냐하면 그들은 이 논문에서 연구하는 모델보다 훨씬 큰 모델을 사용하기 때문입니다. 
    • 이 논문의 비교는 프롬프트에 집중되며, 서로 다른 크기의 모델에서 생성된 정확한 숫자가 아닙니다. 
    • 또한, 작은 수용 영역을 갖는 모델 (특히 Flan-T5 모델)의 경우, 프롬프트가 잘릴 수 있도록 표준 4-shot 프롬프트 대신 3-shot Q2D 프롬프트만 사용합니다.
  • 이 논문은 ChatGPT 정도의 LLM은 아니라, Flan 정도의 LLM을 사용하는 것이다.
    • 따라서 query2doc을 여기서 사용하는 모델로 실험해보는 듯
    • 또한 주 목적은 다양한 프롬프트 시도를 통해 검색에 도움되는 query expansion을 해보는것임

4.2 Language Models 

  • 우리는 두 종류의 모델, Flan-T5 [6, 19] 및 Flan-UL2 [26],에서 다양한 모델 크기에서 프롬프트를 비교합니다:
    • Flan-T5-Small (60M parameters) 
    • Flan-T5-Base (220M parameters) 
    • Flan-T5-Large (770M parameters) 
    • Flan-T5-XL (3B parameters)
    • Flan-T5-XXL (11B parameters)
    • Flan-UL2 (20B parameters)
  • 우리는 프롬프트 기반 접근 방식을 사용할 때 핵심적인 instructions을 따르도록 fine-tuned된 Flan [6, 32] 버전의 T5 [19] 및 UL2 [26] 모델을 사용하기로 선택했습니다. 
  • 또한, 이러한 모든 모델은 오픈 소스로 제공됩니다.

4.3 Metrics 

  • 우리는 주로 첫 번째 단계 검색의 리콜을 개선하는 데 중점을 둔 쿼리 확장에 관심이 있기 때문에 핵심 평가 메트릭으로 Recall@1K를 사용합니다. 
  • 또한, 상위 검색 결과가 어떻게 변하는지 더 잘 이해하기 위해 상위 랭킹 메트릭인 MRR@10 [30] 및 NDCG@10 [14]를 보고합니다. 
  • 우리는 모든 결과를 유의성 테스트와 함께 보고하며, 이는 paired t-test를 사용하고 결과가 𝑝 < 0.01에서 유의미하다고 간주합니다.

5 RESULTS

5.1 MS-MARCO Passage Ranking

  • 데이터세트 예시
    • https://huggingface.co/datasets/ms_marco/viewer/v1.1/train?row=17
  • 표 1은 MS-MARCO 패스지 랭킹 작업에서의 결과를 보여줍니다. 
    • CoT > PRF > few-shot > zero-shot 느낌으로 효과적이다.
    • 모델/zero or few-shot 에 따라 다른거 같은데, Q2D가 Q2E보다 좀더 나은거 같은데?
    • PRF을 결합하면 좀더 나은거 Q2D이든 Q2E든 좋아지는 느낌이긴 함
    • 결과적으로 CoT 혹은 CoT/PRF가 제일 나음 
    • 이는 query의 rationale > document > keywords 순으로 효과적이다? 아래와 같은 느낌?
  • 고전적인 쿼리 확장 베이스라인 (Bo1, Bo2 및 KL)은 이미 표준 BM25 검색 대비 Recall@1K에서 유용한 이득을 제공합니다. 
  • [12]의 결과와 일치하게, 이 리콜 증가는 MRR@10 및 NDCG@10과 같은 상위 랭킹 메트릭에 대한 대가로 옵니다. 
  • 다음으로, LLM 기반 쿼리 확장 결과는 사용된 프롬프트 유형에 많이 의존하는 것으로 나타납니다. 
  • [31]의 결과와 유사하게, Query2Doc 프롬프트 (Q2D)는 고전적인 방법 대비 Recall@1K에서 상당한 이득을 제공할 수 있습니다. 
    • 흥미롭게도, Query2Doc는 리콜뿐만 아니라 MRR@10 및 NDCG@10과 같은 상위 랭킹 메트릭도 향상시키며, 메트릭 전반에 걸쳐 좋은 개선을 제공합니다. 
  • 이는 일반적으로 리콜을 향상시키기 위해 상위 랭킹 메트릭을 희생하는 고전적인 쿼리 확장 방법과 대조적입니다. 
  • 마지막으로, 최상의 성능은 CoT (및 해당 PRF-enhanced 프롬프트 CoT/PRF)로 얻어집니다. 
    • 이 특정 프롬프트는 모델에게 답변을 단계별로 분해하여 장황한 설명을 생성하도록 지시합니다. 
    • 이러한 장황함은 쿼리 확장에 유용한 많은 잠재적인 키워드를 초래할 수 있습니다. 
  • 마지막으로, 프롬프트에 PRF 문서를 추가하는 것이 모델 및 프롬프트 전반에 걸쳐 MRR@10 및 NDCG@10과 같은 상위 랭킹 메트릭에서 유의미한 도움이 됨을 발견했습니다. 
    • 이것의 가능한 설명은 LLM이 PRF 문서를 효과적으로 정제하여 이미 관련 패스지를 포함할 수 있도록 가장 유망한 키워드에 주의를 기울이고 출력에 사용한다는 것입니다. 
  • 우리는 프롬프트 출력의 보다 구체적인 예제를 부록 B에서 제공합니다.

5.2 BEIR

  • 데이터세트 예제
    • BEIR은 여러 테스크들을 포함한 데이터세트이다.
    • 이것들은 아래와 같이 구성되어 있는 듯
  • BEIR 데이터셋은 다양한 도메인의 많은 zero-shot 정보 검색 작업을 포함하고 있습니다. 
  • 우리는 BEIR 데이터셋에서 다른 프롬프트의 성능을 비교합니다. 
  • 여기서 먼저 주목해야 할 점은 전통적인 PRF 기반 쿼리 확장 기준선이 여전히 매우 잘 작동한다는 것입니다, 특히 trec-covid, scidocs 및 touche2020과 같은 도메인 특화 데이터셋의 경우에는 더욱 그렇습니다.
    • 이러한 데이터셋은 주로 학문적이고 과학적인 성격을 띠며, PRF 문서는 이러한 경우 유용한 쿼리 용어를 제공할 수 있습니다. 
    • 반면에 일반 목적의 LLMs는 이러한 데이터셋에 유용할 만한 도메인 지식을 충분히 갖추고 있지 않을 수 있습니다. 
    • 특정 전문 도메인의 경우 PRF 방법도 괜찮다.
    • 하지만 일반적인 질의는 LLM이 더 나을거다?
  • 두 번째로, 질문-답변 형식의 데이터셋 (fiqa, hotpotqa, msmarco 및 nq)은 LLM 접근 방식에서 쿼리 확장의 혜택을 가장 많이 받는 것으로 나타났습니다. 
    • 이는 언어 모델이 쿼리를 향해 관련된 답변을 생성하고 이를 통해 관련된 단락을 효과적으로 검색하는 데 도움이 되기 때문일 것입니다. 
  • 모든 데이터셋을 통틀어 Q2D/PRF 프롬프트가 가장 높은 평균 Recall@1K를 보이며, CoT 프롬프트가 가까운 두 번째로 나타났습니다.
    • 여기서도 PRF 사용하면 조금 더 점수가 올라가는 현상을 보여주며
    • 또한 마찬가지로 rationale > document > keywords 순으로 효과적인 듯

5.3 The Impact of Model Size

  • LLM 기반 쿼리 확장기의 실제 능력과 한계를 이해하기 위해, 우리는 Figure 2에서 다른 모델 크기를 비교합니다. 
  • 모델 크기를 60M 파라미터(Flan-T5-small)부터 11B 파라미터(Flan-T5-XXL)까지 다양하게 설정하고, 20B 파라미터 모델(Flan-UL2)도 시도했지만, 후자는 다른 사전 훈련 목표를 가지고 있음을 유의합니다. 
  • 일반적으로 큰 모델일수록 더 나은 성능을 보이는 경향을 관찰합니다. 
  • Q2D 접근 방식은 BM25+Bo1 기준선과 동등한 성능을 달성하기 위해 최소 11B 파라미터 모델이 필요합니다. 
  • 반면, CoT 접근 방식은 동등한 성능을 달성하기 위해 최소 3B 파라미터 모델만 필요합니다. 
  • 또한, CoT 프롬프트에 PRF 문서를 추가하는 것은 작은 모델 크기에서 성능을 안정화하는 데 도움이 되지만, 큰 용량에서는 그 성능을 억제하는 것으로 나타났습니다. 
    • 이러한 행동에 대한 가능한 설명은 PRF 문서가 모델의 창의성을 감소시키는 것으로, 제공된 문서에 너무 많은 초점을 맞출 수 있다는 것입니다. 
    • 이는 작은 모델 크기에서 모델이 오류를 범하지 않도록 도와주지만, 큰 모델 크기에서 우리가 활용하려는 창의적인 능력을 억제합니다. 
  • CoT/PRF 프롬프트는 770M 파라미터 모델 크기에서 다른 프롬프트보다 우수한 성능을 보이며, 더 큰 모델을 제공하는 것이 어려운 현실적인 검색 환경에서 가능한 배포 후보로 나타납니다. 
    • 즉 CoT는 쓰는게 좋고 모델 사이즈에 따라 PRF을 쓸지 말지 정하면 된다는 결론
  • 전반적으로, 큰 모델은 상당한 이익을 제공할 수 있지만, 이는 LLM 기반 쿼리 확장기의 실제 응용 가능성을 제한할 수 있습니다. 
  • Distillation는 큰 모델의 능력을 작은 모델로 전달하는 효과적인 방법으로 입증되었으며, 이러한 모델의 축소 연구는 쿼리 확장을 위한 미래의 작업으로 남겨두겠습니다.

6 LIMITATIONS & FUTURE WORK

  • 저희 연구의 한계점은 다음과 같습니다: 
    • 첫째, 저희는 희소 검색(BM25)만을 연구하였습니다. 이는 쿼리 확장이 중요한 영역입니다. 밀집 검색 시스템(예: 이중 인코더)은 어휘 갭에 덜 취약하며, 결과적으로 쿼리 확장의 혜택을 덜 받을 가능성이 높습니다. Wang et al. [31]은 이미 이러한 설정을 보다 자세히 연구했으며, 저희는 밀집 검색 설정에서의 저희 프롬프트를 분석을 미래 연구로 남겨두었습니다. 
    • 둘째, 저희 연구는 Flan [32] instruction-finetuned language models에 초점을 맞추고 있습니다. 이 모델들은 지시를 따르는 능력과 이러한 모델들이 오픈 소스로 제공되기 때문에 이 모델들을 선택했습니다. 저희 연구는 다른 언어 모델 [3, 5, 9, 28]로 자연스럽게 확장될 수 있으며, 이러한 모델들의 연구를 미래 연구 주제로 남겨두었습니다. 
    • 셋째, 저희는 특정 프롬프트 템플릿(부록 A 참조)을 연구했으며, 다른 방법으로 다양한 프롬프트를 구성할 수도 있습니다. 
    • 마지막으로, LLM의 계산 비용은 실제로 LLM 기반 쿼리 확장을 배포하는 데 제약 요소가 될 수 있습니다. 대규모 모델의 출력을 더 작은 서버용 모델로 distill할 수 있을 수도 있습니다. LLM 기반 쿼리 확장을 제품화하는 방법은 여전히 개방된 문제로 남겨져 있습니다.
  • 개인적으로는 마지막 한계라고 말한 LLM을 매번 인퍼런스를 해야한다는 점이다.
    • 물론 캐시서버를 두고 활용할 수 있겠지만..
    • 어쨌든 CoT+PRF / CoT 방법론에 대한 distillation해서 비교적 작은모델을 만들어보는게 낫지 않을까?

7 CONCLUSION 

  • 본 논문에서는 LLM 기반의 쿼리 확장을 연구하였습니다. 
  • 기존의 PRF 기반 쿼리 확장과 달리, LLM은 초기 검색된 문서 집합에 제한되지 않으며, 전통적인 방법으로는 다루지 못하는 확장 용어를 생성할 수 있을 것으로 기대됩니다.
  • 저희가 제안한 방법은 간단합니다: 
    • 대규모 언어 모델에 쿼리를 입력하고, 모델의 출력을 사용하여 문서 검색 시 도움이 되는 새로운 용어로 원래의 쿼리를 확장합니다. 
  • 저희의 결과는 CoT 프롬프트가 특히 쿼리 확장에 유망한 것으로 나타났습니다. 
    • 이는 CoT 프롬프트가 모델에게 다양한 새로운 키워드를 포괄하는 상세한 설명을 생성하도록 지시하기 때문입니다. 
  • 또한, 저희의 결과는 다양한 프롬프트에 PRF 문서를 포함하면 검색 단계에서 상위 랭킹 메트릭 성능이 향상되고, 더 작은 모델 크기에서도 더 견고하다는 것을 나타냈습니다. 
    • 이는 LLM 기반 쿼리 확장의 실용적인 배포를 돕는데 도움이 될 수 있습니다. 
  • 이 논문에서 증명된 것처럼, 쿼리 확장과 같은 IR 작업은 LLM에서 혜택을 받을 수 있습니다. 
  • LLM의 능력이 계속해서 향상되고 있는 것을 고려할 때, 이러한 능력이 다양한 IR 작업으로 확장되는 것이 기대됩니다. 
  • 더욱이, LLM이 보다 널리 사용 가능해지면, IR 시스템의 핵심 부분으로 사용 및 배포하기가 더욱 쉬워질 것입니다. 이는 해당 시스템의 실무자 및 연구자들에게 흥미로운 발전입니다.

Reference

댓글