◼ Comment

논문 자체의 핵심은 짧고 간결하다.

query2doc과 거의 유사한 연구이며, 좀 더 다양한 실험을 했다고 보면 된다.
query2doc MS에서 나왔고, 이 논문은 google에서 나온거 보면 검색시스템에 이러한 접근법을 활용하려고 하는게 아닌지..

즉 query와 관련된 document도 생성해보고, keywords로 생성해보고, 답변하기위한 rationale을 생성해보고...

뭐가 검색시스템에 효과적인지를 실험해 본 것이다.

즉 다양하게 프롬프트 엔지니어링을 했다고 볼 수도 있다.

입력으로 질의에 대한 검색 문서를 넣어줘보기도 한다. (=PRF)
즉 타겟과 PRF의 사용여부에 따른 다양한 프롬프트가 구성된다.
결론적으로는 CoT가 제일 효과적이다. 즉 질의에 해당하는 keywords/documents보다도 이 질의에 대해 답변을 하려면 필요한 "근거"를 생성하도록 해서 이를 검색시스템의 입력으로 사용하는 것이 제일이다.
PRF는 모델 사이즈에 따라 다른데, LLM 사이즈가 작은편이면 PRF을 사용하는게 좋고, 사이즈가 크면 사용안하는게 좋다.

검색시스템은 간단하게 BM25을 사용했다고 한다.

딥러닝향 검색시스템에 대해서는 실험안해본게 한계라고 말함

개인적으로 생각해보면

LLM의 학습 데이터에 웹코퍼스가 엄청 많을 것이다.
즉 이 코퍼스들을 통해 LLM은 이미 질의와 연관된 정보들을 갖고 있을 것이다.
따라서 LLM으로 생성한 정보가 검색문서를 찾는데 도움이 될 수 밖에 없는 구조이다.

예를 들어보면, "캠핑"이란 질의에 대해 생각해보자.

LLM은 "캠핑 용품" / "캠핑 장소" 등등을 포함한 다양한 확장 어구를 담은 문서들로부터 학습이 되었을 것이다.
그렇다면 LLM에게 "캠핑"을 입력으로 넣으면, "용품" 혹은 "장소"와 관련된 무엇인가를 생성할 것이다.
만약 "용품"이란 단어가 "캠핑"과 많이 동시에 등장했다면 "용품"은 더더욱 생성될 가능성이 높을 것이고..
즉 이렇게 생성된 정보는 당연히 검색문서를 찾아내는데 도움이 될 수밖에 없는게 직관적인 이해다.
개념은 사실 word2vec과도 일맥상 통하는 것 같음

실질적으로 이 방법을 사용하려면, LLM을 매번 인퍼런스 할 수는 없다.

따라서 qc높은 질의들에 대해 캐시로 저장을 해두는 것도 방법이고
small model에 distillation해서 일부분은 실시간으로 처리해보는 것도 방법일 수 있겠다.

Abstract

쿼리 확장은 검색 시스템의 검색 결과 반환율을 향상시키는 데 널리 사용되는 기술입니다.
본 논문에서는 Large Language Models (LLMs)의 생성 능력을 활용한 쿼리 확장 방법을 제안합니다.
Pseudo-Relevance Feedback (PRF)와 같은 전통적인 쿼리 확장 방법은 좋은 가상 관련 문서 세트를 검색하여 쿼리를 확장하는 데 의존하는 반면, 우리는 LLM의 생성적이고 창의적인 능력을 활용하고 모델에 내재된 지식을 활용합니다.
우리는 제로샷, 퓨샷 및 Chain-of-Thought (CoT)를 포함한 다양한 프롬프트를 연구했습니다.
우리는 CoT 프롬프트가 특히 쿼리 확장에 유용하다는 것을 발견했습니다.
이러한 프롬프트는 모델에게 쿼리를 단계별로 분해하도록 지시하고 원래 쿼리와 관련된 많은 용어를 제공할 수 있습니다.
MS-MARCO 및 BEIR에서의 실험 결과는 LLM에 의해 생성된 쿼리 확장이 전통적인 쿼리 확장 방법보다 더 강력할 수 있다는 것을 보여줍니다.

1 INTRODUCTION

쿼리 확장은 원래 쿼리에 추가 용어를 추가하여 검색 시스템의 검색 결과 반환율을 향상시키는 널리 사용되는 기술입니다.
확장된 쿼리는 원래 쿼리와 어휘적으로 겹치지 않는 관련 문서를 복구할 수 있습니다.
전통적인 쿼리 확장 접근 방법은 일반적으로 Pseudo-Relevance Feedback (PRF) [1, 20, 21, 23]에 기반을 두고 있습니다.
이는 원래 쿼리로부터 검색된 문서 집합을 "pseudo-relevant" 것으로 취급하고 해당 문서의 내용을 사용하여 새로운 쿼리 용어를 추출합니다.
그러나 PRF 기반 접근 방법은 상위 검색된 문서가 쿼리와 관련이 있다고 가정합니다.

실제로 초기 검색된 문서는 쿼리가 짧거나 모호한 경우에 특히 원래 쿼리와 완벽하게 일치하지 않을 수 있습니다.
결과적으로 PRF 기반 접근 방식은 초기 검색된 문서 세트가 충분히 좋지 않은 경우 실패할 수 있습니다.
즉 상위 검색문서가 꼭 원래 쿼리와 완벽하게 일치하지 않을 수 있는 문제가 있다?

본 논문에서는 Large Language Models (LLMs) [3, 8, 19]의 사용을 제안하여 쿼리 확장을 지원합니다.
LLMs는 최근 몇 년간 정보 검색 (IR) 커뮤니티에서 큰 관심을 받고 있습니다.

이들은 질문에 답하고 텍스트를 생성하는 능력을 포함하여 여러 속성을 보유하고 있어 강력한 도구로 작용합니다.
우리는 이러한 생성 능력을 사용하여 유용한 쿼리 확장을 생성하는 것을 제안합니다.
특히, 우리는 LLM을 프롬프트하고 원본 쿼리에 대한 다양한 대안 및 새로운 용어를 생성하도록 하는 방법을 조사합니다.
이는 PRF 문서 내의 지식이나 어휘 지식 베이스에 의존하는 대신 LLM 내재된 지식에 의존한다는 것을 의미합니다.

제안된 방법론의 예시는 도형 1에 제시되어 있습니다.
이 연구의 주요 기여는 다음과 같습니다:

첫째, 우리는 쿼리 확장을 수행하기 위한 다양한 프롬프트를 정식화하여 (제로 샷, 퓨 샷 및 CoT) PRF의 사용여부에 따라 상대적인 성능을 연구합니다.
둘째, 우리는 Chain-of-Thought (CoT) 프롬프트가 가장 잘 수행되며, 이는 CoT 프롬프트가 모델에게 답변을 단계별로 분해하도록 지시하기 때문에 쿼리 확장에 도움이 되는 많은 키워드를 포함한다고 가설을 제시합니다.
마지막으로, 우리는 다양한 모델 크기 간의 성능을 연구하여 쿼리 확장에 대한 LLM 접근 방식의 실제 기능과 제한을 더 잘 이해하고자 합니다.

2 RELATED WORK

쿼리 확장은 광범위하게 연구되었습니다 [4, 11].

쿼리 확장의 핵심은 검색 시스템이 쿼리 용어를 새로운 용어로 확장하여 동일한 개념이나 정보 필요를 표현하고, 코퍼스의 문서와의 어휘적 일치 가능성을 증가시키는 데 도움을 줍니다.
초기 쿼리 확장 작업은 어휘 지식 기반 [2, 18, 29] 또는 Pseudo-Relevance Feedback (PRF) [1, 20, 23]를 사용하는 데 중점을 두었습니다.
PRF 기반 접근 방식은 특히 도메인별 지식 기반을 구축할 필요가 없으며 모든 코퍼스에 적용할 수 있기 때문에 실제로 유용합니다.
쿼리 확장과는 별개로 문서 확장 [10, 16, 25, 33]은 유사한 기술을 적용하지만 쿼리 용어가 아닌 검색 중에 문서 용어를 확장합니다.
최근 쿼리 확장 작업은 신경망을 활용하여 확장 용어를 생성하거나 선택하는 데 중점을 두었습니다 [13, 24, 33, 34], 일반적으로 모델을 훈련하거나 미세 조정합니다.
반면, 우리의 작업은 모델을 훈련하거나 미세 조정할 필요 없이 일반 목적의 LLM에 내재된 능력을 활용합니다.

우리의 작업은 최근의 [7] 및 [31]의 작업과 유사하다는 점을 강조합니다:

LLM을 활용하여 쿼리를 확장합니다.
그러나 우리의 작업은 몇 가지 중요한 방법으로 다릅니다.
첫째, 우리는 여러 가지 다른 프롬프트를 연구하고 있으며, [31]은 단일 퓨 샷 프롬프트에 중점을 두고 있으며 [7]은 프롬프트를 연구하지 않습니다.
둘째, [31] 및 [7]과 달리, 우리는 전체 가짜 문서 대신 쿼리 확장 용어를 생성하는 데 중점을 두고 있습니다.
즉 query2doc과 달리 query2expansion에 초점을 맞추는 느낌? 사실 거기서 거기인듯. 그리고 프롬프트를 좀 더 많이 시도했다는 것 같음
이를 위해 우리는 우리의 프롬프트의 성능을 다양한 작은 모델 크기로 시연하여 쿼리 확장에 대한 LLM 접근 방식의 한계와 실제 기능을 이해하는 데 도움이 됩니다.
마지막으로, 우리는 완전히 오픈 소스 모델로 실험을 진행하여 연구의 재현성과 개방성을 유도하고, [31]은 제3자 API를 통해서만 접근 가능한 단일 유형의 모델로 실험을 진행합니다.

3 METHODOLOGY

우리는 쿼리 확장 문제를 다음과 같이 정의합니다:

주어진 쿼리 𝑞가 있을 때, 관련 문서를 검색하는 데 도움이 될 수 있는 추가 쿼리 용어를 포함하는 확장된 쿼리 𝑞'를 생성하고자 합니다.

특히, 우리는 LLM을 사용하여 쿼리 용어를 확장하고 새로운 쿼리 𝑞'를 생성하는 방법을 연구합니다.
LLM 출력이 장황할 수 있기 때문에, 상대적인 중요성을 높이기 위해 원래의 쿼리 용어를 5번 반복하여 중복합니다.

이는 [31]에서 사용된 트릭과 동일합니다.

More formally:

여기서 Concat은 문자열 연결 연산자이며, 𝑞는 원래의 쿼리, LLM은 Large Language Model이며 prompt 𝑞는 쿼리에 기반한 생성된 프롬프트입니다 (그리고 포괄적으로는 few-shot 예제나 PRF 문서와 같은 부가 정보도 포함됩니다).

In this paper we study eight different prompts:

Q2D

The Query2Doc [31] few-shot prompt, asking the model to write a passage that answers the query.

Q2D/ZS

A zero-shot version of Q2D.

Q2D/PRF

A zero-shot prompt like Q2D/ZS but which also contains extra context in the form of top-3 retrieved PRF documents for the query.
즉 이건, 검색된 문서를 context로 넣어주는게 다른 듯. 약간 이전의 방법 스타일

Q2E

Similar to the Query2Doc
few-shot prompt but with examples of query expansion terms instead of documents.
이 논문과 Q2D와의 다른점

Q2E/ZS

A zero-shot version of Q2E.
Q2E/PRF A zero-shot prompt like Q2E/ZS but with extra context in the form of PRF documents like

Q2D/PRF.

CoT A zero-shot Chain-of-Thought prompt which instructs the model to provide rationale for its answer.

CoT/PRF

A prompt like CoT but which also contains extra context in the form of top-3 retrieved PRF documents for the query.

Zero-shot prompts (Q2D/ZS 및 Q2E/ZS)는 간단한 일반 텍스트 지시와 입력 쿼리로 구성되어 가장 간단합니다.
Fewshot 프롬프트 (Q2D 및 Q2E)는 추가로 쿼리와 해당 확장을 포함하여 컨텍스트 학습을 지원하는 여러 예제를 포함합니다.
Chain-of-Thought (CoT) 프롬프트는 모델로부터 보다 장황한 출력을 얻기 위해 단계별로 응답을 분해하도록 요청하여 지시를 정의합니다.

단순히 생성을 지시하는게 아니라, CoT 방식으로 생성하라는것.
CoT/PRF = 검색된 문서를 주고 CoT 스타일로 생성을 지시하는 것?
표3 보면, Give the rationale before answering 문구가 있음

마지막으로, Pseudo-Relevance Feedback (·/PRF) 프롬프트의 변형은 모델에 대한 추가적인 컨텍스트로 상위 3개의 검색된 문서를 사용합니다.
실험에서 사용된 정확한 프롬프트는 부록 A를 참조하십시오.

4 EXPERIMENTS

LLM 기반 쿼리 확장의 효과를 검증하기 위해 MS-MARCO [15] 패스지 검색 및 BEIR [27]에서 두 가지 검색 작업에 대한 실험을 진행합니다.
검색 시스템으로는 Terrier [17]에서 구현된 BM25 [21, 22]를 사용합니다.
Terrier에서 제공하는 기본 BM25 매개변수 (𝑏 = 0.75, 𝑘1 = 1.2, 𝑘3 = 8.0)를 사용합니다.

Terrier 어떻게 쓰는지 궁금하긴 하네

4.1 Baselines

LLM 기반 쿼리 확장 방법을 분석하기 위해 몇 가지 기존 PRF 기반 쿼리 확장 방법[1]과 비교합니다.

Bo1: Bose-Einstein 1 weighting
Bo2: Bose-Einstein 2 weighting
KL: Kullback-Leibler weighting

이러한 구현은 Terrier에서 제공됩니다.
모든 경우에 우리는 쿼리 확장을 위해 Terrier의 기본 설정을 사용합니다:

3개의 PRF 문서 및 10개의 확장 용어입니다.
또한, 우리는 Query2Doc [31]의 프롬프트를 베이스라인으로 포함합니다.
그러나, 우리는 그들의 정확한 설정과 비교하지 않습니다.
왜냐하면 그들은 이 논문에서 연구하는 모델보다 훨씬 큰 모델을 사용하기 때문입니다.
이 논문의 비교는 프롬프트에 집중되며, 서로 다른 크기의 모델에서 생성된 정확한 숫자가 아닙니다.
또한, 작은 수용 영역을 갖는 모델 (특히 Flan-T5 모델)의 경우, 프롬프트가 잘릴 수 있도록 표준 4-shot 프롬프트 대신 3-shot Q2D 프롬프트만 사용합니다.

이 논문은 ChatGPT 정도의 LLM은 아니라, Flan 정도의 LLM을 사용하는 것이다.

따라서 query2doc을 여기서 사용하는 모델로 실험해보는 듯
또한 주 목적은 다양한 프롬프트 시도를 통해 검색에 도움되는 query expansion을 해보는것임

4.2 Language Models

우리는 두 종류의 모델, Flan-T5 [6, 19] 및 Flan-UL2 [26],에서 다양한 모델 크기에서 프롬프트를 비교합니다:

Flan-T5-Small (60M parameters)
Flan-T5-Base (220M parameters)
Flan-T5-Large (770M parameters)
Flan-T5-XL (3B parameters)
Flan-T5-XXL (11B parameters)
Flan-UL2 (20B parameters)

우리는 프롬프트 기반 접근 방식을 사용할 때 핵심적인 instructions을 따르도록 fine-tuned된 Flan [6, 32] 버전의 T5 [19] 및 UL2 [26] 모델을 사용하기로 선택했습니다.
또한, 이러한 모든 모델은 오픈 소스로 제공됩니다.

4.3 Metrics

우리는 주로 첫 번째 단계 검색의 리콜을 개선하는 데 중점을 둔 쿼리 확장에 관심이 있기 때문에 핵심 평가 메트릭으로 Recall@1K를 사용합니다.
또한, 상위 검색 결과가 어떻게 변하는지 더 잘 이해하기 위해 상위 랭킹 메트릭인 MRR@10 [30] 및 NDCG@10 [14]를 보고합니다.
우리는 모든 결과를 유의성 테스트와 함께 보고하며, 이는 paired t-test를 사용하고 결과가 𝑝 < 0.01에서 유의미하다고 간주합니다.

5 RESULTS

5.1 MS-MARCO Passage Ranking

데이터세트 예시

https://huggingface.co/datasets/ms_marco/viewer/v1.1/train?row=17

표 1은 MS-MARCO 패스지 랭킹 작업에서의 결과를 보여줍니다.

CoT > PRF > few-shot > zero-shot 느낌으로 효과적이다.
모델/zero or few-shot 에 따라 다른거 같은데, Q2D가 Q2E보다 좀더 나은거 같은데?
PRF을 결합하면 좀더 나은거 Q2D이든 Q2E든 좋아지는 느낌이긴 함
결과적으로 CoT 혹은 CoT/PRF가 제일 나음
이는 query의 rationale > document > keywords 순으로 효과적이다? 아래와 같은 느낌?

고전적인 쿼리 확장 베이스라인 (Bo1, Bo2 및 KL)은 이미 표준 BM25 검색 대비 Recall@1K에서 유용한 이득을 제공합니다.
[12]의 결과와 일치하게, 이 리콜 증가는 MRR@10 및 NDCG@10과 같은 상위 랭킹 메트릭에 대한 대가로 옵니다.
다음으로, LLM 기반 쿼리 확장 결과는 사용된 프롬프트 유형에 많이 의존하는 것으로 나타납니다.
[31]의 결과와 유사하게, Query2Doc 프롬프트 (Q2D)는 고전적인 방법 대비 Recall@1K에서 상당한 이득을 제공할 수 있습니다.

흥미롭게도, Query2Doc는 리콜뿐만 아니라 MRR@10 및 NDCG@10과 같은 상위 랭킹 메트릭도 향상시키며, 메트릭 전반에 걸쳐 좋은 개선을 제공합니다.

이는 일반적으로 리콜을 향상시키기 위해 상위 랭킹 메트릭을 희생하는 고전적인 쿼리 확장 방법과 대조적입니다.
마지막으로, 최상의 성능은 CoT (및 해당 PRF-enhanced 프롬프트 CoT/PRF)로 얻어집니다.

이 특정 프롬프트는 모델에게 답변을 단계별로 분해하여 장황한 설명을 생성하도록 지시합니다.
이러한 장황함은 쿼리 확장에 유용한 많은 잠재적인 키워드를 초래할 수 있습니다.

마지막으로, 프롬프트에 PRF 문서를 추가하는 것이 모델 및 프롬프트 전반에 걸쳐 MRR@10 및 NDCG@10과 같은 상위 랭킹 메트릭에서 유의미한 도움이 됨을 발견했습니다.

이것의 가능한 설명은 LLM이 PRF 문서를 효과적으로 정제하여 이미 관련 패스지를 포함할 수 있도록 가장 유망한 키워드에 주의를 기울이고 출력에 사용한다는 것입니다.

우리는 프롬프트 출력의 보다 구체적인 예제를 부록 B에서 제공합니다.

5.2 BEIR

데이터세트 예제

BEIR은 여러 테스크들을 포함한 데이터세트이다.
이것들은 아래와 같이 구성되어 있는 듯

BEIR 데이터셋은 다양한 도메인의 많은 zero-shot 정보 검색 작업을 포함하고 있습니다.
우리는 BEIR 데이터셋에서 다른 프롬프트의 성능을 비교합니다.
여기서 먼저 주목해야 할 점은 전통적인 PRF 기반 쿼리 확장 기준선이 여전히 매우 잘 작동한다는 것입니다, 특히 trec-covid, scidocs 및 touche2020과 같은 도메인 특화 데이터셋의 경우에는 더욱 그렇습니다.

이러한 데이터셋은 주로 학문적이고 과학적인 성격을 띠며, PRF 문서는 이러한 경우 유용한 쿼리 용어를 제공할 수 있습니다.
반면에 일반 목적의 LLMs는 이러한 데이터셋에 유용할 만한 도메인 지식을 충분히 갖추고 있지 않을 수 있습니다.
특정 전문 도메인의 경우 PRF 방법도 괜찮다.
하지만 일반적인 질의는 LLM이 더 나을거다?

두 번째로, 질문-답변 형식의 데이터셋 (fiqa, hotpotqa, msmarco 및 nq)은 LLM 접근 방식에서 쿼리 확장의 혜택을 가장 많이 받는 것으로 나타났습니다.

이는 언어 모델이 쿼리를 향해 관련된 답변을 생성하고 이를 통해 관련된 단락을 효과적으로 검색하는 데 도움이 되기 때문일 것입니다.

모든 데이터셋을 통틀어 Q2D/PRF 프롬프트가 가장 높은 평균 Recall@1K를 보이며, CoT 프롬프트가 가까운 두 번째로 나타났습니다.

여기서도 PRF 사용하면 조금 더 점수가 올라가는 현상을 보여주며
또한 마찬가지로 rationale > document > keywords 순으로 효과적인 듯

5.3 The Impact of Model Size

LLM 기반 쿼리 확장기의 실제 능력과 한계를 이해하기 위해, 우리는 Figure 2에서 다른 모델 크기를 비교합니다.
모델 크기를 60M 파라미터(Flan-T5-small)부터 11B 파라미터(Flan-T5-XXL)까지 다양하게 설정하고, 20B 파라미터 모델(Flan-UL2)도 시도했지만, 후자는 다른 사전 훈련 목표를 가지고 있음을 유의합니다.
일반적으로 큰 모델일수록 더 나은 성능을 보이는 경향을 관찰합니다.
Q2D 접근 방식은 BM25+Bo1 기준선과 동등한 성능을 달성하기 위해 최소 11B 파라미터 모델이 필요합니다.
반면, CoT 접근 방식은 동등한 성능을 달성하기 위해 최소 3B 파라미터 모델만 필요합니다.
또한, CoT 프롬프트에 PRF 문서를 추가하는 것은 작은 모델 크기에서 성능을 안정화하는 데 도움이 되지만, 큰 용량에서는 그 성능을 억제하는 것으로 나타났습니다.

이러한 행동에 대한 가능한 설명은 PRF 문서가 모델의 창의성을 감소시키는 것으로, 제공된 문서에 너무 많은 초점을 맞출 수 있다는 것입니다.
이는 작은 모델 크기에서 모델이 오류를 범하지 않도록 도와주지만, 큰 모델 크기에서 우리가 활용하려는 창의적인 능력을 억제합니다.

CoT/PRF 프롬프트는 770M 파라미터 모델 크기에서 다른 프롬프트보다 우수한 성능을 보이며, 더 큰 모델을 제공하는 것이 어려운 현실적인 검색 환경에서 가능한 배포 후보로 나타납니다.

즉 CoT는 쓰는게 좋고 모델 사이즈에 따라 PRF을 쓸지 말지 정하면 된다는 결론

전반적으로, 큰 모델은 상당한 이익을 제공할 수 있지만, 이는 LLM 기반 쿼리 확장기의 실제 응용 가능성을 제한할 수 있습니다.
Distillation는 큰 모델의 능력을 작은 모델로 전달하는 효과적인 방법으로 입증되었으며, 이러한 모델의 축소 연구는 쿼리 확장을 위한 미래의 작업으로 남겨두겠습니다.

6 LIMITATIONS & FUTURE WORK

저희 연구의 한계점은 다음과 같습니다:

첫째, 저희는 희소 검색(BM25)만을 연구하였습니다. 이는 쿼리 확장이 중요한 영역입니다. 밀집 검색 시스템(예: 이중 인코더)은 어휘 갭에 덜 취약하며, 결과적으로 쿼리 확장의 혜택을 덜 받을 가능성이 높습니다. Wang et al. [31]은 이미 이러한 설정을 보다 자세히 연구했으며, 저희는 밀집 검색 설정에서의 저희 프롬프트를 분석을 미래 연구로 남겨두었습니다.
둘째, 저희 연구는 Flan [32] instruction-finetuned language models에 초점을 맞추고 있습니다. 이 모델들은 지시를 따르는 능력과 이러한 모델들이 오픈 소스로 제공되기 때문에 이 모델들을 선택했습니다. 저희 연구는 다른 언어 모델 [3, 5, 9, 28]로 자연스럽게 확장될 수 있으며, 이러한 모델들의 연구를 미래 연구 주제로 남겨두었습니다.
셋째, 저희는 특정 프롬프트 템플릿(부록 A 참조)을 연구했으며, 다른 방법으로 다양한 프롬프트를 구성할 수도 있습니다.
마지막으로, LLM의 계산 비용은 실제로 LLM 기반 쿼리 확장을 배포하는 데 제약 요소가 될 수 있습니다. 대규모 모델의 출력을 더 작은 서버용 모델로 distill할 수 있을 수도 있습니다. LLM 기반 쿼리 확장을 제품화하는 방법은 여전히 개방된 문제로 남겨져 있습니다.

개인적으로는 마지막 한계라고 말한 LLM을 매번 인퍼런스를 해야한다는 점이다.

물론 캐시서버를 두고 활용할 수 있겠지만..
어쨌든 CoT+PRF / CoT 방법론에 대한 distillation해서 비교적 작은모델을 만들어보는게 낫지 않을까?

7 CONCLUSION

본 논문에서는 LLM 기반의 쿼리 확장을 연구하였습니다.
기존의 PRF 기반 쿼리 확장과 달리, LLM은 초기 검색된 문서 집합에 제한되지 않으며, 전통적인 방법으로는 다루지 못하는 확장 용어를 생성할 수 있을 것으로 기대됩니다.
저희가 제안한 방법은 간단합니다:

대규모 언어 모델에 쿼리를 입력하고, 모델의 출력을 사용하여 문서 검색 시 도움이 되는 새로운 용어로 원래의 쿼리를 확장합니다.

저희의 결과는 CoT 프롬프트가 특히 쿼리 확장에 유망한 것으로 나타났습니다.

이는 CoT 프롬프트가 모델에게 다양한 새로운 키워드를 포괄하는 상세한 설명을 생성하도록 지시하기 때문입니다.

또한, 저희의 결과는 다양한 프롬프트에 PRF 문서를 포함하면 검색 단계에서 상위 랭킹 메트릭 성능이 향상되고, 더 작은 모델 크기에서도 더 견고하다는 것을 나타냈습니다.

이는 LLM 기반 쿼리 확장의 실용적인 배포를 돕는데 도움이 될 수 있습니다.

이 논문에서 증명된 것처럼, 쿼리 확장과 같은 IR 작업은 LLM에서 혜택을 받을 수 있습니다.
LLM의 능력이 계속해서 향상되고 있는 것을 고려할 때, 이러한 능력이 다양한 IR 작업으로 확장되는 것이 기대됩니다.
더욱이, LLM이 보다 널리 사용 가능해지면, IR 시스템의 핵심 부분으로 사용 및 배포하기가 더욱 쉬워질 것입니다. 이는 해당 시스템의 실무자 및 연구자들에게 흥미로운 발전입니다.

Reference

https://arxiv.org/pdf/2305.03653.pdf

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-211, Query Expansion by Prompting Large Language Models, Preprint 2024

◼ Comment

Abstract

1 INTRODUCTION

2 RELATED WORK

3 METHODOLOGY

4 EXPERIMENTS

4.1 Baselines

4.2 Language Models

4.3 Metrics

5 RESULTS

5.1 MS-MARCO Passage Ranking

5.2 BEIR

5.3 The Impact of Model Size

6 LIMITATIONS & FUTURE WORK

7 CONCLUSION

댓글

댓글 쓰기