NL-193, Enhancing Conversational Search: Large Language Model-Aided Informative Query Rewriting, Findings of EMNLP 2023

◼ Comment

  • query rewriting에 대한 연구는 처음 봤다.
    • 이 테스크는, context; question이 있을 때 question이 context 정보를 제대로 담지 않은 경우가 대부분이다.
    • 예를 들면, "그래서 그는 언제 간대?" 라는 쿼리라면, "그"는 누구인가.. "어디를 간다는 것인가" 등등에 대한 정보는 context을 같이 봐야 알 수 있을 것이다.
  • 이러한 대화형 query에 대한 검색에서 이를 해결하는 방법은 여러 가지가 있다.
    • 1) context;query을 concat한 것을 입력으로 넣거나
    • 2) query을 rewrite해서 context 정보를 담게하고 애매모호함을 없애거나
    • 근데 1)방법은 검색기를 다시 재학습해야하는 어려움이 있다. 왜냐하면 일반적으로 검색기는 단일 쿼리에 대해 검색하는 형태이기 때문
    • 따라서 2번 방법을 이 논문에서는 초점을 맞춘 것이다.
  • 직관적으로는 LLM에게 context, query을 보여주고 지시사항을 잘 적어서 재작성하라고 시키는 것이다.
    • 하지만 이것만으로는 부족해서, 재작성된 쿼리를 editing하고 한번 더 지시해서 더 나은 쿼리로 바꾼다.
    • llm 은 chatgpt을 썻다.
  • 나머지는 다양한 실험들에 대한 결과라고 보면 된다.
    • 데이터세트에는 사람이 재작성한 쿼리가 있는데, 이전의 연구들에서는 이를 gold query로 간주하고 학습하는 것 같은데
    • 실제로 사람이 재작성한 쿼리로 검색한 결과보다, 이 논문에서 제안한 방법으로 재작성된 쿼리가 성능이 좋다고 한다.
    • 즉 사람이 재작성한 쿼리가 항상 정답은 아니라고 주장한다.
    • 그리고 llm 재작성한 쿼리를 정답으로 간주하여 small model을 학습해보기도 하고
    • 사람이 재작성한 쿼리를 정답으로 간주하여 small model을 학습해보기도 하고
    • 등등 다양한 실험이 있는데, 결과적으로는 llm 재작성과 llm editing 모두 효과적이라고 보면 된다.
  • 검색기는 bm25(sparse)와 GTR(dense)을 이용했다고 하고
    • 검색 문서(passage)는 54M이 후보고 이 중 100개를 찾는 방식으로 평가한 것 같음

0 Abstract

  • Query rewriting은 conversational search 을 향상시키는 데 중요한 역할을 하며, context에 따라 사용자 쿼리를 독립형 형태로 변환합니다. 
  • 기존 방법들은 주로 human-written queries 를 레이블로 사용하여 query rewriting 모델을 훈련시키지만, human-written queries는 optimal retrieval 성능을 위한 충분한 정보가 부족할 수 있습니다. 
  • 이 제한을 극복하기 위해, 우리는 large language models(LLM)을 query rewriters로 활용하여, well-designed instructions을 통해 정보가 informative query rewrites 생성을 가능하게 합니다. 
  • 잘 구성된 rewrites을 위한 네 가지 중요한 특성을 정의하고, 이들을 지침에 모두 통합합니다. 
  • 또한, initial query rewrites이 이미 있는 경우 LLM에 대한 rewrite editors의 역할을 소개하여 "rewrite-then-edit" 프로세스를 형성합니다. 
  • 더 나아가, LLM의 rewriting 능력을 더 작은 모델로 distilling하여 rewriting latency을 줄이는 것을 제안합니다. 
  • QReCC 데이터셋에서의 실험적 평가 결과, informative query rewrites이 human rewrites보다(특히 sparse retrievers) 훨씬 개선된 검색 성능을 제공할 수 있음을 보여줍니다.

1 Introduction

  • 요즘에는 디지털 가상 어시스턴트와 챗봇의 증가로 대화형 검색이 큰 주목을 받고 있으며, 이를 통해 사용자는 정보를 얻기 위해 여러 라운드의 interactions에 참여할 수 있습니다. 
  • 이 emerging search paradigm은 intricate information needs과 complex tasks 을 필요로 하는 사용자를 지원하는 데 놀라운 이점을 제공합니다. 
  • 그러나 conversational search의 기본적인 도전 과제는 conversational context내에서 사용자의 현재 search intents를 정확하게 파악하는 것에 있습니다. 
  • 점점 더 주목을 받고 있는 효과적인 접근 방식은 query rewriting을 수행하여 대화형 컨텍스트 모델링의 이러한 과제를 해결합니다.
  • 이 접근 방식은 context-dependent user queries를 self-contained queries로 변환함으로써 standalone queries에 대해 광범위하게 검증된 기존 기성(off-the-shelf) 검색기를 활용할 수 있게 해줍니다.
  • 예를 들어, 그림 1에 나와 있는 사용자 query "Did she do well?"는 "Did Elizabeth Blackwell do well as a lecturer in midwifery?"로 재작성될 수 있으며, 이것은 context-independent 쿼리입니다.
    • 여기서 쿼리란 검색 쿼리가 아닌, 대화 발화(질의)를 의미하는 것 같음
    • 대화란 사용자와 검색 응답사이의 주고 받음을 의미하는 거인거 같고, 즉 발화가 대화형 질의라고 볼 수 있는 듯
    • Did Elizabeth ~~ 이렇게 재구성하면, 컨텍스트가 없어도 정확히 무얼 말하는지 알 수가 있으므로 context-independent라고 하는 듯
  • 이전 연구들은 주로 query rewriting models을 훈련시키기 위해 human-rewritten queries 를 supervised labels 로 의존합니다. 
  • 비록 human-rewritten queries는 original 쿼리보다 더 나은 성능을 보이는 경향이 있지만, optimal retrieval performance 을 위한 충분한 정보를 제공하지 못할 수 있습니다.
  • 이러한 제한은 human rewriters가 원래 쿼리를 self-contained 형식으로 변환할 때 상호 참조 및 생략(coreference and omission)과 같은 모호성 문제를 해결하는 데에만 관심이 있다는 사실에서 발생합니다.
    • 즉 사람이 재작성 쿼리는(레이블로 주로 사용되는) 쿼리의 모호성을 해결하는데 재작성된 경우가 많다는 것
  • 이러한 간단한 rewriting 전략은 retriever의 효율성을 향상시킬 수 있는 잠재력이 있는 대화 컨텍스트(예를 들어 그림 1 참조) 내에서 많은 valuable 정보를 간과할 수 있습니다.
    • 그림 1예시에서, as a lecturer in midwifery와 같은 정보는, 사람이 재작성한 쿼리에 없다.
    • 하지만 이 정보가 있어야 진정한 query의 의미를 재작성했다고 볼 수 있음
  • 따라서 human rewrites에서 학습한 기존 query rewriting models 은 최적의 성능을 달성할 수 없을 수 있습니다.
    • 데이터 자체가 그럼 바뀌어야 하는것인가?
  • rewritten queries의 정보 전달력을 향상시키기 위한 직관적인 방법은 인간 주석자에게 더 포괄적인 지침을 제공하여 원래의 질문을 명확뿐만 아니라 정보 전달력 있게 재작성할 수 있도록 하는 것입니다. 
    • 그러나 이러한 방법은 비용이 많이 들고 인간 주석자의 작업 부담을 늘리며 서로 다른 주석자들 간의 일관성 증가 가능성 등 여러 단점이 있습니다. 
    • 따라서 대안적인 방법을 탐색하는 것이 필요합니다. 
    • 본 논문에서는 LLMs을 활용하여 질문 재작성에 대한 접근 방식을 제안합니다. 
    • 이는 LLMs가 지시사항 및 데모를 따라가는 놀라운 능력을 활용하기 때문입니다. 
  • 우리는 LLMs를 질문 재작성기로 사용하기 위해 두 가지 설정을 고려합니다. 
    • 제로샷 학습 설정에서는 지시사항만을 제공하며, 퓨샷 학습 설정에서는 지시사항과 몇 가지 데모가 함께 제공됩니다. 
  • 적절한 지시사항을 개발하기 위해 먼저 재작성된 질문의 잘 구성된 네 가지 기본 속성을 식별합니다. 
    • 그런 다음 이 네 가지 속성을 모두 포함하는 지시사항을 디자인합니다. 
    • 그러나 이러한 속성을 모두 갖춘 재작성을 생성하는 것은 LLMs에게 지시의 복잡성 때문에 어려움을 줄 수 있습니다. 
  • 이에 대응하여 우리는 LLMs를 재작성 편집자로 사용하는 추가 역할을 제안합니다. 
    • 인간이 처음부터 창작하는 것보다 편집에서 뛰어나다는 사실에서 영감을 받은 이 재작성 편집자의 목적은 초기 재작성을 편집하여 "rewrite-then-edit" 프로세스를 형성하는 것입니다. 
    • 이러한 초기 재작성은 더 작은 질문 재작성 모델이나 심지어 LLMs 자체에 의해 생성될 수 있습니다. 
  • 더불어, LLMs와 관련된 잠재적인 시간 소요 및 높은 비용을 고려하여, 이들의 재작성 능력을 더 작은 모델로 압축하여 생성된 재작성을 교육 레이블로 사용하는 것을 제안합니다.
  • 재작성 쿼리를 위한 4가지 속성을 여기서 정의하고, 이를 식별해서 지시사항을 작성
  • 이 지시사항에 따르도록 LLM을 통해 쿼리 재작성을 함
  • 근데 첨부터 쿼리 재작성하는 것보다, rewrite-then-edit 프로세스라고 해서, 먼저 간단하게 재작성하고 이를 리터치하는게 효과가 좋다는 느낌 (내 연구랑 비슷한데?ㅋㅋ)
  • 첨에 간단하게 재작성하는 것은 LLM or small model 등으로 할 수 있음
  • 리터치하는건 처음에는 LLM을 통해서 하나, 이 데이터를 모아서 작은 모델 학습에 사용해서 작은 모델로도 리터치가 가능하게함(distillation)
  • Our contributions are summarized as follows:
    • 1. 우리는 정보 전달력 있는 대화형 질문 재작성이라는 개념을 처음으로 소개하며, 잘 구성된 재작성된 질문이 가져야 하는 네 가지 바람직한 속성을 세심하게 식별합니다. 
    • 2. 우리는 LLMs를 질문 재작성기 및 재작성 편집자로 활용하기 위해 모든 바람직한 속성을 포함하는 명확한 지침을 제공하여 LLMs를 유도할 것을 제안합니다. 또한, LLMs의 재작성 능력을 더 작은 모델로 압축하여 재작성 효율성을 향상시키기 위해 distillation 기술을 사용합니다. 
    • 3. 우리는 QReCC 데이터셋에서 두 가지 off-the-shelf retrievers (sparse and dense)를 사용하여 정보 전달력 있는 질문 재작성의 효과를 증명합니다. 결과는 정보 전달력 있는 질문 재작성이 특히 sparse retrieval 문맥에서 인간의 재작성을 능가할 수 있음을 보여줍니다.
    • 쿼리를 정보성있게 재작성하면, 검색 결과가 좋아지나봄

2 Task Formulation

  • 대화 검색의 주요 목표는 현재 사용자 질의에 대한 방대한 양의 단락 중에서 관련 있는 단락을 식별하는 것입니다. 
  • 형식적으로, i번째 턴에서 사용자 질의와 시스템 응답을 각각 Qi 및 Ai로 나타냅니다. 
  • 더 나아가, Xt = {Q1, A1, . . . , Qt−1, At−1}는 턴 t까지의 대화적 맥락을 나타냅니다. 
  • 그럼으로써, 대화 검색의 작업은 현재 사용자 질의 Qt와 그와 관련된 맥락 Xt가 주어졌을 때, 큰 단락 집합 C에서 상위 k개의 관련 있는 단락을 검색하는 것으로 정의될 수 있습니다. 
  • 이 검색 프로세스는 f : (Qt, Xt, C) → Rk로 정의된 리트리버(retriever)에 의해 수행되며, 여기서 Rk는 C의 부분 집합이며, k는 C 내의 전체 단락 수보다 상당히 작습니다.
  • 즉 지금까지의 컨텍스트 Xt와 이때, 쿼리 Qt에 대한 response을 C set에서 찾는것
    • response 하나를 고르는 것은 아니고, 대충 전체 집합에서 일부분을 간추리는 것 (coarse selection)
  • 대화 검색에서의 독특한 도전 과제는 독립적인 질의를 위해 설계된 기존의 리트리버로는 직접적으로 다룰 수 없는 대화적 맥락을 통합하는 것입니다. 
    • 또한, 대화형 질의에 특화된 리트리버를 재훈련하는 것은 복잡한 시스템 설계나 제한된 데이터 가용성으로 인해 비용이 많이 들거나 혹은 불가능할 수 있습니다. 
  • 리트리버를 재훈련해야 하는 필요성을 극복하기 위해 질의 재작성이 효과적인 해결책으로 사용됩니다. 
  • 질의 재작성은 문맥 의존적인 사용자 질의 Qt를 문맥 Xt에서 관련 정보를 추출하여 독립적인 독립적인 질의 Q′ t로 변환하는 것을 포함합니다. 
  • 결과적으로, 독립적인 질의를 위해 설계된 기존의 오프더셀프 리트리버 시스템은 Q′ t를 입력 질의로 취하여 원래의 사용자 질의 Qt와 관련된 단락을 찾는 데 활용될 수 있습니다, 즉, f : (Q′t , C) → Rk.
  • 대화형 질의에(즉, 컨텍스트가 있고 이에 대한 query가 있는 경우) 대해서는 기존 검색기가 제대로 작동안할 것
    • 왜냐하면 기존 리트리버는, 단순 질의 하나에 대한 검색결과를 찾아주는 것이기 때문
    • 만약 기존질의 Qt을 Xt를 고려해서 Q't로 만든다면, 기존 리트리버가 검색결과를 잘 찾아줄 것이다.
    • 이럴경우, 리트리버를 재학습하거나 할 필요가 없어짐
  • 질의 재작성의 활용은 대화적 맥락 모델링의 도전 과제를 리트리버 끝에서 질의 재작성 모델 끝으로 이동시킵니다. 
  • 따라서 검색 결과의 효과는 사용된 질의 재작성 모델에 크게 의존합니다. 
  • 적절한 재작성된 질의가 생성되었을 때에만 기존 리트리버 시스템이 매우 관련성 높은 단락을 반환할 수 있습니다.

3 Approach

  • 보다 많은 정보를 담은 재작성을 생성하기 위해 인간 주석자에 의존하거나 기존의 인간 재작성을 밀접하게 복제하기 위해 더 복잡한 모델을 개발하는 대신, 우리는 명확한 지침과 적절한 데모를 제공하여 LLMs에게 정보 전달력 있는 질문 재작성을 생성하도록 유도하는 것을 제안합니다. 
  • 이로써 광범위한 인간 노력과 복잡한 모델 설계의 요구사항을 피할 수 있습니다. 
  • 그림 2는 우리가 제안하는 접근 방식을 설명하고 있습니다.
  • 즉 왼쪽처럼, 먼저 LLM이 먼저 쿼리를 rewrite한다.
    • 이때, demonstation에 들어갈 rewrite는 최종 재작성 예시를 든다. (오른쪽에서의 edit)
  • 오른쪽처럼, 이 쿼리를 edit한다.
    • 오른쪽에서 demonstration의 rewrite, edit또한 zero-shot LLM으로 만든 것 같음

3.1 Prompting LLM as Query Rewriter

  • 최근 연구는 LLMs가 주어진 지침을 따르고 일관되고 맥락에 적절한 텍스트를 생성하는 강력한 능력을 입증했습니다. 
  • 이에 영감을 받아 LLMs를 질문 재작성기로 사용하는 것은 자연스러운 선택입니다. 
  • LLM을 질문 재작성기로 유도하는 방법에 대한 세부 내용에 대해 자세히 들어가기 전에 먼저 잘 구성된 재작성된 질문이 가져야 하는 바람직한 properties에 대해 설명합니다:
  • Correctness
    • 재작성된 질문은 원래 질문의 의미를 보존해야 하며 사용자의 의도가 변경되지 않도록 해야 합니다.
  • Clarity
    • 재작성된 질문은 모호하지 않아야 하며 대화적 맥락과 독립적이어야 하며, 이를 통해 대화적 맥락 외부의 사람들에게 이해될 수 있어야 합니다. 이 명확성은 원래 질문에서 발생하는 지시 대명사 및 생략 문제를 해결함으로써 달성될 수 있습니다.
  • Informativeness
    • 재작성된 질문은 대화적 맥락에서 가능한 많은 유용하고 관련성 있는 정보를 통합해야 하며, 이를 통해 오프더셀프 리트리버에 더 유용한 정보를 제공해야 합니다.
  • Nonredundancy
    • 재작성된 질문은 대화적 맥락에서 이전에 제기된 질문을 중복해서는 안 되며, 이는 재작성된 질문이 현재 질문의 의도와 의미만을 전달하는 것을 보장하는 데 중요합니다.
  • 상기한 네 가지 속성을 내포하는 질문 재작성을 효과적으로 LLM에게 지시하기 위해서는 적절한 지침을 수립하는 것이 필수적입니다. 
  • 이 연구에서는 설명적인 예로써 다음과 같은 지시사항을 채택합니다:
    • “Given a question and its context, decontextualize the question by addressing coreference and omission issues. The resulting question should retain its original meaning and be as informative as possible, and should not duplicate any previously asked questions in the context.” 
    • 이렇게 4가지 속성을 담은 지시사항을 만들어서 사용
  • 이 지시사항은 좋은 재작성된 질문의 네 가지 바람직한 속성을 동시에 고려합니다. 
  • 이 지시사항을 기반으로 LLM에게 질문 재작성을 유도하기 위해 두 가지 설정을 탐구합니다.

3.1.1 Zero-Shot Learning (ZSL) Setting

  • ZSL(Zero-Shot Learning) 설정에서, LLM은 현재 쿼리 Qt와 해당 대화 콘텍스트 Xt에서 제공된 정보만 사용하여 인간이 레이블을 지정한 인스턴스에 액세스하지 않고 재작성된 쿼리 Q′ t를 생성하도록 지시됩니다. 
  • 이 설정에서는 쿼리 재작성을 수행하기 위해 LLM이 지시를 이해하고 따르는 능력에 완전히 의존합니다. 
  • 구체적으로는 Xt와 Qt를 지시문 I에 추가하여 이 프롬프트를 LLM에 공급하여 재작성 Q′t를 샘플링합니다.
    • where || denotes concatenation. 
  • The detailed format of the prompt is shown in Appendix D.

3.1.2 Few-Shot Learning (FSL) Setting

  • FSL(Few-Shot Learning) 설정에서 LLM은 instruction and a small number of demonstrations를 함께 제공받습니다. 
  • 이러한 프롬프팅 유형은 일반적으로 컨텍스트 내 학습(in-context learning)으로 언급되며, 이는 LLM을 새로운 작업에 적응시키는 데 효과적임이 입증되었습니다 (Brown et al., 2020; Min et al., 2022a,b; Wei et al., 2023; Sun et al., 2023; Ram et al., 2023). 
  • 이 설정에서 각 데모는 쿼리 Q, 대화적 맥락 X 및 재작성 Q′로 구성됩니다. 
  • 이러한 데모의 연결을 다음과 같이 표시합니다:
  • 여기서 n은 데모의 총 수를 나타냅니다. 
  • LLM에 대한 프롬프트로 I와 테스트 인스턴스 (Xt, Qt) 사이에 D를 두고, 재작성 Q′t는 다음과 같이 샘플링됩니다:
  • 주의할 점은 demonstrations에서 사용된 쿼리 재작성이 앞서 언급한 네 가지 속성을 가지도록 잘 설계되어야 한다는 것입니다. 
  • 그렇지 않으면 LLM은 이러한 demonstrations에 속아 오해를 할 수 있습니다. 
  • 실험에서 사용된 demonstrations에 대한 더 자세한 설명은 부록 D를 참조해 주세요.


3.2 Prompting LLM as Rewrite Editor

  • LLM이 지시와 데모를 따르는 능력에도 불구하고, 최근 연구에 따르면, 복잡한 작업이나 정교한 요구 사항에 직면했을 때 어려움을 겪을 수 있다는 것을 시사합니다. 
  • 이 제한은 LLM이 앞서 언급한 모든 바람직한 속성을 갖는 쿼리 재작성을 생성하는 데 어려움이 있을 수 있다는 점을 강조합니다. 
  • 이 도전에 대응하기 위해 우리는 대안적인 접근 방식을 제안합니다. 
  • 여기서 LLM은 초기 재작성을 편집하는 주된 기능으로 프롬프트되어야 합니다. 
    • 이는 처음부터 쿼리 재작성을 생성해야 하는 쿼리 재작성자로서 프롬프트되는 대신에 주어진 초기 재작성을 편집하는 것입니다. 
    • 이 방식은 인간이 기존 콘텐츠를 편집하는 것이 처음부터 만드는 것보다 더 쉬운 경향이 있다는 관찰에서 영감을 받았습니다. 
    • 즉, 처음부터 완벽한것을 생성하는 것보다 한번 리터치해주는게 더 쉽다는 직관(사람도 그렇기 때문에?)을 따름
  • 이 작업에서는 LLMs를 리라이트 편집자로 프롬프트하는 데 FSL 설정을 채택합니다. 
  • 각 데모에 대해 초기 재작성 Qˆ를 소개합니다. 이러한 확장된 데모의 연결을 다음과 같이 나타냅니다:
  • 테스트 인스턴스 (Xt, Qt)에 대한 초기 재작성 Qˆt가 함께 제공되면, 우리는 다음 절차를 통해 수정된 (최종) 재작성 Q′t를 얻습니다:
    • where ˜I denotes the modified instruction. 
  • Please refer to Figure 2 and Appendix D for details.
  • initial rewrite은 T5QR과 같은 작은 쿼리 재작성 모델에 의해 생성될 수 있습니다. 
    • 또는 이전 소목에서 설명한 프롬프팅 방법을 따라 LLM이 생성할 수도 있습니다. 
    • 내가 쓴 논문과 큰 컨셉과 유사한게, small model이든 llm이든 사용해서 먼저 타겟을 생성하고
    • 이를 수정하는 방식을 통하면 성능이 좋아지는 느낌
  • LLM이 query rewriter and rewrite editor로 모두 사용되는 경우 "rewrite-then-edit" 프로세스를 통해 LLM은 자가 수정(self-correction)을 수행할 수 있게 됩니다.

3.3 Distillation: LLM as Rewriting Teacher

  • 효과적으로 LLMs(Language Model Models)를 쿼리 재작성에 활용하는 주요 장애물 중 하나는 메모리와 계산 리소스에 대한 상당한 수요입니다). 
  • 이는 중요한 시간 오버헤드로 이어질 수 있습니다. 
  • 또한, 내부 모델이 부족한 경우에는 제3자 API 서비스에 의존해야 하는 경우 비용이 매우 높아질 수 있습니다. 
  • 이러한 문제에 대응하기 위해, 우리는 LLM이 생성한 rewrites을 ground-truth labels로 사용하여 작은 쿼리 재작성 모델을 fine-tune하는 것을 제안합니다.
    • 즉 LLM이 원래 rewrite와 editing 모두 했는데, rewrite하는 부분을 small model로 학습해보자!
  • 이 접근에서 LLM은 선생님 역할을 하며, 작은 쿼리 재작성 모델은 학생 역할을 합니다. 
    • Knowledge Distillation이라고 불리는 이 과정은 선생님의 재작성 능력을 학생에게 전수하는 것입니다. 
    • 이 기술은 최근 다양한 다른 작업에 대해 LLM을 전수하기 위해 활용되었습니다. 
  • 이전 연구를 따라, 우리는 T5(Raffel 등, 2020)를 학생 모델로 채택합니다(즉, 작은 쿼리 재작성 모델). 
  • 모델의 입력은 대화 문맥 Xt의 모든 발화와 현재 사용자 쿼리 Qt의 연결입니다. 
  • 사용자 쿼리와 시스템 응답을 구별하기 위해 각 사용자 쿼리에 특수 토큰을 추가하고 각 시스템 응답에 특수 토큰을 추가합니다. 
  • 모델의 출력은 사용된 LLM에서 샘플링한 재작성 Q′t입니다. 
  • 모델은 Q′t를 생성하는 우도를 최대화하기 위해 표준 교차 엔트로피 손실을 사용하여 fine-tune됩니다.

4 Experimental Setup

4.1 Dataset & Evaluation Metrics

  • 이전 연구를 따라, 우리는 실험 데이터셋으로 QReCC를 활용합니다. 
  • QReCC는 14,000개의 개방형 영어 대화와 총 80,000개의 질문-답변 쌍으로 구성되어 있습니다. 
  • 각 사용자 질문은 인간에 의해 다시 작성된 쿼리와 함께 제공되며, 동일한 대화 내의 질문에 대한 답변은 여러 웹 페이지에 걸쳐 분산될 수 있습니다. 
  • 총 10백만 개의 웹 페이지가 있으며, 각각이 여러 패스로 나뉘어져 총 54백만 개의 패스를 형성합니다. 
    • https://zenodo.org/records/5115890#.YZ8kab3MI-Q
  • 대화형 검색의 목적은 이 대규모 컬렉션에서 각 질문에 대한 관련 패스를 찾는 것이며, gold passage labels이 제공됩니다. 
    • 즉, 대화형 질의를 논문에서 제안한 방법으로 바꿔서 같은 검색기를 태우면, gold passages을 더 잘 찾아준다?
  • QReCC의 대화는 QuAC, Natural Questions, TREC CAsT-19와 같은 세 가지 기존 데이터셋에서 가져왔습니다. 
  • 구분을 용이하게 하기 위해 각 하위 집합을 각각 QuAC-Conv, NQ-Conv 및 TREC-Conv로 참조합니다. 
  • TREC-Conv는 테스트 세트에만 나타납니다. 
  • 종합 평가를 위해 전체 데이터셋뿐만 아니라 각 하위 집합에 대한 실험 결과를 제시합니다. 
  • 데이터셋에 관한 추가 정보 및 통계에 대해서는 부록 A를 참조하십시오. 
  • 검색 결과를 평가하기 위해 평균 상호 순위(MRR), 평균 평균 정밀도(MAP), Recall@10(R@10)을 평가 메트릭으로 채택합니다. 
  • 모든 메트릭 값을 계산하기 위해 pytrec_eval 도구킷(Van Gysel 및 de Rijke, 2018)을 사용합니다.

4.2 Comparison Methods 

  • 우리의 주요 관심사는 정보 제공적인 쿼리 재작성의 효과에 있으므로 두 가지 간단한 기준선 방법을 고려합니다. 
  • 첫 번째는 Original로, 사용자 질문을 원래 형태 그대로 검색 쿼리로 사용합니다. 
  • 두 번째는 Human으로, 인간에 의해 다시 작성된 쿼리를 검색 쿼리로 사용합니다. 
  • 또한 T5-base 모델을 seq2seq query rewriter로 fine-tune하는 T5QR와 직접 검색 성능을 최적화하기 위해 강화 학습을 사용하는 ConQRR, 검색 쿼리의 정보성을 향상시키기 위해 쿼리 재작성과 잠재적인 답변 생성을 결합하는 ConvGQR을 포함하여 세 가지 지도 학습 모델을 기준선으로 사용합니다.
  • 우리의 제안된 접근 방법에 대해서는 RW(ZSL), RW(FSL), ED(Self), ED(T5QR) 네 가지 변형을 조사합니다. 
  • RW(ZSL)은 ZSL 설정에서 LLM을 쿼리 리라이터로 사용하도록 유도하며, RW(FSL)은 FSL 설정에서 LLM을 쿼리 리라이터로 사용하도록 유도합니다. 
  • 이에 비교적 ED(Self)는 LLM을 리라이트 편집자로 유도하며, 여기서 초기 리라이트는 동일한 LLM을 적용한 RW(FSL)에 의해 생성됩니다. 
  • ED(T5QR)도 리라이트 편집자로 LLM을 유도하지만, 초기 리라이트는 T5QR에 의해 생성됩니다. 
  • 단순함을 위해 우리는 FSL 설정에서만 LLM을 리라이트 편집자로 사용합니다.
  • 즉 비교 모델들
    • original query
    • 사람이 다시쓴 query
    • query rewrite하는 이전 supervised 모델들 3개
    • zero-shot LLM rewriter
    • few-shot LLM rewriter
    • few-shot LLM rewriter + LLM editing
    • T5QR rewriter + LLM editing
    • T5QR은 human 재작성 쿼리가 gold로 보고 학습하는듯
    • LLM 재작성 쿼리를 gold로보고 학습한 것에 대한 실험은 section 5.4에서 다룸

4.3 Retrieval Systems

  • 대화 검색에서 쿼리 재작성의 정보성이 어떤 영향을 미치는지 탐구하기 위해 두 가지 유형의 사용 가능한 리트리버로 실험을 수행했습니다.
  • BM25 
    • BM25 (Robertson 등, 2009)는 고전적인 희소 리트리버입니다. 
    • Anantha 등 (2021)를 따라 우리는 k1 = 0.82 및 b = 0.68의 하이퍼파라미터를 사용하여 Pyserini (Lin 등, 2021a)를 채택합니다.
  • GTR 
    • GTR (Ni 등, 2022)는 최근에 제안된 밀집 리트리버입니다. 
    • 이는 공유된 듀얼 인코더 아키텍처를 가지며 여러 검색 벤치마크에서 최첨단 성능을 달성했습니다.
    • We use the T5-base version https://huggingface.co/sentence-transformers/gtr-t5-base.
    • T5 기반의 학습된 리트리버인듯. huggingface에서 가져다 쓸 수 있음
    • 듀얼 인코더니까, query쪽 인코딩하는 부분 / response passage쪽  인코딩하는 부분이 있어서, 이 둘의 벡터유사도를 계산해서 찾는 것일듯

4.4 Implementation Details

  • 우리는 실험에서 OpenAI의 공식 API를 통해 제공되는 ChatGPT (gpt-3.5-turbo)를 LLM으로 채택합니다. 
  • 추론 중에는 온도가 0인 탐욕적 디코딩을 사용합니다. 
  • FSL 설정에서는 네 개의 demonstrations (즉, n = 4)를 사용합니다. 
  • 희소 검색에는 Pyserini를, 밀집 검색에는 Faiss를 사용합니다. 
  • 각 사용자 쿼리에 대해 100개의 passages를 검색합니다 (즉, k = 100). 
    • 100개의 후보를 추리는 것?
  • valid gold passage labels이 없는 테스트 인스턴스는 무시합니다. 
  • 결과적으로 QuAC-Conv, NQ-Conv 및 TREC-Conv에 각각 6396, 1442 및 371개의 테스트 인스턴스가 있으며 총 8209개의 테스트 인스턴스가 있습니다. 
  • 더 많은 구현 세부 정보는 부록 B를 참조하십시오.

5 Experimental Results 

5.1 Main Results 

  • Table 1은 QReCC 테스트 세트 및 해당 하위 세트에서 다양한 쿼리 재작성 방법의 검색 성능을 제시합니다. 
  • 우리의 주요 결과는 다음과 같이 요약됩니다. 
    • (I) 모든 쿼리 재작성 방법이 원래 쿼리보다 우수한 성과를 보이며, 쿼리 재작성의 중요성을 입증합니다. 
    • (II) 저희 접근 방식인 ED(Self) 및 ED(T5QR)은 일관되게 QReCC 전체 테스트 세트에서 최상의 결과와 두 번째로 최상의 결과를 달성합니다. 특히 두 방법 모두 인간의 재작성을 능가합니다. 예를 들어, ED(Self)은 sparse retrieval에서 인간의 재작성과 비교하여 9.58의 MRR 점수에서 상당한 개선을 보입니다. RW(FSL)도 인간의 재작성보다 우수한 성과를 보이며, RW(ZSL)은 일관된 개선을 보여주지 못합니다. 이러한 결과는 정보성 있는 쿼리 재작성과 맥락 내 demonstrations의 가치를 강조합니다. 
    • (III) supervised models인 T5QR 및 ConQRR은 인간의 재작성보다 성능이 나쁘며, 인간의 재작성에서만 학습하는 것은 최적의 결과를 얻기 어려워 보입니다. ConvGQR은 sparse retrieval에서 인간의 재작성을 이기지만, 그 성과 향상은 주로 생성된 잠재적인 답변에서 비롯되며 더 정보성 있는 쿼리 재작성보다는 그것이 주된 이득입니다. 
    • (IV) Dense retrieval 개선은 sparse retrieval보다 효과적이지 않습니다. 예를 들어, ED(Self)은 dense retriever GTR을 사용할 때 인간의 재작성을 1.84 MRR 점수로만 능가합니다. 이 차이는 dense retriever에서 도메인 특정 passage 및 쿼리 인코더의 필요성 때문에 발생합니다. 우리의 실험에서는 GTR 모델을 미세 조정 없이 고정된 상태로 유지하며, 이는 dense retriever의 전체 잠재력을 제한합니다. 또한 ConvGQR도 열등한 dense retriever 성능을 보이며, 고정된 일반 dense retriever로는 정보성 있는 쿼리 재작성의 우수성을 완전히 증명할 수 없다는 점을 더욱 강조합니다. 
    • (V) 결과를 하위 세트별로 분석하면 제안된 방법이 일관되게 QuAC-Conv 하위 세트에서 더 높은 성능을 달성할 수 있다는 것을 보여줍니다. 또한 sparse retrieval에 대한 MRR 및 MAP 면에서 우세하며 NQConv 하위 세트에서 밀집 검색의 두 번째로 우수한 결과를 달성합니다. 그러나 TREC-Conv 하위 세트에서는 인간의 재작성 및 T5QR에 열등합니다. 그 중 하나는 TREC-Conv에는 많은 난해한 질문이 포함되어 있어 LLM이 실제 사용자 요구를 정확히 이해하기 어려워진다는 것입니다. 심지어 인간의 재작성도 TREC-Conv에서는 희소 검색에서 QuAC-Conv 및 NQ-Conv보다 성능이 나쁩니다. 또한 TREC-Conv의 질문들은 더욱 독립적이며 재작성이 덜 필요하다는 점을 나타내는 것은 인간의 재작성과 원래 질문 간의 ROUGE-1 점수가 QuAC-Conv 및 NQ-Conv와 비교하여 더 높다는 것입니다. 구체적으로 TREC-Conv, QuAC-Conv 및 NQ-Conv의 ROUGE-1 점수는 각각 80.60, 69.73 및 72.16입니다. 
    • (VI) ED(Self) 및 ED(T5QR)는 RW(FSL)보다 우수한 성과를 보여 LLM을 재작성 편집자로 활용하는 중요성을 보여줍니다. ED(T5QR)이 전체 QReCC 테스트 세트에서 ED(Self)보다 성능이 떨어지더라도 NQConv 및 TREC-Conv 하위 세트에서 뛰어난 성과를 보이는 것은 T5QR이 인간의 재작성으로 훈련되었기 때문입니다.
  • 요약하면, 이 연구는 정보성 있는 쿼리 재작성의 중요성을 확인하고 LLM을 쿼리 재작성 및 편집자로 활용하는 우리의 제안된 방법의 효과를 입증합니다. 
  • 연구는 또한 LLM을 사용하여 쿼리 재작성을 수행할 때 쿼리 특성을 고려하는 것이 중요하며, 이 부분은 우리의 미래 연구 과제로 남겨두는 바입니다.
  • LLM 재작성 및 LLM editing 모두 각각 효과적이라는 의미이고
    • LLM 재작성을 small model로 대체했을 때, 성능이 다소 떨어지는 것 같다.
    • 사람이 재작성한 쿼리라고 해서, 항상 좋은 결과를 보여주는 것도 아님
    • dense 검색과 sparse 검색에서의 성능 결과는 조금 다른 거 같으나, 대체적으로 ED(Self)가 SoTA을 달성하는 것 같음.
    • passage후보 https://zenodo.org/records/5115890#.YZ8kab3MI-Q 에 있는 passage들 이고, sparse는 BM25로 100개 후보로 줄이는 것이고, dense는 GTR로 100개후보로 줄이는 거 같음.

5.2 Quantitative Analyses of Query Rewrites 

  • 이전 결과는 우리가 제안한 방법으로 생성된 정보성 있는 쿼리 재작성이 대화형 검색을 향상시키는 데 효과적임을 입증했습니다. 
  • 이러한 재작성의 품질에 대한 더 많은 통찰력을 얻기 위해 우리는 각 재작성당 평균 토큰 수를 정보성의 측정으로 사용하고 인간의 재작성에 나타나는 토큰의 백분율을 올바름의 측정으로 사용합니다. 
  • 우리는 더 많은 토큰을 포함하는 재작성이 해당 인간의 재작성보다 더 정확할 것이라 가정합니다. 
  • 결과는 표 2에 나와 있습니다. 
  • 우리는 제안된 방법으로 생성된 재작성이 일관되게 인간의 재작성보다 더 긴 것을 관찰하였으며, 특히 ED(Self)가 전체적으로 가장 긴 재작성을 생성합니다. 
  • 이는 우리가 제안한 방법으로 생성된 재작성이 더 많은 정보를 포함하고 있음을 시사합니다. 
  • 우리는 또한 T5QR이 인간의 재작성보다 더 짧은 재작성을 생성하는 것을 관찰했는데, 이는 오로지 인간의 재작성에서만 학습하는 것이 정보성 있는 재작성을 생성하는 데 실패한다는 것을 나타냅니다. 
  • 더 나아가, 우리가 제안한 방법들은 지도 미세 조정 없이도 상대적으로 높은 올바름을 인간의 재작성과 비교하여 달성합니다. 
    • 예를 들어, ED(Self)에 의해 생성된 재작성에는 인간의 재작성에 포함된 토큰의 76% 이상이 포함되어 있습니다. 
  • ED(T5QR)는 심지어 QuAC-Conv 및 NQ-Conv 하위 세트에서 T5QR보다 더 높은 올바름을 나타냅니다. 
  • 마지막으로, 원래 쿼리와 비교하여 더 긴 재작성 및 인간의 재작성과의 공유 토큰의 높은 백분율 (TREC-Conv의 경우 RW 제외)은 우리의 방법으로 생성된 재작성이 어느 정도 명확성을 가지고 있다는 것을 시사합니다.
  • 성능이 좋은 쿼리들을 보면 길게 재작성한 쿼리들이다.
    • 논문에서 제안한 ED(Self)가 가장 긴 재작성이고
    • T5QR은 인간보다 짧게 재작성하는데 성능도 더 안좋았다.
    • 즉 학습이 꼭 정보성있는 재작성을 생성하지 않을 수 있다.

5.3 Ablation Study 

  • 우리는 RW(ZSL)의 지시에 사용된 informativeness 요구 사항을 제거하여 (즉, "가능한 한 정보성이 풍부하게"라는 구절을 제거하여) 수정된 버전인 RWd(ZSL)을 생성함으로써 소거 연구를 실시했습니다. 
  • 표 3은 결과를 보고합니다. 
  • 우리는 희소 및 밀집 검색 모두에서 RWd(ZSL)이 RW(ZSL)에 비해 세 가지 평가 메트릭에서 모두 성능이 낮다는 것을 발견했습니다. 
  • 이는 정보성 요구 사항을 지시에 통합하는 것이 정보성 있는 쿼리 재작성을 생성하는 데 가치가 있음을 보여줍니다. 
  • 흥미로운 점은 RWd(ZSL)이 희소 검색의 MRR 및 MAP 측면에서 인간의 재작성을 능가한다는 것인데, 다시 한 번 인간의 재작성이 최적의 검색 성능을 얻는 데 실패할 수 있다는 개념을 확인합니다. 
  • 다른 세 가지 선호 속성의 소거 결과에 대한 자세한 내용은 부록 C.3을 참조하십시오.
  • 정보성있는 쿼리를 생성하라라는 instruction이 효과적이라는 것이고,
    • 이 문구가 없으면 성능이 낮아지지만 그래도 human보다는 높다.

5.4 Distillation Results 

  • 도식 3은 검색기로 BM25를 사용하여 얻은 증류 결과를 보여줍니다. 
  • 이 연구에서는 10,000개의 훈련 인스턴스를 샘플링하고 RW(FSL) 및 ED(Self)를 사용하여 T5QR 모델을 미세 조정하는 데 사용할 라벨을 생성합니다. 
  • 비교를 위해 인간의 재작성을 훈련 라벨로 사용한 결과도 포함합니다. 
  • 결과적으로 distillation가 QReCC 테스트 세트에서 인간의 재작성을 라벨로 사용하는 것보다 우수한 성과를 나타냅니다. 
  • 특히 10,000개의 훈련 인스턴스만으로도 MRR 및 MAP 측면에서 인간의 재작성을 직접 검색 쿼리로 사용하는 것보다 뛰어난 결과를 얻을 수 있습니다. 
  • QuAC-Conv 및 NQ-Conv 하위 세트에서도 증류는 일관되게 향상된 성능을 보여줍니다. 
  • 그러나 TREC-Conv의 경우, 인간의 재작성을 사용한 미세 조정이 더 나은 결과를 가져옵니다. 
  • 증류는 검색 성능뿐만 아니라 시간 부하를 감소시킵니다. 
  • 지연 분석에 대한 자세한 내용은 부록 C.4를 참조하십시오.

6 Related Work 

  • 대화형 검색은 사용자의 정보 요구를 반복적인 상호 작용을 통해 해결합니다 (Radlinski and Craswell, 2017; Rosset et al., 2020). 
  • 이는 사용자가 명확화를 제공하고 요청하며 주제의 여러 측면을 탐색할 수 있도록 허용하여 복잡한 정보 요구를 충족하는 데 능숙합니다. 
  • 대화형 검색에서의 주요 과제는 사용자의 문맥화되고 잠재적으로 모호한 쿼리에서 정확하게 사용자의 검색 의도를 식별하는 것입니다 (Ye et al., 2022a; Keyvan and Huang, 2022; Ye et al., 2022b; Wang et al., 2023; Owoicho et al., 2023; Zhu et al., 2023).
  • 대부분의 기존 작업 (Yu et al., 2021; Lin et al., 2021b; Kim and Kim, 2022; Li et al., 2022a; Mao et al., 2022)은 현재 사용자 쿼리와 해당 대화적 맥락을 연결한 것을 독립된 쿼리로 간주하여 이 과제에 대응합니다. 
    • 그러나 이 연결을 직접 검색 시스템의 입력으로 사용하면 검색 성능이 저하될 수 있습니다 (Lin et al., 2021b). 
    • 또한 이 접근 방식은 듀얼 인코더와 같은 전문 리트리버를 훈련시키는 것을 필요로 하며, 이는 많은 현실 세계 시나리오에서 도전적이거나 혹은 실현 가능하지 않을 수 있습니다 (Wu et al., 2022).
  • 다른 연구 방향은 이 도전 과제를 쿼리 재작성을 통해 해결합니다 (Elgohary et al., 2019; Wu et al., 2022; Qian and Dou, 2022; Yuan et al., 2022; Li et al., 2022b; Mo et al., 2023), 이는 원래 쿼리를 독립된 쿼리로 변환합니다. 
    • 그러나 이러한 방법들은 주로 인간의 재작성을 사용하여 쿼리 재작성 모델을 훈련시킵니다. 
    • 우리의 실험에서 보여 들었듯이 인간의 재작성은 충분한 정보를 제공하지 못할 수 있으며, 따라서 이러한 재작성 모델의 최적 성능을 얻지 못할 수 있습니다. 
    • 또한, 일부 연구는 이 도전 과제에 대응하기 위해 쿼리 확장을 사용합니다. 
    • 이들은 대화적 맥락에서 relevant terms를 선택하거나 (Voskarides et al., 2020; Kumar and Callan, 2020) 원래 쿼리를 보강하기 위해 potential answers을 생성합니다 (Mo et al., 2023). 
    • 후자는 LLMs 내의 지식을 활용하기 위해 우리의 접근 방식에 원활하게 통합될 수 있습니다. 
    • 이 부분은 우리의 미래 연구로 남깁니다.

7 Conclusion

  • 본 연구에서는 정보성 있는 쿼리 재작성을 위해 LLMs를 쿼리 재작성자 및 편집자로 활용하는 것을 제안합니다. 
  • 우리는 정보성 있는 쿼리 재작성 개념을 처음으로 도입하고 잘 형성된 재작성을 특징 짓는 네 가지 속성을 식별합니다. 
  • 또한 LLMs의 재작성 능력을 더 작은 모델로 증류하여 효율성을 향상시키는 것을 제안합니다. 
  • 우리의 실험은 쿼리 재작성에서 정보성의 중요성과 LLMs를 사용하여 재작성을 생성하는 효과를 검증합니다. 
  • 제안된 방법으로 달성한 탁월한 성과에도 불구하고, 탐구할 가치 있는 여러 미래 방향이 있습니다. 
  • 예를 들어, LLMs로 생성된 쿼리가 인간의 재작성으로 세세하게 튜닝된 모델로 생성된 쿼리보다 우선되어야 하는지를 결정하기 위한 보조 모델을 훈련할 수 있습니다. 
  • 또한 인간의 재작성과 LLM 재작성을 가중치 전략을 통해 라벨로 사용하여 쿼리 재작성 모델을 미세 조정하는 것도 가능합니다. 
  • 또한 본 연구에서는 모든 테스트 쿼리에 대해 고정된 demonstrations 집합을 사용했습니다. 
    • 최상의 성능을 얻기 위해서는 각 특정 쿼리에 적합한 적절한 시연을 찾는 것이 중요합니다. 
    • 이는 난해하거나 복잡한 쿼리에 대응하는 효과적인 해결책이 될 것입니다. 
  • 미래 방향 중 하나로는 LLM의 매개변수 효율적인 미세 조정 (예: LoRA (Hu et al., 2021))을 검토할 수 있습니다. 
  • 이렇게 하면 정보성보다는 검색 성능을 피드백으로 재작성된 쿼리의 유용성을 최적화하려고 노력할 것입니다.

Limitations

  • 우리가 제안한 방법의 세 가지 한계를 확인했습니다. 
  • 첫째, LLMs를 쿼리 재작성자 및 편집자로 활용하는 것은 LLMs와 관련된 단점을 피할 수 없습니다. 
    • 우리의 실험 결과는 LLMs가 항상 주어진 지시를 따르지 않아 원하는 속성을 갖추지 못한 재작성을 생성하는 경향이 있다는 것을 보여줍니다. 예를 들어, 이러한 재작성은 대화적 맥락에서 중복된 질문을 포함할 수 있어 중복 금지 요구 사항을 위배할 수 있습니다. 부록 C.5에서는 원래 사용자 쿼리가 잘못 해석되어 잘못된 쿼리 재작성으로 이어지는 사례 연구를 제시합니다. 
  • 둘째, 우리의 실험 결과가 개선된 검색 성능을 보여주었지만, 정보성 있는 쿼리 재작성의 효과는 주로 패시지 컬렉션의 형식에 크게 의존합니다. 
    • 패시지가 상대적으로 짧은 시나리오에서는 검색 시스템이 가장 관련성 높은 패시지를 결정하기가 더 어려워져 검색 쿼리에 더 많은 정보를 추가하는 것이 악영향을 미칠 수 있습니다. 반면에, 정보성 있는 쿼리 재작성은 긴 패시지나 문서 검색의 맥락에서 유용할 것으로 기대됩니다. 
  • 셋째, 본 연구에서는 ChatGPT라는 한 가지 LLM만을 실험했기 때문에 우리의 결과가 이 특정 모델을 중심으로 편향되었을 수 있습니다. 
    • 다른 LLMs가 동일한 수준의 성능을 달성할 수 있는지 여부는 명확하지 않습니다. 더 많은 LLMs와 함께 추가적인 조사가 유용할 것입니다.

Reference

댓글