*NL-201, Tree of Clarifications: Answering Ambiguous Questions with Retrieval-Augmented Large Language Models, EMNLP 2023

0 Abstract

  • 오픈 도메인 질문 답변의 질문은 모호한 경우가 많아 다양한 해석이 가능합니다. 
  • 이를 처리하는 한 가지 접근 방식은 Stelmakh et al.이 제안한 것처럼 모호한 질문(AQ)에 대한 가능한 모든 해석을 식별하고 모든 문제를 다루는 긴 형식의 답변을 생성하는 것입니다. 
  • 설명을 위해 사용자를 귀찮게 하지 않고 포괄적인 응답을 제공하지만, 모호함의 여러 차원을 고려하고 해당 지식을 수집하는 것은 여전히 어려운 과제로 남아 있습니다. 
  • 이러한 문제에 대처하기 위해 우리는 TOC(TREE OF CLARIFICATIONS)라는 새로운 프레임워크를 제안합니다. 
  • 이는 외부 지식을 활용한 몇 번의 프롬프트를 통해 AQ에 대한 명확성 트리를 반복적으로 구성하고 이를 사용하여 긴 형식의 답변을 생성합니다. 
  • TOC는 Disambig-F1 및 Disambig-ROUGE 측면에서 전체 훈련 세트에 대해 훈련된 fully-supervised baselines을 능가하는 동시에 모든 측정항목에 대한 몇 번의 샷 설정에서 ASQA의 기존 기준을 능가합니다. 
  • 코드는 github.com/gankim/tree-of-clarifications에서 확인할 수 있습니다.

1 Introduction

  • ODQA(오픈 도메인 질문 응답)에서 사용자는 여러 가지 방식으로 해석될 수 있는 모호한 질문(AQ)을 묻는 경우가 많습니다. 
  • AQ를 처리하기 위해 주어진 AQ에 대한 모든 그럴듯한 해석에 대해 명확성 질문(DQ)에 대한 개별 답변을 제공하거나 명확한 질문을 묻는 등 여러 접근 방식이 제안되었습니다. 
  • 그 중에서 우리는 설명을 위해 사용자를 괴롭히지 않고 포괄적인 응답을 제공하는 Stelmakh의 것을 채택했습니다. 
    • Asking 동렬님 논문과는 반대되는 뉘앙스. 사용자한테 option을 선택하는것은 귀찮다는 것.
  • 작업은 주어진 AQ의 모든 DQ를 식별하고 모든 DQ를 다루는 긴 형식의 답변을 생성하는 것입니다(그림 1 참조).
  • 이 작업에는 두 가지 주요 과제가 있습니다. 
    • (1) 모호성의 여러 차원을 고려하여 AQ를 명확하게 해야 할 수도 있습니다. 예를 들어, 그림 1의 "올림픽 역사상 가장 많은 메달을 보유한 국가"에 대한 AQ는 메달 유형(금, 은, 동메달)이나 올림픽(여름 또는 겨울)에 따라 명확해질 수 있습니다. 
    • (2) DQ 및 해당 답변을 식별하려면 상당한 지식이 필요합니다. 예를 들어, 다양한 종류의 메달이 존재하는지, 국가별로 정확한 개수가 있는지를 인식하려면 지식이 필요합니다.
  • 도전에 대응하고 AQ에 대한 긴 형식의 답변을 제공하기 위해 우리는 새로운 프레임워크, "TREE OF CLARIFICATIONS (TOC)"를 제안합니다: 
    • 이는 few-shot prompting leveraging external knowledge을 통해 AQ에 대한 DQ(질문)의 트리를 재귀적으로 구성하고 이를 사용하여 긴 형식의 답변을 생성합니다. 
  • 구체적으로는 먼저 AQ에 대한 relevant passages을 검색합니다. 
    • 그런 다음 이러한 passages을 활용하여 AQ에 대한 DQ가 퓨-샷 프롬프팅을 통해 재귀적으로 생성되고 필요에 따라 정제됩니다. 
    • 마지막으로, 모든 DQ에 대한 답변을 다루는 긴 형식의 답변이 생성됩니다. 
    • AQ를 검색해서 문서를 찾고, 이를 통해 AQ에 대한 DQ tree을 반복적으로 구성한다.
    • 그리고 이를 통해 DQ에 대한 답변을 생성하고, 이를 통해 최종 긴 답변을  생성한다.
    • 이러한 트리 구조는 명확화의 특정 차원을 탐색하여 DQ를 조사하는 데 도움이 되며, 외부 소스는 두 번째 도전에 대처하기 위한 추가 지식을 제공합니다.
  •  

  • Experiments demonstrate that our proposed use of LLMs with retrieval-augmentation and guidance to pursue diverse paths of clarification results in the new state-of-the-art on ASQA (Stelmakh et al., 2022)—a long-form QA benchmark for AQs. TOC outperforms existing baselines on ASQA in a few-shot setup across all metrics. In addition, this 5-shot performance surpasses that of the fullysupervised baselines trained on the whole training set by 7.3 and 2.9 in terms of Disambig-F1 and Disambig-ROUGE, respectively.
  • The main contribution of this work is proposing a novel framework, TREE OF CLARIFICATIONS (TOC), for generating long-form answers to AQs in ODQA, advancing the state-of-the-art on the ASQA benchmark. TOC introduces two main innovations:
    • It guides LLMs to explore diverse paths of clarification of the given AQ in a tree structure with the ability to prune unhelpful DQs.
    • To the best of our knowledge, it is the first to combine retrieval systems with LLM for generating long-form answers to AQs.

2 Related Work

  • A line of studies (Min et al., 2020, 2021; Gao et al., 2021; Shao and Huang, 2022) extends retrieve-andread frameworks dominant in ODQA task (Chen et al., 2017; Karpukhin et al., 2020; Lewis et al., 2020; Izacard and Grave, 2021) to clarify AQ and generate DQs with corresponding answers to them. However, their approaches require fine-tuning models on the large-scale train set. On the other hand, our framework enables LLM to generate a comprehensive response addressing all DQs via few-shot prompting. Recent studies introduce LLM-based methods to generate a long-form answer to the AQ. Amplayo et al. (2023) suggest optimal prompts specifically engineered for the task. Kuhn et al. (2022) prompt LLMs to clarify ambiguous questions selectively. However, the studies do not utilize external information to ensure the factual correctness of the disambiguations, thereby potentially increasing the risk of hallucinations from LLMs. Moreover, the results could be bounded by inherent parametric knowledge of LLM. Concurrently, Lee et al. (2023) automatically generate clarifying questions to resolve ambiguity.
  • Our framework involves the recursive tree architecture, inspired by several prior studies. Min et al. (2021) propose the tree-decoding algorithm to autoregressively rerank passages in ambiguous QA. Gao et al. (2021) iteratively explore additional interpretations and verify them in a round-trip manner. Concurrently, extending chain of thoughts (Wei et al., 2022) prompting, Yao et al. (2023) apply the tree architecture to reasoning tasks for deductive or mathematical problems. On the contrary, TOC recursively clarifies questions and introduces a self-verification method to prune unhelpful DQs.

3 Tree of Clarifications 

  • We introduce a novel framework, TREE OF CLARIFICATIONS (TOC), as illustrated in Figure 1. We first devise retrieval-augmented clarification (RAC; Sec. 3.1), a basic component that clarifies AQ and generates DQs based on relevant passages. TOC explores various fine-grained interpretations, represented as a tree structure (TS; Sec. 3.2) by recursively performing RAC and pruning unhelpful DQs. Lastly, it aggregates the tree and generates a long-form answer addressing all valid interpretations.

3.1 Retrieval-Augmented Clarification (RAC)

  • We first retrieve relevant Wikipedia documents for the AQ by using two retrieval systems, ColBERT (Khattab and Zaharia, 2020) and Bing search engine1 . ColBERT is a recent dense retriever that has effective and efficient zero-shot search quality. Following Khattab et al. (2022), we use the off-the-shelf model pre-trained on MS-Marco (Bajaj et al., 2016). We additionally include the Bing search engine to promote the diversity of retrieved Wikipedia passages. Finally, we obtain over 200 passages by combining passages retrieved by each system.  
  • After collecting a passage set for the AQ, we rerank and choose top-k passages and augment them to a prompt. We use SentenceBERT (Reimers and Gurevych, 2019) pre-trained on MS-Marco as the reranker backbone. For in-context learning setup, we dynamically choose k-shot examples with the nearest neighbor search2 and add them to the prompt. We initiate with the instruction of Amplayo et al. (2023) and revise it for our setup. Given the prompt with relevant passages and AQs, LLM generates all possible DQs and their corresponding answers.



























Reference

댓글