NL-200, Asking Clarification Questions to Handle Ambiguity in Open-Domain QA, Findings of EMNLP 2023

◼ Comment

  • 이 논문은 첨보는 테스크이다.
    • Open-domain QA에서 어떤 질문이 있을때, 이 질문이 모호할 수가 있다.
    • 이전 연구들은 이러한 모호한 question을 모호하지 않게 바꾸는 것이 있다.
    • 하지만 모호하지 않은 question, 즉 DQ는 여러 변형이 있다. 
    • 이러한 모든 DQ에 대해 답변을 보여주는 것은 별로라는 것이다.
    • 따라서 모호한 question (AQ)을 CQ라고해서 {카테고리:옵션들}을 선택하게해서 더 나은 question으로 바꿔서 답변 받으면 좋다라고 주장한다.
  • 사람평가에서 CQ가 DQ보다 더 선호도 높은 응답형식이라고 보여준다.
  • 대표적으로 테스크는 3가지로 나뉜다
    • 1) question이 모호한지 아닌지
    • 2) 모호한 question(AQ)에서 CQ을 생성하기 (카테고리, 옵션들)
    • 3) QA관점에서 AR or CQ을 어떻게 활용해서 좋은 answer을 받을까?
  • 또한 기존에 AQ->DQ에 대한 데이터세트가 있는데, LLM 및 사람을 통해서 CQ 데이터세트까지 만들어서 공개한다고 한다.
  • 검색 도메인은 아니지만, 일종의 search clarification과 밀접하다고 생각된다.
    • 즉 query or question이 애매모호할 때, 응답을 어떻게 보여줄지에 대한 고민으로부터 시작되는 것이다.

0 Abstract 

  • 개방형 도메인 질문 응답에서 애매한 질문은 일반적으로 명확한 답변을 갖추기 어려운 문제로 남아 있습니다. 
  • 이전 연구들은 애매한 질문의 모든 가능한 해석에 대해 구체적인 질문을 생성하고 응답함으로써 이 문제에 대처해 왔습니다. 
  • 대신, 우리는 사용자의 응답이 사용자의 의도와 가장 일치하는 해석을 식별하는 데 도움이 되는 명확화 질문을 제시합니다. 
  • 먼저, 우리는 관련 텍스트, 가능한 답변 및 명확화 질문이 포함된 5,653개의 애매한 질문으로 구성된 CAMBIGNQ 데이터셋을 제시합니다. 
  • 명확화 질문은 InstructGPT를 사용하여 효율적으로 생성되었으며 필요에 따라 수동으로 수정되었습니다. 
  • 그런 다음 세 가지 작업의 파이프라인을 정의합니다
    • (1) ambiguity detection, (2) clarification question generation, and (3) clarification-based QA
  • 이 과정에서 건전한 research를 용이하게 하기 위해 적절한 평가 메트릭을 채택하거나 설계합니다. 
  • 마지막으로 우리는 각각 61.3, 25.1 및 40.5의 F1을 달성하여 추가 개선이 필요함을 보여주며, 향후 연구를 위한 경쟁력 있는 기준을 제공합니다.

1 Introduction

  • 오픈 도메인 질문 응답(ODQA)에서 질문은 종종 여러 방식으로 해석될 수 있으며 각각에 대한 구별된 답이 있을 수 있습니다. 
  • 예를 들어, Figure 1 상단의 질문을 고려해 보세요. 질문은 명확해 보이지만 "young Tom Riddle"은 "시리즈 2의 어린 버전", "시리즈 6의 어린이 버전", 또는 "시리즈 6의 십대 버전"일 수 있습니다. 
  • 이러한 모호성은 사용자가 찾는 답을 올바르게 찾기 위해 해결되어야 합니다. 
  • 이전 연구에서는 모호한 질문(AQs)을 처리하기 위해 각 가능한 해석에 대해 구별된 질문(DQ; disambiguated variation of the given AQ)을 생성하는 방법이 제안되었습니다. 
    • 즉 DQ는 AQ가 모호하지 않게 다양한 question으로 바꿔주는 것
  • 이러한 DQ 기반 접근 방식은 ODQA에서 모호성을 해결하는 중요한 단계이지만, 실제로 어떻게 적용될지 상상해 보십시오. 
    • 사용자의 의도를 알지 못한 채 QA 시스템은 그림 1(a)와 같이 사용자에게 가능한 모든 답변을 나열해야 합니다. 
    • 이는 QA 시스템이 음성이나 작은 화면 장치를 통해 사용자와 통신하는 대부분의 실제 시나리오에는 적합하지 않습니다.
    • 다양한 의도에 대해 모두 답변을 낸다면, 작은 화면에 적절하지 않다고 말함
    • 어떤 질의인지, 어떤 부분이 애매모호한지에 따라 다를 거 같음
    • 위의 예시에서는 적절하지 않을 수 있음
    • 캠핑 -> 캠핑 용품 등과 같은 facet 단위로 보면 꼭 그런건 아님
    • 여기서는 open-domain QA에 대한 테스크니까 질의가 자연어 질문형이니 그럴 수 있을 것 같음
  • 대신, 우리는 사용자에게 Figure 1(b)에서 보여지는 명확한 질문 (CQ)으로 사용자에게 질문하는 것을 제안합니다. 
    • 더 구체적으로, 주어진 AQ를 고려할 때 목표는 가능한 해석을 옵션으로 하는 CQ를 묻는 것입니다(예: "시리즈 6의 십대자"). 
    • 그리고 선택지를 요약하는 범주도 포함됩니다(예: "버전"). 
    • 이상적으로는 사용자가 CQ에 대한 응답을 통해 사용자의 의도와 가장 일치하는 해석을 식별할 수 있으며, 해당 응답을 사용자에게 제시할 수 있습니다. 
    • 이 CQ 기반 접근 방식은 위에서 언급한 현실 세계 시나리오뿐만 아니라 선호도 테스트에 따르면 사용자에게 선호되는 것으로 나타났습니다. 
    • 또한 CQ를 하면 "제한된 대역폭" 인터페이스에서 사용자 경험을 개선할 수 있다는 결과와 일관됩니다(Zamani 등, 2020a).
    • 명확히 하는 option을 제안하고 (일명 CQ) 이를 클릭하여 의도를 식별하는게 좋다.
  • ODQA에서 AQ를 처리하기 위한 CQ 기반 접근 방식에 대한 연구를 지원하기 위해, 우리는 Clarifying Ambiguous Natural Questions (CAMBIGNQ)을 제시합니다.
    • CAMBIGNQ는 AMBIGNQ에서 파생된 5,653개의 AQ로 구성된 데이터셋으로, 각각 관련 문단, 가능한 답변 및 새롭게 생성된 CQ가 함께 제공됩니다. 
    • CQ는 먼저 InstructGPT를 사용하여 컨텍스트 기반 few-shot 학습을 통해 생성되었으며, 그런 다음 인간 편집자에 의해 필요에 따라 수동으로 확인 및 편집되었습니다. 
    • 이와 같은 인간-기계 협업을 통한 코퍼스 구축은 완전 수동적인 방식에서의 시간과 비용을 크게 줄일 수 있다는 것이 증명되었습니다.
    • 데이터세트 공개!
  • 또한 ODQA에서 AQ를 처리하기 위한 세 가지 작업의 파이프라인을 정의합니다 
    • (1) ambiguity detection, (2) clarification question generation, and (3) clarification-based QA.
  • 이 과정에서 건전한 research를 돕기 위해 적절한 평가 지표를 채택하거나 설계합니다. 
  • 실험 결과로는 DQ 생성에 도움이 되었음에도 불구하고 AQ에 대한 예측 답변은 전반적으로 CQ 기반 접근 방식을 향상시키지 않는 것으로 나타났습니다. 
  • 마지막으로, 세 작업에 대해 각각 61.3, 25.1 및 40.5의 F1을 달성하여 추가 개선이 필요함을 보여주면서 미래 연구를 위한 경쟁력 있는 기준을 제공합니다.
  • Our main contributions are threefold:
    • 우리는 CQ를 사용하여 ODQA에서 AQ를 처리하는 실용적인 수단을 제안합니다. Zamani 등(2020a)의 연구 결과와 일관성 있게, 우리의 인간 선호도 테스트는 DQ 대신 CQ의 사용을 선호하는 결과를 보여줍니다(Section 5). 즉 DQ로 AQ의 애매모호함을 해결할 다양한 답변을 내뱉는 방법보다는, CQ의 방법이 더 선호한다라는 결과
    • 우리는 CAMBIGNQ를 제시합니다. 이는 AMBIGNQ라는 훌륭하게 정리된 자원과 InstructGPT 및 인간 편집자의 능력을 활용하여 효율적으로 구축되었습니다(Section 4). 데이터세트 공개!
    • 우리는 ODQA에서 AQ를 처리하기 위한 작업 파이프라인과 적절한 평가 지표를 정의합니다(Section 3). 실험 결과로는 DQ 생성에 도움이 되었음에도 불구하고 AQ에 대한 예측 답변은 전반적으로 CQ 기반 접근 방식을 향상시키지 않는 것으로 나타났습니다(Section 6). AQ 처리하는 적절한 평가메트릭을 제시

2 Related Work

  • Clarification Question Datasets 
    • 질문의 모호성을 해결하기 위해 다양한 도메인에서 CQ 데이터셋이 공개되었습니다. 
    • 정보 탐색 도메인에서는 대화 또는 웹 검색을 위한 CQ 데이터셋이 크라우드소싱이나 실제 사용자의 후속 검색 쿼리에서 수집되었습니다. 
    • 질문 응답 도메인에서는 특정 주제 또는 지식 베이스에 중점을 둔 데이터셋이 제안되었습니다. 
    • 우리의 지식으로는, 우리는 ODQA를 위한 CQ 데이터셋을 처음으로 공개한 것으로 알고 있습니다.
  • Dataset Construction Leveraging LLMs 
    • 데이터셋을 수동으로 처음부터 구축하는 것은 수고롭고 비용이 많이 들며, 데이터셋의 성격에 따라 금지적일 수 있습니다. 
    • 또한 실제 사용자 데이터에 대한 액세스는 특정 커뮤니티로 엄격히 제한됩니다. 
    • 이러한 문제를 완화하기 위해 LLMs를 활용하여 데이터셋을 구축하는 방법이 최근에는 대화 (Bae 등, 2022), 도메인 적응 (Dai 등, 2022) 및 일반적으로 (Ding 등, 2022)과 같은 다양한 도메인에서 사용되었습니다. 
    • 그러나 이러한 방법은 우리의 것을 제외하고는 CQ 데이터셋을 구축하는 데 사용된 적이 없습니다. 
    • 우리는 InstructGPT (Ouyang 등, 2022)를 사용하여 컨텍스트 기반 few-shot 학습을 통해 CQ를 생성하고, 그런 다음 필요에 따라 수동으로 확인 및 편집하여 데이터셋을 구축했습니다.
  • Clarification Question Evaluation 
    • CQ의 품질을 평가하는 여러 옵션이 있습니다. 
    • 첫 번째로는 BLEU 또는 ROUGE와 같은 널리 사용되는 자동 텍스트 평가 지표를 활용하는 것입니다. 
      • 그러나 이러한 점수와 인간 평가 간의 상관 관계가 약하기 때문에 Zamani 등 (2020b)은 이러한 메트릭의 사용을 강력히 비추천합니다. 
    • 두 번째로는 인간 평가입니다. 
      • 일반적으로 주어진 CQ에 대한 사람들의 생각을 신뢰할 수 있는 추정치를 제공하지만 시간이 많이 소요되고 비용이 많이 들 수 있습니다. 
    • 세 번째 옵션으로는 외부 신경 모델을 사용한 평가 방법이 최근에 소개되었습니다 (Rei 등, 2020; Mehri와 Eskenazi, 2020; Lee 등, 2021).
      • 이 접근 방식은 첫 번째를 개선하면서도 두 번째의 부담이 없습니다. 
      • 본 연구에서는 외부 신경 모델을 활용하여 작업에 적합한 평가 방법을 설계하여 더 포괄적이고 정확한 평가를 제공합니다.
      • BERTScore 이런거를 말하는 건가?

3 Task Overview

  • ODQA(Open-Domain Question Answering)에서 AQs(Ambiguous Questions)를 처리하기 위해 Figure 2에 나와 있는대로 CQs(Clarification Questions)를 제안합니다. 
  • 세 가지 작업이 있습니다:
    • (1) ambiguity detection,
    • (2) clarification question generation, 
    • (3) clarification-based QA.

3.1 Task 1: Ambiguity Detection

  • Task 
    • 주어진 질문과 관련 있는 단락들이 있을 때, 질문이 모호한지 여부를 결정하는 것이 목표입니다. 
    • 이는 Figure 2(a)에 나와 있습니다. 
    • 질문이 여러 방식으로 해석될 수 있으며 각각에 고유한 답변이 연결되어 여러 가능한 답변이 나오면 질문은 모호하다고 간주됩니다. 
    • 질문이 한 가지 방식으로만 해석될 수 있어 단일 가능한 답변만 나오면 질문은 모호하지 않다고 간주됩니다.
  • Evaluation 
    • 이 binary classification 작업에 대해 우리는 accuracy, recall, precision, and F1.과 같은 표준 지표를 사용합니다.

3.2 Task 2: Clarification Question Generation 

  • Task 
    • 주어진 AQ와 관련 있는 단락들이 있을 때, 목표는 CQ를 생성하는 것입니다. 
    • 이 CQ에 대한 유효한 응답이 AQ의 여러 답변 중 정확히 하나와 연결되어야 합니다.
    • A CQ is typically formatted as follows:
      • “Which [category]: [option1], [option2], ..., or [optionn]?” 
    • 여기서 [category]는 Figure 1에서의 "version"과 같이 모든 옵션이 속하는 범주를 나타냅니다. 
    • 옵션들을 단일 범주로 그룹화할 수 없는 경우, "one"이 범주를 나타내는 자리 표시자로 사용됩니다. 
    • 또한 적절한 경우 "Which" 앞에 전치사와 같은 추가 단어가 올 수 있습니다. 예를 들어 "In which context". 
    • AQ의 각 가능한 해석에 대해 [optionj]가 있어야 합니다. 
    • 또한 주어진 CQ에 대한 유효한 응답으로는 옵션들만을 고려합니다.
  • Evaluation 
    • 우리는 생성된 CQ의 품질을 두 가지 세부 수준에서 평가합니다. 
    • 먼저, generated CQ를 reference CQ와 비교하여 표준 BLEU-4 지표와 BERT-SCORE를 사용합니다.
      • reference CQ는 데이터세트에 있는 것인가?
    • 두 번째로, 카테고리와 옵션을 더 세분화된 평가를 위해 별도로 평가합니다. 
      • 카테고리에 대해서는 카테고리가 일반적으로 매우 짧기 때문에 정확 일치 (EM) 및 BLEU-1이 계산됩니다. 
      • 옵션에 대해서는 Li et al. (2022)의 partial match 평가 메트릭을 채택하고 조정합니다. 
      • 이 메트릭은 predicted set and a reference set 집합 간의 유사성을 측정하는 것이 목표입니다.
    • 문자열 집합 간의 정확한 매핑이 알려지지 않았기 때문에 이 메트릭은 세트 간 모든 쌍에 대한 가장 긴 공통 부분 문자열 (LCS)을 기반으로 유사성을 측정하고 가장 높은 점수를 유지합니다. 
    • 여기서 예측된 세트의 여러 문자열이 참조 세트의 동일한 문자열과 일치할 수 있습니다. 
    • 본 연구에서는 각 옵션이 AQ의 고유한 해석을 나타내야 하기 때문에 참조 옵션을 최대 하나의 예측된 옵션과 일치시키는 제약을 부과합니다. 
    • 따라서 우리는 유사성 점수를 최대화하는 최적의 할당을 찾기 위해 헝가리 알고리즘 (Kuhn, 1955)을 사용하고 다음과 같이 정밀도, 재현율 및 F1을 계산합니다:
    • 여기서 Pi와 Ri는 i번째 샘플에 대한 예측된 옵션과 참조 옵션의 집합입니다. 
    • sim(·)은 LCS 기반의 유사성 측정입니다. 
    • 그리고 fi : Pi → Ri는 헝가리 알고리즘에서 계산된 최적의 일대일 매핑입니다. 
    • F1은 일반적으로 정밀도와 재현율의 조화 평균입니다.
  • Please refer to Appendix A.1 for more details.

3.3 Task 3: Clarification-based QA

  • Task 
    • 주어진 AQ, 관련된 단락 및 CQ의 목표는 CQ에 대한 각 유효한 답변에 대해 고유한 답변을 생성하는 것입니다. 
    • 즉, 각 답변은 AQ의 해석과 관련된 옵션으로 연결됩니다. 
    • 각 답변은 CQ에 대한 수정된 AQ를 기반으로 QA 모델을 호출하여 생성됩니다. 
    • 이는 AQ, 범주 및 단일 옵션을 연결한 것입니다: "AQ, Which [category]: [optionj]". 
      • 이런식으로 Question 날려서 Answer을 받는다?
      • 어떤 QA 모델을 쓰는 거지?
    • 유의해야 할 점은 CQ에 의해 수정된 각 AQ가 고유한 해석과 구별된 답변을 가지기 때문에 답변을 생성하기 전에 관련된 단락을 먼저 다시 순위를 매겨야 한다는 것입니다.
  • Evaluation 
    • 이 절차는 CQ 생성을 위한 옵션 평가와 유사하며, 헝가리 알고리즘을 사용하여 예측된 답변과 참조 답변 간의 최적 매핑을 결정하는 부분 일치 방법을 사용합니다.
    • 유일한 차이점은 각 정렬된 예측 답변과 참조 답변 쌍에 대해 max prec i 및 max rec i가 다르게 계산된다는 것입니다. 
    • 이는 QA에서 올바른 답변이 "Michael Jordan", "MJ", 및 "Jordan"과 같이 여러 방식으로 표현될 수 있기 때문입니다.
    • 따라서 예측된 답변은 동일한 답변의 모든 변형과 비교되며 해당 쌍에 대해 최대 점수가 사용됩니다.
    • 그런 다음 이전과 같이 정밀도, 재현율 및 F1이 계산되며 새로 계산된 max prec i 및 max rec i가 사용됩니다.
    • 자세한 내용은 부록 A.2를 참조하십시오.

4 The CAMBIGNQ Dataset

4.1 Dataset Construction 

  • 우리는 Clarifying Ambiguous Natural Questions (CAMBIGNQ)라는 새로운 데이터셋을 제시합니다. 
  • 이 데이터셋은 5,653개의 AQ로 구성되어 있으며, 각각 관련된 단락, 가능한 답변 및 CQ를 포함하고 있습니다. 
  • CAMBIGNQ는 AMBIGNQ(Min et al., 2020)의 AQ에서 구성되었으며, 각 AQ에는 관련된 단락과 AQ의 가능한 해석 및 해당 답변을 반영한 DQ와 답변 쌍이 제공됩니다.
  • CAMBIGNQ를 구축하기 위해 각 DQ 세트를 CQ로 대체했습니다. 다시 말해, CQ는 DQ 세트의 통합된 버전입니다. 
  • 각 DQ를 단일 구문 옵션으로 표현하는 것은 수동으로 수행하기에는 번거로울 수 있습니다. 
  • 따라서 우리는 InstructGPT를 활용하여 CQ의 고품질 데이터를 수집하였으며, 이는 두 단계 프레임워크를 사용했습니다:
    • Generation via InstructGPT 
    • Manual Inspection and Revision.
  • Generation via InstructGPT 
    • InstructGPT의 few-shot learning 능력을 활용하기 위해 먼저 AQ에 대한 소수의 CQ를 수동으로 주석을 달았습니다. 
    • 이러한 수정된 CQ는 "few-shot" 예제로 사용되며 간단한 지침, AQ, 그리고 해당 DQs와 함께 사용됩니다. 
    • 범주의 다양성과 옵션의 수를 고려하여 여섯 가지 예제를 샘플링했습니다.
    • 최종 프롬프트는 다음과 같은 형식으로 여섯 가지 예제, 지침, 목표 AQ 및 목표 DQs의 연결로 구성됩니다:
    • “instruction, AQ_1, DQs_1, CQ_1, ..., instruction, AQ_6, DQs_6, CQ_6, instruction, AQ_target, DQs_target” 
    • few-shot은 6개 고정하는 방법이겠지?
    • 즉 여기서 AQ, DQ는 있는 것이고 CQ을 생성하는 방법인 듯
    • 생성한다는 CQ는 카테고리랑 옵션들을 의미하는 것인듯
  • Manual Inspection and Revision 
    • 모집된 주석 담당자들에게는 지침을 읽고 이에 따라 25개의 CQ를 수정하는 자격 테스트를 수행하도록 요청했습니다. 
    • 자격 테스트를 통과한 편집자들에게는 그들이 InstructGPT에 의해 생성된 CQ를 검토하고 필요에 따라 수정하도록 요청했습니다.
  • 최종 CQ의 품질을 보장하기 위해 편집자들에게는 다음 프로토콜을 따르도록 요청되었습니다: 
    • 첫째, AQ가 적어도 두 가지 이상의 구별된 해석과 해당 DQs를 갖고 있는지 확인; 
    • 둘째, InstructGPT에 의해 생성된 CQ가 올바른 형식인지 확인 (3.2절 참조); 
    • 셋째, 각 옵션이 해당 DQ 및 범주를 정확하게 나타내는지 확인. 
  • 편집자들은 세 가지 행동 중 하나를 선택할 수 있었습니다. 
  • 즉, AQ를 모호하지 않다고 표시할 수 있었고, 즉 하나의 해석과 답변만 있다는 것을 의미합니다 (1.5%의 경우 발생). 또는 CQ를 수정할 수 있었고 (71.8%의 경우 발생), 또는 CQ를 그대로 둘 수 있었습니다 (26.7%의 경우 발생). (예제 수정에 대한 자세한 내용은 표 2를 참조하십시오.) 
  • 높은 수정률은 InstructGPT를 사용한 few-shot 생성이 완벽하지 않았으며 수동 편집이 필요했다는 것을 시사합니다.
  • 주석자 간 일치도에 대한 평가를 위해 두 주석자에 의해 주석이 달린 검증 세트를 사용하였으며, 이는 Min et al. (2020)을 따릅니다. 
    • 카파 계수 (Cohen, 1960)는 0.623로, "상당한 일치"로 간주될 수 있습니다 (McHugh, 2012).

4.2 Dataset Analysis 

  • 전체 데이터셋은 Table 1에 나타난 대로 5,653개의 데이터 포인트로 이루어져 있습니다. 
  • 훈련 세트는 AMBIGNQ의 훈련 세트에서 가져왔으며, 검증 및 테스트 세트는 AMBIGNQ의 개발 세트에서 무작위로 분리되었습니다. 
  • 데이터셋의 각 AQ는 평균적으로 세 가지 이상의 해석을 가지고 있으며, 이는 역으로 각 CQ가 평균적으로 세 가지 이상의 옵션을 가지고 있다는 것을 의미합니다. 
  • CQ의 평균 길이는 분할에 따라 다양하며, 일반적으로 더 긴 CQ는 더 많은 옵션을 가지고 있는 경향이 있습니다.
  • Table 2의 첫 번째 열은 InstructGPT에 의해 생성된 CQ의 어떤 구성 요소가 인간 편집자에 의해 수정되었는지에 대한 통계를 보여줍니다. 
    • 전체 데이터셋 중 약 8%가 CQ의 유효하지 않은 형식으로 인한 것입니다. 
    • 이는 InstructGPT에게 프롬프트로 여섯 가지 예제 CQ가 제공되었지만 형식을 강제하기에 항상 충분하지 않았다는 것을 의미합니다. 
    • 또한 범주에 대한 일반적인 수정 중 하나는 "one"으로부터 변환되거나 그 반대로 변환되었습니다. 
  • 이는 InstructGPT가 종종 그룹화할 수 없는 옵션을 그룹화하려고 하거나 그룹화할 수 있는 옵션을 단일 범주로 그룹화하지 않으려고 하는 경향이 있음을 의미합니다. 
  • 옵션에 대한 일반적인 수정 중 하나는 InstructGPT가 단일 옵션으로 생성한 것을 분할하는 것이었습니다. 
  • 이러한 오류는 또한 DQ 또는 해석의 수와 옵션의 수 간의 불일치로 이어질 수 있습니다. 
  • 전반적으로 오류를 최소화하기 위한 추가적인 프롬프트 엔지니어링의 여지가 있지만, 우리는 현재까지 고품질의 데이터셋을 구축하기 위해 수동 수정이 필수적이라고 믿습니다. 
  • 자세한 내용은 부록 B를 참조하십시오.

5 Experiment 1: CQ vs DQ Preference

  • 우리는 먼저 인간 우선도 테스트를 수행하여 다음 질문을 조사합니다: 
    • CQ 기반 접근 방식이 ODQA에서 AQ를 처리하는 데 DQ 기반 접근 방식보다 선호됩니까? 
  • 이는 CQ 기반 접근 방식을 추구할 가치가 있는지 확인하기 위한 것입니다.
  • Setup 
    • 개발 세트에서 무작위로 100개의 AQ를 추출했습니다. 
    • 그런 다음 각 AQ에 대해 세 명의 주석 담당자에게 "CQ", "DQ" 또는 "Equal" 중 선호하는 항목을 선택하도록 하였습니다. 
    • 즉, 주어진 AQ에 대해 사람들에게 "AQ의 모든 가능한 해석(DQs)에 대한 답변을 제시받는 것"과 "먼저 CQ에 답하고 그들의 의도에 맞는 답변을 제시받는 것"을 비교하도록 했습니다. 
    • 그런 다음 각 질문에 대한 주요 선호도를 보고합니다. 
    • 자세한 내용은 부록 C를 참조하십시오.
  • Results and Analysis 
    • Figure 3에서는 CQ를 사용하여 AQ에 답하는 것이 DQ보다 선호됨을 보여줍니다. 
    • "CQ"를 선호하는 주석 담당자들이 언급한 주요 이유는 사용의 용이성, 간결성, 상호 작용성 및 명확한 안내 기능입니다. 
    • 반면에 "DQ"를 선호하는 주석 담당자들은 더 구체적이고 주어진 질문에 대해 더 명확하게 대답하는 데 이점이 있다고 언급했습니다.
    • 스마트블록이 유저친화적일 수 있겠다라는 간접적인 근거도 될 거 같음
    • 블록을 클릭해서 정보를 얻는 시스템이므로?
  • 참고로, CQ는 23번의 일치로 전원 선호되었으며, DQ는 5번 선호되었습니다. 
  • 또한, CQ를 선호하는 일치는 해석 또는 옵션의 수에 관계없이 모든 AQ에서 관찰되었으며, DQ를 선호하는 일치는 해석이 최대 세 개인 AQ에서만 발생했습니다. 
  • 다시 말해, CQ는 해석의 수에 관계없이 선호될 수 있지만 DQ는 많은 해석이 가능할 때 선호되지 않을 수 있습니다. 
  • 너무 많은 해석이 가능하면, 일일히 다 보여주면서 noise를 너무 많이 보게되서 그런 거 아닐까?
  • 이는 더 많은 해석이 DQ 기반 응답을 위해 처리해야 할 텍스트가 더 많아진다는 점에서 직관적입니다.

6 Experiment 2: Handling AQ with CQ

  • CQ가 DQ보다 선호되는 상황에서, 이제 다음 질문을 연구합니다: 
    • AQ에 대한 예측된 답변이 CQ 기반 접근 방식의 엔드-투-엔드 성능을 향상시키는 데 도움이 되는가? 
  • 이전 DQ 기반 접근 방식에서 AQ에 대한 예측된 답변이 도움이 되었다는 것이 보여졌으므로 (Min et al., 2020; Gao et al., 2021), 이제 이것이 CQ 기반 접근 방식에도 도움이 되는지 확인하고자 합니다. 이를 위해 두 가지 설정으로 실험합니다:
    • 1. Predicted Answers for AQ: AQ에 대해 QA 모델을 실행하고 예측된 답변을 후속 작업에 입력으로 통합합니다.
    • 2. No Answers for AQ: AQ에 대한 답변을 예측하지 않고, 따라서 후속 작업에서 사용하지 않습니다.
  • 섹션의 나머지 부분에서는 각 작업에 대한 실험 설정과 결과를 제시합니다. 
  • 자세한 내용은 부록 D를 참조하십시오.

6.1 Task 1: Ambiguity Detection

  • Setup 
    • 우리의 데이터셋은 여러 해석과 답변을 가진 AQ(모호한 질문)만으로 구성되어 있기 때문에, 
    • 이 작업을 위해 AMBIGNQ에서의 단일 해석과 답변을 가진 모호하지 않은 질문들과 결합합니다.
  • No Answers for AQ case의 경우 이진 분류 작업을 위해 맨 위에 간단한 완전 연결 레이어가 있는 BERT-BASE 모델(Devlin et al., 2018)을 사용합니다. 
    • 모델은 96개 에포크 동안 결합된 데이터 세트에 대해 학습되었습니다. 
    • 또한 모델은 “question [SEP] relevant_passages” 형식의 프롬프트를 입력으로 받아들이고 "모호함" 또는 "명확함"을 출력합니다.
    • 즉 BERT로 question이 모호한지 아닌지를 분류하는 방법
  • Predicted Answers for AQ case의 경우 Min et al. (2020)에 의해 AQ에 대한 답변을 예측하는 데 가장 우수한 성능을 보인 BART 기반 모델인 SPANSEQGEN을 사용하고, 이를 AMBIGNQ 데이터셋에서 finetune했습니다. 
    • 이 모델은 "question [SEP] relevant_passages" 형식의 프롬프트를 입력으로 사용하고 모든 타당한 답변을 예측합니다. 
    • 모델이 두 개 이상의 타당한 답변을 출력하면 질문을 "모호"로 분류하고, 그렇지 않으면 "명확"으로 분류합니다.
    • 일단 모든 question에 대해 BART기반모델 (SPANSEQGEN)으로 답변을 생성하는데, 답변이 2개이상이면 "모호함"으로 분류, 아니면 "명확함"으로 분류하는 방식
  • Results and Analysis 
    • 표 3은 BERTBASE(No Answers) 및 SPANSEQGEN(Predicted Answers) 모델의 모호성 탐지 결과를 요약합니다. 
    • SPANSEQGEN은 BERT-BASE(59.7 대 61.9)와 유사한 정밀도를 나타내지만 재현율은 상당히 낮습니다(24.1 대 60.7). 
    • 대부분의 질문이 “명확함”으로 분류되기 때문입니다. 
    • SPANSEQGEN에 의해 생성된 평균 답변 수는 1.24이기 때문입니다. 
    • 결과적으로 이는 동일한 사례에 대한 회상과 비교할 때 훨씬 더 높은 정밀도를 가져옵니다. 
    • 이 결과는 그럴듯한 모든 답변을 예측하여 AQ를 분류하는 것이 Seq2Seq 모델의 어려운 작업임을 나타냅니다.

6.2 Task 2: Clarification Question Generation 

  • Setup 
    • 이 작업에서는 모호성 감지와 작업을 분리하기 위해 ground truth AQs만 사용합니다. 
    • 오류가 한 작업에서 다음 작업으로 전파되는 실험에 대해서는 섹션 6.4를 참조하십시오.
  • No Answers for AQ 작업에서는 먼저 "AQ [SEP] relevant_passages"를 입력으로 사용하고 CQ를 출력으로 생성하는 BARTlarge 모델을 18 에폭 동안 훈련시킵니다. 
    • 추론 중에는 이 모델을 "AQ [SEP] relevant_passages" 형식의 프롬프트로 사용합니다.
  • Predicted Answers for AQ 작업에서는 또 다른 BARTlarge 모델을 41 에폭 동안 훈련시킵니다. 
    • 이 모델은 "AQ [SEP] possible_answers [SEP] relevant_passages"를 입력으로 사용하고 CQ를 출력으로 생성합니다. 
    • 추론 중에는 모델이 SPANSEQGEN에 의해 예측된 답변으로 입력을 받습니다.
    • 즉 여기서는, AQ에 대한 예측답변도 CQ을 생성하는데 활용하겠다는 뜻인듯
  • 추가로 Ground Truth Answers for AQ 케이스도 고려합니다. 
    • 이 경우는 Predicted Answers for AQ 케이스의 이상적인 버전으로, 여기서는 가능한 답변으로 실제 답변을 사용합니다. 
    • 따라서 이 케이스에서는 올바른 타당한 답변 세트를 제공하는 효과를 조사할 수 있습니다.
    • 여기서는 AQ에 대한 정답 답변을 활용하는 방법
  • Results and Analysis 
    • CQ 생성의 평가 결과는 세 가지 입력 변형에 대해 Table 4에 제시되어 있습니다. 
    • 결과는 두 가지 현실적인 시나리오(No Answers for AQ, Predicted Answers for AQ)에서 생성된 CQ의 품질이 CQ 자체, 범주 또는 옵션 측면에서 크게 변하지 않음을 나타냅니다. 
    • 이는 타당한 답변을 CQ 생성 프로세스의 입력으로 통합하는 것이 현실적인 시나리오에서 생성된 CQ의 품질을 향상시키지 않는 것으로 보입니다. 
    • 그러나 CQ 생성 프로세스에 실제 정답을 입력으로 제공할 때(Ground Truth Answers for AQ), 생성된 CQ의 품질에서 상당한 향상이 관찰되지만, 여전히 개선의 여지가 많아 보입니다.
    • GT Answer은 효과적이긴하나 Predicted Answer은 그닥 효과가 없어보임
  • 몇몇 경우에서 의미적으로 정확한 예측된 CQ가 잘못 계산된 것으로 간주되었습니다. 
  • 예를 들어, Table 2의 예시 5에서 모델이 CQ "Which chairman: 2017 or 2012?"를 생성했습니다. 
  • 비록 이것이 잘못되었다고 여겨졌지만, 관련 통로를 수동으로 검토한 결과 4번째와 3번째 회장이 각각 2017년과 2012년에 취임했음을 확인할 수 있습니다. 
  • 이는 예측된 CQ와 해당 참조 CQ를 직접 비교하는 것의 어려움을 보여줍니다. 
    • 따라서 Table 4의 절대 점수는 상대적인 점수만큼 의미가 있지 않을 수 있습니다. 
    • (정답) Reference CQ라고 간주하는 것에도 오류가 있을 수 있기 때문에 이 평가가 완벽하지 않을 수 있다.
  • 또한 CQ를 평가하는 다운스트림 작업에서 CQ의 품질을 더 잘 평가하기 위해 필요할 수 있으며, 이는 우리가 역명목 QA 작업에서 수행합니다.

6.3 Task 3: Clarification-based QA

  • Setup 
    • 우리는 Natural Questions (NQ) 데이터셋(Kwiatkowski et al., 2019a)에서 훈련된 NQ-pretrained BARTlarge를 reader 모델로 사용합니다. 
    • 모델은 CQ로 명확화된 AQ(즉, AQ, 범주 및 옵션의 연결)와 다시 순위 매겨진 관련 통로를 입력으로 받아 CQ로 명확화된 AQ에 대한 답변을 예측합니다. (AQ를 명확화된 CQ로 설명한 자세한 내용은 섹션 3.3을 참조하십시오)
  • NQ-pretrained 모델 외에도 NQ-pretrained reader 모델(CQfinetuned BART)을 우리가 제안한 데이터셋에서 8 에폭 동안 finetuning했습니다. 
  • Finetuning 중에 모델은 또한 CQ로 명확화된 AQ를 입력으로 받습니다. 
  • 목표 레이블은 각 옵션에 대한 해당 답변입니다.
  • 추론 중에는 Section 6.2 CQ 생성 작업에서 파생된 세 가지 모델 생성 CQ 변형을 사용했습니다. 
  • 더불어, Ground Truth CQ가 사용되어 AQ를 명확하게 하는 이상적인 시나리오도 고려합니다.
  • Results and Analysis 
    • 네 가지 입력 변형과 다른 리더 모델을 사용한 명확화 기반 QA의 평가 결과는 Table 5에 나와 있습니다. 
    • 두 가지 이상적인 설정(Ground Truth Answers for AQ 및 Ground Truth CQ로 생성된 CQ)은 낮은 정밀도 점수를 보입니다. 
    • 반면, 재현율 측면에서 두 가지 다른 변형(CQ generated with No Answers for AQ 및 CQ generated with Predicted Answers for AQ)보다 성능이 우수하여 높은 F1 점수를 얻습니다. 
    • 이는 Ground Truth Answers for AQ 및 Ground Truth CQs로 생성된 CQs가 평균적으로 더 많은 옵션을 포함하고 있어 다른 두 가지 변형보다 더 많은 답변을 예측하게 되어 재현율은 높지만 정밀도는 낮은 점수를 가져오는 것이 그 이유 중 하나입니다.
    • GT Answer기반의 CQ의 QA결과가 precision은 낮지만 다른것은 다 높다.
    • 정확히 평가 메트릭이 어떻게 되는지? 예측 answer vs GT answer끼리 비교하는 식인가
    • 실질적으로는 CQ generated with Predicted Answers for AQ정도가 쓰일 수 있는 방법임.
    • 다른 것은 upper bound라고 볼 수 있음
  • Table 4의 평균 옵션 수와 Table 5의 고유한 답변 수 평균은 NQ-pretrained BART 및 CQ-finetuned BART가 서로 다른 옵션에 대해 서로 다른 답변을 생성하는 데 어려움을 겪고 있음을 나타냅니다. 
  • 예를 들어 CQ generated with Ground Truth Answers for AQ 경우, CQ의 평균 옵션 수가 3.7이지만 각 AQ에 대해 2.5개의 고유한 답변만 생성되었습니다. 
  • 다시 말해, 두 모델은 주어진 AQ에 대해 지정된 옵션이 다르더라도 동일한 답변을 생성하는 경향이 있습니다. 
  • 이 현상은 이전 연구에서도 "모델의 붕괴"로 언급되었습니다 (Zhang and Choi, 2021). 
  • 이는 딥러닝 모델이 입력의 미묘한 차이에 둔감할 수 있음을 나타내며, 동일한 AQ에 대해 서로 다른 옵션이 선택되더라도 입력이 옵션을 제외하고는 동일할 수 있다는 것을 시사합니다.

6.4 End-to-End

  • Setup 
    • 이제 우리는 RQ2를 확인하기 위한 실험을 수행합니다. 
    • 즉, AQ에 대한 예측 답변이 AQ 엔드투엔드 처리를 위한 CQ 기반 접근 방식을 개선하는 데 도움이 되는지 여부입니다. 
    • 모호성 감지 및 CQ 생성을 위한 네 가지 설정 조합을 고려합니다.
    • 1. Pred Answers–Pred Answers: AQ에서 QA 모델을 실행하고 두 작업에 예측 답변을 통합합니다.
    • 2. No answers–No Answers: AQ에서 QA 모델을 실행하지 않음
    • 3. Pred Answers–No Answers: AQ에서 QA 모델을 실행하지만 예측된 답변을 모호성 탐지 전용 입력으로 사용
    • 4. No Answers–Pred Answers: AQ에서 QA 모델을 실행하지만 예측된 답변을 CQ 생성에 대한 입력으로만 사용
    • The end-to-end performances are measured at the end of the pipeline, i.e., clarification-based QA.
  • Results and Analysis 
    • 표 6에서 볼 수 있듯이 CQ 생성을 위한 입력에서 모호성 감지 및 답변 없는 프롬프트(No Answers)를 위해 BERT 모델(No Answers)을 사용하면 가장 높은 F1 점수 27.3이 산출됩니다. 
      • 즉, BERT로 애매함 탐지하고, CQ 생성하고(AQ에 대한 답변없이), QA 답변받는게 가장 좋다?
    • 그러나 모호성 탐지를 위해 BERT 모델(No Answers)을 사용하고 CQ 생성을 위한 입력에 SPANSEQGEN 모델(Pred Answers)에 의한 예측 답변을 활용한 조합은 F1 점수가 최상의 조합보다 0.4 낮은 결과를 가져왔습니다. 
    • No Answers – Pred Answers 설정은 최선의 접근 방식보다 (약간) 나쁠 뿐만 아니라 추론 중에 BERT 및 SPANSEQGEN 모델을 모두 실행해야 하므로 비효율적입니다.
  • No Answers–No Answers and Pred Answers– Pred Answers는 모호성 감지 및 CQ 생성을 위한 입력 생성에 단일 모델만 사용되는 유일한 설정입니다. 
  • 이들 중에서 생성된 CQ의 품질은 크게 다릅니다. 
  • 보다 구체적으로, 결과는 Pred Answers–Pred Answers 시나리오에서 모호성 탐지 단계의 낮은 성능이 파이프라인의 나머지 부분으로 전파된다는 것을 보여줍니다. 
  • 이는 CQ를 생성하기 전에 CQ 생성 프로세스에 대한 입력으로 그럴듯한 답변을 통합하는 것이 CQ 프레임워크에서 바람직한 접근 방식이 아님을 시사합니다. 
  • 마지막으로, 네 가지 사례 모두의 엔드투엔드 성능에는 여전히 개선의 여지가 크며, 이는 ODQA에서 AQ를 처리하기 위한 CQ 기반 접근 방식의 까다로운 특성과 CAMBIGNQ와 같은 리소스의 필요성을 보여줍니다.

7 Conclusion

  • 우리는 ODQA에서 AQ를 처리하기 위한 CQ 기반 접근 방식을 제안했습니다. 
  • 새로운 데이터셋을 제시하면서 이를 위한 적절한 평가 지표를 설계하는 작업 파이프라인을 정의했습니다. 
  • 실험 결과는 이 작업의 유망하면서도 도전적인 성격을 보여줍니다. 
  • 우리는 우리의 데이터셋이 이 분야의 연구에 유용한 자원으로 활용되고 더 사용자 친화적인 QA 시스템의 개발을 지원하는 데 기여할 것으로 기대합니다.

Limitations

  • 우리의 결과에서 보여 드렸듯이, 생성된 명확화 질문의 성능을 평가하는 과정에서 여러 가지 요소로 인해 명확화 질문 생성 및 명확화 기반 질문 응답 평가가 여전히 성능을 과소평가할 수 있습니다. 
  • 하나의 이유는 참조 명확화 질문이 여러 가능한 답변 중 하나에 불과하며 유일한 올바른 답변이 아닐 수 있기 때문입니다. 
  • 또 다른 이유는 텍스트 간의 중첩에 의존하는 내재적 평가가 의미적으로 정확한 예측을 적절하게 처리하지 못할 수 있습니다. 
  • 더불어 명확화 기반 질문 응답을 위한 외재적 QA 모델은 추론을 수행하지 못할 수 있습니다. 
  • 이러한 제한 사항은 명확화 질문 생성 작업에 대한 평가 방법을 개선하기 위한 연구가 더 필요함을 강조합니다.

Reference

댓글