NL-199, Social Commonsense-Guided Search Query Generation for Open-Domain Knowledge-Powered Conversations, Findings of EMNLP 2023

◼ Comment

  • 그림 2처럼, 대화가 있을 때 다음의 과정을 수행하는 테스크이다.
    • 1. 먼저 대화의 topic을 찾는다.
    • 2. topic에 대한 얘기를 나누고 있음을 알려주고, 대화 컨텍스트에 적절한 commonsense response을 생성한다.
    • 3. topic와 context와 commonse response을 알려주고 이에 대한 search query을 찾는다.
      • search query란 인터넷에 검색하기 위해 적절한 response을 말하는 듯
  • 이렇게 생성된 search query는 검색기에 던져서 그림 1처럼 더 나은 response을 받아올 수 있다.
    • 결과적으로 이 response는 대화를 유지하는데 도움이 되는 정보로 활용되는 것인가?
    • 정확하게 이 응답이 어떻게 활용되는지는 모르겠지만..
    • 어쨌든, 응답을 바로 생성하지 말고 위의 3스텝을 이용하면 더 낫다는 것이다.
  • 뭐 다른 테스크에서 활용해보고자 하면.. 
    • 입력의 topic을 찾고
    • 이 topic을 활용해서 propmt을 만들어서 활용가능한 knolwedge을 LLM으로 생성하고
    • 이 knowledge을 활용해서 target을 만들면 되지 않을까 싶다.

0 Abstract

  • 개방형 도메인 대화는 유용한 대화를 유지하기 위해 관련 지식을 얻을 수 있는 검색 쿼리를 생성하는 것을 포함합니다. 
  • 그러나 사용자가 수동적이고 명확한 필요나 요청을 표현하지 않을 때 어떤 정보를 검색할지 결정하는 것은 어려울 수 있습니다. 
  • 이 문제를 해결하기 위해 우리는 소셜 상식에 기반한 인터넷 검색 쿼리를 생성하는 혁신적인 접근 방식을 제시합니다. 
  • 구체적으로 우리는 상식적인 대화 시스템을 활용하여 대화 주제와 관련된 연결을 수립하고, 이를 통해 쿼리 생성을 안내합니다. 
  • 우리가 제안한 프레임워크는 topic tracking, commonsense response generation and instruction-driven query generation을 통합함으로써 수동적인 사용자 상호 작용에 대응합니다. 
  • 포괄적인 평가를 통해 우리의 접근 방식이 명시적인 대화 정보에만 의존하는 기존의 쿼리 생성 기술의 제한을 극복하며, 더 관련성 있고 구체적이며 매력적인 검색 쿼리를 생성하여 궁극적으로 더 매력적인 응답을 얻을 수 있다는 것을 보여줍니다.

1 Introduction

  • 대화 시스템은 개인 비서, 작업 지향적인 봇, 그리고 일상적인 대화를 위한 오픈 도메인 대화 에이전트를 포함하여 진화해왔습니다. 
  • 이러한 에이전트들이 매혹적이고 정보성 있는 대화를 유지하기 위해서는 외부 지식에 액세스하는 것이 중요합니다. 
  • 지식 기반 대화에서는 대화를 계속 진행하기 위해 가장 관련성 높은 정보를 수집하는 데 도움이 되는 검색 쿼리를 생성하는 것이 일반적입니다. 
  • 이러한 쿼리는 사용자가 명시적으로 특정 정보를 요청할 때 더 명확해지지만, 사용자가 수동적이거나 무관심하며 대화에 명확한 지침을 제공하지 않을 때, 어떤 정보를 추적해야 하는지는 불분명합니다. 
  • 그럼에도 불구하고, 오픈 도메인 대화에서는 사용자가 어떤 주제든 도입할 수 있으며, 임의의 사용자 주제에 대한 적절한 쿼리를 생성할 수 있는 포괄적인 알고리즘을 설계하는 것은 이전 연구에서 탐험되지 않은 독특하고 복잡한 도전입니다.
  • 이 도전에 대처하기 위해, 우리는 지식 기반 대화에서 검색 쿼리 생성을 위해 social commonsense reasoning을 통합하는 것을 제안합니다. 
  • Social commonsense (Moore, 2006)은 대화 주제를 연결하고 토론을 안내하는 데 사용되는 사회 상황과 인간 행동에 관한 일반 지식을 나타냅니다. 
  • 따라서 우리는 사회적 상식과 인간 대화를 안내하는 암묵적인 단서에 대한 더 깊은 이해를 활용함으로써 챗봇이 수동 대화를 더 능숙하게 탐색할 수 있을 것이라고 가설을 세웁니다.
  • 구체적으로는, 우리는 commonsense response을 지시 디렉티브로 사용하는 새로운 프레임워크를 소개합니다. 
    • 우리의 접근 방식은 topic tracking(§2.1)을 사용하여 토론의 주요 요점을 먼저 식별한 다음 개념을 주요 주제에 연관시켜 latent commonsense directive(§2.2)을 제공할 수 있는 상식 기반 응답 생성을 포함합니다.
    • 마지막으로 우리는 instruction-driven query generation(§2.3)를 사용하여 상식 응답 내의 잠재적인 지시에 따라 검색 쿼리를 출력합니다.
  • 우리의 방법은 대화에서 명시적으로 제공되는 정보에만 의존하는 기존 기술의 한계를 극복합니다. 
    • 이러한 접근 방식은 인간이 특정 정보를 요청하지 않는 수동 대화의 경우에는 최적이 아닙니다. 
  • Figure 1은 우리의 접근 방식과 기준이 된 쿼리 생성 시스템을 비교한 예시를 보여줍니다. 
    • topic tracking 은 'The Conjuring'을 주제로 식별하며, commonsense responder는 movie → reviews의 연관성을 만들어 영화 리뷰를 논의하는 잠재적인 상식적 지시를 출력합니다. 
  • 이 지시는 검색 쿼리 생성기를 안내하여 영화 리뷰에 관한 쿼리를 출력하게 하며, 이 결과는 Figure 1에서 확인할 수 있듯이 기준에 비해 더 매혹적인 봇 응답으로 이어집니다.
    • 위 그림보면, topic tracker로 "컨져링"에 대한 토픽을 얘기함을 알아낸다.
    • 컨져링의 commonsense responder은 movie가 되고, 이는 reviews에 대한 얘기를 하라는 것으로 연결된다.
    • 명시적으로 moive->review가 되는 것 같진않고 latent space에서 그런 의미가 된다는 것 같다.
    • 그래서 중간에 I have heard the movie has good reviews라는 응답이 생성되고
    • 이것이 결국엔 query generator와 연결되서 컨져링 영화의 reviews을 물어보는 query을 생성하게 된다.
    • 최종적으로 이 쿼리는 knowledge selection+response generation에서 더욱 풍부한 응답을 생성하게 한다?

2 A Novel Query Generation Framework

  • 이 섹션에서는 상식적 추론을 활용한 검색 쿼리 생성을 위한 우리의 프레임워크를 제시합니다. 
  • 우리의 접근 방식은 세 가지 주요 구성 요소로 구성되어 있습니다: 
    • topic tracking to pinpoint the core subject
    • commonsense-based response generation that relates concepts with the primary topic and provides a latent commonsense directive
    • instruction-driven query generation to produce a search query capable of retrieving relevant information that follows the commonsense directive
  • Figure 2는 이러한 구성 요소가 어떻게 통합되는지를 설명하며, 각 단계에 대한 자세한 내용은 아래에서 설명합니다.
    • 1. 먼저 대화의 topic을 찾는다.
    • 2. topic에 대한 얘기를 나누고 있음을 알려주고, 대화 컨텍스트에 적절한 commonsense response을 생성한다.
    • 3. topic와 context와 commonse response을 알려주고 이에 대한 search query을 찾는다.
      • search query란 인터넷에 검색하기 위해 적절한 response을 말하는 듯

2.1 Fine-Grained Topic Tracking

  • 주제 추적(Nakata et al., 2002)은 자유 형식의 대화에서 토론의 주요 주제를 식별하는 것을 목표로 하며, 이는 대화 시스템의 일관성을 향상시키는 데 기여되었습니다(Guo et al., 2018). 
  • 이전 접근 방식(Khatri et al., 2018)과 달리 고정된 일련의 넓고 고수준 주제(예: 영화, 스포츠)를 추적하는 대신, 우리의 목표는 제한이 없는 미세한 주제(예: 영화/배우 이름 또는 팀과 같은)를 감지하는 것입니다. 
  • 미세 주제 추적을 위해 우리는 대화 문맥에서 현재 주제를 식별하기 위해 지시어에 맞춰진 모델(Chung et al., 2022)을 적용합니다. 
    • 1번의 토픽 찾는 모델은 학습하는듯
    • https://velog.io/@heomollang/LLaMA-%EA%B4%80%EB%A0%A8-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0-02-Scaling-Instruction-Finetuned-Language-Models-Instruction-Tuning
    • CoT을 few-shot으로 쓰는게 아니라, CoT을 넣고 fine-tuning했단 뜻인듯
  • 우리는 Figure 2의 프롬프트를 활용하고, 훈련 데이터 부족으로 인해 강한 제로샷 능력을 갖춘 지시어에 맞춰진 모델(Wei et al., 2021)을 사용합니다. 
    • 백본 모델은 FLAN 쓰는듯
  • 대안적인 주제 추적 접근 방식은 Shuster et al. (2022a); Adolphs et al. (2022)를 따를 수 있으며, 최종 응답을 기준으로 관련 엔터티로서 주제를 추출합니다.

2.2 Commonsense-Based Directive

  • Social commonsense-based dialog systems(Kim et al., 2022a,b; Zhou et al., 2021)은 일반적으로 특정 주제나 상황에 대한 처리와 응답에 대한 기본적인 이해를 나타냅니다. 
  • 이들은 ConceptNet (Speer et al., 2017)이나 ATOMIC (Sap et al., 2019)과 같은 외부 상식 지식 그래프를 사용하여 응답 생성을 위한 트리플을 수집하거나 (Zhou et al., 2022), 
    • 이러한 지식을 언어 모델 (LM)로 대량 사전 훈련을 통해 (Kim et al., 2022a; Chen et al., 2023) 직접적인 응답 생성을 위해 증류합니다. 
  • 본 연구에서는 후자의 접근 방식을 채택하여 사전 훈련된 LM을 사용하여 응답 형식의 상식 지시어를 유도합니다. 
  • 구체적으로 우리는 Cosmo (Kim et al., 2022a)를 사용합니다. 
    • 이는 InstructGPT (Ouyang et al., 2022)를 프롬프트로 사용하여 ATOMIC의 문맥화된 상식 지식을 이용하여 생성된 사회적으로 기반된 합성 대화에서 훈련되었습니다. 
    • 2번의 모델은 Cosmo란걸 쓴 듯?
    • Cosmo는 상황 서술과 역할 지시사항을 입력으로 받아 대화 문맥을 기반으로 응답을 생성합니다. 
  • 또한 주제 추적 결과를 상황 서술 정의에 통합하였으며, Figure 2에서 보여진 것처럼 이루어졌습니다. 
  • 그 후에 Cosmo의 출력은 검색 쿼리 생성을 안내하기 위한 잠재적인 상식 지시어로 작용하며, 이는 다음에 논의됩니다.

2.3 Instruction-Driven Query Generation

  • 대화 문맥, 대화 주제, 그리고 상식적인 응답 형식의 잠재적 지시어를 고려할 때, 대화를 계속하기 위해 관련 정보를 얻기 위한 검색 쿼리를 생성하고자 합니다. 
  • 우리는 지시어에 맞춰진 모델(Chung et al., 2022)을 쿼리 생성에 활용하며, 그림 2에서 확인할 수 있듯이 이를 프롬프팅하여 상식적인 응답을 검색 쿼리로 변환하고 미세 주제를 통합하여 관련성과 구체성을 향상시킵니다. 
    • 3번모델도 1번처럼 Flan을 기반으로 CoT을 활용한 학습을 한 모델을 쓴다는 듯?
  • 본질적으로 상식적인 응답은 봇의 정보 요구 사항을 포함하고 있어, 언급된 정보를 획득하기 위해 봇을 안내합니다.

3 Experiments

3.1 Setup

  • Dataset 
    • 우리는 실험에 Wizard of Internet (WoI)(Komeili et al., 2022) 데이터세트를 사용합니다. 
    • WoI는 지식 기반 대화를 위한 인간-인간 대화 코퍼스로, 화자 중 한 명이 응답 생성을 위한 정보를 수집하기 위해 인터넷에 접속할 수 있습니다.
  • Models and Baselines 
    • topic-tracker는 Flan-T5 large(770M)(Chung et al., 2022)을 기반으로 하는 반면 commonsense response generation은 Cosmo(Kim et al., 2022a)의 3B 버전을 사용합니다. 
    • query generator도 Flan-T5 대형 모델을 기반으로 합니다. 
      • 우리는 쿼리 생성 접근 방식을 최첨단 개방형 도메인 대화 에이전트인 Blender Bot 3(Shuster et al., 2022b)와 주로 비교합니다. 
    • 또한 Cosmo가 없는 Flan T5라는 쿼리 생성을 위한 Cosmo 응답을 통합하지 않은 접근 방식 버전과도 비교합니다.
  • Finetuning with ChatGPT Annotations 
    • 우리의 접근 방식은 주제 추적 및 쿼리 생성을 위해 제로샷 설정에서 지침 조정 Flan T5 모델을 사용합니다. 
    • 성능을 향상시키기 위해 ChatGPT 주석을 사용하여 주제 추적기와 쿼리 생성기를 별도로 미세 조정합니다(Flan T5와 동일한 프롬프트가 ChatGPT에서 실버 라벨을 얻는 데 사용됩니다). 
    • 미세 조정 데이터를 생성하기 위해 WoI 훈련 세트에서 인터넷 검색에 해당하는 차례를 선택하여 20,000개의 예를 생성합니다.
  • Internet Search and Response Generation 
    • reranker 을 사용하여 상위 3개 Bing Search 페이지의 구절에 점수를 매겨 검색 결과를 얻습니다. 
      • 주요 초점은 쿼리 생성이므로 ChatGPT가 대화 컨텍스트에 따라 상위 검색 결과를 통합하여 응답을 생성하도록 유도하기만 하면 됩니다. 
      • search query가 얼마나 잘 생성됐는지 확인하는 일종으로? search query의 response을 확인해보는 것 같음
      • 생성된 search query로 검색한 문서중에서 reranker을 통해 top-3 문서를 가져와서 chatgpt로 결과를 합친다.
    • 또한 인터넷 검색 없이 ChatGPT(gpt-3.5-turbo-0301 버전)에서 직접 응답을 생성하는 것에 해당하는 "쿼리 없음" 기준을 고려합니다. 
    • 검색 쿼리 생성과 최종 응답 생성 모두에 대해 P를 0.9로 설정하고 온도를 0.7로 설정한 핵 샘플링 방법(Holtzman et al., 2019)을 사용합니다. 
    • 검색 쿼리 생성과 최종 응답 생성을 위해 각각 최대 토큰을 40과 100으로 설정했습니다.

3.2 Evaluation

  • 우리의 평가에서는 검색 쿼리가 응답 생성을 위해 주석이 달린 WoI 테스트 세트에 중점을 두었습니다. 
  • 특히 사용자가 명시적으로 정보를 요청하지 않는 "passive turns"을 대상으로 하였습니다. 
  • 의도 감지 모델(Khatri 등, 2018)을 사용하여 정보나 의견 요청과 관련된 턴을 식별하고 제거하였으며, 인간 평가를 위해 무작위로 200개의 예제를 선택했습니다.
  • Human Evaluation 
    • 우리는 네 명의 경험이 풍부한 NLP 학생들과 함께 인간 연구를 진행하여 생성된 검색 쿼리와 응답의 품질을 평가했습니다. 
    • 검색 쿼리는 관련성, 구체성, 유용성 및 대화에서 사용자 참여를 유지할 수 있는 잠재력을 기준으로 평가되었습니다. 
    • 응답은 engagement, coherence, and informativeness을 기준으로 평가되었습니다. 
    • 자세한 지침은 부록에 기술되어 있습니다.
  • Automatic Evaluation 
    • 최근 연구인 GEVAL (Liu 등, 2023) 및 GPTScore (Fu 등, 2023)와 같은 연구 결과에 따르면, GPT-4와 같은 언어 생성 모델은 자연어 생성을 효과적으로 평가하고 인간 평가와 잘 일치합니다. 
    • 따라서 우리는 자동 평가를 위해 GPT-4를 활용하여 검색 쿼리와 최종 응답에 대한 전반적인 점수를 제공하도록 했습니다(1에서 10까지 범위). 
    • §3.3에서 볼 수 있듯이, 우리의 인간 연구 결과는 GPT-4의 평가를 뒷받침합니다. 
    • 추가로, 응답 평가를 위해 Alexa Prize Socialbot Grand Challenge (Johnston 등, 2023) 응답 선택 데이터(Ram 등, 2018)에서 훈련된 랭커 모델(Hedayatnia 등, 2022)을 사용합니다.

3.3 Results

  • Quality of generated search query 
    • 표 1 (왼쪽)은 검색 쿼리에 대한 인간 및 자동 평가 결과를 보여줍니다. 
    • 주로, 명령어에 튜닝된 모델이 Blender Bot 3를 크게 앞지르는 것을 알 수 있으며, Cosmo의 상식적인 응답을 Flan T5로 쿼리 생성을 안내하는 데 사용하면 일관된 향상이 나타납니다. 
    • 마지막으로, ChatGPT 주석을 사용하여 제로샷 시스템을 미세 조정함으로써 쿼리 품질에서 상당한 향상이 관찰되었습니다. 
    • 자동 메트릭(GPT-4)과 인간 평가의 전체 점수(네 가지 측면 평가의 평균) 간의 Spearman 상관 관계를 계산하여 두 측정 사이에 강한 상관 관계(0.674)가 있음을 발견했습니다.
  • Quality of final responses 
    • 표 1 (오른쪽)은 생성된 응답의 평가 결과를 보여줍니다. 
    • 인터넷 검색 없이 ChatGPT에서 직접 응답을 생성하는 것은 여전히 매우 일관된 응답을 만들어낼 수 있지만 참여도가 낮고 매우 정보가 부족합니다. 
    • 우리가 제안한 쿼리 생성 프레임워크는 최종 응답의 모든 측면에서 일관된 개선을 이끌어냅니다, 특히 높은 참여도 점수를 보입니다. 
    • 특히 수동 대화에서는 참여도를 높이거나 계속되는 인간-로봇 상호 작용의 가능성을 증가시키는 것이 중요합니다.

3.4 Analysis

  • Instruction-Following Capability 
    • 우리는 쿼리 생성기의 지시 따르기 능력이 상식 지시(즉, cosmo 출력)를 활용하여 더 나은 쿼리를 생성하는 데 미치는 영향을 연구했습니다. 
    • GPT-4 선호도 평가를 사용하여 쿼리 생성기의 크기가 증가함에 따라 상식 지시가 있는 경우와 없는 경우의 생성된 쿼리의 품질에 어떤 영향을 미치는지 탐구했습니다. 
    • 그림 3은 (a) 모델 크기가 증가함에 따라 상식 지시를 통합하면 쿼리 품질이 크게 향상되며, (b) 더 큰 모델에서 더 큰 개선이 나타남을 보여줍니다(XXL의 경우 67.5%, Large의 경우 53.5%). 따라서 보다 강력한 지시에 튜닝된 모델은 더 나은 쿼리를 생성하는 데 상식 지시를 효과적으로 활용합니다.
    • 모델이 클수록 좋고, cosmo 스텝이 있을수록 좋다.
  • Benefit of Topic Tracking
    • 우리의 프레임워크 내에서 주제 추적은 (a) 생성된 쿼리와 가장 최근의 토론 주제 간의 일관성을 유지하고, (b) Cosmo의 상황 서술을 형성하는 데 도움을 주는 역할을 합니다(그림 2의 프롬프트 참조)
    • 여기서 우리는 주제 추적의 이점을 연구하여 Cosmo 및 쿼리 생성기 입력에서 제거하고 최종 쿼리 품질을 평가합니다. 
    • 자동 선호도 평가를 위해 GPT-4를 사용하여 주제 추적이 포함된 경우와 포함되지 않은 경우의 생성된 쿼리를 비교합니다. 
    • 표 2는 연구 결과를 보여주며, GPT-4는 특히 관련성과 구체성에 대해 주제 추적을 활용한 경우의 쿼리가 더 나은 것으로 평가합니다.
  • Error Categorization 
    • 우리는 제로샷 접근법으로 생성된 검색 쿼리의 인간 평가에서 낮은 점수를 받은 50개의 예제를 조사했습니다. 
    • 주요 오류 카테고리는 다음과 같습니다: 
      • (i) 부정확한 주제(31.4%) - 주제 추적기가 현재의 토론 주제를 식별하지 못한 경우, 
      • (ii) 사소한 쿼리(29.4%) - 쿼리가 명확하거나 대화 기록에서 이미 답변된 경우, 
      • (iii) 쿼리 지시 불일치(23.5%) - 쿼리 생성기가 지시를 오해하고 대화적인 질문 대신에 출력하는 경우, 그리고
      • (iv) 기타 관련 없는 쿼리(15.7%). ChatGPT 주석을 사용한 미세 조정 후, 쿼리의 70.6%가 크게 향상되었으며, 
      • 나머지는 더 나은 수준의 품질을 유지하거나 비슷한 수준이었습니다. 
    • 미세 조정 후에 계속해서 낮은 점수를 받은 예제의 세부 내용은 다음과 같습니다: 
      • 부정확한 주제로 인한 19%, 
      • 사소한 쿼리로 인한 41%, 
      • 쿼리 지시 불일치로 인한 5%, 
      • 기타 관련 없는 쿼리로 인한 35%.
      • 특히, 미세 조정은 사소한 쿼리 오류의 67%, 부정확한 주제 오류의 75%, 쿼리 지시 불일치 오류의 90% 이상을 감소시킵니다. 
    • 이는 미세 조정이 주제 추적 능력을 향상시키고(부정확한 주제 오류 감소), 검색 쿼리 생성 지침에 더 잘 준수하도록 보장함(쿼리 지시 불일치 오류 감소)을 시사합니다.

4 Conclusion and Future Work

  • 우리는 상식을 활용하여 인터넷 기반 대화에서 검색 쿼리 생성을 향상시키는 새로운 프레임워크를 소개합니다. 
  • 결과는 상식 기반 지시를 통합하면 관련성, 구체성 및 매력이 향상된 검색 쿼리가 생성되어 사용자 참여를 촉진한다는 것을 보여줍니다. 
  • 이는 그렇지 않으면 수동적인 대화에서 사용자 참여를 촉진합니다. 
  • 미래의 연구에서는 지난 대화에서 사용자 선호도를 포함하여 더 복잡한 사회적 서술을 사용하여 상식 지시를 개인의 관심사에 맞추도록 할 것입니다.
Reference

댓글