NL-196, DivTOD: Unleashing the Power of LLMs for Diversifying Task-Oriented Dialogue Representations, ARR Review 2310

◼ Comment
  • 논문 요약
    • 기존의 PLMs (BERT, GPT)등은 task-oriented에서 적합하지 않다.
    • 저자들은 task-oriented dialogue에서 LLM을 활용한 pretraining을한 DivTOD을 소개한다.
    • pretraining을 할 데이터는 LLM의 two step을 통해 제작된다.
    • 이 데이터세트는 다양하고 domain-specific knowledge을 가진 응답으로 구성된다.
  • 강점
    • LLM을 통하여 task-oriented dialogue 에 필요한 데이터세트를 만드는 방법을 제안한다.
    • 이러한 데이터세트가 pretraining에 효과적임을 보여준다.
    • 결과적으로 제안한 DivTOD는 TOD 베이스라인들보다 성능이 뛰어나다
  • 단점
    • section 2.2의 Generating Diversified Responses
      • IP는 너무 길고 복잡하다.
      • LLM이 지시사항들을 제대로 반영하는지 확인할 수 있습니까? 이는 aligning domain knowledge와는 다른 작업일 거 같습니다.
      • DP, SP에서 사용되는 few-shot example은 어떻게 선별되는가?
      • Figure 5에서, [masked] 표시가 있음에도 마지막에 #Response to#을 한 번더 적어주는 이유는 뭐인가?
    • line 211-214:
      • teacher 모델은 student 모델이 future knowledge을 같도록 도와주는 역할이다.
      • 그런데 teacher 모델이 student을로부터 업데이트 된다는 의미는 어떤 것인가요?
    • pretraining
      • 모델이 학습될 때, original data와 LLM으로부터 생성된 data 둘다 사용하는 것인가?
      • LLM은 하나의 response만을 생성하는 것인가?
      • 같은 context에 대해 여러 response가 쌍으로 있다면, pretraining할 때 각각을 따로 학습하는 것인가?
      • 만약 그렇다면, 모델이 오히려 context에 대해 어떤 response을 생성해야할 지 혼란스러울 수도 있지 않을까요?
    • 논문은 간단하고 효과적일 수 있지만, LLM으로 데이터 생성해서 사용한다는 컨트리뷰션외에 노벨티가 부족하다.
  • 제안
    • Table 9: combineed -> combined
    • 테스트할 때, one-to-many diversity의 강점이 드러나는 분석이 있으면 좋겠다.
    • 다른 LLM을 통하여도 비슷한 결과가 재현되는지 분석하면 더 좋은 논문이 될 수 있습니다.

Abstract

  • 일반 텍스트에서 훈련된 사전 학습 언어 모델은 다양한 상황에서 큰 성공을 거뒀습니다.
  • 그러나 일반 텍스트와 task-oriented dialogues (TOD) 간의 본질적인 언어 차이로 인해 기존의 언어 모델은 실무에서 덜 유용합니다. 
  • 현재의 작업 지향 대화 사전 학습 방법은 대화에서 하나의 입력에 여러 개의 응답이 가능한 특성을 간과합니다. 
  • 동일한 대화 컨텍스트를 고려할 때 여러 응답이 적절할 수 있습니다. 
  • 본 논문에서는 LLMs와 협력하여 다양한 작업 지향 대화 표현을 학습하는 새로운 대화 사전 학습 모델인 "DivTOD"를 제안합니다. 
  • DivTOD는 LLMs에게 작업 지향 대화와 모순되는 도메인 지식을 제거하면서 다양한 지식을 더 작은 모델로 전달하는 방법을 안내합니다. 
  • 실험 결과, 우리 모델은 다양한 하위 대화 작업에서 강력한 TOD 베이스라인을 능가하며 작업 지향 대화의 본질적인 다양성을 학습합니다.

1 Introduction

  • 대규모의 일반 텍스트 말뭉치를 기반으로 한 사전 학습 언어 모델(PLMs)은 많은 자연어 처리 (NLP) 응용 프로그램에서 일반적으로 사용됩니다. 
  • 이러한 모델은 self-supervised manner으로 사전 학습되어 이후 supervised downstream tasks을 위해 미세 조정됩니다. 
  • 사전 학습 및 미세 조정 패러다임은 다양한 하위 작업의 성능을 크게 향상시켰습니다. 
  • 그러나 이러한 성공에도 불구하고 현재의 대부분의 연구 노력은 주로 Wikipedia와 같은 일반 문서에 초점을 맞추고 있으며, 이러한 문서는 특히 task-oriented dialogues와 같은 대화형 문서와 큰 언어적 차이가 있습니다. 
    • (동기1) 이러한 PLMs를 직접 사용하는 것은 최적이 아니며 저품질의 성능을 내놓습니다.
  • 일반 텍스트와 비교하여 작업 지향 대화 (TOD)는 명시적인 목표 (예: 레스토랑 예약), belief states, and database information와 함께 사용자가 특정 작업을 수행하는 데 도움을 주는 것을 목표로 합니다. 
    • 따라서 고품질의 대화 표현을 학습하는 것은 TOD에서 작업을 이해하는 데 중요합니다. 
  • 이전 방법은 대화 이해 성능을 향상시키기 위해 작업 지향 대화 데이터셋을 사용하여 모델을 사전 학습했습니다.
    • SimCSE는 Dropout augmentation를 통해 양의 쌍을 생성하여 문장 임베딩을 학습하기 위한 대조적 학습 프레임워크를 사용합니다. 
    • TOD-BERT는 대화 역사와 해당 응답을 양의 쌍으로 사용하여 대조적 학습을 위해 대화 데이터의 고유한 특성을 고려합니다. 
    • DSE는 동일한 대화의 연속적인 발화를 양의 쌍으로 취하여 대화로부터 학습합니다.
    • 더 나아가, FutureTOD은 이전 대조적 방법에서 진짜 양성 및 음성 쌍을 선택하는 데 직면한 어려움을 해결하기 위한 새로운 non-contrastive self-training framework를 제안합니다.
    • 즉 일반적인 PLM 사용대신 ToD에 맞는 PLM을 학습하려고 하는 시도가 있었다?
  • 이전 TOD PLMs는 상당한 진전을 이루었음에도 불구하고, 대화의 일대다 특성을 무시하는 경우가 대부분입니다. 
    • 대화에서 동일한 대화 컨텍스트 아래에서 여러 응답이 적절할 수 있는 경우를 무시합니다(그림 1에 나와 있음). 
    • 우리의 분석은 TOD 데이터셋의 다양성 부족이 이러한 문제의 주된 원인이라는 것을 보여줍니다. 
    • 구체적으로, (1) 대부분의 TOD 데이터셋은 동일한 대화 역사에 대한 단일 응답만 제공하며, (2) TOD에서 시스템 응답의 스타일은 종종 단조롭고 지루합니다. 
    • 결과적으로 현재 TOD PLMs는 가장 일반적인 대화 정보만 캡처하고 덜 빈번하지만 여전히 실행 가능한 사용자 행동을 무시하여 중복되고 평범한 응답을 생성합니다.
    • 즉 여러 답변이 필요한 경우에 대한 데이터세트가 부족하다.
    • 응답패턴이 가능성있는 사용자 행동들을 무시하고, 반복적이고 단조로운 느낌이 있다고 함
  • Large Language Models (LLMs)은 위에서 언급한 문제들에 대한 해법으로 희망을 제공합니다. 
    • LLMs는 더 많은 매개변수를 가지고 있으며 보다 풍부하고 다양한 말뭉치에서 사전 훈련되고 세밀하게 조정됩니다. 
    • 결과적으로 LLMs는 보다 넓은 일반 배경 지식을 보유하고 있어 더 다양하고 실행 가능한 응답을 생성할 수 있습니다. 
    • 그러나 LLMs는 명시적으로 과업 중심 대화 시스템에 대해 세밀하게 조정되지 않았다는 점에 주목해야 합니다, 이로 인해 task-oriented dialogue에서 요구하는 general knowledge and the domain knowledge간에 상당한 불일치가 발생합니다. 
    • 더구나, LLMs는 일반적으로 수십억 개의 매개변수를 가지고 있어 극도로 컴퓨팅 요구 사항과 세밀한 조정 및 추론의 비용 때문에 대규모로 배포하기에는 너무 비싸다는 것을 고려해야 합니다 (Wei et al., 2022). 
      • Chain of thought prompting elicits reasoning in large language models.
    • 이러한 문제를 해결하기 위한 자연스러운 접근 방식은 LLMs에서 task에 필요한 풍부한 배경 및 domain-specific knowledge을 더 작고 효율적인 모델로 추출하는 것입니다.
  • 이 논문에서는 우리는 대화 사전 훈련 모델인 DivTOD를 제안합니다. 
    • DivTOD는 LLMs에서 풍부한 일반 배경 지식과 task-specific domain knowledge을 전달함으로써 작은 모델이 인간 대화의 본질적인 일대다 다양성을 모델링하는 능력을 강화합니다. 
    • 즉 LLM의 task-specific(여기서는 ToD)의 knowledge을 distillation 하여 활용하는 DivTOD 소개?
  • 우리의 프레임워크는 세 가지 핵심 단계로 구성되어 있습니다: 
    • (1) LLMs를 이용하여 "filling the blank" 방식으로 대화 맥락을 기반으로 다양한 시스템 응답을 생성하도록 유도하는 단계. 
    • (2) 도메인 지식과 생성된 응답을 조율하기 위해 LLM 기반의 후처리 필터를 사용하는 단계. 
    • (3) 작은 모델이 다양한 대화를 관찰하면서 LLM의 능력을 모방하도록 허용하는 단계. 
  • 우리는 DivTOD를 의도 분류, 대화 상태 추적, 대화 행위 예측 및 응답 선택과 같은 다양한 과업 중심 대화 과제에서 평가했습니다. 
    • 결과는 DivTOD가 모든 시나리오에서 강력한 TOD 기준을 일관되게 능가하며 일반화 능력을 나타냅니다. 
    • 더불어 DivTOD가 더 넓은 범위의 대화 정보를 포착하고 TOD의 본질적인 일대다 다양성을 학습할 수 있는 것을 관찰했습니다.
    • DivTOD가 TOD보다 성능이 좋고 일대다의 다양한 응답을 생성하는 효과!
  • 우리의 기여는 다음과 같습니다: 
    • (1) LLMs의 풍부한 task-specific domain knowledge and rich general background knowledge을 더 작은 모델로 추출하는 프레임워크를 제안합니다. 우리는 이 프레임워크를 사용하여 DivTOD를 사전 훈련하고 인간 대화의 본질적인 일대다 다양성을 모델링합니다. 
    • (2) DivTOD는 다양한 하류 대화 과제에서 강력한 TOD 기준을 능가합니다. 또한 과업 중심 대화의 본질적 다양성을 학습합니다.

2 Model 

2.1 Overall Architecture

  • 그림 2는 DivTOD의 전체 아키텍처를 보여줍니다. 
  • 우리의 프레임워크는 LLM을 기반으로 한 교사 모델 MT와 Vicuna-7b 및 BERT-base-uncased로 초기화된 작은 모델인 학생 모델 MS로 구성되어 있습니다. 
  • 먼저 대화 맥락을 기반으로 "filling the blank" 방식을 사용하여 MT가 다양한 시스템 응답을 생성하도록 유도합니다. 
  • 그런 다음 MT를 필터로 사용하여 생성된 응답을 과업 중심 대화 컨텍스트의 도메인 지식과 조율합니다. 
  • 마지막으로 생성-필터 단계를 계속 반복함으로써 MS가 원본 데이터셋과 Zeng에서 제안된 자체 훈련 방법을 사용하여 생성된 데이터셋에서 훈련할 수 있도록 합니다.
  • 그림2에서 prompt쪽 보면, user 사이에 response가 masked된 것을 알 수가 있다
    • 즉 이렇게 대화흐름에 맞는 response을 생성하도록 LLM에게 시키는 것이다.
    • 그 다음 이 생성된 response가 knowledge에 부합하느냐?를 check 하는 것 같다. 체크시스템은 뒤에서 설명되겠지? --> LLM으로함
    • 이렇게 생성된 response는 기존 response외에 다양한 데이터로 증강이 되는 효과?
    • 그리고 check결과 도메인에 부합된다고 하면 이를 이용하여 student model MS을 학습시키는 방식

2.2 Diversifying Task-Oriented Dialogue Representations

  • Notation 
    • 우리는 TOD-BERT(Wu et al., 2020)에 의해 수집된 데이터셋을 사전 훈련 말뭉치로 사용합니다. 
    • 이 말뭉치는 9개의 공개적으로 사용 가능한 task-oriented datasets을 결합한 것으로, 60개의 도메인에서 총 100,707개의 대화와 1,388,152개의 발화를 포함하고 있습니다. 
    • 각 대화에 대해 먼저 대화를 토큰 시퀀스로 변환합니다. 
    • D = {U1, S1, . . . , Un, Sn}이며, Ui와 Si는 각각 사용자 발화와 시스템 발화를 나타내며 special role 토큰 [USR] 또는 [SYS]로 시작합니다. 
    • 여기서 n은 대화의 턴 번호입니다.
  • Generating Diversified Responses 
    • 우리는 "filling in the blank" 접근법을 사용하여 MT를 대화 컨텍스트를 기반으로 다양한 응답을 생성하는 데 안내합니다. 
    • 주어진 대화 D에 대해 시스템 응답 Si를 무작위로 마스크하고 나머지 부분을 입력 D ′로 사용합니다. 
    • MT에게 다양한 응답 S′i를 생성하도록 D′를 기반으로 하는 삼중 (IP, DP, SP) 으로 구성된 few-shot prompt P를 설계합니다. 
    • P의 핵심 구성 요소는 IP로, 이는 모델에 작업에 대한 설명을 제공합니다. 
      • IP는 또한 모델의 행동을 제약하여 관련 없는 응답을 생성하지 못하게 합니다. 
      • DP는 입력 예제이며, SP는 해당 생성된 응답입니다. 
    • 각 입력 D′에 대해 P에 추가하고 MT에게 다양한 응답을 생성하도록 입력으로 사용합니다. 
    • MT는 P의 DP, SP에서 시범을 흉내내어 새로운 다양한 응답을 생성할 수 있습니다. 
    • 완전한 프롬프트 예시는 부록의 Figure 5에 나와 있습니다.
    • 즉 IP는 instruction으로 어떤 테스크를 할 지 설명하는 것인데,, 너무 길긴함. 이 지시사항이 다 작동하는 것일까? 의문이 들긴함
      • DP, SP은 few-shot 예제이다.
      • LLM으로 response 증강할 부분은 [masked] 취하고, 나머지 부분은 그대로 둔다.
      • 마지막에 #Response to#을 한 번더 적어주는 이유는 뭐지?
      • 뭐 어쨌든, 이러면 지시사항(IP), 예제(DP,SP)등을 통해 입력(D')에서 response 증강이 되는 것
      • few-shot은 어떻게 선별하지?
  • Aligning Domain Knowledge
    • MT를 사용하여 더 다양한 응답을 얻을 수 있지만, 이러한 응답은 task-oriented dialogue systems의 특성과 모순될 수 있습니다. 
    • 예를 들어, 생성된 응답은 사용자가 필요로 하지 않는 과도한 정보를 제공하거나 사용자가 미래에 물어볼 질문에 답할 수 있습니다. 
    • 생성된 응답이 TOD의 도메인 지식과 일치하도록 보장하기 위해 MT를 기반으로 한 필터를 설계했습니다. 
    • D′에서 마스크된 부분을 생성된 응답 S′i로 대체하여 새로운 입력 D′′를 형성합니다. 
    • D′′의 문맥 일관성을 판단하고 TOD의 특성과 충돌하는지 여부를 MT에게 알려주기 위해 (IE, DE, RE)로 구성된 few-shot 프롬프트 E를 설계했습니다. 
    • 프롬프트의 핵심 부분은 IE로, 이는 MT에게 작업에 대한 설명을 제공합니다. 
    • 프롬프트는 또한 task-oriented dialogue와 관련된 논리적 지식을 제공합니다. 
    • DE와 RE는 MT에게 제공된 demonstrations 입니다. 
    • DE는 예제 입력을 나타내며, RE는 해당 판단 결과 (True 또는 False 중 하나)를 나타냅니다. 
    • D′′를 E에 추가하고 필터링 결과를 기반으로 S′i를 유지할지 여부를 결정합니다. 
    • 부록의 그림 6에 이 프롬프트의 완전한 예시가 나와 있습니다.
    • Demonstrations (D E ,S E)

    • 생성된 데이터가 제대로 됐는지, 즉 정해진 knowledge안에서 생성된건지, 흐름상 이상한지 등 판단하는 것을 LLM에 태우는 것이다.
      • 마찬가지로 IE의 insturction을 먼저 준다.
      • 이 IE에 task-oriented에 필요한 knowledge을 넣어준다고 보면 되는 듯 하다.
      • 그 다음, few-shot으로 DE,SE을 보여준다.
      • 그리고 입력 D''을 구성한다.
      • 출력은 #Check Result#:뒤에 True, False로 대답하는 형식이다.
  • Self Training 
    • 우리는 위에서 설명한 생성-필터 단계를 반복하며(부록의 알고리즘 1에 요약됨), 새로 생성된 대화를 원래의 대화와 결합합니다.
  • 우리는 assembled dialogues에 대해 FutureTOD(Zeng et al., 2023)에서 제안한 self-training objective를 사용하여 MS를 훈련합니다. 
  • 새로운 학생 모델과 교사 모델은 MS를 사용하여 초기화됩니다. 
    • teacher model이 MS로 초기화 된다는게 뭐지? --> 두 개가 같은 구조이구나.
    • 여기서 teacher모델은 LLM이아니고 self-training을 위한 하나의 모델
    • 각 대화에 대해 그것을 컨텍스트와 미래 시퀀스로 무작위로 분할합니다. 
  • 학생 모델은 컨텍스트를 인코딩하고 원래의 대화 표현을 얻습니다. 
    • student model은 과거의 대화(컨텍스트)만을 기반으로 인코딩하는듯
  • 반면 교사 모델은 컨텍스트와 미래를 모두 인코딩하여 목표를 얻습니다. 
    • teacher model은 과거의 대화와 미래 발화를 모두 활용하여 인코딩하는듯
  • 학생 및 교사 모델의 아키텍처는 동일하지만 교사 모델의 가중치는 주기적으로 학생에 의해 업데이트됩니다. 
    • teacher 모델을 student을 활용하여 어떻게 업데이트하는 거지?
    • 아마도 self-distillation을 하는 것인데, teacher 모델은 미래의 발화를 이용해서 학습이 되므로 더 뛰어나다고 간주하는 듯
  • The training goal is to align the original content representation with the full representation containing future knowledge.
  • 생성-필터 단계는 다양한 응답을 생성하며, multiple reasonable full representations을 생성하여 동일한 콘텐츠 표현과 정렬될 수 있습니다. 
  • 생성, 필터링 및 자체 훈련의 위 프레임워크를 통해 MT에서 MS로 background knowledge and task-specific domain knowledge을 전송합니다.
  • 근데 original data와 generated data가 있는데, 이를 둘 다 학습하는 것인가?
    • 오히려 모델이 혼란스러워 할 수 있지 않나?

3 Experiment

3.1 Pre-training Corpus

  • Wu(2020)에 의해 수집된 아홉 가지 task-oriented datasets을 사용하고, 전체 세부 내용은 부록 A에 표시합니다.

3.2 Baselines

  • DivTOD은 다양한 downstream 작업에서 평가되었으며, 여러 출중한 baselines과 비교되었습니다. 
  • 이는 encoder-only 및 생성적 아키텍처를 모두 포함하고 있습니다. 
  • 기준선에 대한 자세한 내용은 부록 B를 참조해 주세요.

3.3 Implementation Details

  • LLM generating Details 
    • 저희는 다양한 시스템 응답을 생성하고 도메인 지식을 조정하기 위해 LLM로 Vicuna를 사용합니다. 
    • 이 단계의 실험 세부사항 및 하이퍼파라미터 설정에 대한 자세한 내용은 부록 C.1을 참조해주시기 바랍니다.
  • Pre-training Details 
    • 다양한 시스템 응답 생성 후 모든 대화는 원래 데이터셋에 통합되어 새로운 데이터셋으로 사전 훈련됩니다. 
    • 사전 훈련을 위한 하이퍼파라미터의 자세한 내용은 부록 C.2에서 확인하실 수 있습니다.
  • Finetuning Details 
    • 대화에 대한 사전 훈련을 완료한 후, 저희는 downstream 대화 작업에서 지도 학습 세밀 조정을 수행합니다. 
    • 그러나 중요한 점은 사전 훈련 단계에서는 생성된 다양한 대화만 사용한다는 것입니다. 
    • fine-tuning phase에서는 이전의 기준선과 동일한 데이터셋 및 설정을 사용하며, 대화 행위와 같은 골든 라벨을 포함합니다. 
    • 사전 훈련을 위한 하이퍼파라미터의 자세한 내용은 부록 C.3에서 확인하실 수 있습니다.

3.4 Main Results

  • 저희는 모든 사전 훈련된 언어 모델을 네 가지 핵심 과제 중심의 대화 작업에서 평가합니다: intent recognition, dialogue state tracking, dialogue act prediction, and response selection
  • 우리의 중점은 다양한 대화 표현을 학습하는 데 있습니다. 
  • 따라서 우리는 응답 생성과 관련된 작업보다는 대화 이해와 관련된 작업에 더 관심이 있습니다. 
  • 평가에서 공정성을 보장하기 위해 TOD-BERT를 따르는 모든 기준선에 대해 동일한 아키텍처를 사용하고, 사전 훈련된 모델에는 단일 레이어 분류 헤드와 같은 간단한 구성 요소만 추가합니다. 
  • 각 하류 작업에 대해 전체 데이터셋을 사용하여 실험을 수행합니다. 
  • 또한 4.4절에서 퓨-샷 설정 실험도 탐구했습니다. 
  • 이를 통해 이러한 사전 훈련된 언어 모델이 여러 작업과 시나리오에 얼마나 잘 일반화되는지 확인할 수 있었습니다.
  • Intent Recognition은 대화 발화를 입력으로 받아들이고 의도 라벨을 예측하는 다중 클래스 분류 작업입니다. 
    • 대화 표현으로 [CLS] 임베딩을 사용합니다. 
    • 모델은 크로스 엔트로피 손실로 훈련됩니다. 
    • 분류 정확도와 리콜을 보고합니다. 
    • 표 1은 OOS 데이터셋(Larson et al., 2019)에서 의도 인식 결과를 보여줍니다. 
    • 이 데이터셋은 10개 도메인에 걸쳐 총 151개의 의도 클래스를 포함하며, 이 중 150개는 도메인 내 의도이고 1개는 도메인 외 (OOD) 의도입니다. 
    • DivTOD가 4개 메트릭스 중 3개에서 모든 기준선을 능가하는 결과를 보여줍니다. 
    • 특히 전체 정확도 및 OOD 메트릭스에서 큰 향상이 있습니다. 
    • 모든 결과는 DivTOD의 도메인 내 및 도메인 외 메트릭스에 대한 일반화 능력을 보여줍니다.
  • Dialogue State Tracking은 (도메인, 슬롯) 쌍마다 각 대화 턴에서 사전 정의된 온톨로지를 기반으로 슬롯 값 식별을 포함하는 다중 클래스 분류 작업입니다. 
    • 모델은 대화 이력을 입력으로 받아들이고, 모든 쌍에 걸쳐 합산된 크로스 엔트로피 손실로 훈련됩니다. 
    • 우리는 일곱 가지 다른 도메인을 포함한 널리 사용되는 TOD 데이터셋 MWOZ 2.1 (Budzianowski et al., 2018)을 사용합니다.
    • Joint acc와 Slot acc를 보고합니다. 
    • Joint acc는 각 대화 턴에서 예측된 값이 지면 실제 값과 정확히 일치할 때에만 true로 간주합니다. 
    • Slot acc는 각 (도메인, 슬롯, 값) 트리플릿을 해당하는 지면 실제 레이블과 개별적으로 비교합니다.
    • 표 2는 MWOZ 2.1에서의 대화 상태 추적 결과를 보여줍니다. 
    • DivTOD는 모든 메트릭스에서 최첨단 결과를 달성합니다. 
    • SimCSE는 대화 데이터의 본질적인 특성을 무시하며 전체 대화를 모델링할 수 없어 성능이 저조한 것으로 나타납니다. 
    • 저희 방법은 슬롯 정확도보다는 합동 정확도에서 더 큰 개선을 달성하며, 이는 전체 대화 맥락을 이해하는 강점을 나타냅니다. 
    • 예를 들어, DivTOD는 전체 데이터 설정에서 Slot Acc에서 TOD-BERT를 0.3% 능가하지만 Joint Acc에서는 2.9% 능가하여 대화 모델링의 우수성을 나타냅니다."
  • Dialogue Act Prediction은 대화 이력을 입력으로 받아들이고 시스템 응답에 해당하는 여러 대화 행위를 예측하는 다중 레이블 분류 작업입니다. 
    • 모델은 모든 가능한 동작에 대해 이진 크로스 엔트로피 손실로 훈련됩니다. 
    • 추론 중에는 대화 행위를 트리거하는 임계값이 0.5로 설정됩니다. 
    • 두 데이터셋인 MWOZ (Budzianowski et al., 2018)와 DSTC2 (Henderson et al., 2014)를 사용합니다. 
    • (Wu et al., 2020)를 따라 원래 대화 행위를 일반적인 형식으로 통일하기 위해 동일한 데이터 전처리를 사용합니다. 
    • 미크로-F1 및 매크로-F1을 보고합니다.
    • 표 3은 MWOZ 및 DSTC2 데이터셋에서의 dialogue act prediction 결과를 보여줍니다. 
    • DivTOD 방법은 네 가지 메트릭스 중 세 가지에서 모든 다른 기준선을 능가합니다. 
    • 특히, DSTC2 데이터셋에서 FutureTOD를 뛰어넘어 큰 향상을 보여주고 있습니다.
    • MWOZ에서도 개선이 나타나며, 매크로-F1이 81.9%에서 82.6%로 증가했습니다. 
    • 그러나 우리는 다양한 메소드가 미크로-F1 측면에서 명확한 차이를 보이지 않는다는 점을 주목합니다. 
    • 이는 MWOZ에서 대화 행위 레이블의 불균형 분포로 인한 것으로 보입니다. 
    • 이러한 경우에는 각 레이블에 동일한 가중치를 할당하는 매크로-F1이 더 합리적인 평가 메트릭스를 제공합니다. 
    • 더 높은 응답 품질 외에도 DivTOD가 더 넓은 대화 정책 범위를 포착하고 TOD의 본질적인 일대다 다양성을 학습한다는 것을 관찰했습니다. (4.6절 참조)"
  • 응답 선택은 대화 이력을 기반으로 후보 풀에서 가장 관련성 있는 시스템 응답을 검색하는 순위 작업을 목표로 합니다. 
    • 저희는 평가 데이터셋으로 MWOZ와 DSTC2를 사용합니다. 
    • 대화 이력과 후보 응답 간의 유사도 점수를 계산하는 이중 인코더 전략을 사용합니다. 
    • 이 모델은 코퍼스에서 무작위로 선택한 시스템 응답을 부정적인 샘플로 사용하여 훈련합니다. 
    • 우리는 k-to-100 정확도를 보고합니다. 
    • 이 메트릭스는 실제 응답이 상위 k 위치에 랭크되는 비율을 나타냅니다. 
    • 이는 이중 인코더에 의해 계산된 점수에 따라 99개의 무작위 샘플 응답과 비교할 때 지면 실제 응답이 상위 k 위치에 랭크된 비율을 나타냅니다. 
    • 표 4는 MWOZ와 DSTC2에서의 응답 선택 결과를 보여줍니다. 
    • DivTOD 방법은 모든 메트릭스에서 최첨단 결과를 달성합니다. 
    • TOD-BERT가 응답 대조 목적으로 사전 훈련되었음에도 불구하고, 저희 방법은 여전히 전체 데이터 설정에서 MWOZ와 DSTC2 모두에서 유의미하게 TOD-BERT를 능가합니다. 
    • 이는 우리의 방법이 더 나은 일반화 능력을 가지고 있다는 것을 나타냅니다. 
    • FutureTOD와 비교하면, 저희 방법은 응답 선택에서 큰 향상을 가져오며, 이는 TOD 표현의 다양성을 향상시키고 따라서 성능을 향상시킬 수 있다는 것을 나타냅니다.
  • 요약하면, 우리의 방법은 대화 행위 예측 및 응답 선택 작업에서 주목할 만한 개선을 보입니다. 
  • 이는 대화의 일대다 특성을 고려하는 것이 이러한 작업에 있어서 중요하다는 것을 나타냅니다. 
    • 근데, 평가한 테스크들이 일대다 특성이 반영이 되는 것인가?
  • 더 나아가, 우리의 방법은 의도 분류 및 대화 상태 추적과 같은 다른 중요한 과제 지향 대화 작업에서도 향상을 달성합니다. 
  • 이는 우리의 방법이 다양한 작업에 걸쳐 일반화되는 능력을 더욱 강조합니다.

4 Qualitative Analysis 

4.1 Ablation Study of Domain Knowledge Alignment

  • 표 6은 도메인 지식 정렬에 대한 실험 결과를 보여줍니다. 
  • 두 개의 downstream 작업, DSTC2에서의 대화 행위 예측 및 MWOZ 5에서의 응답 선택에 대한 것입니다. 
  • DivTOD는 도메인 지식을 정렬하여 대화를 훈련할 때 다양한 조건에서 가장 우수한 성능을 발휘합니다. 
    • align이 그 데이터증강할때, 관련 지식을 가진지 필터링하는 과정을 말하는 듯
  • 그러나 DivTOD w/o Align의 성능은 만족스럽지 않습니다. 
  • 예를 들어, 대화 행위 예측 작업에서 DivTOD w/o Align는 기준선과 유사하며 DivTOD의 성능보다 낮습니다. 
  • 이는 도메인 지식을 정렬함으로써 TOD 대화에서 일관성을 유지하는 데 도움이 되며, 이로써 LLM에 의해 생성된 다양한 대화가 사전 훈련 프로세스에 긍정적인 영향을 미칠 가능성을 나타냅니다.
  • 다양한 방법에 의해 생성된 대화의 품질을 시각적으로 나타내기 위해 우리는 Figure 3에 표시된 것처럼 대화 샘플을 무작위로 선택했습니다. 
  • 대화 예제에서 볼 수 있듯이, DivTOD의 대화는 원본 텍스트와 다르며 모두 대화 맥락과 일관성이 있습니다. 
  • 그러나 DivTOD w/o Alignment의 대화는 두 가지 문제를 일으킵니다. 
    • 첫째, LLM은 프롬프트 지시에 따라 답하지 않을 수 있으며 "여기 재작성된 응답이 있습니다:"와 같이 관련 없는 답을 생성할 수 있습니다. 
    • 둘째, LLM은 미래에 사용자가 제기하거나 제공할 정보를 맞지 않는 답변을 생성할 수 있습니다."

4.2 Advantages of LLMs in Generating Diversified Responses 

  • LLM이 TOD 데이터만을 사용하여 훈련된 다른 모델들보다 다양한 응답을 생성하는 데 어떤 이점이 있는지 시연하기 위해, 우리는 무작위로 TOD 대화 샘플 500개를 추출하고 PPTOD (Su et al., 2021)와 LLM을 사용하여 응답을 생성합니다. 
  • 생성된 응답에 포함된 고유 n-그램의 수를 비교합니다. 
  • 표 5는 LLM이 PPTOD로 생성된 응답보다 더 많은 고유 n-그램을 포함하고 있음을 보여줍니다. 
  • 심지어 원래 대화에 포함된 고유 n-그램의 수를 능가하고 있습니다. 
  • 우리는 PPTOD가 TOD 데이터셋에서 미리 훈련되어 그 데이터셋의 제한에 과적합되어 응답 다양성이 감소하게 되었다고 분석합니다. 
  • 이것은 LLM이 더 다양한 응답을 생성할 수 있는 능력을 더 지원하는 증거입니다.

4.3 Quantity of Diverse Dialogues

  • 우리의 기본 실험 설정에서 LLMs에게 대화 사전 훈련을 위해 약 50,000개의 다양한 대화를 생성하도록 지시했습니다. 
  • Figure 4는 대화 행위 예측(DSTC2) 및 응답 선택(MWOZ) 두 가지 하류 작업에 대한 사전 훈련 중 다양한 대화의 수를 변화시킬 때의 효과를 보여줍니다. 
  • 두 작업 모두에서 DivTOD의 성능은 다양한 대화의 수가 증가함에 따라 점차 향상되는 것으로 나타납니다. 
  • 이는 대규모 언어 모델에 의해 생성된 다양한 대화가 모델의 일반화를 계속 향상시킬 수 있다는 것을 나타냅니다.

4.4 Few Shot Learning

  • 표 7은 DSTC2에서의 대화 행위 예측 및 MWOZ에서의 응답 선택 결과를 표시합니다. 
  • 우리의 DivTOD는 모든 메트릭스에서 최첨단 결과를 달성합니다. 
  • DivTOD 방법과 FutureTOD는 모두 non-contrastive self-training 프레임워크를 사용하여 사전 훈련되었지만, DivTOD 방법은 1% 및 10% 데이터 설정에서 모두 데이터셋에서 FutureTOD를 크게 능가합니다. 
  • 이는 DivTOD가 다양한 시나리오에서 우수한 일반화 능력을 가지고 있다는 것을 보여줍니다.
  • 우리는 이전의 기준선과 동일한 사전 훈련 말뭉치를 사용했으며, 이는 MWOZ 및 CamRest676을 포함하고 있습니다. 
  • 그러나 이로 인해 소수 데이터 성능의 신뢰성에 대한 우려가 생길 수 있습니다. 
  • 이를 해결하기 위해 우리는 사전 훈련 말뭉치에서 MWOZ와 CamRest676을 제외하고 1% 데이터 설정에서 FutureTOD와 DivTOD의 성능을 평가했습니다. 
  • MWOZ 데이터셋에서 FutureTOD†와 DivTOD†의 성능이 감소했습니다. 
  • 이는 MWOZ를 사전 훈련 단계에 포함하는 것이 소수 데이터 성능을 향상시킬 수 있다는 것을 시사합니다. 
  • 그러나 DivTOD†는 여전히 좋은 성능을 달성하고 FutureTOD†를 능가합니다. 
  • 놀랍게도, DSTC2 데이터셋에서도 DivTOD†와 FutureTOD†이 성능이 약간 감소하는 것을 확인할 수 있습니다. 
  • 이는 MWOZ가 TOD 데이터셋으로서 높은 품질을 가지고 있음을 강조하고 이전 기준선에서 사전 훈련 말뭉치에 포함되는 것을 정당화하는 일부 근거를 제공합니다.

4.5 Zero Shot Learning

  • 우리 모델의 비지도 임베딩 능력을 검증하기 위해 MWOZ와 DSTC2 데이터셋에서 제로샷 응답 선택을 수행했습니다. 
  • 결과는 표 8에 나타나 있습니다. 
  • BERT, FutureTOD 및 DivTOD는 인코더 아키텍처를 사용하고, LLaMA 및 Vicuna는 디코더 아키텍처를 사용합니다. 
  • 따라서 인코더 모델의 경우 추론 검색을 위해 [CLS] 레이어의 히든 상태를 임베딩으로 사용하고, 디코더 모델의 경우 마지막 입력 문자에 해당하는 히든 상태를 임베딩으로 사용합니다 (DialoGPT의 설정과 일관됨). 
  • DivTOD는 모든 메트릭스에서 BERT, FutureTOD 및 LLaMA를 능가하며 Vicuna와 유사한 성능을 보입니다. 
  • 이는 모델이 Vicuna에 의해 제공된 다양한 대화 데이터 사전 훈련으로부터 강력한 문맥 표현 능력을 이미 얻었음을 나타냅니다. 
  • 그러나 시간 비용과 매개변수 크기는 Vicuna와 같은 LLM보다 훨씬 작으며 각각 14배와 70배 감소했습니다.

4.6 Representation Diversity 

  • 우리의 DivTOD가 더 다양한 대화 정보를 포착하고 TOD의 본질적인 일대다 다양성을 학습할 수 있는지 이해하기 위해 MWOZ 테스트 세트에서 질적 분석을 수행합니다. 
  • 각 대화 히스토리에 대해 2000개의 무작위 샘플링된 응답을 선택합니다. 
  • 그런 다음 Table 4의 사전 훈련된 응답 선택 모델을 사용하여 대화 히스토리와 응답의 표현 간의 코사인 거리를 계산합니다. 
  • 우리는 코사인 거리에 따라 상위 10개의 응답을 선택하고, 자동 메트릭스로 다양성(Diversity) 및 일관성(Coherence)을 계산합니다. 
  • 다양성은 상위 10개 응답에서 대화 행위 유형의 고유한 수를 나타냅니다. 
  • 일관성은 응답 선택 작업에서 미세 조정된 이중 인코더를 사용하여 히스토리와 상위 10개 응답 간의 평균 관련 점수를 나타냅니다. 
  • 이 두 메트릭스를 결합하여 전체적인 자동 응답 다양성 및 품질을 측정하는 결합 점수를 얻습니다. 
  • Table 9의 왼쪽 부분에는 다양한 사전 훈련된 모델의 자동 결과가 표시됩니다. 
    • combineed -> combined
  • 우리의 모델은 모든 메트릭스에서 우위를 차지하고 있으며, 우리의 모델이 응답 관련성을 희생하지 않고도 풍부한 대화 정책을 포착할 수 있다는 것을 나타냅니다. 
  • 또한 TOD-BERT가 일관성에서는 유사한 성능을 달성하지만 다양성에서는 최악의 성능을 보이고 있으며 BERT보다도 나쁘다는 것을 찾을 수 있습니다. 
  • 이는 대조적 학습에서 양성 및 음성 샘플의 선택에 의해 도입된 노이즈가 대화 표현의 일대다 다양성을 손상시킬 수 있다는 것을 입증합니다.
  • Zhang(2020a)을 따르면, 우리는 개별 응답의 적절성과 선택된 응답 간의 다양성을 평가하기 위해 인간 평가를 수행합니다. 
  • 적절성(App)은 각 응답에 대해 1-3의 Likert 척도로 점수를 매기고, 다양성은 상위 10개 응답 전체에 대해 1-5의 Likert 척도로 점수를 매깁니다. 
  • 우리는 100개의 대화 히스토리와 대응하는 상위 10개 응답을 샘플링하고 다양한 사전 훈련된 모델에서 검색된 이러한 샘플을 3명의 심사원에게 대화 히스토리를 제공하여 점수를 매기도록 했습니다. 
  • Table 9의 오른쪽 부분에는 인간 평가 결과가 표시됩니다. 
  • 자동 평가와 인간 평가의 결과가 동일한 경향을 가지고 있음을 알 수 있습니다. 
  • 자동 평가 및 인간 평가 모두 우리의 DivTOD 모델이 과제 중심 대화의 본질적인 일대다 다양성을 학습할 수 있다는 것을 입증합니다.

5 Related Work

  • Dialogue Pre-trained Language Models 
    • Zhang et al. (2020b)는 Reddit 데이터에서 사전 훈련된 GPT-2 모델을 사용하여 오픈 도메인 대화 응답 생성에 대한 연구를 수행했습니다. 
    • PLATO (Bao et al., 2019)는 트위터 및 Reddit 데이터를 사용하여 이산 잠재 변수를 사용하여 대화 생성 모델을 사전 훈련하며 대화 정책을 암시적으로 모델링하고 오픈 도메인 대화 생성에서 일대다 매핑 문제를 해결합니다. 
    • 그러나 이러한 모델들은 chitchat dialogue에 중점을 둔 것이기 때문에 DivTOD와 비교하지 않습니다. 
    • Wu et al. (2020); Zhou et al. (2022)은 대조적 학습을 사용하여 TOD 대화 표현을 학습합니다. 
    • Henderson et al. (2020); Liu et al. (2021)은 대화 검색 및 응답 선택을 위해 유사한 아이디어를 사용합니다. 
    • Zeng et al. (2023)은 미래 지식을 이전 대화의 표현으로 증류하는 대비적이지 않은 프레임워크를 제안합니다. 
    • 이러한 비지도 방법 외에도 Zhou et al. (2022); He et al. (2022)은 지도 또는 준지도 사전 훈련을 위해 레이블이 지정된 대화 데이터를 사용합니다. 
    • 본 논문에서는 unsupervised TOD pre-training 에 중점을 두고 있기 때문에 이러한 모델들과 비교하지 않으며 향후 연구에 남겨둡니다.
  • Enhancing small models with LLMs 
    • 최근에는 ChatGPT와 GPT-4와 같은 대형 언어 모델(LLMs) 이 여러 언어 관련 작업에서 우수한 일반화 능력을 보여주었습니다. 
    • 최근에는 이러한 강력한 LLM을 데이터 증강을 위해 증류(distillation)하는 많은 노력들이 있었으며, 이를 통해 훈련 목적이나 모델 구조를 수정하지 않고도 동등한 강력한 대형 모델을 얻고자 합니다. 
    • 예를 들어, SelfInstruct (Wang et al., 2022)와 Alpaca (Touvron et al., 2023)는 175개의 초기 작업을 기반으로 Text-Davinci-003를 증류하여 52,000개의 고품질 지시-응답 쌍을 생성합니다. 
    • 다른 한편으로, LLM은 작은 모델의 특정 작업 능력을 향상시키기 위해 사용됩니다. 
    • Ho et al. (2022)와 Hsieh et al. (2023)는 LLM을 사용하여 모델의 추론 능력을 향상시키는 데 기여하는 근거를 생성합니다. 
    • Liang et al. (2023)은 LLM을 수학 튜터로 사용하여 모델의 수학 능력을 향상시킵니다. 
    • Impossible distillation (Jung et al., 2023)에서는 LLM이 모델이 고품질이며 조절 가능한 요약과 패러프레이즈를 생성하는 데 도움을 줍니다. 
    • 이전 연구와 대조적으로, 우리는 LLM에서 작업 지향 대화 시스템과 관련이 없는 도메인 지식을 걸러내면서 풍부한 백그라운드 지식을 작은 모델로 이전합니다.

6 Conclusion

  • DivTOD이라는 새로운 dialogue pre-training을 제안합니다. 
  • DivTOD는 인간 대화의 본질적인 one-to-many diversity을 모델링하여 작업 지향 대화 표현을 다양화합니다. 
    • 근데 학습되는 방법은 one-to-one을 다르게 하는것 아닌가?
  • DivTOD는 LLM을 이용하여 다양한 백그라운드 지식을 작은 모델로 전달하면서 작업 지향 대화와 충돌하는 도메인 지식을 걸러내도록 안내합니다. 
  • 다양한 작업 지향 대화 작업에서의 실험 결과는 DivTOD가 FutureTOD, TOD-BERT, DSE 및 다른 강력한 기준선을 능가한다는 것을 보여줍니다. 
  • 우리는 모든 사전 훈련된 모델과 코드를 공개할 계획이며, 향후 연구를 촉진하기 위해 노력할 것입니다. 미래에는 더 큰 사전 훈련된 모델과 다양한 작업 지향 대화 말뭉치를 탐색하고 유사한 아이디어를 생성적 대화 모델에 확장하는 것이 목표입니다.

Limitations

  • DivTOD이 기존 기준선을 크게 개선하였지만, 향후 연구를 위해 탐험할 여러 방향이 있습니다. 
  • (1) 우리는 대화 사전 훈련 모델이 인간 대화의 본질적인 일대다 다양성을 포착하는 데 도움이 되도록 LLM에 대한 간단하고 효과적인 방법을 설계했습니다. 그러나 이 문제를 대화 사전 훈련 모델의 구조를 통해 해결하는 것은 고려하지 않았습니다. 향후에는 대화 사전 훈련 모델에 대한 더 효율적인 아키텍처와 지식 전송 방법을 설계하는 것을 탐험할 것입니다. 
  • MLM이 아닌 다른 pretraining 기법을 활용해 볼 수도?
  • (2) DivTOD는 대화 이해 작업에만 중점을 두었으며, 대화 행위 예측 및 응답 선택과 같은 작업입니다. 향후에는 LLM이 작은 모델과 협력하여 생성적 대화 사전 훈련 모델로 아이디어를 확장할 것입니다. 
  • (3) 우리는 MT 응답을 제한하기 위해 zero-shot 프롬프트를 포함한 다양한 지침을 시도했습니다. 그러나 이러한 방법들은 크게 효과적이지 않았습니다. 예를 들어, zero-shot 방법의 통과율은 우리의 후필터에서 비교적 낮았습니다. 따라서 이러한 결과를 보고하지 않았습니다. 향후에는 CoT 방법과 같은 더 고급 프롬프트 기술을 탐험하여 접근 방식을 강화할 계획입니다.
Reference
  • https://openreview.net/pdf?id=50vk4eo8Pi

댓글