◼ Comment

논문 요약

기존의 PLMs (BERT, GPT)등은 task-oriented에서 적합하지 않다.
저자들은 task-oriented dialogue에서 LLM을 활용한 pretraining을한 DivTOD을 소개한다.
pretraining을 할 데이터는 LLM의 two step을 통해 제작된다.
이 데이터세트는 다양하고 domain-specific knowledge을 가진 응답으로 구성된다.

강점

LLM을 통하여 task-oriented dialogue 에 필요한 데이터세트를 만드는 방법을 제안한다.
이러한 데이터세트가 pretraining에 효과적임을 보여준다.
결과적으로 제안한 DivTOD는 TOD 베이스라인들보다 성능이 뛰어나다

단점

section 2.2의 Generating Diversified Responses

IP는 너무 길고 복잡하다.
LLM이 지시사항들을 제대로 반영하는지 확인할 수 있습니까? 이는 aligning domain knowledge와는 다른 작업일 거 같습니다.

DP, SP에서 사용되는 few-shot example은 어떻게 선별되는가?
Figure 5에서, [masked] 표시가 있음에도 마지막에 #Response to#을 한 번더 적어주는 이유는 뭐인가?

line 211-214:

teacher 모델은 student 모델이 future knowledge을 같도록 도와주는 역할이다.
그런데 teacher 모델이 student을로부터 업데이트 된다는 의미는 어떤 것인가요?

pretraining

모델이 학습될 때, original data와 LLM으로부터 생성된 data 둘다 사용하는 것인가?
LLM은 하나의 response만을 생성하는 것인가?
같은 context에 대해 여러 response가 쌍으로 있다면, pretraining할 때 각각을 따로 학습하는 것인가?
만약 그렇다면, 모델이 오히려 context에 대해 어떤 response을 생성해야할 지 혼란스러울 수도 있지 않을까요?

논문은 간단하고 효과적일 수 있지만, LLM으로 데이터 생성해서 사용한다는 컨트리뷰션외에 노벨티가 부족하다.

제안

Table 9: combineed -> combined
테스트할 때, one-to-many diversity의 강점이 드러나는 분석이 있으면 좋겠다.
다른 LLM을 통하여도 비슷한 결과가 재현되는지 분석하면 더 좋은 논문이 될 수 있습니다.

Abstract

일반 텍스트에서 훈련된 사전 학습 언어 모델은 다양한 상황에서 큰 성공을 거뒀습니다.
그러나 일반 텍스트와 task-oriented dialogues (TOD) 간의 본질적인 언어 차이로 인해 기존의 언어 모델은 실무에서 덜 유용합니다.
현재의 작업 지향 대화 사전 학습 방법은 대화에서 하나의 입력에 여러 개의 응답이 가능한 특성을 간과합니다.
동일한 대화 컨텍스트를 고려할 때 여러 응답이 적절할 수 있습니다.
본 논문에서는 LLMs와 협력하여 다양한 작업 지향 대화 표현을 학습하는 새로운 대화 사전 학습 모델인 "DivTOD"를 제안합니다.
DivTOD는 LLMs에게 작업 지향 대화와 모순되는 도메인 지식을 제거하면서 다양한 지식을 더 작은 모델로 전달하는 방법을 안내합니다.
실험 결과, 우리 모델은 다양한 하위 대화 작업에서 강력한 TOD 베이스라인을 능가하며 작업 지향 대화의 본질적인 다양성을 학습합니다.

1 Introduction

대규모의 일반 텍스트 말뭉치를 기반으로 한 사전 학습 언어 모델(PLMs)은 많은 자연어 처리 (NLP) 응용 프로그램에서 일반적으로 사용됩니다.
이러한 모델은 self-supervised manner으로 사전 학습되어 이후 supervised downstream tasks을 위해 미세 조정됩니다.
사전 학습 및 미세 조정 패러다임은 다양한 하위 작업의 성능을 크게 향상시켰습니다.
그러나 이러한 성공에도 불구하고 현재의 대부분의 연구 노력은 주로 Wikipedia와 같은 일반 문서에 초점을 맞추고 있으며, 이러한 문서는 특히 task-oriented dialogues와 같은 대화형 문서와 큰 언어적 차이가 있습니다.

(동기1) 이러한 PLMs를 직접 사용하는 것은 최적이 아니며 저품질의 성능을 내놓습니다.

일반 텍스트와 비교하여 작업 지향 대화 (TOD)는 명시적인 목표 (예: 레스토랑 예약), belief states, and database information와 함께 사용자가 특정 작업을 수행하는 데 도움을 주는 것을 목표로 합니다.

따라서 고품질의 대화 표현을 학습하는 것은 TOD에서 작업을 이해하는 데 중요합니다.

이전 방법은 대화 이해 성능을 향상시키기 위해 작업 지향 대화 데이터셋을 사용하여 모델을 사전 학습했습니다.

SimCSE는 Dropout augmentation를 통해 양의 쌍을 생성하여 문장 임베딩을 학습하기 위한 대조적 학습 프레임워크를 사용합니다.
TOD-BERT는 대화 역사와 해당 응답을 양의 쌍으로 사용하여 대조적 학습을 위해 대화 데이터의 고유한 특성을 고려합니다.
DSE는 동일한 대화의 연속적인 발화를 양의 쌍으로 취하여 대화로부터 학습합니다.
더 나아가, FutureTOD은 이전 대조적 방법에서 진짜 양성 및 음성 쌍을 선택하는 데 직면한 어려움을 해결하기 위한 새로운 non-contrastive self-training framework를 제안합니다.
즉 일반적인 PLM 사용대신 ToD에 맞는 PLM을 학습하려고 하는 시도가 있었다?

이전 TOD PLMs는 상당한 진전을 이루었음에도 불구하고, 대화의 일대다 특성을 무시하는 경우가 대부분입니다.

대화에서 동일한 대화 컨텍스트 아래에서 여러 응답이 적절할 수 있는 경우를 무시합니다(그림 1에 나와 있음).
우리의 분석은 TOD 데이터셋의 다양성 부족이 이러한 문제의 주된 원인이라는 것을 보여줍니다.
구체적으로, (1) 대부분의 TOD 데이터셋은 동일한 대화 역사에 대한 단일 응답만 제공하며, (2) TOD에서 시스템 응답의 스타일은 종종 단조롭고 지루합니다.
결과적으로 현재 TOD PLMs는 가장 일반적인 대화 정보만 캡처하고 덜 빈번하지만 여전히 실행 가능한 사용자 행동을 무시하여 중복되고 평범한 응답을 생성합니다.
즉 여러 답변이 필요한 경우에 대한 데이터세트가 부족하다.
응답패턴이 가능성있는 사용자 행동들을 무시하고, 반복적이고 단조로운 느낌이 있다고 함

Large Language Models (LLMs)은 위에서 언급한 문제들에 대한 해법으로 희망을 제공합니다.

LLMs는 더 많은 매개변수를 가지고 있으며 보다 풍부하고 다양한 말뭉치에서 사전 훈련되고 세밀하게 조정됩니다.
결과적으로 LLMs는 보다 넓은 일반 배경 지식을 보유하고 있어 더 다양하고 실행 가능한 응답을 생성할 수 있습니다.
그러나 LLMs는 명시적으로 과업 중심 대화 시스템에 대해 세밀하게 조정되지 않았다는 점에 주목해야 합니다, 이로 인해 task-oriented dialogue에서 요구하는 general knowledge and the domain knowledge간에 상당한 불일치가 발생합니다.
더구나, LLMs는 일반적으로 수십억 개의 매개변수를 가지고 있어 극도로 컴퓨팅 요구 사항과 세밀한 조정 및 추론의 비용 때문에 대규모로 배포하기에는 너무 비싸다는 것을 고려해야 합니다 (Wei et al., 2022).

Chain of thought prompting elicits reasoning in large language models.

이러한 문제를 해결하기 위한 자연스러운 접근 방식은 LLMs에서 task에 필요한 풍부한 배경 및 domain-specific knowledge을 더 작고 효율적인 모델로 추출하는 것입니다.

이 논문에서는 우리는 대화 사전 훈련 모델인 DivTOD를 제안합니다.

DivTOD는 LLMs에서 풍부한 일반 배경 지식과 task-specific domain knowledge을 전달함으로써 작은 모델이 인간 대화의 본질적인 일대다 다양성을 모델링하는 능력을 강화합니다.
즉 LLM의 task-specific(여기서는 ToD)의 knowledge을 distillation 하여 활용하는 DivTOD 소개?

우리의 프레임워크는 세 가지 핵심 단계로 구성되어 있습니다:

(1) LLMs를 이용하여 "filling the blank" 방식으로 대화 맥락을 기반으로 다양한 시스템 응답을 생성하도록 유도하는 단계.
(2) 도메인 지식과 생성된 응답을 조율하기 위해 LLM 기반의 후처리 필터를 사용하는 단계.
(3) 작은 모델이 다양한 대화를 관찰하면서 LLM의 능력을 모방하도록 허용하는 단계.

우리는 DivTOD를 의도 분류, 대화 상태 추적, 대화 행위 예측 및 응답 선택과 같은 다양한 과업 중심 대화 과제에서 평가했습니다.

결과는 DivTOD가 모든 시나리오에서 강력한 TOD 기준을 일관되게 능가하며 일반화 능력을 나타냅니다.
더불어 DivTOD가 더 넓은 범위의 대화 정보를 포착하고 TOD의 본질적인 일대다 다양성을 학습할 수 있는 것을 관찰했습니다.
DivTOD가 TOD보다 성능이 좋고 일대다의 다양한 응답을 생성하는 효과!

우리의 기여는 다음과 같습니다:

(1) LLMs의 풍부한 task-specific domain knowledge and rich general background knowledge을 더 작은 모델로 추출하는 프레임워크를 제안합니다. 우리는 이 프레임워크를 사용하여 DivTOD를 사전 훈련하고 인간 대화의 본질적인 일대다 다양성을 모델링합니다.
(2) DivTOD는 다양한 하류 대화 과제에서 강력한 TOD 기준을 능가합니다. 또한 과업 중심 대화의 본질적 다양성을 학습합니다.

2 Model

2.1 Overall Architecture

그림 2는 DivTOD의 전체 아키텍처를 보여줍니다.
우리의 프레임워크는 LLM을 기반으로 한 교사 모델 MT와 Vicuna-7b 및 BERT-base-uncased로 초기화된 작은 모델인 학생 모델 MS로 구성되어 있습니다.
먼저 대화 맥락을 기반으로 "filling the blank" 방식을 사용하여 MT가 다양한 시스템 응답을 생성하도록 유도합니다.
그런 다음 MT를 필터로 사용하여 생성된 응답을 과업 중심 대화 컨텍스트의 도메인 지식과 조율합니다.
마지막으로 생성-필터 단계를 계속 반복함으로써 MS가 원본 데이터셋과 Zeng에서 제안된 자체 훈련 방법을 사용하여 생성된 데이터셋에서 훈련할 수 있도록 합니다.
그림2에서 prompt쪽 보면, user 사이에 response가 masked된 것을 알 수가 있다

즉 이렇게 대화흐름에 맞는 response을 생성하도록 LLM에게 시키는 것이다.
그 다음 이 생성된 response가 knowledge에 부합하느냐?를 check 하는 것 같다. 체크시스템은 뒤에서 설명되겠지? --> LLM으로함
이렇게 생성된 response는 기존 response외에 다양한 데이터로 증강이 되는 효과?
그리고 check결과 도메인에 부합된다고 하면 이를 이용하여 student model MS을 학습시키는 방식

2.2 Diversifying Task-Oriented Dialogue Representations

Notation

우리는 TOD-BERT(Wu et al., 2020)에 의해 수집된 데이터셋을 사전 훈련 말뭉치로 사용합니다.
이 말뭉치는 9개의 공개적으로 사용 가능한 task-oriented datasets을 결합한 것으로, 60개의 도메인에서 총 100,707개의 대화와 1,388,152개의 발화를 포함하고 있습니다.
각 대화에 대해 먼저 대화를 토큰 시퀀스로 변환합니다.
D = {U1, S1, . . . , Un, Sn}이며, Ui와 Si는 각각 사용자 발화와 시스템 발화를 나타내며 special role 토큰 [USR] 또는 [SYS]로 시작합니다.
여기서 n은 대화의 턴 번호입니다.

Generating Diversified Responses

우리는 "filling in the blank" 접근법을 사용하여 MT를 대화 컨텍스트를 기반으로 다양한 응답을 생성하는 데 안내합니다.
주어진 대화 D에 대해 시스템 응답 Si를 무작위로 마스크하고 나머지 부분을 입력 D ′로 사용합니다.
MT에게 다양한 응답 S′i를 생성하도록 D′를 기반으로 하는 삼중 (IP, DP, SP) 으로 구성된 few-shot prompt P를 설계합니다.
P의 핵심 구성 요소는 IP로, 이는 모델에 작업에 대한 설명을 제공합니다.

IP는 또한 모델의 행동을 제약하여 관련 없는 응답을 생성하지 못하게 합니다.
DP는 입력 예제이며, SP는 해당 생성된 응답입니다.

각 입력 D′에 대해 P에 추가하고 MT에게 다양한 응답을 생성하도록 입력으로 사용합니다.
MT는 P의 DP, SP에서 시범을 흉내내어 새로운 다양한 응답을 생성할 수 있습니다.
완전한 프롬프트 예시는 부록의 Figure 5에 나와 있습니다.
즉 IP는 instruction으로 어떤 테스크를 할 지 설명하는 것인데,, 너무 길긴함. 이 지시사항이 다 작동하는 것일까? 의문이 들긴함

DP, SP은 few-shot 예제이다.
LLM으로 response 증강할 부분은 [masked] 취하고, 나머지 부분은 그대로 둔다.
마지막에 #Response to#을 한 번더 적어주는 이유는 뭐지?
뭐 어쨌든, 이러면 지시사항(IP), 예제(DP,SP)등을 통해 입력(D')에서 response 증강이 되는 것
few-shot은 어떻게 선별하지?

Aligning Domain Knowledge

MT를 사용하여 더 다양한 응답을 얻을 수 있지만, 이러한 응답은 task-oriented dialogue systems의 특성과 모순될 수 있습니다.
예를 들어, 생성된 응답은 사용자가 필요로 하지 않는 과도한 정보를 제공하거나 사용자가 미래에 물어볼 질문에 답할 수 있습니다.
생성된 응답이 TOD의 도메인 지식과 일치하도록 보장하기 위해 MT를 기반으로 한 필터를 설계했습니다.
D′에서 마스크된 부분을 생성된 응답 S′i로 대체하여 새로운 입력 D′′를 형성합니다.
D′′의 문맥 일관성을 판단하고 TOD의 특성과 충돌하는지 여부를 MT에게 알려주기 위해 (IE, DE, RE)로 구성된 few-shot 프롬프트 E를 설계했습니다.
프롬프트의 핵심 부분은 IE로, 이는 MT에게 작업에 대한 설명을 제공합니다.
프롬프트는 또한 task-oriented dialogue와 관련된 논리적 지식을 제공합니다.
DE와 RE는 MT에게 제공된 demonstrations 입니다.
DE는 예제 입력을 나타내며, RE는 해당 판단 결과 (True 또는 False 중 하나)를 나타냅니다.
D′′를 E에 추가하고 필터링 결과를 기반으로 S′i를 유지할지 여부를 결정합니다.
부록의 그림 6에 이 프롬프트의 완전한 예시가 나와 있습니다.
Demonstrations (D E ,S E)
생성된 데이터가 제대로 됐는지, 즉 정해진 knowledge안에서 생성된건지, 흐름상 이상한지 등 판단하는 것을 LLM에 태우는 것이다.

마찬가지로 IE의 insturction을 먼저 준다.
이 IE에 task-oriented에 필요한 knowledge을 넣어준다고 보면 되는 듯 하다.
그 다음, few-shot으로 DE,SE을 보여준다.
그리고 입력 D''을 구성한다.
출력은 #Check Result#:뒤에 True, False로 대답하는 형식이다.

Self Training

우리는 위에서 설명한 생성-필터 단계를 반복하며(부록의 알고리즘 1에 요약됨), 새로 생성된 대화를 원래의 대화와 결합합니다.

우리는 assembled dialogues에 대해 FutureTOD(Zeng et al., 2023)에서 제안한 self-training objective를 사용하여 MS를 훈련합니다.
새로운 학생 모델과 교사 모델은 MS를 사용하여 초기화됩니다.

teacher model이 MS로 초기화 된다는게 뭐지? --> 두 개가 같은 구조이구나.
여기서 teacher모델은 LLM이아니고 self-training을 위한 하나의 모델
각 대화에 대해 그것을 컨텍스트와 미래 시퀀스로 무작위로 분할합니다.

학생 모델은 컨텍스트를 인코딩하고 원래의 대화 표현을 얻습니다.

student model은 과거의 대화(컨텍스트)만을 기반으로 인코딩하는듯

반면 교사 모델은 컨텍스트와 미래를 모두 인코딩하여 목표를 얻습니다.

teacher model은 과거의 대화와 미래 발화를 모두 활용하여 인코딩하는듯

학생 및 교사 모델의 아키텍처는 동일하지만 교사 모델의 가중치는 주기적으로 학생에 의해 업데이트됩니다.

teacher 모델을 student을 활용하여 어떻게 업데이트하는 거지?
아마도 self-distillation을 하는 것인데, teacher 모델은 미래의 발화를 이용해서 학습이 되므로 더 뛰어나다고 간주하는 듯

The training goal is to align the original content representation with the full representation containing future knowledge.
생성-필터 단계는 다양한 응답을 생성하며, multiple reasonable full representations을 생성하여 동일한 콘텐츠 표현과 정렬될 수 있습니다.
생성, 필터링 및 자체 훈련의 위 프레임워크를 통해 MT에서 MS로 background knowledge and task-specific domain knowledge을 전송합니다.
근데 original data와 generated data가 있는데, 이를 둘 다 학습하는 것인가?

오히려 모델이 혼란스러워 할 수 있지 않나?

3 Experiment

3.1 Pre-training Corpus

Wu(2020)에 의해 수집된 아홉 가지 task-oriented datasets을 사용하고, 전체 세부 내용은 부록 A에 표시합니다.

3.2 Baselines

DivTOD은 다양한 downstream 작업에서 평가되었으며, 여러 출중한 baselines과 비교되었습니다.
이는 encoder-only 및 생성적 아키텍처를 모두 포함하고 있습니다.
기준선에 대한 자세한 내용은 부록 B를 참조해 주세요.

3.3 Implementation Details

LLM generating Details

저희는 다양한 시스템 응답을 생성하고 도메인 지식을 조정하기 위해 LLM로 Vicuna를 사용합니다.
이 단계의 실험 세부사항 및 하이퍼파라미터 설정에 대한 자세한 내용은 부록 C.1을 참조해주시기 바랍니다.

Pre-training Details

다양한 시스템 응답 생성 후 모든 대화는 원래 데이터셋에 통합되어 새로운 데이터셋으로 사전 훈련됩니다.
사전 훈련을 위한 하이퍼파라미터의 자세한 내용은 부록 C.2에서 확인하실 수 있습니다.

Finetuning Details

대화에 대한 사전 훈련을 완료한 후, 저희는 downstream 대화 작업에서 지도 학습 세밀 조정을 수행합니다.
그러나 중요한 점은 사전 훈련 단계에서는 생성된 다양한 대화만 사용한다는 것입니다.
fine-tuning phase에서는 이전의 기준선과 동일한 데이터셋 및 설정을 사용하며, 대화 행위와 같은 골든 라벨을 포함합니다.
사전 훈련을 위한 하이퍼파라미터의 자세한 내용은 부록 C.3에서 확인하실 수 있습니다.

3.4 Main Results

저희는 모든 사전 훈련된 언어 모델을 네 가지 핵심 과제 중심의 대화 작업에서 평가합니다: intent recognition, dialogue state tracking, dialogue act prediction, and response selection
우리의 중점은 다양한 대화 표현을 학습하는 데 있습니다.
따라서 우리는 응답 생성과 관련된 작업보다는 대화 이해와 관련된 작업에 더 관심이 있습니다.
평가에서 공정성을 보장하기 위해 TOD-BERT를 따르는 모든 기준선에 대해 동일한 아키텍처를 사용하고, 사전 훈련된 모델에는 단일 레이어 분류 헤드와 같은 간단한 구성 요소만 추가합니다.
각 하류 작업에 대해 전체 데이터셋을 사용하여 실험을 수행합니다.
또한 4.4절에서 퓨-샷 설정 실험도 탐구했습니다.
이를 통해 이러한 사전 훈련된 언어 모델이 여러 작업과 시나리오에 얼마나 잘 일반화되는지 확인할 수 있었습니다.
Intent Recognition은 대화 발화를 입력으로 받아들이고 의도 라벨을 예측하는 다중 클래스 분류 작업입니다.

대화 표현으로 [CLS] 임베딩을 사용합니다.
모델은 크로스 엔트로피 손실로 훈련됩니다.
분류 정확도와 리콜을 보고합니다.
표 1은 OOS 데이터셋(Larson et al., 2019)에서 의도 인식 결과를 보여줍니다.
이 데이터셋은 10개 도메인에 걸쳐 총 151개의 의도 클래스를 포함하며, 이 중 150개는 도메인 내 의도이고 1개는 도메인 외 (OOD) 의도입니다.
DivTOD가 4개 메트릭스 중 3개에서 모든 기준선을 능가하는 결과를 보여줍니다.
특히 전체 정확도 및 OOD 메트릭스에서 큰 향상이 있습니다.
모든 결과는 DivTOD의 도메인 내 및 도메인 외 메트릭스에 대한 일반화 능력을 보여줍니다.

Dialogue State Tracking은 (도메인, 슬롯) 쌍마다 각 대화 턴에서 사전 정의된 온톨로지를 기반으로 슬롯 값 식별을 포함하는 다중 클래스 분류 작업입니다.

모델은 대화 이력을 입력으로 받아들이고, 모든 쌍에 걸쳐 합산된 크로스 엔트로피 손실로 훈련됩니다.
우리는 일곱 가지 다른 도메인을 포함한 널리 사용되는 TOD 데이터셋 MWOZ 2.1 (Budzianowski et al., 2018)을 사용합니다.
Joint acc와 Slot acc를 보고합니다.
Joint acc는 각 대화 턴에서 예측된 값이 지면 실제 값과 정확히 일치할 때에만 true로 간주합니다.
Slot acc는 각 (도메인, 슬롯, 값) 트리플릿을 해당하는 지면 실제 레이블과 개별적으로 비교합니다.
표 2는 MWOZ 2.1에서의 대화 상태 추적 결과를 보여줍니다.
DivTOD는 모든 메트릭스에서 최첨단 결과를 달성합니다.
SimCSE는 대화 데이터의 본질적인 특성을 무시하며 전체 대화를 모델링할 수 없어 성능이 저조한 것으로 나타납니다.
저희 방법은 슬롯 정확도보다는 합동 정확도에서 더 큰 개선을 달성하며, 이는 전체 대화 맥락을 이해하는 강점을 나타냅니다.
예를 들어, DivTOD는 전체 데이터 설정에서 Slot Acc에서 TOD-BERT를 0.3% 능가하지만 Joint Acc에서는 2.9% 능가하여 대화 모델링의 우수성을 나타냅니다."

Dialogue Act Prediction은 대화 이력을 입력으로 받아들이고 시스템 응답에 해당하는 여러 대화 행위를 예측하는 다중 레이블 분류 작업입니다.

모델은 모든 가능한 동작에 대해 이진 크로스 엔트로피 손실로 훈련됩니다.
추론 중에는 대화 행위를 트리거하는 임계값이 0.5로 설정됩니다.
두 데이터셋인 MWOZ (Budzianowski et al., 2018)와 DSTC2 (Henderson et al., 2014)를 사용합니다.
(Wu et al., 2020)를 따라 원래 대화 행위를 일반적인 형식으로 통일하기 위해 동일한 데이터 전처리를 사용합니다.
미크로-F1 및 매크로-F1을 보고합니다.
표 3은 MWOZ 및 DSTC2 데이터셋에서의 dialogue act prediction 결과를 보여줍니다.
DivTOD 방법은 네 가지 메트릭스 중 세 가지에서 모든 다른 기준선을 능가합니다.
특히, DSTC2 데이터셋에서 FutureTOD를 뛰어넘어 큰 향상을 보여주고 있습니다.
MWOZ에서도 개선이 나타나며, 매크로-F1이 81.9%에서 82.6%로 증가했습니다.
그러나 우리는 다양한 메소드가 미크로-F1 측면에서 명확한 차이를 보이지 않는다는 점을 주목합니다.
이는 MWOZ에서 대화 행위 레이블의 불균형 분포로 인한 것으로 보입니다.
이러한 경우에는 각 레이블에 동일한 가중치를 할당하는 매크로-F1이 더 합리적인 평가 메트릭스를 제공합니다.
더 높은 응답 품질 외에도 DivTOD가 더 넓은 대화 정책 범위를 포착하고 TOD의 본질적인 일대다 다양성을 학습한다는 것을 관찰했습니다. (4.6절 참조)"

응답 선택은 대화 이력을 기반으로 후보 풀에서 가장 관련성 있는 시스템 응답을 검색하는 순위 작업을 목표로 합니다.

저희는 평가 데이터셋으로 MWOZ와 DSTC2를 사용합니다.
대화 이력과 후보 응답 간의 유사도 점수를 계산하는 이중 인코더 전략을 사용합니다.
이 모델은 코퍼스에서 무작위로 선택한 시스템 응답을 부정적인 샘플로 사용하여 훈련합니다.
우리는 k-to-100 정확도를 보고합니다.
이 메트릭스는 실제 응답이 상위 k 위치에 랭크되는 비율을 나타냅니다.
이는 이중 인코더에 의해 계산된 점수에 따라 99개의 무작위 샘플 응답과 비교할 때 지면 실제 응답이 상위 k 위치에 랭크된 비율을 나타냅니다.
표 4는 MWOZ와 DSTC2에서의 응답 선택 결과를 보여줍니다.
DivTOD 방법은 모든 메트릭스에서 최첨단 결과를 달성합니다.
TOD-BERT가 응답 대조 목적으로 사전 훈련되었음에도 불구하고, 저희 방법은 여전히 전체 데이터 설정에서 MWOZ와 DSTC2 모두에서 유의미하게 TOD-BERT를 능가합니다.
이는 우리의 방법이 더 나은 일반화 능력을 가지고 있다는 것을 나타냅니다.
FutureTOD와 비교하면, 저희 방법은 응답 선택에서 큰 향상을 가져오며, 이는 TOD 표현의 다양성을 향상시키고 따라서 성능을 향상시킬 수 있다는 것을 나타냅니다.

요약하면, 우리의 방법은 대화 행위 예측 및 응답 선택 작업에서 주목할 만한 개선을 보입니다.
이는 대화의 일대다 특성을 고려하는 것이 이러한 작업에 있어서 중요하다는 것을 나타냅니다.

근데, 평가한 테스크들이 일대다 특성이 반영이 되는 것인가?

더 나아가, 우리의 방법은 의도 분류 및 대화 상태 추적과 같은 다른 중요한 과제 지향 대화 작업에서도 향상을 달성합니다.
이는 우리의 방법이 다양한 작업에 걸쳐 일반화되는 능력을 더욱 강조합니다.

4 Qualitative Analysis

4.1 Ablation Study of Domain Knowledge Alignment

표 6은 도메인 지식 정렬에 대한 실험 결과를 보여줍니다.
두 개의 downstream 작업, DSTC2에서의 대화 행위 예측 및 MWOZ 5에서의 응답 선택에 대한 것입니다.
DivTOD는 도메인 지식을 정렬하여 대화를 훈련할 때 다양한 조건에서 가장 우수한 성능을 발휘합니다.

align이 그 데이터증강할때, 관련 지식을 가진지 필터링하는 과정을 말하는 듯

그러나 DivTOD w/o Align의 성능은 만족스럽지 않습니다.
예를 들어, 대화 행위 예측 작업에서 DivTOD w/o Align는 기준선과 유사하며 DivTOD의 성능보다 낮습니다.
이는 도메인 지식을 정렬함으로써 TOD 대화에서 일관성을 유지하는 데 도움이 되며, 이로써 LLM에 의해 생성된 다양한 대화가 사전 훈련 프로세스에 긍정적인 영향을 미칠 가능성을 나타냅니다.
다양한 방법에 의해 생성된 대화의 품질을 시각적으로 나타내기 위해 우리는 Figure 3에 표시된 것처럼 대화 샘플을 무작위로 선택했습니다.
대화 예제에서 볼 수 있듯이, DivTOD의 대화는 원본 텍스트와 다르며 모두 대화 맥락과 일관성이 있습니다.
그러나 DivTOD w/o Alignment의 대화는 두 가지 문제를 일으킵니다.

첫째, LLM은 프롬프트 지시에 따라 답하지 않을 수 있으며 "여기 재작성된 응답이 있습니다:"와 같이 관련 없는 답을 생성할 수 있습니다.
둘째, LLM은 미래에 사용자가 제기하거나 제공할 정보를 맞지 않는 답변을 생성할 수 있습니다."

4.2 Advantages of LLMs in Generating Diversified Responses

LLM이 TOD 데이터만을 사용하여 훈련된 다른 모델들보다 다양한 응답을 생성하는 데 어떤 이점이 있는지 시연하기 위해, 우리는 무작위로 TOD 대화 샘플 500개를 추출하고 PPTOD (Su et al., 2021)와 LLM을 사용하여 응답을 생성합니다.
생성된 응답에 포함된 고유 n-그램의 수를 비교합니다.
표 5는 LLM이 PPTOD로 생성된 응답보다 더 많은 고유 n-그램을 포함하고 있음을 보여줍니다.
심지어 원래 대화에 포함된 고유 n-그램의 수를 능가하고 있습니다.
우리는 PPTOD가 TOD 데이터셋에서 미리 훈련되어 그 데이터셋의 제한에 과적합되어 응답 다양성이 감소하게 되었다고 분석합니다.
이것은 LLM이 더 다양한 응답을 생성할 수 있는 능력을 더 지원하는 증거입니다.

4.3 Quantity of Diverse Dialogues

우리의 기본 실험 설정에서 LLMs에게 대화 사전 훈련을 위해 약 50,000개의 다양한 대화를 생성하도록 지시했습니다.
Figure 4는 대화 행위 예측(DSTC2) 및 응답 선택(MWOZ) 두 가지 하류 작업에 대한 사전 훈련 중 다양한 대화의 수를 변화시킬 때의 효과를 보여줍니다.
두 작업 모두에서 DivTOD의 성능은 다양한 대화의 수가 증가함에 따라 점차 향상되는 것으로 나타납니다.
이는 대규모 언어 모델에 의해 생성된 다양한 대화가 모델의 일반화를 계속 향상시킬 수 있다는 것을 나타냅니다.

4.4 Few Shot Learning

표 7은 DSTC2에서의 대화 행위 예측 및 MWOZ에서의 응답 선택 결과를 표시합니다.
우리의 DivTOD는 모든 메트릭스에서 최첨단 결과를 달성합니다.
DivTOD 방법과 FutureTOD는 모두 non-contrastive self-training 프레임워크를 사용하여 사전 훈련되었지만, DivTOD 방법은 1% 및 10% 데이터 설정에서 모두 데이터셋에서 FutureTOD를 크게 능가합니다.
이는 DivTOD가 다양한 시나리오에서 우수한 일반화 능력을 가지고 있다는 것을 보여줍니다.
우리는 이전의 기준선과 동일한 사전 훈련 말뭉치를 사용했으며, 이는 MWOZ 및 CamRest676을 포함하고 있습니다.
그러나 이로 인해 소수 데이터 성능의 신뢰성에 대한 우려가 생길 수 있습니다.
이를 해결하기 위해 우리는 사전 훈련 말뭉치에서 MWOZ와 CamRest676을 제외하고 1% 데이터 설정에서 FutureTOD와 DivTOD의 성능을 평가했습니다.
MWOZ 데이터셋에서 FutureTOD†와 DivTOD†의 성능이 감소했습니다.
이는 MWOZ를 사전 훈련 단계에 포함하는 것이 소수 데이터 성능을 향상시킬 수 있다는 것을 시사합니다.
그러나 DivTOD†는 여전히 좋은 성능을 달성하고 FutureTOD†를 능가합니다.
놀랍게도, DSTC2 데이터셋에서도 DivTOD†와 FutureTOD†이 성능이 약간 감소하는 것을 확인할 수 있습니다.
이는 MWOZ가 TOD 데이터셋으로서 높은 품질을 가지고 있음을 강조하고 이전 기준선에서 사전 훈련 말뭉치에 포함되는 것을 정당화하는 일부 근거를 제공합니다.

4.5 Zero Shot Learning

우리 모델의 비지도 임베딩 능력을 검증하기 위해 MWOZ와 DSTC2 데이터셋에서 제로샷 응답 선택을 수행했습니다.
결과는 표 8에 나타나 있습니다.
BERT, FutureTOD 및 DivTOD는 인코더 아키텍처를 사용하고, LLaMA 및 Vicuna는 디코더 아키텍처를 사용합니다.
따라서 인코더 모델의 경우 추론 검색을 위해 [CLS] 레이어의 히든 상태를 임베딩으로 사용하고, 디코더 모델의 경우 마지막 입력 문자에 해당하는 히든 상태를 임베딩으로 사용합니다 (DialoGPT의 설정과 일관됨).
DivTOD는 모든 메트릭스에서 BERT, FutureTOD 및 LLaMA를 능가하며 Vicuna와 유사한 성능을 보입니다.
이는 모델이 Vicuna에 의해 제공된 다양한 대화 데이터 사전 훈련으로부터 강력한 문맥 표현 능력을 이미 얻었음을 나타냅니다.
그러나 시간 비용과 매개변수 크기는 Vicuna와 같은 LLM보다 훨씬 작으며 각각 14배와 70배 감소했습니다.

4.6 Representation Diversity

우리의 DivTOD가 더 다양한 대화 정보를 포착하고 TOD의 본질적인 일대다 다양성을 학습할 수 있는지 이해하기 위해 MWOZ 테스트 세트에서 질적 분석을 수행합니다.
각 대화 히스토리에 대해 2000개의 무작위 샘플링된 응답을 선택합니다.
그런 다음 Table 4의 사전 훈련된 응답 선택 모델을 사용하여 대화 히스토리와 응답의 표현 간의 코사인 거리를 계산합니다.
우리는 코사인 거리에 따라 상위 10개의 응답을 선택하고, 자동 메트릭스로 다양성(Diversity) 및 일관성(Coherence)을 계산합니다.
다양성은 상위 10개 응답에서 대화 행위 유형의 고유한 수를 나타냅니다.
일관성은 응답 선택 작업에서 미세 조정된 이중 인코더를 사용하여 히스토리와 상위 10개 응답 간의 평균 관련 점수를 나타냅니다.
이 두 메트릭스를 결합하여 전체적인 자동 응답 다양성 및 품질을 측정하는 결합 점수를 얻습니다.
Table 9의 왼쪽 부분에는 다양한 사전 훈련된 모델의 자동 결과가 표시됩니다.

combineed -> combined

우리의 모델은 모든 메트릭스에서 우위를 차지하고 있으며, 우리의 모델이 응답 관련성을 희생하지 않고도 풍부한 대화 정책을 포착할 수 있다는 것을 나타냅니다.
또한 TOD-BERT가 일관성에서는 유사한 성능을 달성하지만 다양성에서는 최악의 성능을 보이고 있으며 BERT보다도 나쁘다는 것을 찾을 수 있습니다.
이는 대조적 학습에서 양성 및 음성 샘플의 선택에 의해 도입된 노이즈가 대화 표현의 일대다 다양성을 손상시킬 수 있다는 것을 입증합니다.
Zhang(2020a)을 따르면, 우리는 개별 응답의 적절성과 선택된 응답 간의 다양성을 평가하기 위해 인간 평가를 수행합니다.
적절성(App)은 각 응답에 대해 1-3의 Likert 척도로 점수를 매기고, 다양성은 상위 10개 응답 전체에 대해 1-5의 Likert 척도로 점수를 매깁니다.
우리는 100개의 대화 히스토리와 대응하는 상위 10개 응답을 샘플링하고 다양한 사전 훈련된 모델에서 검색된 이러한 샘플을 3명의 심사원에게 대화 히스토리를 제공하여 점수를 매기도록 했습니다.
Table 9의 오른쪽 부분에는 인간 평가 결과가 표시됩니다.
자동 평가와 인간 평가의 결과가 동일한 경향을 가지고 있음을 알 수 있습니다.
자동 평가 및 인간 평가 모두 우리의 DivTOD 모델이 과제 중심 대화의 본질적인 일대다 다양성을 학습할 수 있다는 것을 입증합니다.

5 Related Work

Dialogue Pre-trained Language Models

Zhang et al. (2020b)는 Reddit 데이터에서 사전 훈련된 GPT-2 모델을 사용하여 오픈 도메인 대화 응답 생성에 대한 연구를 수행했습니다.
PLATO (Bao et al., 2019)는 트위터 및 Reddit 데이터를 사용하여 이산 잠재 변수를 사용하여 대화 생성 모델을 사전 훈련하며 대화 정책을 암시적으로 모델링하고 오픈 도메인 대화 생성에서 일대다 매핑 문제를 해결합니다.
그러나 이러한 모델들은 chitchat dialogue에 중점을 둔 것이기 때문에 DivTOD와 비교하지 않습니다.
Wu et al. (2020); Zhou et al. (2022)은 대조적 학습을 사용하여 TOD 대화 표현을 학습합니다.
Henderson et al. (2020); Liu et al. (2021)은 대화 검색 및 응답 선택을 위해 유사한 아이디어를 사용합니다.
Zeng et al. (2023)은 미래 지식을 이전 대화의 표현으로 증류하는 대비적이지 않은 프레임워크를 제안합니다.
이러한 비지도 방법 외에도 Zhou et al. (2022); He et al. (2022)은 지도 또는 준지도 사전 훈련을 위해 레이블이 지정된 대화 데이터를 사용합니다.
본 논문에서는 unsupervised TOD pre-training 에 중점을 두고 있기 때문에 이러한 모델들과 비교하지 않으며 향후 연구에 남겨둡니다.

Enhancing small models with LLMs

최근에는 ChatGPT와 GPT-4와 같은 대형 언어 모델(LLMs) 이 여러 언어 관련 작업에서 우수한 일반화 능력을 보여주었습니다.
최근에는 이러한 강력한 LLM을 데이터 증강을 위해 증류(distillation)하는 많은 노력들이 있었으며, 이를 통해 훈련 목적이나 모델 구조를 수정하지 않고도 동등한 강력한 대형 모델을 얻고자 합니다.
예를 들어, SelfInstruct (Wang et al., 2022)와 Alpaca (Touvron et al., 2023)는 175개의 초기 작업을 기반으로 Text-Davinci-003를 증류하여 52,000개의 고품질 지시-응답 쌍을 생성합니다.
다른 한편으로, LLM은 작은 모델의 특정 작업 능력을 향상시키기 위해 사용됩니다.
Ho et al. (2022)와 Hsieh et al. (2023)는 LLM을 사용하여 모델의 추론 능력을 향상시키는 데 기여하는 근거를 생성합니다.
Liang et al. (2023)은 LLM을 수학 튜터로 사용하여 모델의 수학 능력을 향상시킵니다.
Impossible distillation (Jung et al., 2023)에서는 LLM이 모델이 고품질이며 조절 가능한 요약과 패러프레이즈를 생성하는 데 도움을 줍니다.
이전 연구와 대조적으로, 우리는 LLM에서 작업 지향 대화 시스템과 관련이 없는 도메인 지식을 걸러내면서 풍부한 백그라운드 지식을 작은 모델로 이전합니다.

6 Conclusion

DivTOD이라는 새로운 dialogue pre-training을 제안합니다.
DivTOD는 인간 대화의 본질적인 one-to-many diversity을 모델링하여 작업 지향 대화 표현을 다양화합니다.

근데 학습되는 방법은 one-to-one을 다르게 하는것 아닌가?

DivTOD는 LLM을 이용하여 다양한 백그라운드 지식을 작은 모델로 전달하면서 작업 지향 대화와 충돌하는 도메인 지식을 걸러내도록 안내합니다.
다양한 작업 지향 대화 작업에서의 실험 결과는 DivTOD가 FutureTOD, TOD-BERT, DSE 및 다른 강력한 기준선을 능가한다는 것을 보여줍니다.
우리는 모든 사전 훈련된 모델과 코드를 공개할 계획이며, 향후 연구를 촉진하기 위해 노력할 것입니다. 미래에는 더 큰 사전 훈련된 모델과 다양한 작업 지향 대화 말뭉치를 탐색하고 유사한 아이디어를 생성적 대화 모델에 확장하는 것이 목표입니다.

Limitations

DivTOD이 기존 기준선을 크게 개선하였지만, 향후 연구를 위해 탐험할 여러 방향이 있습니다.
(1) 우리는 대화 사전 훈련 모델이 인간 대화의 본질적인 일대다 다양성을 포착하는 데 도움이 되도록 LLM에 대한 간단하고 효과적인 방법을 설계했습니다. 그러나 이 문제를 대화 사전 훈련 모델의 구조를 통해 해결하는 것은 고려하지 않았습니다. 향후에는 대화 사전 훈련 모델에 대한 더 효율적인 아키텍처와 지식 전송 방법을 설계하는 것을 탐험할 것입니다.
MLM이 아닌 다른 pretraining 기법을 활용해 볼 수도?
(2) DivTOD는 대화 이해 작업에만 중점을 두었으며, 대화 행위 예측 및 응답 선택과 같은 작업입니다. 향후에는 LLM이 작은 모델과 협력하여 생성적 대화 사전 훈련 모델로 아이디어를 확장할 것입니다.
(3) 우리는 MT 응답을 제한하기 위해 zero-shot 프롬프트를 포함한 다양한 지침을 시도했습니다. 그러나 이러한 방법들은 크게 효과적이지 않았습니다. 예를 들어, zero-shot 방법의 통과율은 우리의 후필터에서 비교적 낮았습니다. 따라서 이러한 결과를 보고하지 않았습니다. 향후에는 CoT 방법과 같은 더 고급 프롬프트 기술을 탐험하여 접근 방식을 강화할 계획입니다.

Reference

https://openreview.net/pdf?id=50vk4eo8Pi

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-196, DivTOD: Unleashing the Power of LLMs for Diversifying Task-Oriented Dialogue Representations, ARR Review 2310

Abstract

1 Introduction

2 Model

2.1 Overall Architecture

2.2 Diversifying Task-Oriented Dialogue Representations

3 Experiment

3.1 Pre-training Corpus

3.2 Baselines

3.3 Implementation Details

3.4 Main Results

4 Qualitative Analysis

4.1 Ablation Study of Domain Knowledge Alignment

4.2 Advantages of LLMs in Generating Diversified Responses

4.3 Quantity of Diverse Dialogues

4.4 Few Shot Learning

4.5 Zero Shot Learning

4.6 Representation Diversity

5 Related Work

6 Conclusion

Limitations

댓글

댓글 쓰기