◼ Comment

이 논문은 TOD와 ODD 둘다를 포함하는 대화 데이터세트 제작 및 베이스라인 소개이다.
즉 데이터세트에서 대화들은 오픈도메인 대화와 목적형 대화 둘 다 포함하게끔 하는 것이다. (사람과 같이)
처음부터 데이터를 만든 것은 아니고, 기존의 TOD 데이터세트 (MultiWOZ)라는 것이 있는데, 이 데이터세트의 앞과 뒤에 OOD 대화를 생성하게끔 했다.

물론, 자연스럽게 생성이 되야한다.
뒤에 OOD를 붙일 때는 TOD의 발화들과 자연스럽게 연결이 되야한다. (append)

TOD에서 마지막발화들이 “User: Thank you. System: Goodbye.” 이런식으로 끝나는 경우가 꽤 있는데 이때 이런 발화를 삭제했다고 한다.

앞에 OOD을 붙일 때는 TOD와 자연스럽게 연결이 되야한다. (prepend)

prepend에서, TOD의 첫 발화에서 키워드를 하나 랜덤으로 뽑고, 그에 맞게 OOD 데이터를 만든다.
OOD 발화들에서 이미 키워드가 나오기 때문에 TOD의 첫 발화를 대명사?등으로 조금 수정하는 작업도 한다.

베이스라인 모델은 2가지를 소개한다.

1) 분류모델기반은 BERT로 대화모드가 OOD 인지 TOD인지 먼저 구분한다.

그리고 모드에 맞는 모델이 response을 생성하게한다.
모드 구분하는 성능은 꽤 높다.
DialoGPT을 백본으로 한다.
OOD 모델에서는 context -> response을 생성한다.
TOD 모델에서는 context -> dialogue state, dialogue act, response을 같이 생성한다.

2) 2-in-1 모델은 모드를 따로 구분하는 모듈이 없다.

학습할 때는, OOD인 경우는 context -> <OOD>, reponse을 생성한다.
TOD인 경우는 context -> dialogue state, dialogue act, response을 생성한다.
즉 인퍼런스때, context에 따라 알아서 response가 생성되고, 이에 따라 OOD인지 TOD인지 알 수 있게 된다.

결과론적으로는 분류기반모델로 하는게 코스트는 좀 더 들지만 좋다고 한다.
그리고 기존 MultiWOZ보다 OOD에 따라 rewriting한 MultiWOZ가 어렵다는 실험 결과가 있다.
하지만 이러한 데이터세트는 TOD/OOD 세션이 앞뒤로만 구축된 한계가 있다.

즉 모드가 왔다리 갔다리 하는 모드 스위치가 2번이상 일어나지 않는다는 것이다.

0 Abstract

지능적 대화 시스템 구축 목표는 과제별 기능을 수행하는 TOD(task-oriented dialogue) 시스템과 non-goal-oriented chitchat에 중점을 둔 ODD(open-domain dialogue) 시스템이라는 두 가지 패러다임으로 크게 분리되어 추진되었습니다.
두 가지 대화 모드는 친절한 인간 비서가 쉽게 수행할 수 있는 것처럼 동일한 대화에서 자연스럽게 서로 얽힐 수 있습니다.
이러한 기능은 통합으로 인해 더 액세스 가능하고 유용하기 때문에 대화식 에이전트에서 바람직합니다.
우리 논문은 다중 회전 대화에서 TOD와 ODD를 융합하는 이 문제를 다룹니다.
인기 있는 TOD 데이터 세트 MultiWOZ를 기반으로 기존 TOD 턴을 다시 작성하고 새로운 ODD 턴을 추가하여 새로운 데이터 세트 FusedChat을 구축합니다.
이 절차는 두 대화 모드의 교환을 포함하는 대화 세션을 구성합니다.
모드 간 컨텍스트 종속성을 특징으로 합니다.
즉, 두 모드의 대화 전환은 서로 의존합니다. 상호 참조 및 줄임표와 같은 풍부한 종속성 패턴이 포함되어 있습니다.
사람이 작성한 60,000개의 새로운 ODD 턴과 5,000개의 재작성된 TOD 턴이 포함된 새로운 데이터 세트는 모드 간 대화를 수행하는 대화 모델의 기능을 테스트하기 위한 벤치마크를 제공합니다.
모델이 적절한 대화 모드를 결정하고 모드 간 컨텍스트를 기반으로 응답을 생성해야 하기 때문에 이것은 더 어려운 작업입니다.
그러나 그러한 모델은 인간 수준의 대화 기능을 더 잘 모방할 것입니다.
분류 기반 2단계 모델과 2-in-1 융합 모델을 포함하여 이 작업에 대한 두 가지 기본 모델을 평가합니다.
모드 간 대화 시스템에 대한 향후 작업을 추진하기 위해 FusedChat 및 기준선을 공개적으로 릴리스합니다.

1 Introduction

최근 몇 년 동안 인간과 자연스럽게 대화하는 지능형 시스템을 구축하는 모델이 인기를 얻고 있습니다.
두 가지 주류 모델은 개방형 도메인 대화(ODD) 모델과 작업 지향 대화(TOD) 모델로 분류할 수 있습니다.
ODD 모델은 Seq2Seq 모델링 패러다임으로 처음 채택되었을 때 방대한 [컨텍스트, 응답] 쌍을 기반으로 하는 개방형 인간 대화 학습에 초점을 맞췄습니다.

이러한 모델은 컨텍스트를 기반으로 응답을 생성하고 일반적인 잡담 능력을 나타냅니다.
대화에서 그들의 주요 목표는 사용자의 참여를 유지하고 그가 관심 있는 임의의 공개 도메인 주제에 대해 채팅하는 것입니다.
대화는 특별한 데이터베이스 없이도 상식에 따라 유지될 수 있습니다.

TOD 모델은 크게 다릅니다.

대화 상자는 레스토랑 찾기 및 항공사 예약과 같은 특정 기능을 제공하기 위해 존재합니다.
그들은 종종 구조화된 데이터베이스와 API에 의해 지원되는 폐쇄된 도메인에서 작동합니다.
일반적으로 세 가지 특성이 ODD 모델과 구별됩니다.
(1) an entity-centered database,
(2) explicit dialogue state modeling,
(3) a pre-defined set of dialogue domains and functions (dialogue acts).

인간은 두 가지 유형의 대화를 원활하게 함께 수행할 수 있습니다.

대화 시스템이 그렇게 하는 것이 이상적입니다. 그러한 통합은 사용성이 향상된 융합 시스템을 제공하기 때문입니다.
또한 두 가지 대화 모드 간의 풍부한 상호 작용을 허용하므로 어느 모드에서도 독립적으로 모델링할 수 없습니다.
이러한 대화 모델은 인간 수준의 대화 기능을 더 잘 모방할 것입니다(예: 친절한 조수와 채팅)(그림 1).

최근 몇 년 동안 ODD와 TOD 모두에 대해 수많은 데이터 세트가 생성되었지만, 특히 모드 간 컨텍스트 종속성이 있는 융합에 대한 고품질의 사람이 작성한 데이터 세트가 없습니다.

우리의 작업은 이 공백을 채우는 것을 목표로 합니다.

우리는 인기 있는 TOD 데이터 세트 MultiWOZ를 백본으로 사용하고 인간 제작자가 기존 TOD 턴 전후에 ODD 턴을 추가할 수 있도록 합니다.

MultiWOZ 대화의 약 절반에 대해 ODD 턴을 앞에 추가하여 (prepend) ODD + TOD 세션을 만듭니다.
나머지 절반에는 ODD 턴을 뒤에 추가하여 (append) TOD + ODD 세션을 생성합니다.
두 경우 모두 작성자는 기존 TOD와 컨텍스트적으로 관련된 ODD를 작성합니다.
FusedChat에서 모드 간 종속성을 적용합니다.
prepending 경우에 우리는 TOD의 첫 번째 차례를 일반적으로 공동 참조 또는 줄임표로 다시 작성하여 TOD가 ODD에 의존하는지 확인합니다.
appending 사례에서 우리는 ODD에서 최소한 하나의 교환이 TOD에서 발견된 개념이나 지식에 의존하는지 확인합니다.
간단히 말해서, 우리 데이터 세트의 이러한 dependency 패턴은 대화 모델이 한 대화 모드의 전환을 처리할 때 때때로 다른 대화 모드의 기록 전환에 제공된 컨텍스트 정보를 참조해야 함을 의미합니다.

이 새로운 데이터 세트는 TOD 및 ODD 기능을 모두 보유한 모드 간 대화 시스템을 교육 및 평가하기 위한 고유한 테스트 베드를 제공합니다.

두 대화 모드에 대한 기존 대화 평가 메트릭은 모드 간 평가에 함께 사용할 수 있
습니다. 우리는 이 새로운 설정에 대한 두 가지 기본 모델을 개발하고 평가합니다.
(1) 분류 기반 모델.

두 개의 응답 생성 모델 Mtod 및 Modd는 각 모드의 차례에 따라 독립적으로 훈련됩니다.
그들은 대화 컨텍스트가 주어지면 각각의 모드에 대한 응답을 생성합니다.
별도의 모드 분류 모델 C가 학습되고 주어진 컨텍스트에서 호출할 모드를 결정하는 데 사용됩니다.

(2) 두 모드의 대화 전환에 대해 함께 훈련되는 2-in-1 융합 대화 모델.

시퀀스 생성의 일부로 대화 모드를 암시적으로 예측하여 모든 대화 컨텍스트에서 응답을 생성합니다.

요약하면, 우리의 주요 기여는 다음과 같습니다:

(1) 다중 턴 대화에서 TOD와 ODD를 융합하는 FusedChat이라는 새로운 대화 데이터 세트.

대화는 원활한 모드 융합을 위한 모드 간 컨텍스트 종속성을 제공하므로 대화 모델이 인간 수준 대화 기능을 더 잘 모방할 수 있습니다.
60,000개의 새로운 사람이 쓴 ODD 턴과 5,000개의 다시 작성된 TOD 턴이 있는 FusedChat은 모드 간 대화 시스템에 대한 새로운 벤치마크 역할을 합니다.
TOD 및 ODD 시스템을 별도로 측정하는 데 사용되는 기존 메트릭을 결합하여 모드 간 대화 시스템을 평가할 수 있습니다.

(2) 2-in-1 모델과 분류 기반 모델은 모드 간 대화 모델로 개발 및 평가됩니다.

우리의 예비 실험은 모델이 단일 모드 데이터 세트에서 평가된 단일 모드 대응 모델보다 성능이 좋지 않음을 시사합니다.
그리고 계산 비용이 더 많이 드는 분류 기반 모델은 더 저렴한 투인원 융합 모델보다 성능이 뛰어납니다.
이는 서로 다른 대화 모드를 효과적으로 융합하는 것이 어려운 작업이며 기본 융합 모델에 대한 개선의 여지가 크다는 것을 의미합니다.

2. FusedChat Construction

모드 간 대화 세션을 생성하기 위해 데이터 세트 구성 프로세스는 주로 대화 생성자가 기존 TOD에 자체 작성된 ODD를 prepend or append 하는 것을 포함합니다.
대화 생성자는 사용자와 대화 시스템 모두의 역할을 스스로 수행합니다.

이 자기 대화 설정은 두 인간 제작자 간의 오해를 피하고 생성 된 대화의 일관성을 향상시킵니다.

기존 TOD의 경우 문헌에서의 인기 때문에 MultiWOZ 2.4 데이터 세트가 선택되었습니다.

MultiWOZ에는 레스토랑, 명소, 기차, 경찰, 병원, 택시 및 호텔을 포함한 7개 도메인의 TOD가 포함되어 있습니다.
사용자는 레스토랑 예약 및 병원 찾기와 같은 미리 정의된 기능 세트에 대해 대화 에이전트와 대화합니다.

MultiWOZ는 사용자가 관광객이라는 가정하에 만들어졌지만 대부분의 대화 자체가 반드시 여행자 페르소나를 반영하는 것은 아니며 개방 도메인 대화를 유연하게 추가할 수 있습니다.
FusedChat 설정에서 대화 작성자는 기존 TOD와 맥락적으로 일치하는 ODD를 자유롭게 추가할 수 있습니다.
다음 섹션에서는 먼저 추가된 ODD에 대해 설정한 일반 요구 사항에 대해 설명합니다.
그런 다음 ODD 앞에 추가 및 추가하는 방법과 모드 간 종속성이 적용되는 방법을 각각 설명합니다.

2.1 General requirements for the added ODDs

이 섹션에서는 대화 작성자가 따라야 하는 규칙으로 앞에 prepending and appending 케이스 모두에 대해 추가된 ODD에 대한 일반 요구 사항을 설명합니다.
(1) 모든 제작자는 "시스템"과 "사용자"의 역할 모두에 대해 가상의 ODD를 작성합니다.

여기서 "시스템"은 친근한 오픈 도메인 대화(추가된 ODD에서)와 작업 지향 대화 모두가 가능한 AI 대화 에이전트를 나타냅니다. (기존 MultiWOZ TOD에서).
그리고 "user"는 친근한 chitchat을 하고 특정 작업 목표를 달성하기 위해 AI 에이전트와 대화하는 human speaker 를 나타냅니다.

(2) 기존 TOD와 추가된 ODD 간의 관련성을 보장하기 위해 작성자가 기존 TOD 세그먼트와 유사하거나 관련된 주제를 중심으로 ODD를 회전하도록 권장합니다(예: TOD에서 동일하거나 관련된 개념에 대해 이야기함으로써).

추가된 ODD 턴과 기존 TOD 턴이 자연스럽게 연결되어야 합니다.
두 모드 사이에는 강력한 컨텍스트 종속성이 있어야 합니다(다음 2개 섹션에서 설명).

(3) 생성된 대화는 TOD가 아닌 ODD의 일반적인 특성을 준수해야 합니다.

특정 작업 지향 기능을 수행하거나 작업 관련 정보를 제공하기 위해 "시스템"이 필요하지 않은 캐주얼 잡담 교환이어야 합니다.

제작자 샘플에 대한 파일럿 실험을 기반으로 우리는 제작자가 지시에 따라 ODD가 아닌 기술적으로 TOD인 작업별 기능에 중점을 둔 대화를 작성하는 경향이 있음을 발견했습니다.

이는 아마도 차이점에 대한 미묘한 이해가 부족하고 해당 TOD를 기존 TOD의 컨텍스트에 쉽게 맞출 수 있기 때문일 것입니다.
이 문제를 해결하기 위한 적극적인 조치로 우리는 3개의 기존 ODD 데이터 세트와 MultiWOZ의 조합으로 훈련된 실시간 턴 레벨 ODD 대 TOD 분류기를 배포했습니다.
또한 시스템에서 상식을 벗어난 정보를 조작하게 하는 등 제작자가 피해야 하는 파일럿 실험에서 발견된 몇 가지 함정에 대해 간략히 설명합니다.

다음으로, 추가 ODD(TOD + ODD) 및 추가 ODD(ODD + TOD)가 실행되는 방식과 모드 간 종속성이 적용되는 방식에 대해 각각 설명합니다.

2.2 Appending ODDs

appending 시나리오에서 대화 작성자는 MultiWOZ 데이터 세트에서 샘플링된 제공된 TOD에 ODD를 추가합니다.
ODD는 자연스럽게 TOD를 따라야 합니다.

우리는 원래 MultiWOZ 데이터셋의 대화가 종종 “User: Thank you. System: Goodbye.”를 주고 받는다.
이 교환은 대화를 효과적으로 종료합니다.
ODD를 추가하기 위해 화행 주석(dialogue-act:thank-you 및 dialogue-act:goodbye)을 기반으로 TOD 끝에서 이러한 교환을 발견적으로 제거합니다.

Inter-mode Dependency

appending 경우 ODD의 내용은 선행 TOD에 종속되어야 합니다.
우리는 제작자가 기존 TOD 세그먼트에서 찾은 개념이나 지식을 반영하는 내용의 교환을 최소한 한 번 작성하도록 하여 이를 시행합니다.
그림 2는 TOD + ODD의 예를 보여준다.
사용자와 시스템 간의 처음 두 번의 교환은 TOD 모드에 있습니다.
값비싼 태국음식점을 조회하고 예약하는 것입니다.
시스템의 응답은 대화 상태 추적 및 사용 가능한 레스토랑에 대한 기본 데이터베이스에 의해 지원됩니다.
세 번째 교환에서 사용자는 친구들이 식당을 즐길 수 있을지 걱정을 표합니다.
이것은 작업 지향 기능을 호출하지 않기 때문에 ODD 발화로 간주됩니다.
시스템의 ODD 응답은 상식과 공감에 의해 지원됩니다.
히스토리 TOD 차례의 내용을 반영하는 방법에 유의하십시오.

2.3 Prepending ODDs

prepending 경우 작성자는 MultiWOZ의 TOD 세그먼트를 받고 여기에 ODD를 추가하라는 요청을 받습니다.
ODD는 자연스럽게 제공된 TOD로 이어져야 합니다.
MultiWOZ의 원래 TOD는 자체 포함되어 있습니다.
모드 간 종속성을 모델링하기 위해 상호 참조 및 줄임표를 기반으로 하여 발화를 rewriting을 수행합니다.
FusedChat에서 TOD가 앞에 붙은 ODD에 의존하는 이유입니다.
Inter-mode Dependency

TOD가 ODD를 조건으로 하는 ODD + TOD 세션을 만들고 싶습니다.
성공적인 TOD의 핵심은 사용자의 요구를 이해하고 적절하게 응답하기 위해 대화 시스템이 [슬롯 유형, 슬롯 값] 쌍(예: [대상: Cambridge])에 대한 사용자 발화를 처리하는 대화 상태 추적입니다.
데이터 세트에서 모드 간 종속성을 모델링하기 위해 설계된 방법은 기본적으로 ODD 종속 대화 상태 추적을 부과합니다.
TOD의 첫 번째 사용자 턴에서 언급된 슬롯 값(예: 그림 3의 "Cambridge")을 무작위로 선택합니다.
대화 생성자는 앞에 추가된 ODD의 슬롯 값을 사용하고 이에 따라 첫 번째 대화 사용자 차례를 다시 작성하여 암시적으로 참조하도록 요청합니다.
재작성은 주로 공동 참조(예: 그림 3의 "거기")와 생략 부호를 포함합니다.
공동 참조 및 생략 부호는 다중 회전 TOD의 중요한 기능으로, 연구자가 특정 TOD 데이터 세트에서 때때로 특수 주석을 수행하도록 한다(Quan et al. 2020).
ODD + TOD 세션에 대해 모드 간 종속성이 어떻게 나타나는지에 대한 자세한 예는 그림 3을 참조하십시오.

3. FusedChat statistics

저자의 대학에서 총 113명의 학부생이 FusedChat의 대화 작성자로 모집되었습니다.
FusedChat과 MultiWOZ의 차이점은 주로 원래 TOD에 의해 grounding 되거나 grounded 추가 ODD turns에 있습니다.
FusedChat에 추가된 ODD 턴은 원래 MultiWOZ 데이터 세트에 대한 중요한 확장입니다.
표 1에서 볼 수 있듯이 원래 MultiWOZ 데이터 세트에 없는 8,000개 이상의 새로운 토큰을 포함하여 60,000개 이상의 새로운 ODD 턴이 추가되어 어휘가 크게 확장되었습니다.
FusedChat은 또한 ODD를 prepending 시나리오에 대한 첫 번째 TOD 턴(총 4670)을 다시 작성했습니다.
ODD를 appending 시나리오의 경우 FusedChat은 "고마워요" 및 "안녕" 대화 행위만 포함하는 11320 TOD 턴을 폐기했습니다.
표 2는 FusedChat에 대한 교육/검증/테스트 파티션을 보여줍니다.

4. Approaches for inter-mode dialogues

In this section, we discuss baseline models we developed for inter-mode dialogues.

4.1 Task Definition

다중 회전 대화 시스템은 다중 회전 컨텍스트 C를 기반으로 응답 R을 생성합니다.

모드 간 대화에서 C는 TOD 및 ODD 턴으로 구성됩니다.

FusedChat 설정에서 R은 TOD 모드 또는 ODD 모드에 있을 수 있지만 둘 중 하나만 있어야 합니다.

4.2 Models

모드 간 대화를 위해 두 가지 유형의 모델을 실험합니다.
(1) 모드 분류 모델과 TOD 및 ODD에 대한 두 가지 응답 생성 모델로 별도로 구성된 분류 기반 모델 및
(2) 단일 응답 생성 모델이 TOD 및 ODD를 모두 수행할 수 있는 투인원 융합 모델 생성, 암시적으로 응답 모드를 결정합니다.
(1) 분류 기반 모델.

두 개의 응답 생성 모델 M_odd 및 M_tod는 각 대화 모드를 처리하도록 독립적으로 훈련됩니다.
별도의 분류 모델 C가 훈련되고 주어진 모드 간 컨텍스트에서 호출할 모델 모드를 결정하는 데 사용됩니다.
위의 3가지 모델 모두 inter-mode context를 입력으로 사용합니다.
Modd의 경우 Shuster를 따르고 FusedChat의 모든 ODD 턴에서 미세 조정된 사전 훈련된 모델로 DialoGPT를 실험합니다.
Mtod의 경우 TOD에 대한 종단 간 모델링의 최근 진행 상황을 따릅니다.

대화 상태 추적, 대화 행위 예측 및 응답 생성은 Seq2Seq 프레임워크에서 함께 캐스팅되었습니다.
기존 Seq2Seq 기반 ODD 모델링의 경우 문제는 [Context → Response]로 캐스트됩니다.
Seq2Seq 기반 TOD 모델링의 경우 문제는 [Context → (Dialogue State, Dialogue Act, Response)]로 캐스트되며, 여기서 후자의 세 부분은 생성 대상으로 하나의 시퀀스로 연결됩니다.
즉 context에서 response만 생성하는 것이 아니라, dialogue state, dialogue act도 생성한다.
이 단순한 형식을 통해 TOD 모델은 ODD 모델과 마찬가지로 large-scale pretrained models의 이점을 활용할 수 있습니다.
우리는 GPT2로 초기화되고 FusedChat의 모든 TOD 턴에서 미세 조정된 Mtod용 모델에 대해 Neural Pipeline (Ham et al. 2020)을 따릅니다.

C의 경우 Madotto를 따르고 사전 훈련된 모델로 BERT(Devlin et al. 2018)를 실험합니다.

모델은 대화 모드(TOD 대 ODD)를 예측하기 위해 FusedChat의 모든 턴에서 미세 조정됩니다.

(2) 투인원 모델.

두 모드의 대화 전환에 대해 훈련된 이 모델은 대화 모드를 암시적으로 결정하여 모든 대화 컨텍스트에서 응답을 생성하는 단일 모델을 사용합니다.
(Sun et al. 2020)과 유사하게 시퀀스 구성 중에 추가 토큰을 사용하여 응답이 ODD 모드에 있을 때를 나타냅니다.
훈련 시퀀스는 [Context → (<ODD>, Response)]와 [Context → (Dialogue State, Dialogue Act, Response)]로 구성됩니다.
모델은 GPT2로 초기화되고 FusedChat의 모든 대화 차례에서 미세 조정됩니다.
즉, ODD 턴의 발화를 LM으로 학습할 때는 생성할 발화 앞에 <ODD> 이런 스페셜 토큰도 생성하도록 학습하는 것이다.
TOD턴의 발화를 학습할 때는, 앞의 분류모델에서 TOD 모델과 같이, context가 들어가서 dialogue state, dialogue act, response을 생성하게끔 학습이 된다.
즉 인퍼런스할때, context에 따른 생성발화에 ODD가 있으면 ODD 모드이고, 아니면 TOD모드인 것

For all the models above, best checkpoints for testing are selected based on the full validation sets of 1000 instances.

5. FusedChat as a new benchmark

컨텍스트와 대화 모드에 따라 데이터 세트의 대화 회전은 자연스럽게 그림 4에서 4가지 유형으로 구분됩니다.

vanilla TODs, vanilla ODDs, ODD-grounded TODs and TOD-grounded ODDs
vanilla는 기존 데이터 세트와 유사한 자체 모드의 컨텍스트에 기반한 대화 회전을 나타냅니다.

"prepending ODD" 시나리오의 ODD turn 및 "appending ODD" 시나리오의 TOD turn은 vanilla입니다.
다음 섹션에서는 FusedChat이 모드 분류, TOD 기반 ODD, ODD 기반 TOD 및 전체 모드 간 대화를 포함하여 모드 간 대화 시스템의 성능을 벤치마킹할 수 있는 4가지 고유한 평가 시나리오를 보여줍니다.

5.1 Mode classification

모드 간 대화의 직접적인 문제는 생성된 응답이 어떤 모드여야 하는지를 결정하는 것입니다.
시스템은 friendly chitchat (ODD)으로 응답해야 합니까, 아니면 user’s task-oriented goal 를 해석하고 certain dialogue acts (TOD)로 응답해야 합니까?
모드 분류 모델의 정확도는 표 3에 나와 있습니다.
우리는 두 가지 컨텍스트 옵션을 고려합니다.
최신 사용자 턴만 컨텍스트로 사용(단일 턴)하거나 여러 차례를 포함하는 전체 기록을 컨텍스트로 사용(다중 턴)합니다.
결과에 따르면 "다중 회전"이 "단일 회전"을 약간 능가하는 정확도가 두 경우 모두에서 상당히 높습니다.

5.2 ODD-grounded TODs

모드 간 대화의 일부는 FusedChat의 "prepending ODD" 시나리오에 해당하는 ODD 기반 TOD입니다.
일반 TOD와 마찬가지로 시스템의 응답은 작업 지향적인 사용자 요청에 의해 표시됩니다.
그러나 앞의 컨텍스트에는 고유한 문제를 만드는 ODD 교환이 포함되어 있습니다.
한편으로, 모델은 올바른 대화 상태 추적을 위해 ODD 컨텍스트에서 유용한 작업 관련 정보를 인식해야 합니다.
반면, 시스템의 응답은 히스토리의 ODD 컨텍스트를 따라 잡담으로 탈선하는 대신 최신 사용자 요청에 따라 필요한 작업 지향 기능을 올바르게 수행해야 합니다.
FusedChat에서 대화 턴의 이 부분에 대한 평가 결과는 표 4에 나와 있습니다.
우리는 MultiWOZ에 대한 전통적인 TOD 평가 메트릭을 사용합니다.
여기서 슬롯 정확도는 대화 상태 추적, 알림률 및 성공률은 사용자 목표 성공을 측정하고 BLEU는 응답 품질을 측정합니다( 자세한 내용은 (Budzianowski et al. 2018) 참조).
또한 원본 MultiWOZ 데이터 세트(MultiWOZ에서 훈련 및 테스트됨)를 사용하여 Neural Pipeline 접근 방식을 평가합니다.
분류 기반 모델에는 Neural Pipeline 모델을 정확히 따르는 Mtod가 포함되어 있음을 기억하십시오.
이것은 MultiWOZ의 기본 TOD 작업과 비교하여 새로운 ODDgrounded TOD 작업의 난이도를 평가하기 위한 것입니다.
표 4는 다음을 보여줍니다.

(1) 분류 기반 모델이 투인원 모델보다 성능이 훨씬 뛰어납니다.
(2) MultiWOZ의 동일한 기본 TOD 대화에서 평가된 신경 파이프라인 모델은 FusedChat의 ODDgrounded TOD에서 평가된 분류 기반 모델보다 성능이 훨씬 뛰어납니다.

이러한 상당한 차이는 ODD 기반 TOD가 일반 TOD보다 더 어려운 작업임을 시사합니다.
아마도 이것은 (a) 응답 모드를 올바르게 결정하기 위한 추가 요구 사항 및 (b) ODD 종속 대화 상태 추적에 대한 추가 필요성 때문일 수 있습니다.

5.3 TOD-grounded ODDs

모드 간 대화의 또 다른 부분은 FusedChat의 "appending ODD" 시나리오에 해당하는 TOD 기반 OOD입니다.
시스템의 ODD 응답은 컨텍스트에서 TOD 및 ODD 턴 모두에서 조건화되어야 합니다.
열린 영역 대화 생성에 대한 평가는 악명 높으며 수많은 평가 방법이 제안되었습니다.
우리의 실험에서 우리는 Adiwardana를 따르고 난처함과 감도 및 특이성 평균(SSA)을 메트릭으로 사용합니다.
SSA는 sensibleness (Does the response make sense given the context?)과 specificity (Is the response specific to the context?) 사이의 average을 나타냅니다.
둘 다 각 응답에 대해 이진법입니다.
응답은 합리적이라고 판단되는 경우에만 구체적인 것으로 간주될 수 있습니다.
SSA 결과는 테스트 세트에서 무작위로 샘플링된 100번의 대화 회전에 대한 5명의 전문 평가자의 판단을 평균하여 계산됩니다.
표 5는 이 작업에 대한 모드 간 대화 모델의 성능을 보여줍니다.
분류 기반 모델은 투인원 모델을 훨씬 능가합니다.
결과는 또한 우리가 개발한 두 모델의 더 나은 대화 모델을 훨씬 능가하는 매우 높은 SSA 점수를 받는 ground-truth을 보여줍니다.
이것은 이 작업에 대한 개선의 여지가 크다는 것을 암시합니다.

5.4 Full inter-mode dialogues

표 6에서 전체 FusedChat 테스트 세트(4가지 유형의 대화 전환 포함)에 대한 결과를 보여줍니다.
위에서 논의한 TOD 및 ODD 메트릭의 조합을 사용하여 모드 간 대화를 수행하는 대화 시스템의 능력을 전체적으로 측정할 수 있습니다.
분류 기반 모델은 투인원 모델보다 성능이 뛰어납니다.
이것은 현재 베이스라인 2-in-1 융합 모델이 계산적으로 훨씬 더 효율적이기는 하지만 분류 기반 파이프라인 모델처럼 두 대화 모드를 동시에 캡처하지 못한다는 것을 암시하는 것 같습니다.
ODD 기반 TOD, TOD 기반 ODD 및 전체 모드 간 대화 평가를 위해 모드 허용 방식으로 응답을 평가합니다.
이는 모델이 잘못된 모드의 응답을 생성하더라도 메트릭 값을 0으로 직접 처벌하는 대신 해당 인스턴스를 정상적으로 평가한다는 것을 의미합니다.
예를 들어, BLEU를 평가할 때 모드 간 대화 모델에 의해 생성된 응답이 ODD 응답인 경우에도 여전히 일반적으로 ground-truth에 대해 BLEU 점수를 계산합니다.
즉, 모델이 분류모델이든 2-in-1 모델이든 TOD 응답을 생성해야하는데 ODD로 간주하여 모델이 작동한다? --> 점수가 0인게 아니라, 생성된 발화에 대해서 그냥 평가함.
물론 모드가 잘못되었다는 것은 일반적으로 나쁜 점수를 의미합니다.

6. Related Work

7. Discussions and Future Work

우리의 작업은 모드 간 종속성을 가진 TOD와 ODD를 모두 수행할 수 있는 대화 시스템을 개발하는 목표를 제공합니다.
기존 데이터 세트와 비교하여 새로운 데이터 세트 FusedChat에는 ODD 기반 TOD 및 TOD 기반 ODD가 고유하게 포함됩니다.
인간 대화의 두 가지 일반적인 형태, 즉 상식에서만 지원되는 캐주얼한 개방형 대화와 특정 지식 기반에서 지원하는 작업 지향 대화를 융합하기 위해 노력합니다.
개선의 여지가 큰 두 가지 기본 모델에 대한 예비 실험 결과를 보여줍니다.
모드 간 대화 시스템에 대한 향후 작업을 추진하기 위해 데이터 세트와 기준선을 릴리스합니다.
FusedChat이 설정한 프레임워크는 제한적입니다.

데이터 세트에는 실제 시나리오와의 격차를 나타내는 둘 이상의 모드 스위치가 포함된 대화 세션이 포함되어 있지 않습니다.
우리는 더 많은 모드 스위치가 모드 간 대화를 훨씬 더 어렵게 만들 수 있다고 생각합니다.
TOD 및 ODD의 선택이 가능한 대화 설정의 전체 범위를 나타내지는 않습니다.
우리는 응답이 컨텍스트에 의해서만 결정되는 가장 단순한 형태의 ODD를 선택했습니다.

그러나 문헌에서 ODD는 페르소나와 같은 다양한 형태의 정보를 기반으로 합니다(Zhang et al. 2018).

우리는 구조화된 엔터티 중심 지식 기반으로 정의되는 MultiWOZ에서와 같이 TOD의 고전적인 설정을 선택했습니다.
그러나 TOD의 개념은 비정형 지식 액세스와 같이 확장되었습니다 (Kim et al. 2020).

우리는 더 복잡한 형태의 ODD와 TOD의 융합이 더 어려울 것으로 예상하지만 인간 수준의 대화 능력을 더 잘 나타낼 것입니다.
FusedChat을 구축하려면 많은 수동 창작 노력이 필요했습니다.
따라서 모든 새로운 inter-mode dialogue scenario에 대해 동일한 루틴을 복제하는 것은 매우 비용이 많이 듭니다.
또는 별도의 단일 모드 대화에 주로 의존하여 모드 간 대화를 수행하는 방법을 학습할 수 있는 제로샷 또는 퓨샷 모델이 유망한 방향입니다.
FusedChat은 이러한 패러다임에 대한 테스트 베드 역할도 할 수 있습니다.

Reference

https://www.aaai.org/AAAI22Papers/AAAI-626.YoungT.pdf

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-137, Fusing Task-oriented and Open-domain Dialogues in Conversational Agents, AAAI 2022

◼ Comment

0 Abstract

1 Introduction

2. FusedChat Construction

2.1 General requirements for the added ODDs

2.2 Appending ODDs

2.3 Prepending ODDs

3. FusedChat statistics

4. Approaches for inter-mode dialogues

4.1 Task Definition

4.2 Models

5. FusedChat as a new benchmark

5.1 Mode classification

5.2 ODD-grounded TODs

5.3 TOD-grounded ODDs

5.4 Full inter-mode dialogues

6. Related Work

7. Discussions and Future Work

댓글

댓글 쓰기