NL-137, Fusing Task-oriented and Open-domain Dialogues in Conversational Agents, AAAI 2022
◼ Comment
- 이 논문은 TOD와 ODD 둘다를 포함하는 대화 데이터세트 제작 및 베이스라인 소개이다.
- 즉 데이터세트에서 대화들은 오픈도메인 대화와 목적형 대화 둘 다 포함하게끔 하는 것이다. (사람과 같이)
- 처음부터 데이터를 만든 것은 아니고, 기존의 TOD 데이터세트 (MultiWOZ)라는 것이 있는데, 이 데이터세트의 앞과 뒤에 OOD 대화를 생성하게끔 했다.
- 물론, 자연스럽게 생성이 되야한다.
- 뒤에 OOD를 붙일 때는 TOD의 발화들과 자연스럽게 연결이 되야한다. (append)
- TOD에서 마지막발화들이 “User: Thank you. System: Goodbye.” 이런식으로 끝나는 경우가 꽤 있는데 이때 이런 발화를 삭제했다고 한다.
- 앞에 OOD을 붙일 때는 TOD와 자연스럽게 연결이 되야한다. (prepend)
- prepend에서, TOD의 첫 발화에서 키워드를 하나 랜덤으로 뽑고, 그에 맞게 OOD 데이터를 만든다.
- OOD 발화들에서 이미 키워드가 나오기 때문에 TOD의 첫 발화를 대명사?등으로 조금 수정하는 작업도 한다.
- 베이스라인 모델은 2가지를 소개한다.
- 1) 분류모델기반은 BERT로 대화모드가 OOD 인지 TOD인지 먼저 구분한다.
- 그리고 모드에 맞는 모델이 response을 생성하게한다.
- 모드 구분하는 성능은 꽤 높다.
- DialoGPT을 백본으로 한다.
- OOD 모델에서는 context -> response을 생성한다.
- TOD 모델에서는 context -> dialogue state, dialogue act, response을 같이 생성한다.
- 2) 2-in-1 모델은 모드를 따로 구분하는 모듈이 없다.
- 학습할 때는, OOD인 경우는 context -> <OOD>, reponse을 생성한다.
- TOD인 경우는 context -> dialogue state, dialogue act, response을 생성한다.
- 즉 인퍼런스때, context에 따라 알아서 response가 생성되고, 이에 따라 OOD인지 TOD인지 알 수 있게 된다.
- 결과론적으로는 분류기반모델로 하는게 코스트는 좀 더 들지만 좋다고 한다.
- 그리고 기존 MultiWOZ보다 OOD에 따라 rewriting한 MultiWOZ가 어렵다는 실험 결과가 있다.
- 하지만 이러한 데이터세트는 TOD/OOD 세션이 앞뒤로만 구축된 한계가 있다.
- 즉 모드가 왔다리 갔다리 하는 모드 스위치가 2번이상 일어나지 않는다는 것이다.
0 Abstract
- 지능적 대화 시스템 구축 목표는 과제별 기능을 수행하는 TOD(task-oriented dialogue) 시스템과 non-goal-oriented chitchat에 중점을 둔 ODD(open-domain dialogue) 시스템이라는 두 가지 패러다임으로 크게 분리되어 추진되었습니다.
- 두 가지 대화 모드는 친절한 인간 비서가 쉽게 수행할 수 있는 것처럼 동일한 대화에서 자연스럽게 서로 얽힐 수 있습니다.
- 이러한 기능은 통합으로 인해 더 액세스 가능하고 유용하기 때문에 대화식 에이전트에서 바람직합니다.
- 우리 논문은 다중 회전 대화에서 TOD와 ODD를 융합하는 이 문제를 다룹니다.
- 인기 있는 TOD 데이터 세트 MultiWOZ를 기반으로 기존 TOD 턴을 다시 작성하고 새로운 ODD 턴을 추가하여 새로운 데이터 세트 FusedChat을 구축합니다.
- 이 절차는 두 대화 모드의 교환을 포함하는 대화 세션을 구성합니다.
- 모드 간 컨텍스트 종속성을 특징으로 합니다.
- 즉, 두 모드의 대화 전환은 서로 의존합니다. 상호 참조 및 줄임표와 같은 풍부한 종속성 패턴이 포함되어 있습니다.
- 사람이 작성한 60,000개의 새로운 ODD 턴과 5,000개의 재작성된 TOD 턴이 포함된 새로운 데이터 세트는 모드 간 대화를 수행하는 대화 모델의 기능을 테스트하기 위한 벤치마크를 제공합니다.
- 모델이 적절한 대화 모드를 결정하고 모드 간 컨텍스트를 기반으로 응답을 생성해야 하기 때문에 이것은 더 어려운 작업입니다.
- 그러나 그러한 모델은 인간 수준의 대화 기능을 더 잘 모방할 것입니다.
- 분류 기반 2단계 모델과 2-in-1 융합 모델을 포함하여 이 작업에 대한 두 가지 기본 모델을 평가합니다.
- 모드 간 대화 시스템에 대한 향후 작업을 추진하기 위해 FusedChat 및 기준선을 공개적으로 릴리스합니다.
1 Introduction
- 최근 몇 년 동안 인간과 자연스럽게 대화하는 지능형 시스템을 구축하는 모델이 인기를 얻고 있습니다.
- 두 가지 주류 모델은 개방형 도메인 대화(ODD) 모델과 작업 지향 대화(TOD) 모델로 분류할 수 있습니다.
- ODD 모델은 Seq2Seq 모델링 패러다임으로 처음 채택되었을 때 방대한 [컨텍스트, 응답] 쌍을 기반으로 하는 개방형 인간 대화 학습에 초점을 맞췄습니다.
- 이러한 모델은 컨텍스트를 기반으로 응답을 생성하고 일반적인 잡담 능력을 나타냅니다.
- 대화에서 그들의 주요 목표는 사용자의 참여를 유지하고 그가 관심 있는 임의의 공개 도메인 주제에 대해 채팅하는 것입니다.
- 대화는 특별한 데이터베이스 없이도 상식에 따라 유지될 수 있습니다.
- TOD 모델은 크게 다릅니다.
- 대화 상자는 레스토랑 찾기 및 항공사 예약과 같은 특정 기능을 제공하기 위해 존재합니다.
- 그들은 종종 구조화된 데이터베이스와 API에 의해 지원되는 폐쇄된 도메인에서 작동합니다.
- 일반적으로 세 가지 특성이 ODD 모델과 구별됩니다.
- (1) an entity-centered database,
- (2) explicit dialogue state modeling,
- (3) a pre-defined set of dialogue domains and functions (dialogue acts).
- 인간은 두 가지 유형의 대화를 원활하게 함께 수행할 수 있습니다.
- 대화 시스템이 그렇게 하는 것이 이상적입니다. 그러한 통합은 사용성이 향상된 융합 시스템을 제공하기 때문입니다.
- 또한 두 가지 대화 모드 간의 풍부한 상호 작용을 허용하므로 어느 모드에서도 독립적으로 모델링할 수 없습니다.
- 이러한 대화 모델은 인간 수준의 대화 기능을 더 잘 모방할 것입니다(예: 친절한 조수와 채팅)(그림 1).
- 최근 몇 년 동안 ODD와 TOD 모두에 대해 수많은 데이터 세트가 생성되었지만, 특히 모드 간 컨텍스트 종속성이 있는 융합에 대한 고품질의 사람이 작성한 데이터 세트가 없습니다.
- 우리의 작업은 이 공백을 채우는 것을 목표로 합니다.
- 우리는 인기 있는 TOD 데이터 세트 MultiWOZ를 백본으로 사용하고 인간 제작자가 기존 TOD 턴 전후에 ODD 턴을 추가할 수 있도록 합니다.
- MultiWOZ 대화의 약 절반에 대해 ODD 턴을 앞에 추가하여 (prepend) ODD + TOD 세션을 만듭니다.
- 나머지 절반에는 ODD 턴을 뒤에 추가하여 (append) TOD + ODD 세션을 생성합니다.
- 두 경우 모두 작성자는 기존 TOD와 컨텍스트적으로 관련된 ODD를 작성합니다.
- FusedChat에서 모드 간 종속성을 적용합니다.
- prepending 경우에 우리는 TOD의 첫 번째 차례를 일반적으로 공동 참조 또는 줄임표로 다시 작성하여 TOD가 ODD에 의존하는지 확인합니다.
- appending 사례에서 우리는 ODD에서 최소한 하나의 교환이 TOD에서 발견된 개념이나 지식에 의존하는지 확인합니다.
- 간단히 말해서, 우리 데이터 세트의 이러한 dependency 패턴은 대화 모델이 한 대화 모드의 전환을 처리할 때 때때로 다른 대화 모드의 기록 전환에 제공된 컨텍스트 정보를 참조해야 함을 의미합니다.
- 이 새로운 데이터 세트는 TOD 및 ODD 기능을 모두 보유한 모드 간 대화 시스템을 교육 및 평가하기 위한 고유한 테스트 베드를 제공합니다.
- 두 대화 모드에 대한 기존 대화 평가 메트릭은 모드 간 평가에 함께 사용할 수 있
- 습니다. 우리는 이 새로운 설정에 대한 두 가지 기본 모델을 개발하고 평가합니다.
- (1) 분류 기반 모델.
- 두 개의 응답 생성 모델 Mtod 및 Modd는 각 모드의 차례에 따라 독립적으로 훈련됩니다.
- 그들은 대화 컨텍스트가 주어지면 각각의 모드에 대한 응답을 생성합니다.
- 별도의 모드 분류 모델 C가 학습되고 주어진 컨텍스트에서 호출할 모드를 결정하는 데 사용됩니다.
- (2) 두 모드의 대화 전환에 대해 함께 훈련되는 2-in-1 융합 대화 모델.
- 시퀀스 생성의 일부로 대화 모드를 암시적으로 예측하여 모든 대화 컨텍스트에서 응답을 생성합니다.
- 요약하면, 우리의 주요 기여는 다음과 같습니다:
- (1) 다중 턴 대화에서 TOD와 ODD를 융합하는 FusedChat이라는 새로운 대화 데이터 세트.
- 대화는 원활한 모드 융합을 위한 모드 간 컨텍스트 종속성을 제공하므로 대화 모델이 인간 수준 대화 기능을 더 잘 모방할 수 있습니다.
- 60,000개의 새로운 사람이 쓴 ODD 턴과 5,000개의 다시 작성된 TOD 턴이 있는 FusedChat은 모드 간 대화 시스템에 대한 새로운 벤치마크 역할을 합니다.
- TOD 및 ODD 시스템을 별도로 측정하는 데 사용되는 기존 메트릭을 결합하여 모드 간 대화 시스템을 평가할 수 있습니다.
- (2) 2-in-1 모델과 분류 기반 모델은 모드 간 대화 모델로 개발 및 평가됩니다.
- 우리의 예비 실험은 모델이 단일 모드 데이터 세트에서 평가된 단일 모드 대응 모델보다 성능이 좋지 않음을 시사합니다.
- 그리고 계산 비용이 더 많이 드는 분류 기반 모델은 더 저렴한 투인원 융합 모델보다 성능이 뛰어납니다.
- 이는 서로 다른 대화 모드를 효과적으로 융합하는 것이 어려운 작업이며 기본 융합 모델에 대한 개선의 여지가 크다는 것을 의미합니다.
2. FusedChat Construction
- 모드 간 대화 세션을 생성하기 위해 데이터 세트 구성 프로세스는 주로 대화 생성자가 기존 TOD에 자체 작성된 ODD를 prepend or append 하는 것을 포함합니다.
- 대화 생성자는 사용자와 대화 시스템 모두의 역할을 스스로 수행합니다.
- 이 자기 대화 설정은 두 인간 제작자 간의 오해를 피하고 생성 된 대화의 일관성을 향상시킵니다.
- 기존 TOD의 경우 문헌에서의 인기 때문에 MultiWOZ 2.4 데이터 세트가 선택되었습니다.
- MultiWOZ에는 레스토랑, 명소, 기차, 경찰, 병원, 택시 및 호텔을 포함한 7개 도메인의 TOD가 포함되어 있습니다.
- 사용자는 레스토랑 예약 및 병원 찾기와 같은 미리 정의된 기능 세트에 대해 대화 에이전트와 대화합니다.
- MultiWOZ는 사용자가 관광객이라는 가정하에 만들어졌지만 대부분의 대화 자체가 반드시 여행자 페르소나를 반영하는 것은 아니며 개방 도메인 대화를 유연하게 추가할 수 있습니다.
- FusedChat 설정에서 대화 작성자는 기존 TOD와 맥락적으로 일치하는 ODD를 자유롭게 추가할 수 있습니다.
- 다음 섹션에서는 먼저 추가된 ODD에 대해 설정한 일반 요구 사항에 대해 설명합니다.
- 그런 다음 ODD 앞에 추가 및 추가하는 방법과 모드 간 종속성이 적용되는 방법을 각각 설명합니다.
2.1 General requirements for the added ODDs
- 이 섹션에서는 대화 작성자가 따라야 하는 규칙으로 앞에 prepending and appending 케이스 모두에 대해 추가된 ODD에 대한 일반 요구 사항을 설명합니다.
- (1) 모든 제작자는 "시스템"과 "사용자"의 역할 모두에 대해 가상의 ODD를 작성합니다.
- 여기서 "시스템"은 친근한 오픈 도메인 대화(추가된 ODD에서)와 작업 지향 대화 모두가 가능한 AI 대화 에이전트를 나타냅니다. (기존 MultiWOZ TOD에서).
- 그리고 "user"는 친근한 chitchat을 하고 특정 작업 목표를 달성하기 위해 AI 에이전트와 대화하는 human speaker 를 나타냅니다.
- (2) 기존 TOD와 추가된 ODD 간의 관련성을 보장하기 위해 작성자가 기존 TOD 세그먼트와 유사하거나 관련된 주제를 중심으로 ODD를 회전하도록 권장합니다(예: TOD에서 동일하거나 관련된 개념에 대해 이야기함으로써).
- 추가된 ODD 턴과 기존 TOD 턴이 자연스럽게 연결되어야 합니다.
- 두 모드 사이에는 강력한 컨텍스트 종속성이 있어야 합니다(다음 2개 섹션에서 설명).
- (3) 생성된 대화는 TOD가 아닌 ODD의 일반적인 특성을 준수해야 합니다.
- 특정 작업 지향 기능을 수행하거나 작업 관련 정보를 제공하기 위해 "시스템"이 필요하지 않은 캐주얼 잡담 교환이어야 합니다.
- 제작자 샘플에 대한 파일럿 실험을 기반으로 우리는 제작자가 지시에 따라 ODD가 아닌 기술적으로 TOD인 작업별 기능에 중점을 둔 대화를 작성하는 경향이 있음을 발견했습니다.
- 이는 아마도 차이점에 대한 미묘한 이해가 부족하고 해당 TOD를 기존 TOD의 컨텍스트에 쉽게 맞출 수 있기 때문일 것입니다.
- 이 문제를 해결하기 위한 적극적인 조치로 우리는 3개의 기존 ODD 데이터 세트와 MultiWOZ의 조합으로 훈련된 실시간 턴 레벨 ODD 대 TOD 분류기를 배포했습니다.
- 또한 시스템에서 상식을 벗어난 정보를 조작하게 하는 등 제작자가 피해야 하는 파일럿 실험에서 발견된 몇 가지 함정에 대해 간략히 설명합니다.
- 다음으로, 추가 ODD(TOD + ODD) 및 추가 ODD(ODD + TOD)가 실행되는 방식과 모드 간 종속성이 적용되는 방식에 대해 각각 설명합니다.
2.2 Appending ODDs
- appending 시나리오에서 대화 작성자는 MultiWOZ 데이터 세트에서 샘플링된 제공된 TOD에 ODD를 추가합니다.
- ODD는 자연스럽게 TOD를 따라야 합니다.
- 우리는 원래 MultiWOZ 데이터셋의 대화가 종종 “User: Thank you. System: Goodbye.”를 주고 받는다.
- 이 교환은 대화를 효과적으로 종료합니다.
- ODD를 추가하기 위해 화행 주석(dialogue-act:thank-you 및 dialogue-act:goodbye)을 기반으로 TOD 끝에서 이러한 교환을 발견적으로 제거합니다.
- Inter-mode Dependency
- appending 경우 ODD의 내용은 선행 TOD에 종속되어야 합니다.
- 우리는 제작자가 기존 TOD 세그먼트에서 찾은 개념이나 지식을 반영하는 내용의 교환을 최소한 한 번 작성하도록 하여 이를 시행합니다.
- 그림 2는 TOD + ODD의 예를 보여준다.
- 사용자와 시스템 간의 처음 두 번의 교환은 TOD 모드에 있습니다.
- 값비싼 태국음식점을 조회하고 예약하는 것입니다.
- 시스템의 응답은 대화 상태 추적 및 사용 가능한 레스토랑에 대한 기본 데이터베이스에 의해 지원됩니다.
- 세 번째 교환에서 사용자는 친구들이 식당을 즐길 수 있을지 걱정을 표합니다.
- 이것은 작업 지향 기능을 호출하지 않기 때문에 ODD 발화로 간주됩니다.
- 시스템의 ODD 응답은 상식과 공감에 의해 지원됩니다.
- 히스토리 TOD 차례의 내용을 반영하는 방법에 유의하십시오.
2.3 Prepending ODDs
- prepending 경우 작성자는 MultiWOZ의 TOD 세그먼트를 받고 여기에 ODD를 추가하라는 요청을 받습니다.
- ODD는 자연스럽게 제공된 TOD로 이어져야 합니다.
- MultiWOZ의 원래 TOD는 자체 포함되어 있습니다.
- 모드 간 종속성을 모델링하기 위해 상호 참조 및 줄임표를 기반으로 하여 발화를 rewriting을 수행합니다.
- FusedChat에서 TOD가 앞에 붙은 ODD에 의존하는 이유입니다.
- Inter-mode Dependency
- TOD가 ODD를 조건으로 하는 ODD + TOD 세션을 만들고 싶습니다.
- 성공적인 TOD의 핵심은 사용자의 요구를 이해하고 적절하게 응답하기 위해 대화 시스템이 [슬롯 유형, 슬롯 값] 쌍(예: [대상: Cambridge])에 대한 사용자 발화를 처리하는 대화 상태 추적입니다.
- 데이터 세트에서 모드 간 종속성을 모델링하기 위해 설계된 방법은 기본적으로 ODD 종속 대화 상태 추적을 부과합니다.
- TOD의 첫 번째 사용자 턴에서 언급된 슬롯 값(예: 그림 3의 "Cambridge")을 무작위로 선택합니다.
- 대화 생성자는 앞에 추가된 ODD의 슬롯 값을 사용하고 이에 따라 첫 번째 대화 사용자 차례를 다시 작성하여 암시적으로 참조하도록 요청합니다.
- 재작성은 주로 공동 참조(예: 그림 3의 "거기")와 생략 부호를 포함합니다.
- 공동 참조 및 생략 부호는 다중 회전 TOD의 중요한 기능으로, 연구자가 특정 TOD 데이터 세트에서 때때로 특수 주석을 수행하도록 한다(Quan et al. 2020).
- ODD + TOD 세션에 대해 모드 간 종속성이 어떻게 나타나는지에 대한 자세한 예는 그림 3을 참조하십시오.
3. FusedChat statistics
- 저자의 대학에서 총 113명의 학부생이 FusedChat의 대화 작성자로 모집되었습니다.
- FusedChat과 MultiWOZ의 차이점은 주로 원래 TOD에 의해 grounding 되거나 grounded 추가 ODD turns에 있습니다.
- FusedChat에 추가된 ODD 턴은 원래 MultiWOZ 데이터 세트에 대한 중요한 확장입니다.
- 표 1에서 볼 수 있듯이 원래 MultiWOZ 데이터 세트에 없는 8,000개 이상의 새로운 토큰을 포함하여 60,000개 이상의 새로운 ODD 턴이 추가되어 어휘가 크게 확장되었습니다.
- FusedChat은 또한 ODD를 prepending 시나리오에 대한 첫 번째 TOD 턴(총 4670)을 다시 작성했습니다.
- ODD를 appending 시나리오의 경우 FusedChat은 "고마워요" 및 "안녕" 대화 행위만 포함하는 11320 TOD 턴을 폐기했습니다.
- 표 2는 FusedChat에 대한 교육/검증/테스트 파티션을 보여줍니다.
4. Approaches for inter-mode dialogues
- In this section, we discuss baseline models we developed for inter-mode dialogues.
4.1 Task Definition
- 다중 회전 대화 시스템은 다중 회전 컨텍스트 C를 기반으로 응답 R을 생성합니다.
- 모드 간 대화에서 C는 TOD 및 ODD 턴으로 구성됩니다.
- FusedChat 설정에서 R은 TOD 모드 또는 ODD 모드에 있을 수 있지만 둘 중 하나만 있어야 합니다.
4.2 Models
- 모드 간 대화를 위해 두 가지 유형의 모델을 실험합니다.
- (1) 모드 분류 모델과 TOD 및 ODD에 대한 두 가지 응답 생성 모델로 별도로 구성된 분류 기반 모델 및
- (2) 단일 응답 생성 모델이 TOD 및 ODD를 모두 수행할 수 있는 투인원 융합 모델 생성, 암시적으로 응답 모드를 결정합니다.
- (1) 분류 기반 모델.
- 두 개의 응답 생성 모델 M_odd 및 M_tod는 각 대화 모드를 처리하도록 독립적으로 훈련됩니다.
- 별도의 분류 모델 C가 훈련되고 주어진 모드 간 컨텍스트에서 호출할 모델 모드를 결정하는 데 사용됩니다.
- 위의 3가지 모델 모두 inter-mode context를 입력으로 사용합니다.
- Modd의 경우 Shuster를 따르고 FusedChat의 모든 ODD 턴에서 미세 조정된 사전 훈련된 모델로 DialoGPT를 실험합니다.
- Mtod의 경우 TOD에 대한 종단 간 모델링의 최근 진행 상황을 따릅니다.
- 대화 상태 추적, 대화 행위 예측 및 응답 생성은 Seq2Seq 프레임워크에서 함께 캐스팅되었습니다.
- 기존 Seq2Seq 기반 ODD 모델링의 경우 문제는 [Context → Response]로 캐스트됩니다.
- Seq2Seq 기반 TOD 모델링의 경우 문제는 [Context → (Dialogue State, Dialogue Act, Response)]로 캐스트되며, 여기서 후자의 세 부분은 생성 대상으로 하나의 시퀀스로 연결됩니다.
- 즉 context에서 response만 생성하는 것이 아니라, dialogue state, dialogue act도 생성한다.
- 이 단순한 형식을 통해 TOD 모델은 ODD 모델과 마찬가지로 large-scale pretrained models의 이점을 활용할 수 있습니다.
- 우리는 GPT2로 초기화되고 FusedChat의 모든 TOD 턴에서 미세 조정된 Mtod용 모델에 대해 Neural Pipeline (Ham et al. 2020)을 따릅니다.
- C의 경우 Madotto를 따르고 사전 훈련된 모델로 BERT(Devlin et al. 2018)를 실험합니다.
- 모델은 대화 모드(TOD 대 ODD)를 예측하기 위해 FusedChat의 모든 턴에서 미세 조정됩니다.
- (2) 투인원 모델.
- 두 모드의 대화 전환에 대해 훈련된 이 모델은 대화 모드를 암시적으로 결정하여 모든 대화 컨텍스트에서 응답을 생성하는 단일 모델을 사용합니다.
- (Sun et al. 2020)과 유사하게 시퀀스 구성 중에 추가 토큰을 사용하여 응답이 ODD 모드에 있을 때를 나타냅니다.
- 훈련 시퀀스는 [Context → (<ODD>, Response)]와 [Context → (Dialogue State, Dialogue Act, Response)]로 구성됩니다.
- 모델은 GPT2로 초기화되고 FusedChat의 모든 대화 차례에서 미세 조정됩니다.
- 즉, ODD 턴의 발화를 LM으로 학습할 때는 생성할 발화 앞에 <ODD> 이런 스페셜 토큰도 생성하도록 학습하는 것이다.
- TOD턴의 발화를 학습할 때는, 앞의 분류모델에서 TOD 모델과 같이, context가 들어가서 dialogue state, dialogue act, response을 생성하게끔 학습이 된다.
- 즉 인퍼런스할때, context에 따른 생성발화에 ODD가 있으면 ODD 모드이고, 아니면 TOD모드인 것
- For all the models above, best checkpoints for testing are selected based on the full validation sets of 1000 instances.
5. FusedChat as a new benchmark
- 컨텍스트와 대화 모드에 따라 데이터 세트의 대화 회전은 자연스럽게 그림 4에서 4가지 유형으로 구분됩니다.
- vanilla TODs, vanilla ODDs, ODD-grounded TODs and TOD-grounded ODDs
- vanilla는 기존 데이터 세트와 유사한 자체 모드의 컨텍스트에 기반한 대화 회전을 나타냅니다.
- "prepending ODD" 시나리오의 ODD turn 및 "appending ODD" 시나리오의 TOD turn은 vanilla입니다.
- 다음 섹션에서는 FusedChat이 모드 분류, TOD 기반 ODD, ODD 기반 TOD 및 전체 모드 간 대화를 포함하여 모드 간 대화 시스템의 성능을 벤치마킹할 수 있는 4가지 고유한 평가 시나리오를 보여줍니다.
5.1 Mode classification
- 모드 간 대화의 직접적인 문제는 생성된 응답이 어떤 모드여야 하는지를 결정하는 것입니다.
- 시스템은 friendly chitchat (ODD)으로 응답해야 합니까, 아니면 user’s task-oriented goal 를 해석하고 certain dialogue acts (TOD)로 응답해야 합니까?
- 모드 분류 모델의 정확도는 표 3에 나와 있습니다.
- 우리는 두 가지 컨텍스트 옵션을 고려합니다.
- 최신 사용자 턴만 컨텍스트로 사용(단일 턴)하거나 여러 차례를 포함하는 전체 기록을 컨텍스트로 사용(다중 턴)합니다.
- 결과에 따르면 "다중 회전"이 "단일 회전"을 약간 능가하는 정확도가 두 경우 모두에서 상당히 높습니다.
5.2 ODD-grounded TODs
- 모드 간 대화의 일부는 FusedChat의 "prepending ODD" 시나리오에 해당하는 ODD 기반 TOD입니다.
- 일반 TOD와 마찬가지로 시스템의 응답은 작업 지향적인 사용자 요청에 의해 표시됩니다.
- 그러나 앞의 컨텍스트에는 고유한 문제를 만드는 ODD 교환이 포함되어 있습니다.
- 한편으로, 모델은 올바른 대화 상태 추적을 위해 ODD 컨텍스트에서 유용한 작업 관련 정보를 인식해야 합니다.
- 반면, 시스템의 응답은 히스토리의 ODD 컨텍스트를 따라 잡담으로 탈선하는 대신 최신 사용자 요청에 따라 필요한 작업 지향 기능을 올바르게 수행해야 합니다.
- FusedChat에서 대화 턴의 이 부분에 대한 평가 결과는 표 4에 나와 있습니다.
- 우리는 MultiWOZ에 대한 전통적인 TOD 평가 메트릭을 사용합니다.
- 여기서 슬롯 정확도는 대화 상태 추적, 알림률 및 성공률은 사용자 목표 성공을 측정하고 BLEU는 응답 품질을 측정합니다( 자세한 내용은 (Budzianowski et al. 2018) 참조).
- 또한 원본 MultiWOZ 데이터 세트(MultiWOZ에서 훈련 및 테스트됨)를 사용하여 Neural Pipeline 접근 방식을 평가합니다.
- 분류 기반 모델에는 Neural Pipeline 모델을 정확히 따르는 Mtod가 포함되어 있음을 기억하십시오.
- 이것은 MultiWOZ의 기본 TOD 작업과 비교하여 새로운 ODDgrounded TOD 작업의 난이도를 평가하기 위한 것입니다.
- 표 4는 다음을 보여줍니다.
- (1) 분류 기반 모델이 투인원 모델보다 성능이 훨씬 뛰어납니다.
- (2) MultiWOZ의 동일한 기본 TOD 대화에서 평가된 신경 파이프라인 모델은 FusedChat의 ODDgrounded TOD에서 평가된 분류 기반 모델보다 성능이 훨씬 뛰어납니다.
- 이러한 상당한 차이는 ODD 기반 TOD가 일반 TOD보다 더 어려운 작업임을 시사합니다.
- 아마도 이것은 (a) 응답 모드를 올바르게 결정하기 위한 추가 요구 사항 및 (b) ODD 종속 대화 상태 추적에 대한 추가 필요성 때문일 수 있습니다.
5.3 TOD-grounded ODDs
- 모드 간 대화의 또 다른 부분은 FusedChat의 "appending ODD" 시나리오에 해당하는 TOD 기반 OOD입니다.
- 시스템의 ODD 응답은 컨텍스트에서 TOD 및 ODD 턴 모두에서 조건화되어야 합니다.
- 열린 영역 대화 생성에 대한 평가는 악명 높으며 수많은 평가 방법이 제안되었습니다.
- 우리의 실험에서 우리는 Adiwardana를 따르고 난처함과 감도 및 특이성 평균(SSA)을 메트릭으로 사용합니다.
- SSA는 sensibleness (Does the response make sense given the context?)과 specificity (Is the response specific to the context?) 사이의 average을 나타냅니다.
- 둘 다 각 응답에 대해 이진법입니다.
- 응답은 합리적이라고 판단되는 경우에만 구체적인 것으로 간주될 수 있습니다.
- SSA 결과는 테스트 세트에서 무작위로 샘플링된 100번의 대화 회전에 대한 5명의 전문 평가자의 판단을 평균하여 계산됩니다.
- 표 5는 이 작업에 대한 모드 간 대화 모델의 성능을 보여줍니다.
- 분류 기반 모델은 투인원 모델을 훨씬 능가합니다.
- 결과는 또한 우리가 개발한 두 모델의 더 나은 대화 모델을 훨씬 능가하는 매우 높은 SSA 점수를 받는 ground-truth을 보여줍니다.
- 이것은 이 작업에 대한 개선의 여지가 크다는 것을 암시합니다.
5.4 Full inter-mode dialogues
- 표 6에서 전체 FusedChat 테스트 세트(4가지 유형의 대화 전환 포함)에 대한 결과를 보여줍니다.
- 위에서 논의한 TOD 및 ODD 메트릭의 조합을 사용하여 모드 간 대화를 수행하는 대화 시스템의 능력을 전체적으로 측정할 수 있습니다.
- 분류 기반 모델은 투인원 모델보다 성능이 뛰어납니다.
- 이것은 현재 베이스라인 2-in-1 융합 모델이 계산적으로 훨씬 더 효율적이기는 하지만 분류 기반 파이프라인 모델처럼 두 대화 모드를 동시에 캡처하지 못한다는 것을 암시하는 것 같습니다.
- ODD 기반 TOD, TOD 기반 ODD 및 전체 모드 간 대화 평가를 위해 모드 허용 방식으로 응답을 평가합니다.
- 이는 모델이 잘못된 모드의 응답을 생성하더라도 메트릭 값을 0으로 직접 처벌하는 대신 해당 인스턴스를 정상적으로 평가한다는 것을 의미합니다.
- 예를 들어, BLEU를 평가할 때 모드 간 대화 모델에 의해 생성된 응답이 ODD 응답인 경우에도 여전히 일반적으로 ground-truth에 대해 BLEU 점수를 계산합니다.
- 즉, 모델이 분류모델이든 2-in-1 모델이든 TOD 응답을 생성해야하는데 ODD로 간주하여 모델이 작동한다? --> 점수가 0인게 아니라, 생성된 발화에 대해서 그냥 평가함.
- 물론 모드가 잘못되었다는 것은 일반적으로 나쁜 점수를 의미합니다.
6. Related Work
7. Discussions and Future Work
- 우리의 작업은 모드 간 종속성을 가진 TOD와 ODD를 모두 수행할 수 있는 대화 시스템을 개발하는 목표를 제공합니다.
- 기존 데이터 세트와 비교하여 새로운 데이터 세트 FusedChat에는 ODD 기반 TOD 및 TOD 기반 ODD가 고유하게 포함됩니다.
- 인간 대화의 두 가지 일반적인 형태, 즉 상식에서만 지원되는 캐주얼한 개방형 대화와 특정 지식 기반에서 지원하는 작업 지향 대화를 융합하기 위해 노력합니다.
- 개선의 여지가 큰 두 가지 기본 모델에 대한 예비 실험 결과를 보여줍니다.
- 모드 간 대화 시스템에 대한 향후 작업을 추진하기 위해 데이터 세트와 기준선을 릴리스합니다.
- FusedChat이 설정한 프레임워크는 제한적입니다.
- 데이터 세트에는 실제 시나리오와의 격차를 나타내는 둘 이상의 모드 스위치가 포함된 대화 세션이 포함되어 있지 않습니다.
- 우리는 더 많은 모드 스위치가 모드 간 대화를 훨씬 더 어렵게 만들 수 있다고 생각합니다.
- TOD 및 ODD의 선택이 가능한 대화 설정의 전체 범위를 나타내지는 않습니다.
- 우리는 응답이 컨텍스트에 의해서만 결정되는 가장 단순한 형태의 ODD를 선택했습니다.
- 그러나 문헌에서 ODD는 페르소나와 같은 다양한 형태의 정보를 기반으로 합니다(Zhang et al. 2018).
- 우리는 구조화된 엔터티 중심 지식 기반으로 정의되는 MultiWOZ에서와 같이 TOD의 고전적인 설정을 선택했습니다.
- 그러나 TOD의 개념은 비정형 지식 액세스와 같이 확장되었습니다 (Kim et al. 2020).
- 우리는 더 복잡한 형태의 ODD와 TOD의 융합이 더 어려울 것으로 예상하지만 인간 수준의 대화 능력을 더 잘 나타낼 것입니다.
- FusedChat을 구축하려면 많은 수동 창작 노력이 필요했습니다.
- 따라서 모든 새로운 inter-mode dialogue scenario에 대해 동일한 루틴을 복제하는 것은 매우 비용이 많이 듭니다.
- 또는 별도의 단일 모드 대화에 주로 의존하여 모드 간 대화를 수행하는 방법을 학습할 수 있는 제로샷 또는 퓨샷 모델이 유망한 방향입니다.
- FusedChat은 이러한 패러다임에 대한 테스트 베드 역할도 할 수 있습니다.
Reference
댓글
댓글 쓰기