NL-111, MuTual: A Dataset for Multi-Turn Dialogue Reasoning (2020-ACL)
◼️ Comment
- 이 논문은 MuTual 데이터세트를 릴리즈한 데이터세트 설명 논문이다.
- MuTual은 대화 추론 데이터세트이다.
- 보통 이전의 response selection에 사용된 데이터세트는, context가 있고 response가 맞냐 아니냐를 판단하게끔 binary로 레이블링된 데이터세트이다.
- 여기서 레이블링은 기존 대화말뭉치에서 있던 문장은 true, 랜덤 샘플링하여 붙인것은 false식으로 된다.
- NL-110에서 자동으로 업그레이드 하는 방법을 소개한 것이고
- 이 논문에서는 사람이 직접 손수 작업한 데이터세트이다.
- 중국인들이 영어 듣기 평가하는 데이터세트를 기반으로 한다고 하고
- 상당히 공을 들여 데이터를 제작한 것 같다.
- 자세한 과정은 포스팅을 읽으면 될 것 같고..
- 중요한 것은 아래와 같이 추론이라는 개념이 들어간 데이터세트라는 것이다.
- Attitude Reasoning:
- 이 인스턴스의 타입은 모델이 대상에 대한 화자의 attitude을 아는지를 테스트한다.
- Algebraic Reasoning:
- 이 인스턴스의 타입은 모델이 response을 선택할 때, 대수 능력을 가지고 있는지를 테스트한다.
- Intention Prediction:
- 이 타입은 모델이 화자가 다음에 무엇을 할 지 예측할 수 있는지를 테스트한다.
- Situational Reasoning:
- situation information (예. Location, Relationship between two speakers)은 이 인스턴스의 타입이다.
- 모델은 이전의 context로부터 함축적인 information을 발굴해야한다.
- Multi-fact Reasoning:
- 이 인스턴스의 타입에서는, correct response가 context내의 여러 facts와 연관되어 있으므로, 이는 모델이 간단한 text matching보다 context을 깊게 이해하는 것을 요구한다.
- Others:
- 인스턴스의 9%가 다른 commonsense knowledge을 요구한다.
- 예를 들어, 그림 3의 아레에서, 모델은 예약이 꽉찬 레스토랑은 보통 유명하다는 것을 알아야 한다.
- 추가적으로 MuTual-plus라는 더 어려운 데이터세트도 공개하는데
- 이것은, generic 답변을 떄에 따라서 정답, 때에 따라선 오답으로 되게끔 구축한 데이터세트이다.
- 기존의 SoTA 모델들을 이 데이터세트로 평가했을떄 사람과 성능 차이가 많이 난다고 한다.
0 Abstract
- Non-task oriented dialogue systems은 최근 몇 년동안, largely accessible conversation data와 딥러닝 기술의 개발로 놀라운 성공을 달성해왔다.
- 컨텍스트가 주어지면, 현재 시스템은 relevant와 fluent response을 이끌어낼 수 있으나 약한 추론 능력 때문으로 가끔 논리적인 실수를 만든다.
- 대화 추론 연구를 용이하게 하기 위해, 우리는 MuTual을 소개하고, 이는 Multi-Turn dialogue Reasoning을 위한 novel 데이터세트로 8.860 대화들을 손수 어노테이트되었다.
- 이는 중국 학생들의 영어 듣기 시험을 기반으로 한다.
- non-task oriented 대화 시스템을 위한 이전의 벤치마크와 비교하여, MuTual은 더욱 챌린지한데 이는 모델이 다양한 추론 문제들을 다룰 것을 요구하기 때문이다.
- 실험적인 결과들은 SoTA 방법들이 오직 71% 밖에 달성하지 못하고, 이는 사람의 성능인 94%에 비해 꽤 떨어지고 이는 reasoning 능력을 향상시킬 충분한 room이 있음을 가리킨다.
- MuTual is available at https://github.com/Nealcly/MuTual.
1 Introduction
- 기계 대화 에이전트를 만드는 것은 AI의 오랜 목표중 하나이다.
- 기존의 contersational agents는 task-oriented 대화 시스템과 non-task-oriented 챗봇 시스템들로 카테고리화 될 수 있다.
- 떠오르는 딥러닝 기술과 많은 대화형 학습 데이터 덕분에, 우리는 학계, 산업에서 모두 믿을만한 챗봇의 결과들을 보고있다.
- 뉴럴 대화 시스템들은 많은 대화 코퍼스로 학습이되고 context가 주어졌을 때 response을 예측할 때 사용된다.
- 두 가지 방법의 연구가 있다.
- Retrieve-based 방법들과 generation-based 방법들로 matching scores와 perplexity scores을 각각 기반으로 한다.
- pre-training models와 text matching의 발전 때문에, 기계들은 이러한 데이터세틀에서 경쟁력있는 높은 결과들을 달성할 수 있고 human performance과 유사하다.
- 예를 들어, ESIM은 Dialogue NLI에서 88%을 달성하고 BERT는 Ubuntu 코퍼스에서 R10@1, R10@2, R10@5에서 85.8%, 93.1%, 98.5%을 달성했다.
- 그러나, 여전히 leaderboard의 높은 성능과 안좋은 실용적인 사용자 경험 사이에서의 큰 차이는 존재한다.
- 챗봇 엔진들은 종종 논리적으로 틀리거나 commonsense knowledge을 위반하는 responses을 생성한다.
- 그럴듯한 이유는 현재 대화 시스템들은 강한 reasoning skills을 가지고 이지 않고 이전 멘치마크들의 대부분의 케이스들은 linguistic information matching에의해 해결될 수 있었기 때문이다.
- 이전 연구들은 neural encoders가 풍부한 구문 계층과 semantic 정보들을 캡쳐한다는 것을 입증해왔다.
- 그러나, reasoning 능력들과 commonsense knowledge들은 충분히 캡쳐되지 않았다. (Young et al., 2018)
- 한 가지 중요한 연구 질문은 어떻게 챗봇에서우리가 reasoning 능력들을 캡쳐할 수 있는가 이고, 이는 잠재적으로 우리가 leaderboard에서의 높은 성능과 불만족스러운 실제 성능 사이의 gap을 이을 수 있다.
- 끝으로, 우리는 open domain Multi-Turn 대화 추론 데이터세트 (MuTual)을 개발해서 대화 모델 추론 능력을 개발한다.
- 특별히, context가 주어지면, 우리는 4개의 response candidates을 준비하는데 이는 각각 context와 관련이 있으나 그들 중 오직 하나만 논리적으로 올바르다.
- 그림 1에서 보여주듯이, 모든 reponse들이 같은 topic을 따르나 오직 한 가지만 적절하다.
- 올바른 선택을하기 위해서는 사회적 에티켓과 관계에 대한 추론 능력이 필요하며 이는 기존의 대화 벤치 마크에서는 고려하지 않습니다.
- 우리는 중국 고등학교 영어 리스팅 독해 test 데이터를 기반으로 우리의 데이터세트를 설게하고, 학생들은 multi-turn 대화와 question이 주어졌을 때 세 개의 candidate options으로부터 가장 좋은 정답을 선택하게한다.
- 기존의 데이터는 <dialogue, question, answer>형태였고, 이는 직접적으로 우리의 목표와 적합하지 않다.
- 왜냐하면, 챗봇들은 추가적인 질문에 대답하는 대신 오직 어떻게 contexts을 대응할지 고려하기 때문이다.
- 그래서, 우리는 사람 annotators에게 question와 response candidates로써 answer candidates을 다시 써달라고 요청했다.
- 그래서, 우리의 데이터세트는 전통적인 response selection setting을 따르고, 모델은 다른 multi-turn 대화로부터 올바른 response을 인식해야한다.
- 결국 MuTual은 추론을 포함하는 대부분의 질문들에 관한 8,860 챌린지 질문들로 구성되고, 이는 언어학자 전문가와 높은 퀄리티의 annotators에 의해 설계되었다.
- 우리는 MuTual에 대해 SoTA retrieval-based 모델들과 pre-training 모델들을 평가했다.
- 가장 좋은 방법은 R@1이 71%이고, 이는 사람 성능 (94%)보다 현저히 낮다.
- 우리가 아는한, MuTual은 멀티턴 human-labeled reasoning-based 첫 번째 데이터세트이다.
- 우리는 상세한 분석으로 reasoning-based 칫챗 대화 시스템에 관한 가능성을 발전시킬 인사이트를 제공한다.
2 Related work (번역)
- 표 1은 데이터 세트를 이전 대화 및 추론 관련 벤치 마크와 비교합니다.
- Dialogue :
- Ubuntu Dialogue Corpus는 Ubuntu 채팅 로그에서 추출 된 대규모 검색 기반 데이터 세트 (Lowe et al., 2015)입니다.
- PERSONA-CHAT (Zhang et al., 2018a)는 대화에서 일관된 성격을 고려합니다.
- 크라우드 워커는 제공된 페르소나의 일부로 행동하고 자연스럽게 채팅해야합니다.
- Dialogue NLI (Welleck et al., 2019)는 PERSONA-CHAT에서 수정 된 자연어 추론 데이터 세트입니다.
- NLI를 사용하여 대화 모델의 일관성을 개선 할 수 있음을 보여줍니다.
- CoQA (Reddy et al., 2019)는 질문과 답변의 형태로 한 구절에 대해 채팅하기 위해 두 개의 주석자를 연결하여 수집됩니다.
- 각 질문은 대화 기록에 따라 다릅니다.
- Sina Weibo (Shang et al., 2015), Douban Conversation Corpus (Wu et al., 2017) 및 E-commerce Dialogue Corpus (Zhang et al., 2018b)와 같이 중국어로 된 여러 대규모 데이터 세트도 있습니다.
- 표 1에서 볼 수 있듯이 대부분의 기존 대화 벤치 마크는 추론 능력 테스트에 초점을 맞추지 않습니다. 한 가지 예외는 실용적인 추론을 고려하는 CoQA입니다.
- 차이점은 CoQA는 주어진 구절을 기반으로 대화가 이루어지는 기계 이해 데이터 세트라는 것입니다.
- 또 다른 관련 독해 데이터 세트는 DREAM (Sun et al., 2019)으로, 특히 어려운 대화 기반 독해를 위해 설계되었습니다.
- 모델의 이해 능력을 테스트하기 위해 외부 질문에 의존합니다.
- 위의 데이터 세트와 달리 우리의 데이터 세트는 검색 기반 챗봇의 근본적인 문제인 다음 발화 예측 작업입니다.
- 또한 데이터 세트에는 대수적 추론, 의도 예측 등과 같은 다양한 특정 추론 능력이 필요하며 이는 데이터 세트의 주요 특징입니다.
- Reasoning :
- 최근에는 언어 이해를위한 추론을 다루기위한 벤치 마크와 과제를 개발하려는 노력이있었습니다.
- Winograd Schema Challenge (Levesque et al., 2012)는 추론 기반의 상호 참조 해결 작업입니다.
- 각 문장 쌍은 하나의 구문 만 다릅니다. SWAG (Zellers et al., 2018)는 각각 4 개의 후보로 끝나는 113k 짧은 컨텍스트를 포함하여 연속적인 비디오 캡션 쌍에서 파생됩니다.
- CommonsenseQA (Talmor et al., 2019)는 CONCEPTNET (Speer et al., 2016)에서 추출한 질문 답변 데이터 세트입니다.
- CONCEPTNET을 사용하여 데이터 세트를 구성하면 질문이 상식적인 추론을 직접 대상으로 할 수 있습니다.
- RACE는 중국 학생들을 위해 영어 시험에서 수집 한 기계 독해 데이터 세트입니다.
- AI2 Reasoning Challenge (Clark et al., 2018)에는 1,400 만 개의 과학 참조 문장이 포함 된 7,787 개의 초등학교 수준의 실제 과학 질문이 포함되어 있습니다.
- DROP (Dua et al., 2019) 및 COSMOS (Huang et al., 2019)는 각각 사실적 이해와 상식적 이해에 중점을 둡니다.
- 성공에도 불구하고 이러한 데이터 세트는 챗봇을 직접적으로 도울 수 없습니다.
- 전통적인 대화 응답 선택 설정에 따라 우리는 영어 듣기 이해 대화를 깊이 수정하여 발화 예측 작업을 형성합니다.
3 Dataset
3.1 Collection (번역)
- 기존의 독해 능력 재료들과 question-answer pairs은 전문 언어학자들에 의해 설계되었다.
- 학생들은 오디오를 기반으로 question에 맞는 3개의 옵션들 중에서 가장 좋은 정답들을 선택하도록 요구된다.
- 학생들이 오디오를 완벽히 이해한 것을 확실하게 하기 위해, 대부분의 질문들은 추론 능력으 정답을 요구한다.
- 우리는 public 웨바이트로부터 듣기 시험들을 크롤링했다.
- 오디오가 두 명의 사람의 대화 혹은 간단한 간단한 구절이므로, 우리는 오직 대화형 format만 크롤링하였다.
- raw 데이터는 triples와 같은 format이다.
- <Conversation (audio), Question and Choices (text), Answer (image)>.
- data pre-processing 방법들은 raw data을 data로 그림 2처럼 바꾸었다.
- Step 1 Pre-processing:
- 만약 두 문제들의 question과 candidate 선택이 같다면, 우리는 그들을 중복으로 간주하고 그들 중 하나를 삭제한다.
- 한 문제에 3 개 이상의 후보 옵션이있는 경우 3 개의 후보가 남을 때까지 잘못된 옵션을 무작위로 삭제합니다.
- 답변은 이미지로 저장됩니다.
- 이미지를 텍스트로 변환하기 위해 상용 OCR 시스템을 적용합니다.
- OCR 시스템에 대해 인쇄 된 알파벳 답변을 쉽게 인식 할 수 있습니다.
- 품질을 보장하기 위해 모든 OCR 출력을 수동으로 수정합니다.
- 원래 듣기 이해력 테스트에서는 대화가 오디오로 저장됩니다.
- 음성을 텍스트로 변환하기 위해 상용 ASR 시스템을 채택하고, 필사 오류를 수정하기 위해 숙련 된 주석가를 추가로 모집합니다.
- 대본의 품질을 더욱 보장하기 위해 다음 단계에서 어노 테이터가 다시 확인합니다.
- Step 2 Candidate Response Creation:
- 그림 2는 듣기 이해 문제를 수정하는 과정을 보여줍니다.
- 처음에는 질문에 답할 수있는 단서가 나타난 후 원래 대화를 분할하기 위해 어노 테이터가 필요합니다.
- 그런 다음 각각 올바른 선택 (선택 A)과 잘못된 선택 (선택 B 및 선택 C)을 참조하여 긍정적 인 응답 (그림 2의 응답 A)과 부정적인 응답 (응답 C 및 응답 D)을 구성합니다.
- MuTual을 더 어렵게 만들기 위해, 우리는 올바른 선택에 따라 하나 이상의 부정적인 응답 (Response B)을 구성하도록 애노 테이터에게 요청합니다.
- 이러한 단계를 통해 MuTual은 전문가가 설계 한 추론 테스트를 유지할뿐만 아니라 각 인스턴스에 대해 또 다른 유형의 추론을 도입합니다.
- 그림 2에서 볼 수 있듯이 응답 C와 D는 두 화자 간의 관계에 따라 제외 될 수 있습니다.
- 그러나 B는 태도 추론으로 인해 틀렸다.
- 문맥을 고려하지 않으면 모든 부정적인 응답이 논리적으로 정확하지만 문맥을 고려하면 적절한 응답이 아니라는 점은 주목할 가치가 있습니다.
- 따라서 우리의 데이터 세트는 문장의 논리보다는 다중 회전 대화 추론에 중점을 둡니다.
- 부정적인 응답을 프레이밍 할 때 텍스트 매칭으로 문제를 해결할 수있는 모델을 막기 위해 어노 테이터가 컨텍스트에서 일부 구문을 복사하도록 권장합니다.
- 응답과 문맥 사이의 어휘 중복을 추가로 계산합니다.
- 해당 컨텍스트에서 발생하는 긍정 (부정) 응답에 9.98 % (10.63 %)의 단어가 있으며 이는 MuTual이 일반 텍스트 일치로 해결하기 어렵다는 것을 나타냅니다.
- 2 단계의 어노 테이터는 모두 영어 전공 중국어 대학원생으로, 중국 영어 시험에 익숙하고 영어에 능통합니다 (TEM-82 통과).
- 어노 테이터는 레이블이 유용한 어노테이션을 제공 할 수있을만큼 충분히 정확할 때까지 170 개의 인스턴스에 반복적으로 어노테이션을 작성해야합니다.
- 모든 대화가 추론 기반 응답 문제를 구성하는 데 적용되는 것은 아니기 때문에 어노 테이터는 대화를 건너 뛸 권리가 있습니다.
- 응답을 구성하기 위해 5 명의 어노 테이터를 사용하고이를 확인하기 위해 2 명의 품질 검사자를 사용합니다.
- 조사관이 답변의 고유성 또는 정확성을 의심 할 때 인스턴스를 버립니다.
3.2 Analysis (번역)
- The detailed statistics of MuTual are summarized in Table 2.
- MuTual은 평균 4.73 턴입니다.
- 어휘 크기는 11,343으로 다른 대화 데이터 세트보다 작습니다 (Lowe et al., 2015; Wu et al., 2017).
- MuTual은 외국어로서의 영어 듣기 테스트에서 수정되기 때문에 형태와 문법의 복잡성이 다른 데이터 세트보다 훨씬 간단합니다.
- 사람이 주석을 추가 한 데이터 세트의 경우 주석이 추가되는 인스턴스 수와 주석 품질 사이에는 항상 절충안이 있습니다 (Kryciski et al., 2019).
- 우리의 데이터 세트는 수집 방법으로 인해 이전 크롤링 기반 대화 데이터 세트 (Lowe et al., 2015; Wu et al., 2017)보다 작습니다.
- 그러나 이는 고품질 추론 기반 데이터 세트 (Clark et al., 2018; Khashabi et al., 2018; Talmor et al., 2019) 및 인간이 설계 한 대화 데이터 세트 (Zhang et al., 2018a)와 비슷합니다.
- 또한 식별 모델 (Nivre et al., 2019)을 훈련 시키거나 사전 훈련 모델 (Wang et al., 2019)을 미세 조정하는 데 약 10k이면 충분합니다.
- 다양한 추론 유형의 분포를 평가하기 위해 예를 들어 테스트 세트에서 샘플링 한 특정 유형의 추론에 주석을 달고이를 6 개의 그룹으로 분류합니다.
- The definition and ratio of each group are shown as follows.
- Attitude Reasoning:
- 이 인스턴스의 타입은 모델이 대상에 대한 화자의 attitude을 아는지를 테스트한다.
- Algebraic Reasoning:
- 이 인스턴스의 타입은 모델이 response을 선택할 때, 대수 능력을 가지고 있는지를 테스트한다.
- Intention Prediction:
- 이 타입은 모델이 화자가 다음에 무엇을 할 지 예측할 수 있는지를 테스트한다.
- Situational Reasoning:
- situation information (예. Location, Relationship between two speakers)은 이 인스턴스의 타입이다.
- 모델은 이전의 context로부터 함축적인 information을 발굴해야한다.
- Multi-fact Reasoning:
- 이 인스턴스의 타입에서는, correct response가 context내의 여러 facts와 연관되어 있으므로, 이는 모델이 간단한 text matching보다 context을 깊게 이해하는 것을 요구한다.
- Others:
- 인스턴스의 9%가 다른 commonsense knowledge을 요구한다.
- 예를 들어, 그림 3의 아레에서, 모델은 예약이 꽉찬 레스토랑은 보통 유명하다는 것을 알아야 한다.
3.3 MuTual-plus
- 난이도를 더 높이기 위해, 우리는 MuTual의 각 인스턴스에서, candidate responses의 하나를 safe response으로 대체하여 사용한다.
- diversity을 보장하기 위해, safe response는 다음을 포함하는 list에서 샘플링된다.
- “I’m afraid I didn’t quite catch what you were saying.”,
- “Could you repeat that?”,
- “I’m really sorry, I didn’t catch that.”,
- 등등..
- 특히, 인스턴스가 한 번 선택되면, 우리는 대체할 response을 랜덤으로 선택한다.
- 만약 positive response가 대체되면, 옳바른 것은 safe response가 된다.
- 만약 negative response가 대체되면, original positive response가 여전히 가장 좋은 선택이다.
- MuTual-plus을 설계한 동기는 모델이 다른 candidates가 부적절할 때, safe response을 선택할 수 있게끔 하는 것이다.
- 우리가 positive response을 safe response로 대체할 때, 다른 모든 candidates는 부정확한 시나리오를 시뮬레이션하는 것이다.
- retrieval-based 챗봇에서는 흔한 현상인데, 제한된 candidate responses는 모든 실제 사례를 핸들링할 수 없기 때문이다.
- 유사하게, 우리는 모델이 correct response가 존재할 때, safe response 대신 correct response을 선택할 수 있는지를 평가할 수 있다.
4 Experiments
- 우리는 데이터를 training / development / test sets으로 나누고 80%, 10%, 10% 비율로 나눈다.
- 데이터 유출을 방지하기 위해 데이터를 나눌 때 동일한 대화로 구성된 인스턴스를 압축합니다.
- 일반적인 대화 세팅을 따라서, 우리는 우리의 task을 response selection task로 고려하고, 전통적인 information retrieval evaluation methods을 적용한다.
- recall at position 1 in 4 candidates (R@1)
- recall at position 2 in 4 candidates (R@2)
- Mean Reciprocal Rank (MRR)
- 여러 response selection 모델과 사전 훈련 모델의 성능을 비교합니다.
- 이러한 연구를 다음과 같이 소개합니다.
4.1 Baselines
- We evaluate individual scoring methods, multi-choice methods and human performance in our experiment.
- 컨텍스트 c와 4개의 candidates (r1, r2, r3, r4)가 주어지면 개별 채점 방법은 점수 g(c, ri)로 각 선택에 대한 점수를 독립적으로 계산하고 4개의 candidates 중에서 가장 높은 점수를 받은 개인을 선택합니다.
- 일반적인 binary 방식
- 반대로, multi-choice 방법은 h(c, r1, r2, r3, r4)로 형태로 모든 선택에 대해 분류하여 가장 좋은 것을 선택합니다.
- ranking 느낌
- TF-IDF:
- The correct response tends to share more words with the context than the incorrect ones.
- Following Lowe et al. (2015), we calculate the TF-IDF vectors for the context and each of the candidate responses, respectively, and then select the highest cosine similarity between the context and the candidate response as the model output.
- The “IDF” is calculated only on the training set.
- Dual LSTM (Lowe et al., 2015):
- Two LSTMs are used to encode context and response, respectively.
- The relevance between context and response is calculated by the similarity of the final hidden state from both LSTMs.
- Sequential Matching Network (Wu et al., 2017):
- To avoid losing information in the context, SMN constructs a word-word and a sequence sequence similarity matrix, instead of utilizing the last hidden state only, and then aggregates similarity matrix as a matching score.
- Deep Attention Matching Network:
- Zhou et al. (2018) adopt self attention module (Vaswani et al., 2017) to encode response and each utterance, respectively.
- To match utterance and response, DAM further applies cross-attention module and 3D matching to obtain final score.
- BERT (Devlin et al., 2019):
- Pre-training models have shown promising results on various multichoice and reasoning tasks (Whang et al., 2019; Xu et al., 2019).
- Following Devlin et al. (2019), we concatenate the context (sentence A), and a candidate response (sentence B) as BERT input.
- On the top of BERT, a fully-connected layer is used for transforming the [CLS] token representation to the matching score.
- RoBERTa:
- Liu et al. (2019) re-establish BERT’s masked language model training objective by using more data and different hyper-parameters. We fine-tune RoBERTa in the same way as BERT.
- GPT-2 (Radford et al., 2019):
- Given a context, the positive response has a higher probability compared with negative responses.
- Motivated by this, we concatenate context and response as a sequence, and calculate the joint probability of an entire sequence.
- The response in the lowest perplexity sequence is considered as the positive response.
- Moreover, we fine-tune the GPT-2 on [Context, Positive Response] pairs in MuTual training set, denoted as GPT-2-FT.
- Multi-choice Method:
- BERT에서 객관식 (Devlin et al., 2019)에서 영감을 얻은이 작업은 4 개의 후보 응답을 비교하여 가장 적합한 응답을 선택하는 것으로 간주됩니다.
- 특히 각 candidate response을 context와 대응하여 concat한다.
- 각 입력 시퀀스는 이후에 인코딩되어 [CLS] 표현을 생성합니다.
- positive response는 모든 [CLS] representations을 concat한것을 기반으로 예측된다.
- 이 때 fully connected layer with softmax가 사용된다.
- 이 방법은 BERT-MC로 표시됩니다.
- 마찬가지로 RoBERTa-MC를 다른 다중 선택 방법으로 구현합니다.
- Human Performance:
- To obtain the human performance, we employ 3 NLP experts to measure the ceiling performance on the test set.
4.2 Experiment Results
- 4.1에 도입 된 접근 방식의 성능과 인간의 성능을보고합니다.
- 구현 세부 사항은 부록 B에 나와 있습니다.
4.2.1 Results on MuTual
- Performance across different reasoning types:
- 모델 성능을 다른 reasoning types에 대해 분석을 하기 위해, 우리는 BERT-MC와 RoBERTa-MC으로 다양한 question types에 대해 성능을 계산하고 section 3.2.에서 설명한다.
- 그림 4에서 보듯이, 우리는 BERT-MC와 RoBERTa-MC의 트렌드가 서로 다른 카테고리들에서 유사함을 찾아낸다.
- RoBERTa-MC는 현저히 BERT-MC보다 attitude reasoning과 multi-fact reasoning에서 좋은 성능을 낸다.
- 한 가지 가능성 있는 이유는 RoBERTa-MC가 캡쳐한 action과 attitude사이에 "play football"및 "excited"과 같은 normal 패턴이 있기 때문입니다.
- 그러나, 인스턴스들은 대수학적이나 situation과 연관되는 것은 성능이 낮음을 보여준다.
- 이러한 두개의 reasoning types은 commonsense reasoning에 과하게 의존한다.
- 그림 5를 예로 들어 시간차 (오후 5시-6 시간 = 오전 11시)를 도출하려면 간단한 빼기 단계가 필요하지만 이는 RoBERTa-MC에있어 중요한 과제입니다.
- 두 번째 경우, RoBERTa-MC는 임대할 아파트를 찾는 것이 목표인 대화 상황을 추론하지 못합니다.
- Performance across different context lengths:
- RoBERTa의 성능은 turns가 증가할수록 현저히 감소되지 않음이 매우 흥미롭고, 이는 다른 데이터세트에서 관측된 현상과는 다르다.
- 테이블 5에서 보듯이, 2 turn에서 long turn(> 6)으로 성능은 1.9 points R@1만 떨어지고, 5 turn의 성능은 4 turn보다 높아 문맥이 길어질 때 추론 문제가 그다지 어려워지지 않음을 나타냅니다.
- 결과들은 또한 MuTual의 어려움은 complex conversation history 대신에 reasoning에 기인함을 보여준다.
- Context ablation study:
- 우리는 데이터 세트가 단일 회전 추론 문제로 퇴보하기보다는 다중 회전 이해를 요구하는지 여부를 추가로 확인합니다.
- 일부 발화가 수동으로 제거 될 때 Roberta 및 Roberta-MC 성능을 평가합니다.
- 그림 6은 테스트에서 가장 초기 n 개의 발화가 제거되었을 때의 성능을 보여줍니다.
- 절제 발화가 증가함에 따라 RoBERTa 및 RoBERTa-MC의 성능이 크게 감소하여 직관에 부합합니다.
- RoBERTa와 RoBERTa-MC는 컨텍스트에서 모든 발화를 제거한 후 각각 43.7 %와 47.7 %에 불과하여 각 발화의 중요성과 데이터 세트의 품질을 나타냅니다.
- 또한 발화 순서를 섞으면 RoBERTa-MC의 성능이 3.8 % 만 저하되어 발화 순서 정보에 민감하지 않다는 것을 알 수 있습니다.
5 Conclusion
- 우리는 MuTal을 소개하고, 이는 high-quality로 손수 annotated된 mult-turn 대화 추론 데이터세트이다.
- 이 데이터세트는 8,860 대화들을 포함하고, 대화 모델들의 test reasoning 능력을 목표로한다.
- 우리는 MuTual의 생성 프로세스를 설명하고 자세한 분석을 한다.
- 우리는 다양한 SoTA 모델들이 MuTual에서 성능이 안 좋음을 확인한다.
- 가장 좋은 모델인 RoBERTa은 71.3% R@1이다.
- 이는 모델과 사람의 성능 차이가 크다.
- 우리는 이 데이터세트가 mutli-turn conversation reasoning 문제에 유용하게 사용되길 희망한다.
Reference
댓글
댓글 쓰기