0 Abstract

entity knowledge을 시퀀스 모델들에 결합하려는 이전의 노력과 달리, EAE의 entity representations은 텍스트로부터 바로 학습한다.
EAE의 학습된 representations은 "Roger Delgado, Anthony Ainley, Eric Roberts가 누가 악당을 연기 했습니까?"와 같은 TriviaQA 질문에 답하기에 충분한 지식을 캡쳐하여 파라미터가 10 배많은 encoder generator Transformer 모델보다 outperform하는 것을 보여줍니다.
LAMA knoweldge probes에 따라, EAE는 entity knowledge의 외부지식을 통합하려는 이전의 접근법뿐만 아니라 비슷한 크기의 BERT보다 좀 더 factual을 포함한다.
EAE는 파라미터들을 특정 엔티티와 연결하기 때문에 추론 시간에 매개 변수의 일부에만 액세스하면되며 엔티티의 correct identification 및 representation이 EAE의 성능에 필수적임을 보여줍니다.

1 Introduction

언어 모델로 사전 훈련 된 신경망 시퀀스 모델은 최근 텍스트 이해에 혁명을 일으켰으며 최근 작업은 question answering과 같은 작업을 위해 curated knowledge bases 또는 textual corpora를 대신 할 수 있다고 제안했습니다.
이 논문에서, 우리는 뉴럴 시퀀스 모델들을 개발하는데 집중해서 실제 세계 entites에 대한 questions에 대한 answer에 요구하는 knowledge을 캡쳐하는 것에 집중한다.
끝으로, 우리는 새로운 모델 구조를 소개한다.

entity specific knowledge을 시퀀스 모델들에 주입하려는 다른 노력들과 달리, 우리의 모델은 다른 모델 파라미터들과 함께 텍스트로부터 entity representations을 학습한다.
우리는 모델이 entitiy identity에 따라, parameter space을 분리하기 때문에 우리의 모델을 Entities as Experts (EAE)라고 부른다.
이 name은 또한 EAE의 the Massive Mixture of Experts와 learned memory stories을 시퀀스 모델들에 결합하는 다른 연구들과의 유사성을 반영한다.
고유하고 독립적인 entity representations을 위한 동기를 이해하기 위해서 그림 1을 보자.

전통적인 Transformer은 “Charles” and “Darwin”의 단어들로부터 Charles Darwin의 interanl representation을 구축해야한다.

반대로, EAE는 “Charles Darwin”의 representation의 deicated representation에 접근할 수 있고, 이는 entity가 이전에 언급된 모든 contexts의 메모리이다.

이 메모리는 또한 “Charles Robert Darwin” or “the father of natural selection”와 같은 Darwin의 다른 멘션을 위한 접근일 수 있다.
이 메모리를 검색하고 다시 통합하면 EAE가 답을 더 쉽게 찾을 수 있습니다.

mention span sueprvision은 기존의 mention detector로부터 제공되며, entity identity supervision은 위키피디아 하이퍼링크에서 제공된다.
specific entities을 가진 메모리들의 결합으로써, EAE는 그들을 sparsely에 접근하도록 배운다.
메모리는 엔티티를 언급하는 spans에 대해서만 액세스되며 언급된 메모리 만 검색하면됩니다.
우리는 Petroni가 도입 한 LAMA 지식 프로브와 TriviaQA 및 WebQuestions 질문 답변 작업의 개방형 도메인 변형을 사용하여 선언적 지식을 캡처하는 EAE의 능력을 평가합니다.
두 작업 모두에서 EAE는 더 많은 매개 변수를 사용하여 관련 접근 방식을 능가합니다.
TriviaQA에 대한 EAE의 예측에 대한 심층 분석은 entity representations의 correct identification and reintegration이 EAE의 성능에 필수적임을 보여줍니다.
또한 EAE의 학습된 엔티티 표현이 Zhang에서 사용하는 사전 학습된 임베딩보다 낫다는 것을 보여줍니다.
지식 탐색 작업 및 TACRED 관계 추출 작업의 Peters.
엔터티에 초점을 맞추도록 EAE를 훈련하는 것이 제한되지 않은 메모리 저장소로 유사한 크기의 네트워크를 주입하는 것보다 낫다는 것을 보여주고 EAE가 추론 시간에 매개 변수의 일부에만 액세스하면서 훨씬 더 큰 시퀀스 모델을 능가하는 방법을 설명합니다.

Reference