Short-014, Entities as Experts: Sparse Memory Access with Entity Supervision (2020-EMNLP)
0 Abstract
- 우리는 LM의 학습된 파라미터에들에서 엔티티에 대한 서술적인 지식을 캡처하는 문제에 중점을 둡니다.
- 우리는 새로운 모델을 소개한다.
- Entities as Experts (EAE)
- 이것은 텍스트의 일부분에서 언급된 entities의 별개의(distinct) 메모리에 접근할 수 있다.
- entity knowledge을 시퀀스 모델들에 결합하려는 이전의 노력과 달리, EAE의 entity representations은 텍스트로부터 바로 학습한다.
- EAE의 학습된 representations은 "Roger Delgado, Anthony Ainley, Eric Roberts가 누가 악당을 연기 했습니까?"와 같은 TriviaQA 질문에 답하기에 충분한 지식을 캡쳐하여 파라미터가 10 배많은 encoder generator Transformer 모델보다 outperform하는 것을 보여줍니다.
- LAMA knoweldge probes에 따라, EAE는 entity knowledge의 외부지식을 통합하려는 이전의 접근법뿐만 아니라 비슷한 크기의 BERT보다 좀 더 factual을 포함한다.
- EAE는 파라미터들을 특정 엔티티와 연결하기 때문에 추론 시간에 매개 변수의 일부에만 액세스하면되며 엔티티의 correct identification 및 representation이 EAE의 성능에 필수적임을 보여줍니다.
1 Introduction
- 언어 모델로 사전 훈련 된 신경망 시퀀스 모델은 최근 텍스트 이해에 혁명을 일으켰으며 최근 작업은 question answering과 같은 작업을 위해 curated knowledge bases 또는 textual corpora를 대신 할 수 있다고 제안했습니다.
- 이 논문에서, 우리는 뉴럴 시퀀스 모델들을 개발하는데 집중해서 실제 세계 entites에 대한 questions에 대한 answer에 요구하는 knowledge을 캡쳐하는 것에 집중한다.
- 끝으로, 우리는 새로운 모델 구조를 소개한다.
- 이 모델은 텍스트에서 언급된 entities의 고유하고 독립적인 representation에 접근할 수 있다.
- entity specific knowledge을 시퀀스 모델들에 주입하려는 다른 노력들과 달리, 우리의 모델은 다른 모델 파라미터들과 함께 텍스트로부터 entity representations을 학습한다.
- 우리는 모델이 entitiy identity에 따라, parameter space을 분리하기 때문에 우리의 모델을 Entities as Experts (EAE)라고 부른다.
- 이 name은 또한 EAE의 the Massive Mixture of Experts와 learned memory stories을 시퀀스 모델들에 결합하는 다른 연구들과의 유사성을 반영한다.
- 고유하고 독립적인 entity representations을 위한 동기를 이해하기 위해서 그림 1을 보자.
- 전통적인 Transformer은 “Charles” and “Darwin”의 단어들로부터 Charles Darwin의 interanl representation을 구축해야한다.
- 이는 Charles River, or Darwin City와 같은 다른 entities을 참조할 수 있다.
- 반대로, EAE는 “Charles Darwin”의 representation의 deicated representation에 접근할 수 있고, 이는 entity가 이전에 언급된 모든 contexts의 메모리이다.
- 이 메모리는 또한 “Charles Robert Darwin” or “the father of natural selection”와 같은 Darwin의 다른 멘션을 위한 접근일 수 있다.
- 이 메모리를 검색하고 다시 통합하면 EAE가 답을 더 쉽게 찾을 수 있습니다.
- 우리는 EAE가 영어 위키피디아 텍스트에서 masked-out spans을 예측하도록 학습한다.
- 오직 entity mention spans의 메모리에만 접근한다.
- 각 entity mention을 위한 올바른 memory에 접근한다.
- mention span sueprvision은 기존의 mention detector로부터 제공되며, entity identity supervision은 위키피디아 하이퍼링크에서 제공된다.
- specific entities을 가진 메모리들의 결합으로써, EAE는 그들을 sparsely에 접근하도록 배운다.
- 메모리는 엔티티를 언급하는 spans에 대해서만 액세스되며 언급된 메모리 만 검색하면됩니다.
- 우리는 Petroni가 도입 한 LAMA 지식 프로브와 TriviaQA 및 WebQuestions 질문 답변 작업의 개방형 도메인 변형을 사용하여 선언적 지식을 캡처하는 EAE의 능력을 평가합니다.
- 두 작업 모두에서 EAE는 더 많은 매개 변수를 사용하여 관련 접근 방식을 능가합니다.
- TriviaQA에 대한 EAE의 예측에 대한 심층 분석은 entity representations의 correct identification and reintegration이 EAE의 성능에 필수적임을 보여줍니다.
- 또한 EAE의 학습된 엔티티 표현이 Zhang에서 사용하는 사전 학습된 임베딩보다 낫다는 것을 보여줍니다.
- 지식 탐색 작업 및 TACRED 관계 추출 작업의 Peters.
- 엔터티에 초점을 맞추도록 EAE를 훈련하는 것이 제한되지 않은 메모리 저장소로 유사한 크기의 네트워크를 주입하는 것보다 낫다는 것을 보여주고 EAE가 추론 시간에 매개 변수의 일부에만 액세스하면서 훨씬 더 큰 시퀀스 모델을 능가하는 방법을 설명합니다.
2 Approach
2.1 Model Architecture
Reference
댓글
댓글 쓰기