Short-014, Entities as Experts: Sparse Memory Access with Entity Supervision (2020-EMNLP)

0 Abstract 

  • 우리는 LM의 학습된 파라미터에들에서 엔티티에 대한 서술적인 지식을 캡처하는 문제에 중점을 둡니다.
  • 우리는 새로운 모델을 소개한다.
    • Entities as Experts (EAE)
    • 이것은 텍스트의 일부분에서 언급된 entities의 별개의(distinct) 메모리에 접근할 수 있다. 
  • entity knowledge을 시퀀스 모델들에 결합하려는 이전의 노력과 달리, EAE의 entity representations은 텍스트로부터 바로 학습한다.
  • EAE의 학습된 representations은 "Roger Delgado, Anthony Ainley, Eric Roberts가 누가 악당을 연기 했습니까?"와 같은 TriviaQA 질문에 답하기에 충분한 지식을 캡쳐하여 파라미터가 10 배많은 encoder generator Transformer 모델보다 outperform하는 것을 보여줍니다.
  • LAMA knoweldge probes에 따라, EAE는 entity knowledge의 외부지식을 통합하려는 이전의 접근법뿐만 아니라 비슷한 크기의 BERT보다 좀 더 factual을 포함한다.
  • EAE는 파라미터들을 특정 엔티티와 연결하기 때문에 추론 시간에 매개 변수의 일부에만 액세스하면되며 엔티티의 correct identification 및 representation이 EAE의 성능에 필수적임을 보여줍니다.

1 Introduction

  • 언어 모델로 사전 훈련 된 신경망 시퀀스 모델은 최근 텍스트 이해에 혁명을 일으켰으며 최근 작업은 question answering과 같은 작업을 위해 curated knowledge bases 또는 textual corpora를 대신 할 수 있다고 제안했습니다.
  • 이 논문에서, 우리는 뉴럴 시퀀스 모델들을 개발하는데 집중해서 실제 세계 entites에 대한 questions에 대한 answer에 요구하는 knowledge을 캡쳐하는 것에 집중한다.
  • 끝으로, 우리는 새로운 모델 구조를 소개한다.
    • 이 모델은 텍스트에서 언급된 entities의 고유하고 독립적인 representation에 접근할 수 있다.
  • entity specific knowledge을 시퀀스 모델들에 주입하려는 다른 노력들과 달리, 우리의 모델은 다른 모델 파라미터들과 함께 텍스트로부터 entity representations을 학습한다.
  • 우리는 모델이 entitiy identity에 따라, parameter space을 분리하기 때문에 우리의 모델을 Entities as Experts (EAE)라고 부른다.
  • 이 name은 또한 EAE의 the Massive Mixture of Experts와 learned memory stories을 시퀀스 모델들에 결합하는 다른 연구들과의 유사성을 반영한다.
  • 고유하고 독립적인 entity representations을 위한 동기를 이해하기 위해서 그림 1을 보자.
  • 전통적인 Transformer은  “Charles” and “Darwin”의 단어들로부터 Charles Darwin의 interanl representation을 구축해야한다. 
    • 이는 Charles River, or Darwin City와 같은 다른 entities을 참조할 수 있다.
  • 반대로, EAE는 “Charles Darwin”의 representation의 deicated representation에 접근할 수 있고, 이는 entity가 이전에 언급된 모든 contexts의 메모리이다.
    • 이 메모리는 또한 “Charles Robert Darwin” or “the father of natural selection”와 같은 Darwin의 다른 멘션을 위한 접근일 수 있다.
    • 이 메모리를 검색하고 다시 통합하면 EAE가 답을 더 쉽게 찾을 수 있습니다.
  • 우리는 EAE가 영어 위키피디아 텍스트에서 masked-out spans을 예측하도록 학습한다.
    • 오직 entity mention spans의 메모리에만 접근한다.
    • 각 entity mention을 위한 올바른 memory에 접근한다.
  • mention span sueprvision은 기존의 mention detector로부터 제공되며, entity identity supervision은 위키피디아 하이퍼링크에서 제공된다.
  • specific entities을 가진 메모리들의 결합으로써, EAE는 그들을 sparsely에 접근하도록 배운다.
  • 메모리는 엔티티를 언급하는 spans에 대해서만 액세스되며 언급된 메모리 만 검색하면됩니다.
  • 우리는 Petroni가 도입 한 LAMA 지식 프로브와 TriviaQA 및 WebQuestions 질문 답변 작업의 개방형 도메인 변형을 사용하여 선언적 지식을 캡처하는 EAE의 능력을 평가합니다.
  • 두 작업 모두에서 EAE는 더 많은 매개 변수를 사용하여 관련 접근 방식을 능가합니다.
  • TriviaQA에 대한 EAE의 예측에 대한 심층 분석은 entity representations의 correct identification and reintegration이 EAE의 성능에 필수적임을 보여줍니다.
  • 또한 EAE의 학습된 엔티티 표현이 Zhang에서 사용하는 사전 학습된 임베딩보다 낫다는 것을 보여줍니다. 
  • 지식 탐색 작업 및 TACRED 관계 추출 작업의 Peters. 
  • 엔터티에 초점을 맞추도록 EAE를 훈련하는 것이 제한되지 않은 메모리 저장소로 유사한 크기의 네트워크를 주입하는 것보다 낫다는 것을 보여주고 EAE가 추론 시간에 매개 변수의 일부에만 액세스하면서 훨씬 더 큰 시퀀스 모델을 능가하는 방법을 설명합니다.

2 Approach

 2.1 Model Architecture

  • Entity Memory Layer
  • Task-Specific Heads
  • Inference-time Mention Detection 
    • 우리는 외부 멘션 검출기에 대한 추론 의존성을 피하기 위해 멘션 검출 레이어를 도입합니다. 
    • 멘션 감지 계층은 BIO 분류기를 첫 번째 변환기 블록의 출력에 적용합니다. 
    • 전체 BIO 시퀀스를 디코딩하여 일치하지 않는 시퀀스가 허용되지 않도록합니다. 
    • 우리는 모든 실험에 대해 추론에서 추론 된 멘션 스팬을 사용합니다.





































Reference

댓글