NL-057, Language Models as Knowledge Base (2019-EMNLP)

■ Comment
- 여기서 말하고자 하는 것은 BERT와 같은 pre-trained model은 external knowledge을 습득한 것으로 볼 수 있다는 것이다.
- 즉 기존의 구조화 시켜서 knowledge base을 구축시킨 것에 비해 pre-trained LM이 많은 강점을 가지고 있다고 이야기 한다.
- 이 논문은 Facebook에서 2019-EMNLP 억셉된 논문이다.
※ 참고
카카오 리포트에서는 다음과 같이 말한다.키아누 리브스에 관한 최신 기사를 학습한 모델이라면 키아누 리브스에 관한 모든 정보를 알고 있을 수도 있다는 의미죠.
하지만 NLU에서 언어학적 지식 습득에 주안을 두는 언어 모델이 외부 지식 습득에는 한계가 있을 수밖에 없습니다.
그러므로 좀 더 다양한 곳에서 활용할 수 있는 NLU 모델을 만들기 위해서는 외부 지식을 언어 모델에 내재화하거나, 따로 저장한 외부 지식을 활용하는 학습 메커니즘이 도입되어야 할 것으로 보입니다.

0. Abstract

  • 최근 대형 텍스트를 다뤄서 pretraining LM을 하는 과정에서 다운스트림 NLP tasks의 성능이 급증했다.
  • 언어 지식을 배우는 동안 이러한 모델들은 학습데이터에서 강한 관계의 지식을 배울 것이고 "fill-in-the-blank"의 구조화된 질문에 대답할 수 있게 된다.
  • 언어모델들은 structured knowledge bases에 비해 많은 강점을 가지고 있다.
    • engineering 계획이 필요하지 않다.
    • 오픈 관계 클래스에 대해 질문을 할 수 있게 한다.
    • 즉 많은 데이터로 확장하기 쉽고 사람의 supervision이 학습에 안들어간다. (self-supervised learning 이므로)
  • 우리는 fine-tuning 없이 기존의 SoTA pretrained LM의 광범위한 범위에서 relational knowledge을 분석한다.
  • 다음의 3가지를 찾아냈다고 한다.
    • Fine-tuning 없이, BERT는 oracle 지식에 접근이 있는 전통적인 NLP 방법들에 비해 relational knowledge을 포함하고 있다.
    • BERT는 또한 supervised baseline에 비해 open-domain QA에 대해 놀라울정도로 잘 작동한다.
    • standard LM pretraining 방법으로 특정 타입의 factual knowledge는 다른 유형보다 쉽게 학습된다.
  • Fine-tuning 없이 factual knowledge을 기억하는 이러한 모델들의 놀라운 능력은 unsupervised open-domain QA 시스템에 의해 증명된다.
  • 코드 링크:  https://github.com/facebookresearch/LAMA

1. Introduction

  • 최근 pretrained high-capacity LM은 (ELMo, BERT 등) NLP에서 놀라울만한 결과를 가져온다.
  • 그들은 문장에서 다음의 단어를 예측하거나 masked 단어를 예측하는 식으로 학습된다.
  • 이렇게 학습된 파라미터들은 방대한 언어 지식을 저장하여 다운스트림 tasks에 유용하게 사용된다.
  • 이러한 지식은 (기존 모델에의해 생성된 laten context representation의 조건) 혹은 (기존 모델 가중치를 사용하여 task-specific 모델에 초기화한 후 fine-tuned) 하는데에 쓰인다.
    • BERT 사용법에 대해 말하는 거임 (freezing, fine-tuned 그런 느낌)
  • 이러한 knowledge transfer 타입은 현재 많은 tasks에서 SoTA 결과를 내는데 중요하다.
  • 반대로 knowledge base는 annotated 된 gold-standard relational data에 접근을 위한 solution에 효과적이다. (fine-tuning에 효과적이라는 말인가)
  • 실제로 우리는 knowledge base을 채우기 위하여 텍스트 혹은 다른 모달리티에서 관계형 데이터를 추출해야한다.
  • 이것들은 entity 추출, coreference resolution, entity linking, relation 추출이 포함된 복잡한 NLP 파이프라인이 필요합니다.
  • 또한 파이프라인 전체를 통과하여 error가 쉽게 전파될 수 있다.
  • 대신 그림 1과 같이 관계형 데이터를 빈칸 채우기로 학습할 수 있다.
  • 이 설정에서는 LM이 다양한 속성과 함께한다.
    • 그들은 engineering 계획이 필요하지 않다.
    • 사람의 annotation이 필요없다.
    • query의 오픈 셋에 대해 지원을 한다.
  • 주어진 언어모델이 관계형 지식의 potential representation으로 고려될 때 우리는 ELMo, BERT와 같은 pretrinaed 맞춤 LM 의 관계형 지식에 관심이 있다.
    • (ELMo, BERT) 그들이 얼마나 많은 지식을 저장할까?
    • entities, common sense, general QA와 같은 다양한 지식에 대해 어떻게 다를까?
  • 텍스트에서 자동으로 symbolic knowledge base 추출한 것에 비해 fine-tuning 없는 성능은 어떤가?
  • 이러한 모델에 대한 전반적인 이해를 높이는 것 외에도 우리는 이러한 질문들이 더 좋은 unsupervised knowledge representation을 디자인하는데 도움을 줄 수 있다고 믿는다.
    • 이것들이 factual과 common-sense knowledge을 다운스트림 태스크에 (commonsense QA, reinforcement learning) transfer할 수 있다.
  • 즉 여기서 제시하는 것은 LMMA (LAnguage Model Analysis) 조사를 소개하고 이는 knowledge sources 세트로 구성되어 있다.
  • 여기서 pretrined LM이 만약 “Dante was born in ___” 에서 빈칸을 제대로 맞췄다면 다음을 안다고 정의한다.
    • (subject, relation, object)
    • 예) (Dante, born-in, Florence)
    • 문장: “Dante was born in [Mask] in the year 1265.” 일 때 말하는 것임
  • 우리는 다양한 타입의 지식을 테스트한다.
    • wikidata에 저장된 entities의 관계
    • ConcepNet에서부터 컨셉사이의 common sense 간의 관계
    • SQuAD에서의 지식의 필요성
  • 조사를 통해 다음과 같은 것을 발견했다고 한다. (사실 이 논문에서 이것만 기억해도 될 듯)
    • the largest BERT model from Devlin et al. (2018b) (BERT-large) captures (accurate) relational knowledge comparable to that of a knowledge base extracted with an off-the-shelf relation extractor and an oracle-based entity linker from a corpus known to express the relevant knowledge, 
    • factual knowledge can be recovered surprisingly well from pretrained language models, however, for some relations (particularly N-to-M relations) performance is very poor, 
    • BERT-large consistently outperforms other language models in recovering factual and commonsense knowledge while at the same time being more robust to the phrasing of a query
    • BERT-large achieves remarkable results for open-domain QA, reaching 57.1% precision@10 compared to 63.5% of a knowledge base constructed using a task-specific supervised relation extraction system.

2. Background

  • 생략

2.1 Unidirectional Language Models 

2.2 Bidirectional “Language Models 

3. Related Work

  • 생략

4. The LAMA Probe

  • 우리는 LMMA으로 LM에서 factual과 commonsense knowledge을 테스트하여 조사를 했다.
  • 이것은 knowledge sources의 세트를 제공하고 facts의 코퍼스로 구성되어 있다.
  • Facts는 subject-relation-object triples 혹은 question-answer pairs으로 구성되어 있다.
  • 각각의 fact는 cloze-statement으로 변환되어 LM이 missing token을 찾는 query가 되도록 구성된다.
  • 우리는 각각의 모델이 얼마나 높게 fixed candidiate vocabulary의 다른 단어에 비하여 ground truth의 랭크에 높게 예측하는지를 평가한다.
  • 이것은 knowledge base completion literature의 ranking-based metric과 비슷하다.
  • 우리의 가정은 모델들이 cloze-statements에 대해 정답 tokens을 rank 잘 하는 것이 좀 더 사실적인 지식을 가지고 있다고 하는 것이다.

4.1 Knowledge Sources 

  • 여기서 다양한 sources of factual and commonsense knowledge을 다룬다.
  • 각 소스는 origin of fact triples (or question-answer pairs)을 가진다.
  • 이것을 cloze 템플릿으로 바꾸게 된다.

4.1.1 Google-RE

  • The Google-RE corpus contains ∼60K facts manually extracted from Wikipedia
  • https://code.google.com/archive/p/relation-extraction-corpus/
  • 이 데이터는 실제 5개의 관계를 고려하지만 여기서는 다음과 같은 3가지를 고려한다
    • “place of birth”, “date of birth” and “place of death
  • 예시로는 다음의 문장이 있다.
    • “[S] was born in [O]” 
    • 여기서 O는 “place of birth”을 의미하게 되는 것이다.

4.1.2 T-REx

  • The T-REx knowledge source is a subset of Wikidata triples
  • Table 3 참고

4.1.3 ConceptNet

  • ConceptNet (Speer and Havasi, 2012) is a multilingual knowledge base, initially built on top of Open Mind Common Sense (OMCS) sentences
  • OMCS는 단어와 구사이의 관계를 표현하는 문장이다.

4.1.4 SQuAD

  • SQuAD는 대표적인 MRC 데이터세트이다.
  • 이 데이터세트를 cloze 채우기 문제로 변환한다는 것인데 다음의 예시를 보면 이해가 빠르다.
  • “Who developed the theory of relativity?” → “The theory of relativity was developed by _____” 
  • 여기서 빈칸의 정답은 SQuAD 질문의 정답과 같은 것이다.

4.2 Models

    • fairseq-fconv (Fs)
    • Transformer-XL large (Txl)
    • ELMo original (Eb)
    • ELMo 5.5B (E5B)
    • BERT-base (Bb)
    • BERT-large (Bl)
  • 위와 같은 모델들에 대해 분석을 한다.
  • 토큰을 예측할 때는 학습하는 과정과 똑같이 하게 된다.
  • 즉 unidirectional language 경우는 network output (ht−1)을 이용한다.
  • ELMo는 (forward ht−1)와 (backward ht+1)의 확률을 평균내서 이용한다.
  • BERT는 [MASK]의 토큰을 예측하는 식으로 하게 된다.

4.3 Baselines

  • 특정 지식을 추출, QA 시스템에서 비교하기 위해 적합한 베이스라인을 설정한다.
  • Freq
    • this baseline ranks words based on how frequently they appear as objects for the given relation in the test data
  • RE
    • For the relation-based knowledge sources, we consider the pretrained Relation Extraction (RE) model of Sorokin and Gurevych (2017).
    • It extracts relation triples from a given sentence using an LSTMbased encoder and an attention mechanism.
  • DrQA
    • Chen et al. (2017) introduce DrQA, a popular system for open-domain question answering
    • 두 가지 스텝으로 정답을 예측한다.
    • 1) TF/IDF information retrieval step is used to find relevant articles from a large store of documents (e.g. Wikipedia). 
    • 2) On the retrieved top k articles, a neural reading comprehension model then extracts answers. 
    • IR + MRC을 하겠다는 것
    • 여기서 DrQA의 LM competitive 장점을 없애기 위해 정답은 single token으로 제한했다고 한다.

4.4 Metrics 

  • 성능 평과는 mean values across all relations 사이의 관계를 계산했다고 한다.
  • multiple valid objects for a subject-relation pair (N-M 관계)을 설명하기 위하여 Bordes et al. (2013) 방식을 따랐다고 한다.
    • 자세한 건 저 논문을 봐야 알 것 같다.

4.5 Considerations

5. Results

6. Discussion and Conclusion

  • 여기서 공개적으로 사용가능한 pretrained language models들에 대해 factual and commonsense knowledge을 분석하였다.
  • 그 결과 BERT-large 모델이 non-neural and supervised alternatives에 비해 현저히 좋은 성능을 냄을 보여주었다.
  • 여기서 모델이 텍스트 본문의 지식을 캡쳐하는 능력이나 구조의 능력들에 대해서는 비교하지 않은 것이다.
  • 여기서의 목표는 pretrained 모델을 어떤 task 시작점으로 사용할 때 존재하는 지식에 중점을 두었다.
  • 일반적으로 사용되는 모델과 학습 알고리즘이 캡처하는 데이터의 측면을 이해하는 것이 중요한 연구 분야이며 이 논문은 데이터의 언어적 특성 학습하는 것에 중점을 둔 많은 연구를 보완합니다.
  • We found that it is non-trivial to extract a knowledge base from text that performs on par to directly using pretrained BERT-large. 
    • 즉 여기서 말하고자 하는 것은 오직 데이터에서 relation extraction을 제공함에도 불구하고 이것이 false negatives을 줄여줄뿐 아니라 일반적인 entity linking oracle 역할을 한다.
  • BERT는 실제로 많은 양의 데이터로 학습했기 때문에 relation extraction 시스템에도 한 번 wikitext-103을 추가해보았다고 한다.
  • 그러나 이것은 relation extraction 성능에 큰 차이가 없었다.
  • 즉 많은 데이터로 relation extraction 성능 향상은 어려울 수 있지만 LM에는 기존의 사전 지식 기반에 대한 대안이 될 수 있다고 주장한다.
  • 추후에 LMMA probe을 이용하여 pretrained LM을 테스트하는 것을 추가하여 variance of recalling factual knowledge with respect to varying natural language templates을 정량화 하는 것에 관심이 있다.
  • 추가적으로 evaluation에서 오픈챌린지에 남아있는 multi-token 정답을 추가하는 것도 (여기서는 single token만 다뤘음) 관심사이다.
Reference

댓글