NL-087, Gazetteer-Enhanced Attentive Neural Networks for Named Entity Recognition (2019-EMNLP)

■ Comment

  • 논문에서 쓰이는 용어들에 대해 간략히 적자면
    • mention = named entity
    • name knowledge = candidate region representaion
    • 위의 개념으로 보면 될 것 같다.
  • 논문의 전체 모델은 GEANN = ANN + Gazetteer 이다.
  • ANN은 일반적으로 region-based model을 따르고 gazetteer은 지명사전으로부터 학습한 네트워크라고 보면 된다.
  • 학습할 때는 흐름을 생각해보자.
    • 1) "삼성전자는 대표 기업이야"
    • 2) region: "삼성전자" / sentence: "삼성전자는 대표 기업이야" / context: "는 대표 기업이야"
    • 3) sentence을 BiLSTM을 통과시켜 representation h을 만든다.
    • 4) region h_r은 inner-region encoder을 통과하고 context h_c는 attentive context encoder을 통과한다.
    • 5) 이 두개를 활용하여 region에 해당하는 NER tagging을 한다.
    • 여기서 4번 스텝에 gazetteer의 정보가 포함을 시킬 수가 있다는 것이다.
    • Gazetteer 네트워크는 단순히 "삼성전자" <-> "ORG" 식으로 name에 해당하는 정보를 학습하도록 된다.
  • 테스트할 때 흐름을 생각해보자
    • 1) all region candidate을 통과시키면서 NER을 prediction한다.
    • 여기서 생각해볼점이 학습할 때에 region은 어떻게 정해지는 것인가? 라는 것이다.
    • 단순 gold label만 region candidate가 될까?는 아닐 것이다.
    • 아마도 테스트하고 gap이 없도록 하기위해, 학습때에도 maximum length L을 정해두고 all possible candidate을 지정해줄 것으로 생각된다.
    • 자세한 흐름은 이 논문에서는 언급이 안되므로 region-based 논문을 봐야알 것 같다.
    • 기존의 논문들을 스크리닝하면, 어떤 논문은 candidate region detection이라는 과정을 거치는 것도 있고 어떤 논문은 그냥 all candidate에 대해 수행하는 경우도 있다.
    • 이 논문에서 말하는 것은 all candidate에 대해 다 수행한다는 것으로 판단된다. (Deep Exhaustive Model for Nested Named Entity Recognition 방법대로)
  • BERT을 여기서 활용한 실험도 보여주는데, 당연히 성능을 높아진다.
    • 논문에서는 gazetteer을 활용하는 것이 핵심이기 때문에 간략히 실험결과만 보여준다.
    • 하지만 잘 생각해보면, gazetteer이나 pretrained BERT나 모두 사전지식을 활용한다는 점은 같을 것이다.
    • 그렇다면 BERT의 효과 vs gazetter의 효과도 사실 생각해봄직하다.
    • 논문에서는 언급안하지만 실험결과만 보면 (학습데이터100%)GEANN은 성능이 75.2이다.
    • 반면 학습데이터50%+ANN은 77쯤 되는 것 같다.
    • 즉 gazetteer보다 BERT가 훨씬 더 효과가 좋은 것으로 보여진다.
    • 물론 gazetteer+BERT가 더 좋은 효과를 보여주는 것은 맞기 때문에 gazetteer이 효과가 없다는 것은 아니다.
  • 참고로 논문에서 figure, table을 실수하거나 CE entropy 수식적으로도 실수하는 것 같은 오타 등을 보여주는 것 같다.

 0. Abstract

  • 현재 region-based NER 모델들은 오직 fully-annotated 학습 데이터로 효과적인 region encoder을 배우는데 의존하고 이는 종종 학습 데이터의 bottleneck에 직면한다.
  • 이러한 문제를 해결하기위해, 이 논문은 Gazetteer-Enhanced Attentive Neural Networks을 제안하고, 이는 단지 fully annotated data을 사용하는 것보다, 쉽게 획득할 수 있는 gazetteers로부터 entity mentions의 name knowledge을 학습하는 region-based NER을 강화시킬 수 있다.
  • 구체적으로, 우리는 먼저 attentive neural network (ANN)을 제안하고, 이는 명시적으로 mention-context 결합을 모델링하고 그래서 externally-learned knowledge을 통합하는데 편리하다.
  • 그리고 나서, 우리는 auxiliary gazetteer network을 디자인하고, 이는 효과적으로 mentions의 name regularity을 gazetteers만을 사용하여 효과적으로 인코딩한다.
  • 최종적으로, 학습된 gazetter network는 더 나은 NER을 위하여 ANN과 결합된다.
  • 실험들은 우리의 ANN가 ACE2005 NER 벤치마크에서 SoTA을 달성함을 보여준다.
  • 게다가, 결합된 gazetteer network은 학습 데이터의 요구를 상당히 줄이면서, 성능을 향상시킬 수 있다.

1 Introduction

  • NER은 구체적인 entity 타입의 text mentions을 구별하는 NLP 펀더멘탈의 테스크이다.
  • 최근, region-based NER 접근법들은 관심을 끌고 있는데, 이는 먼저 모든 candidate regions(일반적으로 문장의 모든 subsequences)을 region ecoder으로 인코딩하고나서 각 subsequence가 target type의 entity mention인지 classifier으로 식별한다.
    • 이런 방법의 논문은 안읽어 봤지만, 느낌은 image detection에서 Fast-RCNN과 같은 느낌이다.
    • region의 후보가 무엇인지를 classifier으로 식별한다는 개념?
    • 단 여기서 region은 찾는 개념이라기보단, 모든 subsequences을 쓰는 것 같음
  • 예를 들어, 그림 1에서 문장의 모든 subsequences (Geroge Washington과 같은)은 먼저 인코딩되고나서 entity types으로 분류된다.
  • 시퀀스 레이블링 모델들에 비교하여, region-based models은 자연스럽게 nested or overlapping mentions을 모든 subsequences을 고려하여 검출할 수 있고 그래서 NER에서 좋은 값을 가진다.
  • 일반적으로, 효과적인 region encoder은 NER의 두 가지의 knowledge를 캡쳐한다.
  • 한 개는 knowledge로 entity mentions의 내부 구성 규칙을 인코딩한다.
    • mention = named entity
    • 즉, subsequence 그 자체가 entity mention이 될 수 있는가?
    • 예를 들어, region encoder은 “George Washington”가 가능한 PER name인지 알아야 한다.
    • 왜냐하면 "Geroge"는 일반적으로 first name이고 "Washington"은 일반적으로 last name이기 때문이다.
  • 다른 것은 context knowledge이고 이는 context안의 subsequence가 실제로 entity인지 아닌지를 식별하는 것이다.
    • 예를 들어, region encoder은 "X said"가 PER metnion을 위한 적합한 context인지 /  "study at X"은 ORG mention에 대한 적합한 context인지를 알아야 한다.
  • 현재, 대부분의 region-based NER 모델들은 이러한 두 개의 knowledge 종류를 오직 비싸고 fully-annotated 학습 데이터로부터 배우고 그래서 종종 학습데이터의 bottleneck에 직면한다. (즉, 학습데이터의 부족은 성능을 떨어지게한다.)
  • 이 문제를 해결하기 위해, 우리는 name knowledge가 효과적으로 쉽게 획득할 수 있는 gazetteer 리소스로를 활용함으로써 캡쳐될 수 있는 것을 찾았다.
  • 예를 들어, company name은 “the Walt Disney company” and “Apple Inc.”을 포함하는 company name gazetter로부터 "the ... company"와 "...Inc.""의 패턴을 쉽게 학습할 수 있다.
  • gazetteers을 수반하는 mention 규칙을 캡쳐함으로써, region-based 모델들은 좀 더 정확한 name knowledge을 강화할 수 있고 그래서 필요한 fully-annotated 학습데이터를 줄일 수 있다.
  • 끝으로, 이 논문은 GazetteerEnhanced Attentive Neural Networks (GEANN)을 제시하고 그림 1에서 구조를 보여준다.
  • 특히 gazetteer 정보를 통합하기위한 name과 context knowledge을 더 잘 분리하기 위해 먼저 mentions과 context간의 연관성을 명시적으로 모델링하는주의 attention을 가지는 region-based attentive neural network (ANN)을 설계합니다.
  • ANN으로부터 시작하여, 우리는 추가적으로 auxiliary gazetteer network을 도입하고, 이는 효과적으로 name knowledgw을 오직 gazetteers만을 사용하여 학습한다.
    • 즉, 이것은 context가 없는 방식으로 각 발화를 인코딩하여, mentions의 정규적인 패턴들과 매칭이 되는지를 식별한다.
  • 마침내, 학습된 gazetteer network는 ANN에 결합되어 더 좋은 name과 context knowledge을 캡쳐한다.
  • 실험들은 ANN이 NER SoTA 성능을 달성함을 보여주며, gazetters로부터 name knowledge의 결합은 학습 데이터의 요구를 현저히 줄여준다.
  • 우리가 아는한, 이것은 region-based NER에서 attention 메커니즘과 함께 mention-context 연관성을 명시적으로 개발하려는 첫 번째 시도이다.
    • 뉴럴 네트워크를 사용하여 gazetteers로부터 캡처한 name knowledge으로 NER 모델을 향상시키는 첫 번째 연구이다.

2 Attentive Neural Network for NER

  • 이 섹션에서는, 우리의 attentive neural network을 소개하고, 이는 직접적으로 문장의 모든 subsequences을 분류하여 각 subsequences가 entitiy mention에 대응되는지를 인식한다.
  • Figure 1 (a) shows the architecture of ANN.
  • 문장이 주어졌을 때, ANN은 먼저 모든 단어들을 Lample et al. (2016)울 따라서 word representations {x1, x2, ..., xn}으로 매핑한다. (이 뒤가 시작점)
  • 그리고나서, BiLSTM layer은 context-aware word representation 을 얻는데 사용된다.
  • 그러고 나서, 각 candidate region 에 대해, 우리는 Sohrab and Miwa (2018)을 따라 inner region encoder을 사용하여 그것의 representation 을 얻는데 사용된다
  • 이는 boundary와 inside 정보들을 고려하여 name knowledge을 캡쳐한다.
    • 즉 여기서 는 A sentence에서 t번째 word가 BiLSTM을 통과한 contextualized representation을 의미한다.
    • 는 i-th 부터 j-th까지의 단어들에 대한 후보 region의 represetation을 의미하는데
    • 이는 inner region encoder라고 하는 MLP 식 (1)을 따라서 구해진다.
    • 수식은, 양 끝 단어의 contextualized representation와 그 단어들 사이의 contextualized representation들의 평균을 concat한 것을 MLP 통과시키는 것이다.
    • where MLP is a multi-layer perceptron. 
  • 명시적으로 region과 context 사이의 관계를 모델링 하기 위해, 우리는 attentive context encoder을 디자인하고, 이는 의 context knowledge을 포함하는 contextual vector 을 출력한다.
    • 즉 candidate region의 representation ()와 candidate region이 아닌 단어들의 representation (t<i or t>j)와의 유사도(e)을 식 3과 같이 구한다.
    • 이 유사도에 비례해서 candidate region이 아닌 부분에 대한 context knowledge vector 을 계산한다.
    • 그림에서는 Attentive Context Encoder 부분을 의미한다.
    • 식 3은 attentive model로 단어 가 의 entitiy type을 식별하는데 얼마나 중요한지를 나타낸다.
  • 을 얻고나서는, 우리는 와 concat하여 MLP classifier에 넣어서 에 대응되는 entity type에 대한 확률을 얻는다. (혹은 가 mention이 아닌 경우에는 NIL이다.)
  • 이전과 유사한 방법으로, ANN은 fully-annotated training data에 대한 cross-entropy loss을 최소화하도록 학습된다.
  • mention-context 연관성을 분리하고 명시적으로 모델링함으로써 ANN은 entity mentions을 더 잘 식별 할 수 있을뿐만 아니라 external name knowledge을 통합하기가 매우 쉽다.
  • 이것은 다음에 설명할 gazetteer knowledge의 편리한 통합을 가능하게 한다.
  • 즉 식 1에서 region encoder으로 계산한 것은 mention에 대한 것이고 식 2에서 수한 것은 region을 제외한 context에 대한 정보이다.
    • 물론 처음에 contextualized embedding과 region representation 을 썼지만, 뭐 분리시켰다고 볼 수는 있다.
    • 이 식 1,2 두개의 결과를 concat해서 분류하는게 ANN의 방식이다.
    • 이 방식이 gazetter의 결합을 용이하게 한다는데, 왜 그런지는 뒷 부분을 살펴보자.

3 Gazetteer-Enhanced ANN 

  • ANN과 다른 region-based 모델의 하나의 큰 단점은 오직 fully-annotated data에 의존하여 name knowledge와 context knowledge에 의존한다는 것이다.
  • 불행히도, 학습 데이터는 매우 구축하기 비싸고, 이러한 모델의 어플리케이션이 더 많은 entity types에 대해 한계가 있다.
  • 이러한 문제를 해결하기 위해, 우리는 쉽게 얻을 수 있는 large-scale gazetteers로부터 name knowledge을 배우는 것을 제안한다.
  • 이 방법에서, name knowledge는 좀 더 정확하게 캡쳐될 수 있고 그리고 fully-annotated data의 요구가 감소된다.
  • 끝으로, 우리는 auxiliary gazetteer 네트워크를 ANN에 통합하는 것을 제안하고, 이는 오직 gazetters만을 사용하여 name knowledge을 학습하고 활용할 수 있다.
  • utterance가 주어지면, gazetter 네트워크는 특정 entity types의 gazetter에 포함되어야하는지를 예측한다.
    • 즉 valid entity name인지를 판단한다.
  • Gazetteer network는 context와 상관없고, 이는 오직 입력이 mentions의 구성규칙을 따르는지만을 고려하고 그래서 오직 gazetters만을 사용하여 학습될 수 있다.
  • 수식적으로, 입력 utterance u = {ui , ..., uj}가 주어졌을 때, utterance encoder은 먼저 그것의 representation u을 배우고, 이는 ANN의 inner-region encoder와 비슷한 구조를 가진다.
    • 식 1: BiLSTM을 태우고 첫 번째, 끝 단어에 대한 representation + 중간 단어들의 평균에 MLP을 태운 것
    • 단, 인퍼런스 때는 여기서 utterance는 context가 아닌 candidate을 말하는 것??
  • 그 후, u는 각 type에 대한 valid name을 가지는 확률을 계산하는데 사용된다.
    • s는 sigmoid 함수이고 의 k-th 값은 u가 type 의 valid mention일 확률을 가리킨다.
    • 즉, 의 각 값은 각 type의 확률을 말한다는 것이다.
  • 발화는 다양한 types에 대한 valid mention이 될 수 있으므로 gazetteer 네트워크를 훈련하기 위해 multi-label, multi-class cross-entropy loss을 사용합니다.
    • G는 gazetteers이고 는 one-hot vector로 k-th 값은 utterance u가 type 의 gazetteer에 속해있으면 1이고 아니면 0이다.
    • 식 5에 일단 앞에 -가 빠진 것같다. cross entropy식은 식 5의 -을 붙인 값임
    • 일단 gazetteer에 총 10개의 entity type이 있다고 하면 는 10차원의 vector이다.
    • 주어진 담화에 type 중 y1, y3, y7 entity type이 속해있으면, 1,3,7번째에 해당하는 만을 최소화하도록 CE가 작동한다.
  • 이 방법에서, 잘 학습된 
    gazetteer network은 효과적인 utterance representation u을 학습할 수 있고, 이는 utteracne가 valid mention인지 아닌지를 식별하는데 사용될 수 있다.
  • 이 말은, u가 특별한 entity type의 name knowledge을 캡쳐하는데 충분하다는 것이다.
  • 이 지식을 ANN에 결합하길 위해, 우리는 간단히 gazetter network로 학습된 representation과 original inner encoder로 학습된 representation을 concat하였다.
  • 그래서, 새로운 representation은 ANN의 모듈들에 들어가게 된다.
  • 이 방법은, gazetteers로부터 학습된 name knowledge가 region encoder을 강화하는데 결합되고 fully-annotated data의 요구가 줄어들게 된다.
  • 흐름 정리
    • ANN은 end-to-end로 학습되는 네트워크이다.
    • ANN에는 candidate region과 sentence 두 부분으로 나뉘는데, candidate는 entity tagging을 할 (후보)영역이고 sentence는 그 영역을 둘러싸고 있는 다른 부분이다.
    • 예) "나는 한국에 산다"에서 "한국": candidate, "나는 에 산다": sentence가 되는 것이다.
    • 이렇게 candidate과 sentence를 인코딩하여서 region representation을 만든 후 tagging을 하게 되는데
    • sentence 부분에 중간 feature로 gazetteer network의 representaion이 추가시킬 수도 있다.
    • 그렇다면 gazetteer network란?
    • gazetteer network는 미리 있는 어떤 사전에서 학습시키는 네트워크이다.
    • 예를 들어, (삼성-회사), (한국-국가) 처럼 매칭이 되어있는 gazetteer 데이터로 학습시키는 것이다.
    • 학습된 네트워크로부터 representation을 사용하겠다는 것인데
    • 예) "나는 한국에 산다"에서 candidate로 "한국"이 지정되었을 때, gazetteer에서 "한국"의 representation을 가져온다면, 효과적이라는 것이다.
    • 즉, 테스트(인퍼런스) 때는 아마도 candidate region이 gazetteer 네트워크로 들어가는 식으로 생각된다.

4 Experiments 

4.1 Experimental Settings

  • Data Preparation. 
    • 우리는 ACE2005에서 NER 실험을 수행하였다.
    • Wang and Lu (2018); Katiyar and Cardie (2018)와 똑같은 데이터세트 스플릿을 사용하였다.
    • ACE2005의 각 entity type에서, 우리는 위키피디아 anchor text로부터 gazetter을 수집하였다.
      • 즉 유형이 동일한 엔티티에 연결되는 anchor 텍스트는 gazetteer에 포함됩니다.
    • 이전의 연구와 똑같이, 모델들은 micro-F1을 사용하여 평가된다.
    • time complexity and recall의 균형을 맞추기 위해 Wang and Lu (2018)에 따라 mention 길이를 최대 6 개로 제한하여 93 % 이상의 멘션을 포함합니다.
  • Baselines. Following methods were compared: 
    • 1) LSTM-CRF (Lample et al., 2016), which is the most widely used NER baseline, but it cannot handle nested or overlapping mentions.
    • 2) Neural Transition (Wang et al., 2018), a transition model which achieved very competitive performance on ACE2005. 
    • 3) Segmental Hypergraph (Wang and Lu, 2018), a hypergraph-based model which introduces a new tagging schema and achieved the state-of-the-art performance on ACE2005. 
    • 4) Exhaustive Model (Sohrab and Miwa, 2018), a region-based model using a region encoder to capture both inner and boundary features of a candidate region, which is similar to ANN without attentive contextual encoder.
    • 4) ref 논문을 보면, region의 영역을 maximum length L로 제한하여 모든 가능한 것에 대해 네트워크에 pass 시키는 것을 보아, 여기서도 비슷하게 하는 것으로 생각

4.2 Overall Results

  • Table 1 shows the overall results of our methods compared with baselines. 
  • 1) name과 context knowledge 둘다 명시적으로 모델링하여, 제안된 attentive neural network는 효과적으로 region-based NER model이고 SoTA 성능을 달성한다.
    • basline들과 비교하여 ANN은 F1 score의 놀라운 향상을 보여준다.
  • 2) name knowledge을 gazetteers과 결합하는 것은 성능에 중요한 향상을 보여준다.
  • GEANN은 ANN에 비해 1.1 F1-score의 향상을 보여준다.
    • 이것은 gazetteers로부터 학습된 name knowledge가 region encoder을 도와주고 그래서 NER 성능을 향상시킨다.
  • 3) 우리의 attentive context encoder은 효과적인 방법으로 NER에 대한 context knowledge을 활용한다.
    • Exhaustive 베이스라인에 비교하여, ANN은 entitiy mentions과 그들의 contexts 사이의 결합을 명식적으로 모델링하여 효과적인 성능을 달성한다.

4.3 Effects of Gazetteer Network

  • gazetteers의 효과를 조사하기 위해, 그림 2는 학습 데이터의 변화에 따른 결과를 보여준다.
  • 1) Transtion과 SH에서, 학습 데이터가 감소할 때 그들의 성능은 현저히 감소한다.
    • 우리는 그들의 접근법이 복잡한 레이블 구조를 모델링하는 것을 필요로하기 때문에 large scale training 데이터가 중요하고 학습데이터의 감소는 그들에게 큰 영향을 준다.
  • 2) Region-based 모델들은 학습데이터의 감소에 덜 민감하다.
    • 우리는 이것은 그들의 출력 구조가 간단하기 때문이라 생각하고 그래서 적은 학습데이터만을 사용해서도 학습될 수 있다.
  • 3) GEANN은 학습 데이터 사이즈의 상관없이 ANN에 비해 좋은 성능을 보여준다.
    • gazetteers로부터 name knowledge을 활용하여, GEANN은 오직 50%의 학습데이터만으로도 전체 데이터로 학습한 ANN과 비슷한 성능을 보여준다.

4.4 GEANN with BERT

  • Pretrained context-aware representation인 ELMOs, BERT와 같은 것은 많은 NLP tasks에서 적은 리소스만으로도 놀라운 성능향상을 보여준다.
  • 제안된 GEANN의 적합성을 확인하기위해, 우리는 BERT representation을 사용한 word embedding으로 교체해보았다.
  • BERT을 사용하면 NER을 향상시키고, GEANN은 학습 데이터사이즤에 상관없이 BERT위에서 놀라운 성능향상을 보여준다.
  • 입증된 GEANN은 더 나아가서 task-specific name knowledge을 캡쳐하고 이는 일반적인 pretrained LM으로 보완한다.

5 Related Work (번역)

  • 순차적 라벨링 접근법 (Zhou and Su, 2002; Chieu and Ng, 2002; Bender et al., 2003; Settles, 2004; Lample et al., 2016)은 NER에서 널리 사용됩니다.
  • 그러나이 패러다임은 특별히 설계된 태깅 스키마 없이는 중첩 된 멘션을 처리 할 수 ​​없습니다 (Lu and Roth, 2015; Katiyar and Cardie, 2018; Wang and Lu, 2018; Lin et al., 2019).
  • 최근에는 지역 기반 모델이이 문제에 대한 자연스러운 솔루션을 제공합니다.
  • Finkel and Manning (2009)은 먼저 구문 분석 트리 노드에 해당하는 영역을 분류하도록 제안했습니다.
  • Xu et al. (2017)은 신경망 모델을 사용하여 모든 하위 시퀀스를 직접 분류하도록 제안했습니다.
  • Sohrab과 Miwa (2018)는 새로운 영역 인코더를 도입하여 방법을 확장했습니다.
  • 일반적으로 이러한 방법은 유망한 결과를 얻었지만 완전히 주석이 달린 데이터에 크게 의존합니다.
  • Gazetteers 또는 사전은 오랫동안 NER에게 유용하고 쉽게 구할 수있는 리소스로 간주되어 왔습니다.
  • 이전의 방법은 일반적으로 gazetteers를 수공예 기능으로 사용하거나 원격 감독으로 데이터를 생성하는 데 사용하여 통합했습니다.
  • 그러나 첫 번째 유형의 방법은 지명 사전에 수반되는 내부 언급 구조 지식을 완전히 활용할 수 없으며 두 번째 방법은 현저한 소음을 초래합니다.

6 Conclusions

  • 이 논문은, 먼저 attentive neural networks을 제안하고 이는 효과적인 region-based 모델로 mention-context 연관성을 명시적으로 모델링한다.
  • 그래서, 우리는 auxiliary gazetteer 네트워크를 ANN에 결합하여 강화시키는 것을 제안한다.
  • gazetteer network은 오직 쉽게 얻을 수 있는 gazetteers을 사용하여 효과적으로 name knowledge을 학습하고 모델 성능을 크게 향상시키고 데이터의 필요를 줄여준다.
  • 실험들은 GEANN이 적은 데이터의 필요성만으로 ACE2005에서 SoTA 달성을 보여준다.

Reference

댓글