■ Comment

논문에서 쓰이는 용어들에 대해 간략히 적자면

mention = named entity
name knowledge = candidate region representaion
위의 개념으로 보면 될 것 같다.

논문의 전체 모델은 GEANN = ANN + Gazetteer 이다.
ANN은 일반적으로 region-based model을 따르고 gazetteer은 지명사전으로부터 학습한 네트워크라고 보면 된다.
학습할 때는 흐름을 생각해보자.

1) "삼성전자는 대표 기업이야"
2) region: "삼성전자" / sentence: "삼성전자는 대표 기업이야" / context: "는 대표 기업이야"
3) sentence을 BiLSTM을 통과시켜 representation h을 만든다.
4) region h_r은 inner-region encoder을 통과하고 context h_c는 attentive context encoder을 통과한다.
5) 이 두개를 활용하여 region에 해당하는 NER tagging을 한다.
여기서 4번 스텝에 gazetteer의 정보가 포함을 시킬 수가 있다는 것이다.
Gazetteer 네트워크는 단순히 "삼성전자" <-> "ORG" 식으로 name에 해당하는 정보를 학습하도록 된다.

테스트할 때 흐름을 생각해보자

1) all region candidate을 통과시키면서 NER을 prediction한다.
여기서 생각해볼점이 학습할 때에 region은 어떻게 정해지는 것인가? 라는 것이다.
단순 gold label만 region candidate가 될까?는 아닐 것이다.
아마도 테스트하고 gap이 없도록 하기위해, 학습때에도 maximum length L을 정해두고 all possible candidate을 지정해줄 것으로 생각된다.
자세한 흐름은 이 논문에서는 언급이 안되므로 region-based 논문을 봐야알 것 같다.
기존의 논문들을 스크리닝하면, 어떤 논문은 candidate region detection이라는 과정을 거치는 것도 있고 어떤 논문은 그냥 all candidate에 대해 수행하는 경우도 있다.
이 논문에서 말하는 것은 all candidate에 대해 다 수행한다는 것으로 판단된다. (Deep Exhaustive Model for Nested Named Entity Recognition 방법대로)

BERT을 여기서 활용한 실험도 보여주는데, 당연히 성능을 높아진다.

논문에서는 gazetteer을 활용하는 것이 핵심이기 때문에 간략히 실험결과만 보여준다.
하지만 잘 생각해보면, gazetteer이나 pretrained BERT나 모두 사전지식을 활용한다는 점은 같을 것이다.
그렇다면 BERT의 효과 vs gazetter의 효과도 사실 생각해봄직하다.
논문에서는 언급안하지만 실험결과만 보면 (학습데이터100%)GEANN은 성능이 75.2이다.
반면 학습데이터50%+ANN은 77쯤 되는 것 같다.
즉 gazetteer보다 BERT가 훨씬 더 효과가 좋은 것으로 보여진다.
물론 gazetteer+BERT가 더 좋은 효과를 보여주는 것은 맞기 때문에 gazetteer이 효과가 없다는 것은 아니다.

참고로 논문에서 figure, table을 실수하거나 CE entropy 수식적으로도 실수하는 것 같은 오타 등을 보여주는 것 같다.

0. Abstract

현재 region-based NER 모델들은 오직 fully-annotated 학습 데이터로 효과적인 region encoder을 배우는데 의존하고 이는 종종 학습 데이터의 bottleneck에 직면한다.
이러한 문제를 해결하기위해, 이 논문은 Gazetteer-Enhanced Attentive Neural Networks을 제안하고, 이는 단지 fully annotated data을 사용하는 것보다, 쉽게 획득할 수 있는 gazetteers로부터 entity mentions의 name knowledge을 학습하는 region-based NER을 강화시킬 수 있다.
구체적으로, 우리는 먼저 attentive neural network (ANN)을 제안하고, 이는 명시적으로 mention-context 결합을 모델링하고 그래서 externally-learned knowledge을 통합하는데 편리하다.
그리고 나서, 우리는 auxiliary gazetteer network을 디자인하고, 이는 효과적으로 mentions의 name regularity을 gazetteers만을 사용하여 효과적으로 인코딩한다.
최종적으로, 학습된 gazetter network는 더 나은 NER을 위하여 ANN과 결합된다.
실험들은 우리의 ANN가 ACE2005 NER 벤치마크에서 SoTA을 달성함을 보여준다.
게다가, 결합된 gazetteer network은 학습 데이터의 요구를 상당히 줄이면서, 성능을 향상시킬 수 있다.

1 Introduction

NER은 구체적인 entity 타입의 text mentions을 구별하는 NLP 펀더멘탈의 테스크이다.
최근, region-based NER 접근법들은 관심을 끌고 있는데, 이는 먼저 모든 candidate regions(일반적으로 문장의 모든 subsequences)을 region ecoder으로 인코딩하고나서 각 subsequence가 target type의 entity mention인지 classifier으로 식별한다.

이런 방법의 논문은 안읽어 봤지만, 느낌은 image detection에서 Fast-RCNN과 같은 느낌이다.
region의 후보가 무엇인지를 classifier으로 식별한다는 개념?
단 여기서 region은 찾는 개념이라기보단, 모든 subsequences을 쓰는 것 같음

예를 들어, 그림 1에서 문장의 모든 subsequences (Geroge Washington과 같은)은 먼저 인코딩되고나서 entity types으로 분류된다.
시퀀스 레이블링 모델들에 비교하여, region-based models은 자연스럽게 nested or overlapping mentions을 모든 subsequences을 고려하여 검출할 수 있고 그래서 NER에서 좋은 값을 가진다.
일반적으로, 효과적인 region encoder은 NER의 두 가지의 knowledge를 캡쳐한다.
한 개는 knowledge로 entity mentions의 내부 구성 규칙을 인코딩한다.

mention = named entity
즉, subsequence 그 자체가 entity mention이 될 수 있는가?
예를 들어, region encoder은 “George Washington”가 가능한 PER name인지 알아야 한다.
왜냐하면 "Geroge"는 일반적으로 first name이고 "Washington"은 일반적으로 last name이기 때문이다.

다른 것은 context knowledge이고 이는 context안의 subsequence가 실제로 entity인지 아닌지를 식별하는 것이다.

예를 들어, region encoder은 "X said"가 PER metnion을 위한 적합한 context인지 / "study at X"은 ORG mention에 대한 적합한 context인지를 알아야 한다.

현재, 대부분의 region-based NER 모델들은 이러한 두 개의 knowledge 종류를 오직 비싸고 fully-annotated 학습 데이터로부터 배우고 그래서 종종 학습데이터의 bottleneck에 직면한다. (즉, 학습데이터의 부족은 성능을 떨어지게한다.)
이 문제를 해결하기 위해, 우리는 name knowledge가 효과적으로 쉽게 획득할 수 있는 gazetteer 리소스로를 활용함으로써 캡쳐될 수 있는 것을 찾았다.
예를 들어, company name은 “the Walt Disney company” and “Apple Inc.”을 포함하는 company name gazetter로부터 "the ... company"와 "...Inc.""의 패턴을 쉽게 학습할 수 있다.
gazetteers을 수반하는 mention 규칙을 캡쳐함으로써, region-based 모델들은 좀 더 정확한 name knowledge을 강화할 수 있고 그래서 필요한 fully-annotated 학습데이터를 줄일 수 있다.
끝으로, 이 논문은 GazetteerEnhanced Attentive Neural Networks (GEANN)을 제시하고 그림 1에서 구조를 보여준다.
특히 gazetteer 정보를 통합하기위한 name과 context knowledge을 더 잘 분리하기 위해 먼저 mentions과 context간의 연관성을 명시적으로 모델링하는주의 attention을 가지는 region-based attentive neural network (ANN)을 설계합니다.
ANN으로부터 시작하여, 우리는 추가적으로 auxiliary gazetteer network을 도입하고, 이는 효과적으로 name knowledgw을 오직 gazetteers만을 사용하여 학습한다.

즉, 이것은 context가 없는 방식으로 각 발화를 인코딩하여, mentions의 정규적인 패턴들과 매칭이 되는지를 식별한다.

마침내, 학습된 gazetteer network는 ANN에 결합되어 더 좋은 name과 context knowledge을 캡쳐한다.
실험들은 ANN이 NER SoTA 성능을 달성함을 보여주며, gazetters로부터 name knowledge의 결합은 학습 데이터의 요구를 현저히 줄여준다.
우리가 아는한, 이것은 region-based NER에서 attention 메커니즘과 함께 mention-context 연관성을 명시적으로 개발하려는 첫 번째 시도이다.

뉴럴 네트워크를 사용하여 gazetteers로부터 캡처한 name knowledge으로 NER 모델을 향상시키는 첫 번째 연구이다.

2 Attentive Neural Network for NER

이 섹션에서는, 우리의 attentive neural network을 소개하고, 이는 직접적으로 문장의 모든 subsequences을 분류하여 각 subsequences가 entitiy mention에 대응되는지를 인식한다.
Figure 1 (a) shows the architecture of ANN.
문장이 주어졌을 때, ANN은 먼저 모든 단어들을 Lample et al. (2016)울 따라서 word representations {x1, x2, ..., xn}으로 매핑한다. (이 뒤가 시작점)
그리고나서, BiLSTM layer은 context-aware word representation $\textbf{\textit{h}}^{A}_{t}$ 을 얻는데 사용된다.
그러고 나서, 각 candidate region $s_{ij}$ 에 대해, 우리는 Sohrab and Miwa (2018)을 따라 inner region encoder을 사용하여 그것의 representation $\mathbf{\textit{s}}_{ij}$ 을 얻는데 사용된다
이는 boundary와 inside 정보들을 고려하여 name knowledge을 캡쳐한다.

즉 여기서 $\textbf{\textit{h}}^{A}_{t}$ 는 A sentence에서 t번째 word가 BiLSTM을 통과한 contextualized representation을 의미한다.
$\mathbf{\textit{s}}_{ij}$ 는 i-th 부터 j-th까지의 단어들에 대한 후보 region의 represetation을 의미하는데
이는 inner region encoder라고 하는 MLP 식 (1)을 따라서 구해진다.
수식은, 양 끝 단어의 contextualized representation와 그 단어들 사이의 contextualized representation들의 평균을 concat한 것을 MLP 통과시키는 것이다.
where MLP is a multi-layer perceptron.

명시적으로 region과 context 사이의 관계를 모델링 하기 위해, 우리는 attentive context encoder을 디자인하고, 이는 $\mathbf{\textit{s}}_{ij}$ 의 context knowledge을 포함하는 contextual vector $\textbf{\textit{c}}_{ij}$ 을 출력한다.

즉 candidate region의 representation ( $\mathbf{\textit{s}}_{ij}$ )와 candidate region이 아닌 단어들의 representation $\textbf{\textit{h}}^{A}_{t}$ (t<i or t>j)와의 유사도(e)을 식 3과 같이 구한다.
이 유사도에 비례해서 candidate region이 아닌 부분에 대한 context knowledge vector $\textbf{\textit{c}}_{ij}$ 을 계산한다.
그림에서는 Attentive Context Encoder 부분을 의미한다.
식 3은 attentive model로 단어 $x_k$ 가 $\mathbf{\textit{s}}_{ij}$ 의 entitiy type을 식별하는데 얼마나 중요한지를 나타낸다.

$\textbf{\textit{c}}_{ij}$ 을 얻고나서는, 우리는 $\mathbf{\textit{s}}_{ij}$ 와 concat하여 MLP classifier에 넣어서 $\mathbf{\textit{s}}_{ij}$ 에 대응되는 entity type에 대한 확률을 얻는다. (혹은 $\mathbf{\textit{s}}_{ij}$ 가 mention이 아닌 경우에는 NIL이다.)
이전과 유사한 방법으로, ANN은 fully-annotated training data에 대한 cross-entropy loss을 최소화하도록 학습된다.
mention-context 연관성을 분리하고 명시적으로 모델링함으로써 ANN은 entity mentions을 더 잘 식별 할 수 있을뿐만 아니라 external name knowledge을 통합하기가 매우 쉽다.
이것은 다음에 설명할 gazetteer knowledge의 편리한 통합을 가능하게 한다.
즉 식 1에서 region encoder으로 계산한 것은 mention에 대한 것이고 식 2에서 수한 것은 region을 제외한 context에 대한 정보이다.

물론 처음에 contextualized embedding과 region representation $\mathbf{\textit{s}}_{ij}$ 을 썼지만, 뭐 분리시켰다고 볼 수는 있다.
이 식 1,2 두개의 결과를 concat해서 분류하는게 ANN의 방식이다.
이 방식이 gazetter의 결합을 용이하게 한다는데, 왜 그런지는 뒷 부분을 살펴보자.

3 Gazetteer-Enhanced ANN

ANN과 다른 region-based 모델의 하나의 큰 단점은 오직 fully-annotated data에 의존하여 name knowledge와 context knowledge에 의존한다는 것이다.
불행히도, 학습 데이터는 매우 구축하기 비싸고, 이러한 모델의 어플리케이션이 더 많은 entity types에 대해 한계가 있다.
이러한 문제를 해결하기 위해, 우리는 쉽게 얻을 수 있는 large-scale gazetteers로부터 name knowledge을 배우는 것을 제안한다.
이 방법에서, name knowledge는 좀 더 정확하게 캡쳐될 수 있고 그리고 fully-annotated data의 요구가 감소된다.
끝으로, 우리는 auxiliary gazetteer 네트워크를 ANN에 통합하는 것을 제안하고, 이는 오직 gazetters만을 사용하여 name knowledge을 학습하고 활용할 수 있다.
utterance가 주어지면, gazetter 네트워크는 특정 entity types의 gazetter에 포함되어야하는지를 예측한다.

즉 valid entity name인지를 판단한다.

Gazetteer network는 context와 상관없고, 이는 오직 입력이 mentions의 구성규칙을 따르는지만을 고려하고 그래서 오직 gazetters만을 사용하여 학습될 수 있다.
수식적으로, 입력 utterance u = {ui , ..., uj}가 주어졌을 때, utterance encoder은 먼저 그것의 representation u을 배우고, 이는 ANN의 inner-region encoder와 비슷한 구조를 가진다.

식 1: BiLSTM을 태우고 첫 번째, 끝 단어에 대한 representation + 중간 단어들의 평균에 MLP을 태운 것
단, 인퍼런스 때는 여기서 utterance는 context가 아닌 candidate을 말하는 것??

그 후, u는 각 type에 대한 valid name을 가지는 확률을 계산하는데 사용된다.

s는 sigmoid 함수이고 $\textbf{\textit{O}}^{G}_{u}$ 의 k-th 값은 u가 type $y_k$ 의 valid mention일 확률을 가리킨다.
즉, $\textbf{\textit{O}}^{G}_{u}$ 의 각 값은 각 type의 확률을 말한다는 것이다.

발화는 다양한 types에 대한 valid mention이 될 수 있으므로 gazetteer 네트워크를 훈련하기 위해 multi-label, multi-class cross-entropy loss을 사용합니다.

G는 gazetteers이고 $\textbf{\textit{g}}^{'}_{u}$ 는 one-hot vector로 k-th 값은 utterance u가 type $y_k$ 의 gazetteer에 속해있으면 1이고 아니면 0이다.
식 5에 일단 앞에 -가 빠진 것같다. cross entropy식은 식 5의 -을 붙인 값임
일단 gazetteer에 총 10개의 entity type이 있다고 하면 $\textbf{\textit{O}}^{G}_{u}$ 는 10차원의 vector이다.
주어진 담화에 type $y_k$ 중 y1, y3, y7 entity type이 속해있으면, 1,3,7번째에 해당하는 $\textbf{\textit{O}}^{G}_{u}$ 만을 최소화하도록 CE가 작동한다.

이 방법에서, 잘 학습된
gazetteer network은 효과적인 utterance representation u을 학습할 수 있고, 이는 utteracne가 valid mention인지 아닌지를 식별하는데 사용될 수 있다.
이 말은, u가 특별한 entity type의 name knowledge을 캡쳐하는데 충분하다는 것이다.
이 지식을 ANN에 결합하길 위해, 우리는 간단히 gazetter network로 학습된 representation과 original inner encoder로 학습된 representation을 concat하였다.
그래서, 새로운 representation은 ANN의 모듈들에 들어가게 된다.
이 방법은, gazetteers로부터 학습된 name knowledge가 region encoder을 강화하는데 결합되고 fully-annotated data의 요구가 줄어들게 된다.
흐름 정리

ANN은 end-to-end로 학습되는 네트워크이다.
ANN에는 candidate region과 sentence 두 부분으로 나뉘는데, candidate는 entity tagging을 할 (후보)영역이고 sentence는 그 영역을 둘러싸고 있는 다른 부분이다.
예) "나는 한국에 산다"에서 "한국": candidate, "나는 에 산다": sentence가 되는 것이다.
이렇게 candidate과 sentence를 인코딩하여서 region representation을 만든 후 tagging을 하게 되는데
sentence 부분에 중간 feature로 gazetteer network의 representaion이 추가시킬 수도 있다.
그렇다면 gazetteer network란?
gazetteer network는 미리 있는 어떤 사전에서 학습시키는 네트워크이다.
예를 들어, (삼성-회사), (한국-국가) 처럼 매칭이 되어있는 gazetteer 데이터로 학습시키는 것이다.
학습된 네트워크로부터 representation을 사용하겠다는 것인데
예) "나는 한국에 산다"에서 candidate로 "한국"이 지정되었을 때, gazetteer에서 "한국"의 representation을 가져온다면, 효과적이라는 것이다.
즉, 테스트(인퍼런스) 때는 아마도 candidate region이 gazetteer 네트워크로 들어가는 식으로 생각된다.

4 Experiments

4.1 Experimental Settings

Data Preparation.

우리는 ACE2005에서 NER 실험을 수행하였다.
Wang and Lu (2018); Katiyar and Cardie (2018)와 똑같은 데이터세트 스플릿을 사용하였다.
ACE2005의 각 entity type에서, 우리는 위키피디아 anchor text로부터 gazetter을 수집하였다.

즉 유형이 동일한 엔티티에 연결되는 anchor 텍스트는 gazetteer에 포함됩니다.

이전의 연구와 똑같이, 모델들은 micro-F1을 사용하여 평가된다.
time complexity and recall의 균형을 맞추기 위해 Wang and Lu (2018)에 따라 mention 길이를 최대 6 개로 제한하여 93 % 이상의 멘션을 포함합니다.

Baselines. Following methods were compared:

1) LSTM-CRF (Lample et al., 2016), which is the most widely used NER baseline, but it cannot handle nested or overlapping mentions.
2) Neural Transition (Wang et al., 2018), a transition model which achieved very competitive performance on ACE2005.
3) Segmental Hypergraph (Wang and Lu, 2018), a hypergraph-based model which introduces a new tagging schema and achieved the state-of-the-art performance on ACE2005.
4) Exhaustive Model (Sohrab and Miwa, 2018), a region-based model using a region encoder to capture both inner and boundary features of a candidate region, which is similar to ANN without attentive contextual encoder.
4) ref 논문을 보면, region의 영역을 maximum length L로 제한하여 모든 가능한 것에 대해 네트워크에 pass 시키는 것을 보아, 여기서도 비슷하게 하는 것으로 생각

4.2 Overall Results

Table 1 shows the overall results of our methods compared with baselines.

1) name과 context knowledge 둘다 명시적으로 모델링하여, 제안된 attentive neural network는 효과적으로 region-based NER model이고 SoTA 성능을 달성한다.

basline들과 비교하여 ANN은 F1 score의 놀라운 향상을 보여준다.

2) name knowledge을 gazetteers과 결합하는 것은 성능에 중요한 향상을 보여준다.
GEANN은 ANN에 비해 1.1 F1-score의 향상을 보여준다.

이것은 gazetteers로부터 학습된 name knowledge가 region encoder을 도와주고 그래서 NER 성능을 향상시킨다.

3) 우리의 attentive context encoder은 효과적인 방법으로 NER에 대한 context knowledge을 활용한다.

Exhaustive 베이스라인에 비교하여, ANN은 entitiy mentions과 그들의 contexts 사이의 결합을 명식적으로 모델링하여 효과적인 성능을 달성한다.

4.3 Effects of Gazetteer Network

gazetteers의 효과를 조사하기 위해, 그림 2는 학습 데이터의 변화에 따른 결과를 보여준다.
1) Transtion과 SH에서, 학습 데이터가 감소할 때 그들의 성능은 현저히 감소한다.

우리는 그들의 접근법이 복잡한 레이블 구조를 모델링하는 것을 필요로하기 때문에 large scale training 데이터가 중요하고 학습데이터의 감소는 그들에게 큰 영향을 준다.

2) Region-based 모델들은 학습데이터의 감소에 덜 민감하다.

우리는 이것은 그들의 출력 구조가 간단하기 때문이라 생각하고 그래서 적은 학습데이터만을 사용해서도 학습될 수 있다.

3) GEANN은 학습 데이터 사이즈의 상관없이 ANN에 비해 좋은 성능을 보여준다.

gazetteers로부터 name knowledge을 활용하여, GEANN은 오직 50%의 학습데이터만으로도 전체 데이터로 학습한 ANN과 비슷한 성능을 보여준다.

4.4 GEANN with BERT

Pretrained context-aware representation인 ELMOs, BERT와 같은 것은 많은 NLP tasks에서 적은 리소스만으로도 놀라운 성능향상을 보여준다.
제안된 GEANN의 적합성을 확인하기위해, 우리는 BERT representation을 사용한 word embedding으로 교체해보았다.
BERT을 사용하면 NER을 향상시키고, GEANN은 학습 데이터사이즤에 상관없이 BERT위에서 놀라운 성능향상을 보여준다.
입증된 GEANN은 더 나아가서 task-specific name knowledge을 캡쳐하고 이는 일반적인 pretrained LM으로 보완한다.

5 Related Work (번역)

순차적 라벨링 접근법 (Zhou and Su, 2002; Chieu and Ng, 2002; Bender et al., 2003; Settles, 2004; Lample et al., 2016)은 NER에서 널리 사용됩니다.
그러나이 패러다임은 특별히 설계된 태깅 스키마 없이는 중첩 된 멘션을 처리 할 수 없습니다 (Lu and Roth, 2015; Katiyar and Cardie, 2018; Wang and Lu, 2018; Lin et al., 2019).
최근에는 지역 기반 모델이이 문제에 대한 자연스러운 솔루션을 제공합니다.
Finkel and Manning (2009)은 먼저 구문 분석 트리 노드에 해당하는 영역을 분류하도록 제안했습니다.
Xu et al. (2017)은 신경망 모델을 사용하여 모든 하위 시퀀스를 직접 분류하도록 제안했습니다.
Sohrab과 Miwa (2018)는 새로운 영역 인코더를 도입하여 방법을 확장했습니다.
일반적으로 이러한 방법은 유망한 결과를 얻었지만 완전히 주석이 달린 데이터에 크게 의존합니다.
Gazetteers 또는 사전은 오랫동안 NER에게 유용하고 쉽게 구할 수있는 리소스로 간주되어 왔습니다.
이전의 방법은 일반적으로 gazetteers를 수공예 기능으로 사용하거나 원격 감독으로 데이터를 생성하는 데 사용하여 통합했습니다.
그러나 첫 번째 유형의 방법은 지명 사전에 수반되는 내부 언급 구조 지식을 완전히 활용할 수 없으며 두 번째 방법은 현저한 소음을 초래합니다.

6 Conclusions

이 논문은, 먼저 attentive neural networks을 제안하고 이는 효과적인 region-based 모델로 mention-context 연관성을 명시적으로 모델링한다.
그래서, 우리는 auxiliary gazetteer 네트워크를 ANN에 결합하여 강화시키는 것을 제안한다.
gazetteer network은 오직 쉽게 얻을 수 있는 gazetteers을 사용하여 효과적으로 name knowledge을 학습하고 모델 성능을 크게 향상시키고 데이터의 필요를 줄여준다.
실험들은 GEANN이 적은 데이터의 필요성만으로 ACE2005에서 SoTA 달성을 보여준다.

Reference

https://www.aclweb.org/anthology/D19-1646.pdf

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-087, Gazetteer-Enhanced Attentive Neural Networks for Named Entity Recognition (2019-EMNLP)

■ Comment

0. Abstract

1 Introduction

2 Attentive Neural Network for NER

3 Gazetteer-Enhanced ANN

4 Experiments

4.1 Experimental Settings

4.2 Overall Results

4.3 Effects of Gazetteer Network

4.4 GEANN with BERT

5 Related Work (번역)

6 Conclusions

댓글

댓글 쓰기