◼️ Comment

이 논문의 요지는 contextual information만으로 NER 하지 말고 dictionary 정보를 활용하자는 것이다.
물론 이런 시도는 전부터 있어왔는데 이전 방법들은 dictionary 정보와 contextual 정보를 잘 결합을 안했나 보다.

분명히 했을거 같은데...?
아무튼, 이 논문에서는 그래서 엔티티를 예측할 때, 각 단어(mathced term)에 해당하는 dictionary 정보를 BiGRU을 태워서 뽑는다.
그다음, context 정보를 (text representation) 뽑은 것과 attention을 태운다.

여기서 context 정보는 BERT와 같은 것을 이용한다.

자세한 과정은 수식을 참고..

이렇게 해서 모델을 학습하면, 성능이 향상된다는 것인데

논문의 향상은 사실 크다고 보이지 않는다.
솔직히 이정도는 매 학습때마다 뒤집어 질 수 있을 정도의 차이라고 보여진다.
무엇보다, 10%의 학습 데이터만 사용했을 때에도 큰 향상이 없는게 약간 의아했다.
데이터가 부족하면, 효과가 커야할 거 같은데 그래보이지 않았기 때문이고 1% 데이터로 하면 어떨가 궁금하다.

어쨌든, dictionary의 정보를 추가하면 성능 향상이 일어남은 이제는 꽤 사실로 받아들여진다고 생각된다.
추가적으로

논문을 간단히만 봐서 아닐 수도 있지만...
여기서 말하는 auxiliary라는게 dictionary 정보라는 것을 뽑기 위해서 학습하는 task 같다.

0 Abstract

Named entity recognition (NER)은 NLP 분야에서 중요한 테스크이다.
기존의 NER 방법들은 model 학습을 위해 labeled data에 과하게 의존하고 rare entites에 대한 그들의 성능은 보통 불만족스럽다.
entity 사전들은 유명하거나 희귀한 것들을 모두 포함하는 많은 entities을 커버할 수 있고 NER에 대해 유용하다.
그러나, 많은 entity names들은 context-dependent하고 context의 고려없이 dictinaries을 바로 적용하는 것은 optimal이 아니다.
이 논문에서, 우리는 neural NER 접근법을 소개하고, 이는 contextual information을 담는 dicionary knowledge을 이용할 수 있다.
우리는 사전들속의 entites와 context-dictionary attention을 통한 contexts 사이의 interactions을 모델링함으로써 context-aware dictionary knowledge을 배우는 것을 제안한다.
추가적으로, 우리는 contexts와 dicrionary knoweldege 두 개를 융합하기 위해 NER모델에 auxiliary term classification task에 제안하여 matched entity names의 타입을 예측하도록 jointly 학습한다.
CoNLL-2003 벤치 마크 데이터 세트에 대한 광범위한 실험은 다양한 NER 모델의 성능을 개선하기 위해 엔티티 사전을 활용하는 방법의 효율성을 검증합니다.

1 Introduction

NER은 texts에서 entity names을 추출하고 그들이 pre-defined 여러 카테고리들로(예. person, location and organization) 분류하는게 목적이다.
이것은 NLP에서 중요한 테스크이고 entity linking와 relation extraction과 같은 많은 다운스트림 어플리케이션에 대해 전제조건이다.
따라서 NER은 핫한 연구 토픽이다.
이 논문에서, 우리는 영어 NER 테스크에 집중한다.
많은 방법들은 영어 NER에 대해 제안되어왔고 그들중의 대부분은 이러한 테스크를 word-level sequence labeling 문제로 모델링한다.

예를 들어, Ma and Hovy (2016)은 CNN-LSTM-CRF 모델을 영어 NER에 대해 제안했다.
그들은 CNN을 사용해서 characters로부터 word representations을 배우고, LSTM은 words의 contexts을 모델링하고 CRF로 labels을 decode한다.
이러한 기존의 NER 방법들은 보통 모델 학습에 방대한 labeled data에 의존하고, 이는 annotate하는데 비용과 시간이 많이 든다.

학습 데이터가 부족할 때, 그들의 성능은 보통 현저히 감소된다 (Peng et al., 2019).
또한 훈련 데이터에 거의 나타나지 않는 entities을 인식하는 성능은 일반적으로 만족스럽지 않습니다 (Wang et al., 2019).
운좋게도, 위키피디아와 같은 많은 large-scale entity dictionaries와 Geonames은 오래된 것이고, 그들은 쉽게 knowledge bases와 webpages으로부터 도출되었다.
이러한 entity dictionaries은 popular and rare entity names을 모두 포함하고 NER 모델이 이러한 entity names을 식별하는데 중요한 정보를 제공할 수 있다.
몇몇 연구자들은 entiy dictionary을 NER에 결합하고 (Liu et al., 2019; Magnolini et al., 2019) 그들 중 대부분은 dictionary matching features을 기반으로 한다.

예를 들어, Wang (2019)는 token embeddings인 token matching features와 LSTM outputs와 결합하는 것을 제시한다.

그러나, 많은 케이스에서 entities은 context-dependent하다.

예를 들어, Table 1에서, word "Jordan"은 다른 contexts에서 persona name 혹은 lcoation name이 다 될 수 있다.

그래서, entity dictionaries을 NER에 contexts을 고려없이 직접적으로 적용하는 것은 최적이 아니다.
이 논문에서, 우리는 context-aware dictionary knowledge (CADK)으로 NER을 위한 neural 접근법을 소개한다.
우리는 entity dictionaries와 그들의 context에의해 매칭된 entity names 사이의 연관성을 모델링함으로써 context-aware 방법에서 dictionary knowledge을 이용한다.
추가적으로, 우리는 auxiliary term classification task을 제안하여 다른 contexts에서 매칭된 entity names의 타입을 예측한다.
게다가, 우리는 unified framework을 제안하여 NER 모델과 term classification 모델을 같이 학습하여 entity dictionary knowledge와 contextual information을 NER 모델에 결합한다.
광범위한 실험을 통해 우리의 접근 방식은 엔티티 사전을 효과적으로 활용하여 다양한 NER 모델의 성능을 개선하고 레이블이 지정된 데이터에 대한 종속성을 줄일 수 있음을 보여줍니다.

2 Related Work

3 CADK Approach for NER

번역으로 간단히...
이 섹션에서는 CADK (Context-Aware Dictionary Knowledge)를 사용한 NER 접근 방식을 소개합니다.
우리의 접근 방식의 아키텍처는 그림 1에 나와 있습니다.

우리의 접근 방식은 주로 텍스트 표현, 용어 표현, 문맥 사전주의, 용어 분류 및 시퀀스 태깅의 다섯 가지 구성 요소를 포함합니다.

text representation,
term representation,
context-dictionary attention,
term classification
sequence tagging

다음으로 각 모듈의 세부 사항을 다음과 같이 소개합니다.

3.1 Text Representation

첫 번째 모듈은 텍스트 표현 모델로, 입력 텍스트에서 각 단어의 문맥 표현을 학습하는 데 사용됩니다.
CNN (Zhu and Wang, 2019), LSTM (Huang et al., 2015) 및 GRU (Peters et al., 2017)와 같은 다양한 신경 텍스트 표현 모델 또는 ELMo ( Peters et al., 2018) 및 BERT (Devlin et al., 2019).
입력 텍스트의 단어 시퀀스를 [w1, w2, ... wN]으로 표시합니다. 여기서 N은 단어 수입니다.
텍스트 표현 모델은 R = [r1, r2, ..., rN]으로 표시되는 각 단어의 컨텍스트 표현을 포함하는 시퀀스를 출력합니다.

3.2 Term Representation

두 번째 모듈은 용어 표현으로, 엔티티 사전과 일치하는 용어의 표현을 얻는 데 사용됩니다.
일반적으로 엔티티 사전에는 인기있는 (예 : 미국) 및 희귀 한 엔티티 이름 (예 : Chatham)이 모두 포함되며 NER 모델이 이러한 엔티티 이름을 올바르게 인식하는 데 도움이 될 수 있습니다.
따라서 엔티티 사전은 NER의 성능을 개선하고 레이블이 지정된 데이터에 대한 의존성을 줄일 수있는 잠재력을 가지고 있습니다.
엔티티 사전에 유용한 정보를 통합하기 위해이를 사용하여 입력 텍스트를 일치시키고 M 엔티티 용어가 포함 된 후보 목록을 얻습니다.
i 번째 용어의 단어 시퀀스를 [wi1, wi2, ... wiP]로 표시합니다.

여기서 P는이 용어의 단어 수를 나타냅니다.

용어 표현 모듈에서는 먼저 단어 임베딩 레이어를 사용하여 각 용어의 단어 시퀀스를 저 차원 벡터 시퀀스로 변환합니다.
이 레이어의 단어 임베딩 매개 변수는 텍스트 표현 모델과 공유됩니다.

i 번째 용어의 단어 임베딩 시퀀스는 [wi1, wi2, ... wiP]로 표시됩니다.

그런 다음 각 용어의 단어 임베딩 시퀀스에 단어 수준 Bi-GRU 네트워크를 적용하여 숨겨진 용어 표현을 학습합니다.
GRU 계층은 두 방향으로 각 용어의 단어 임베딩 시퀀스를 스캔하고이 용어의 표현으로 양방향의 마지막 숨겨진 상태를 결합합니다.
i 번째 용어의 경우 해당 표현은 ti로 표시됩니다.
M 개의 일치 된 항의 표현 순서를 T = [t1, t2, ..., tM]으로 표시합니다.

3.3 Context-Dictionary Attention

세 번째 모듈은 문맥 사전주의입니다.
많은 엔티티 이름은 컨텍스트에 따라 다릅니다.
예를 들어, "Jordan은 유명한 NBA 선수입니다"라는 문장에서 "Jordan"이라는 단어는 사람 이름에 포함되어 있으며 위치 이름으로도 자주 사용됩니다.
따라서 우리는 일치하는 엔티티 용어와 그 컨텍스트 간의 관계를 모델링하여 컨텍스트 인식 방식으로 사전 지식을 통합하는 것을 제안합니다.
사전과 문장의 문맥과 일치하는 용어 간의 상호 작용을 모델링하는 데 사용됩니다.
일반적으로 엔티티 이름은 동일한 텍스트의 다른 단어와 상호 작용할 수 있으며 이러한 상호 작용은 이러한 엔티티를 인식하는 데 중요합니다.
예를 들어, "Jordan은 농구 선수입니다"라는 문장에서 엔티티 "Jordan"과 단어 "player"사이의 상호 작용은 이 엔티티의 유형을 "person"으로 식별하는 데 매우 유용합니다.
또한 엔티티는 여러 단어와 상호 작용할 수 있습니다.
예를 들어, "He travels from Houston to Seattle"이라는 문장에서 엔티티 "Houston"과 "travels"및 "Seattle"과 같은 컨텍스트 간의 상호 작용은이 엔티티를 인식하는 데 유용한 단서입니다.
이러한 관찰에 동기를 부여하여 사전과 텍스트의 모든 단어와 일치하는 용어 간의 상호 작용을 모델링하기 위해 문맥 사전주의 모듈을 제안합니다.
문맥 사전주의 네트워크는 단어 표현 R = [r1, r2, ..., rN] 및 용어 표현 T = [t1, t2, ..., tM]의 (N과 M은 단어와 용어의 수) 시퀀스를 입력으로 취하고 사전 인식 출력을 출력합니다.
텍스트의 단어 표현 (D로 표시) 및 용어의 상황 인식 표현 (C로 표시).
우리는 용어와 맥락 간의 상호 작용을 모델링하기 위해 다중 머리 생산주의 메커니즘 (Vaswani et al., 2017)을 사용합니다.
사전 인식 단어 표현 시퀀스 D는 다음과 같이 계산됩니다.

3.4 Term Classification

네 번째 모듈은 용어 분류로, 용어의 표현 및 컨텍스트와의 상호 작용을 기반으로 사전과 일치하는 용어의 유형을 분류하는 데 사용됩니다.
엔티티 사전의 유용한 정보를 최대한 활용하기 위해 엔티티 사전과 일치하는 엔티티 이름의 유형을 예측하는 보조 용어 분류 작업을 제안합니다.
예를 들어, "Michael Jordan Beats Houston Rockets"문장에서 "Michael Jordan"및 "Houston Rockets"라는 용어가 사전과 일치하는 경우 모델은 이 문장의 맥락에서 이러한 용어의 유형을 분류해야 합니다.
softmax 활성화 함수와 함께 조밀 한 계층을 사용하여 각 용어의 유형을 다음과 같이 분류합니다.

3.5 Sequence Tagging

4 Experiments

4.1 Dataset and Experimental Settings

4.2 Comparison with Baseline Methods

모델 학습을 위해 데이터에서 다른 비율 (즉, 10 %, 25 % 및 100 %)의 샘플을 무작위로 샘플링하여 다른 양의 레이블이 지정된 데이터에서 이러한 방법을 평가했습니다.
생각보다 큰 향상은 없다..
10%일때는 성능이 꽤 올라야 하는 것 아닌가?

4.3 Effectiveness of Context-Dictionary Attention

4.4 Performance on Rare Entities

4.5 Influence on Dictionary Size

4.6 Influence of Hyper-parameters

4.7 Case Study

5 Conclusion

이 논문에서, 우리는 neural NER 접근법을 제시하고, 이는 entity dictionaries와 contextual information을 결합하는 것이다.
우리의 접근법에서, 우리는 context-dictionary attention network을 제안하여 dictionaries에의해 매칭된 entity names와 텍스트속의 contexts 사이의 interactions을 모델링하게 한다.
추가적으로, 우리는 auxiliary term classification task을 제안한다.

이는 컨텍스트 기반의 dictionaries에 의해 매칭된 terms의 타입을 예측하는 것으로 entity dictionaries와 contexts의 정보를 결합하여 NER에 넣는 것이다.

CoNLL-2003에서 광범위한 실험들은 우리의 접근법이 학습 데이터가 부족할 때, NER의 성능을 효과적으로 향상시킬 수 있음을 보여준다.

Reference

https://www.aclweb.org/anthology/2020.ccl-1.85.pdf

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

Short-013, Named Entity Recognition with Context-Aware Dictionary Knowledge (2020-CCL)

◼️ Comment

0 Abstract

1 Introduction

2 Related Work

3 CADK Approach for NER

3.1 Text Representation

3.2 Term Representation

3.3 Context-Dictionary Attention

3.4 Term Classification

3.5 Sequence Tagging

4 Experiments

4.1 Dataset and Experimental Settings

4.2 Comparison with Baseline Methods

4.3 Effectiveness of Context-Dictionary Attention

4.4 Performance on Rare Entities

4.5 Influence on Dictionary Size

4.6 Influence of Hyper-parameters

4.7 Case Study

5 Conclusion

댓글

댓글 쓰기