Short-013, Named Entity Recognition with Context-Aware Dictionary Knowledge (2020-CCL)
◼️ Comment
- 이 논문의 요지는 contextual information만으로 NER 하지 말고 dictionary 정보를 활용하자는 것이다.
- 물론 이런 시도는 전부터 있어왔는데 이전 방법들은 dictionary 정보와 contextual 정보를 잘 결합을 안했나 보다.
- 분명히 했을거 같은데...?
- 아무튼, 이 논문에서는 그래서 엔티티를 예측할 때, 각 단어(mathced term)에 해당하는 dictionary 정보를 BiGRU을 태워서 뽑는다.
- 그다음, context 정보를 (text representation) 뽑은 것과 attention을 태운다.
- 여기서 context 정보는 BERT와 같은 것을 이용한다.
- 자세한 과정은 수식을 참고..
- 이렇게 해서 모델을 학습하면, 성능이 향상된다는 것인데
- 논문의 향상은 사실 크다고 보이지 않는다.
- 솔직히 이정도는 매 학습때마다 뒤집어 질 수 있을 정도의 차이라고 보여진다.
- 무엇보다, 10%의 학습 데이터만 사용했을 때에도 큰 향상이 없는게 약간 의아했다.
- 데이터가 부족하면, 효과가 커야할 거 같은데 그래보이지 않았기 때문이고 1% 데이터로 하면 어떨가 궁금하다.
- 어쨌든, dictionary의 정보를 추가하면 성능 향상이 일어남은 이제는 꽤 사실로 받아들여진다고 생각된다.
- 추가적으로
- 논문을 간단히만 봐서 아닐 수도 있지만...
- 여기서 말하는 auxiliary라는게 dictionary 정보라는 것을 뽑기 위해서 학습하는 task 같다.
0 Abstract
- Named entity recognition (NER)은 NLP 분야에서 중요한 테스크이다.
- 기존의 NER 방법들은 model 학습을 위해 labeled data에 과하게 의존하고 rare entites에 대한 그들의 성능은 보통 불만족스럽다.
- entity 사전들은 유명하거나 희귀한 것들을 모두 포함하는 많은 entities을 커버할 수 있고 NER에 대해 유용하다.
- 그러나, 많은 entity names들은 context-dependent하고 context의 고려없이 dictinaries을 바로 적용하는 것은 optimal이 아니다.
- 이 논문에서, 우리는 neural NER 접근법을 소개하고, 이는 contextual information을 담는 dicionary knowledge을 이용할 수 있다.
- 우리는 사전들속의 entites와 context-dictionary attention을 통한 contexts 사이의 interactions을 모델링함으로써 context-aware dictionary knowledge을 배우는 것을 제안한다.
- 추가적으로, 우리는 contexts와 dicrionary knoweldege 두 개를 융합하기 위해 NER모델에 auxiliary term classification task에 제안하여 matched entity names의 타입을 예측하도록 jointly 학습한다.
- CoNLL-2003 벤치 마크 데이터 세트에 대한 광범위한 실험은 다양한 NER 모델의 성능을 개선하기 위해 엔티티 사전을 활용하는 방법의 효율성을 검증합니다.
1 Introduction
- NER은 texts에서 entity names을 추출하고 그들이 pre-defined 여러 카테고리들로(예. person, location and organization) 분류하는게 목적이다.
- 이것은 NLP에서 중요한 테스크이고 entity linking와 relation extraction과 같은 많은 다운스트림 어플리케이션에 대해 전제조건이다.
- 따라서 NER은 핫한 연구 토픽이다.
- 이 논문에서, 우리는 영어 NER 테스크에 집중한다.
- 많은 방법들은 영어 NER에 대해 제안되어왔고 그들중의 대부분은 이러한 테스크를 word-level sequence labeling 문제로 모델링한다.
- 예를 들어, Ma and Hovy (2016)은 CNN-LSTM-CRF 모델을 영어 NER에 대해 제안했다.
- 그들은 CNN을 사용해서 characters로부터 word representations을 배우고, LSTM은 words의 contexts을 모델링하고 CRF로 labels을 decode한다.
- 이러한 기존의 NER 방법들은 보통 모델 학습에 방대한 labeled data에 의존하고, 이는 annotate하는데 비용과 시간이 많이 든다.
- 학습 데이터가 부족할 때, 그들의 성능은 보통 현저히 감소된다 (Peng et al., 2019).
- 또한 훈련 데이터에 거의 나타나지 않는 entities을 인식하는 성능은 일반적으로 만족스럽지 않습니다 (Wang et al., 2019).
- 운좋게도, 위키피디아와 같은 많은 large-scale entity dictionaries와 Geonames은 오래된 것이고, 그들은 쉽게 knowledge bases와 webpages으로부터 도출되었다.
- 이러한 entity dictionaries은 popular and rare entity names을 모두 포함하고 NER 모델이 이러한 entity names을 식별하는데 중요한 정보를 제공할 수 있다.
- 몇몇 연구자들은 entiy dictionary을 NER에 결합하고 (Liu et al., 2019; Magnolini et al., 2019) 그들 중 대부분은 dictionary matching features을 기반으로 한다.
- 예를 들어, Wang (2019)는 token embeddings인 token matching features와 LSTM outputs와 결합하는 것을 제시한다.
- 그러나, 많은 케이스에서 entities은 context-dependent하다.
- 그래서, entity dictionaries을 NER에 contexts을 고려없이 직접적으로 적용하는 것은 최적이 아니다.
- 이 논문에서, 우리는 context-aware dictionary knowledge (CADK)으로 NER을 위한 neural 접근법을 소개한다.
- 우리는 entity dictionaries와 그들의 context에의해 매칭된 entity names 사이의 연관성을 모델링함으로써 context-aware 방법에서 dictionary knowledge을 이용한다.
- 추가적으로, 우리는 auxiliary term classification task을 제안하여 다른 contexts에서 매칭된 entity names의 타입을 예측한다.
- 게다가, 우리는 unified framework을 제안하여 NER 모델과 term classification 모델을 같이 학습하여 entity dictionary knowledge와 contextual information을 NER 모델에 결합한다.
- 광범위한 실험을 통해 우리의 접근 방식은 엔티티 사전을 효과적으로 활용하여 다양한 NER 모델의 성능을 개선하고 레이블이 지정된 데이터에 대한 종속성을 줄일 수 있음을 보여줍니다.
2 Related Work
3 CADK Approach for NER
- 번역으로 간단히...
- 이 섹션에서는 CADK (Context-Aware Dictionary Knowledge)를 사용한 NER 접근 방식을 소개합니다.
- 우리의 접근 방식의 아키텍처는 그림 1에 나와 있습니다.
- 우리의 접근 방식은 주로 텍스트 표현, 용어 표현, 문맥 사전주의, 용어 분류 및 시퀀스 태깅의 다섯 가지 구성 요소를 포함합니다.
- text representation,
- term representation,
- context-dictionary attention,
- term classification
- sequence tagging
- 다음으로 각 모듈의 세부 사항을 다음과 같이 소개합니다.
3.1 Text Representation
- 첫 번째 모듈은 텍스트 표현 모델로, 입력 텍스트에서 각 단어의 문맥 표현을 학습하는 데 사용됩니다.
- CNN (Zhu and Wang, 2019), LSTM (Huang et al., 2015) 및 GRU (Peters et al., 2017)와 같은 다양한 신경 텍스트 표현 모델 또는 ELMo ( Peters et al., 2018) 및 BERT (Devlin et al., 2019).
- 입력 텍스트의 단어 시퀀스를 [w1, w2, ... wN]으로 표시합니다. 여기서 N은 단어 수입니다.
- 텍스트 표현 모델은 R = [r1, r2, ..., rN]으로 표시되는 각 단어의 컨텍스트 표현을 포함하는 시퀀스를 출력합니다.
3.2 Term Representation
- 두 번째 모듈은 용어 표현으로, 엔티티 사전과 일치하는 용어의 표현을 얻는 데 사용됩니다.
- 일반적으로 엔티티 사전에는 인기있는 (예 : 미국) 및 희귀 한 엔티티 이름 (예 : Chatham)이 모두 포함되며 NER 모델이 이러한 엔티티 이름을 올바르게 인식하는 데 도움이 될 수 있습니다.
- 따라서 엔티티 사전은 NER의 성능을 개선하고 레이블이 지정된 데이터에 대한 의존성을 줄일 수있는 잠재력을 가지고 있습니다.
- 엔티티 사전에 유용한 정보를 통합하기 위해이를 사용하여 입력 텍스트를 일치시키고 M 엔티티 용어가 포함 된 후보 목록을 얻습니다.
- i 번째 용어의 단어 시퀀스를 [wi1, wi2, ... wiP]로 표시합니다.
- 여기서 P는이 용어의 단어 수를 나타냅니다.
- 용어 표현 모듈에서는 먼저 단어 임베딩 레이어를 사용하여 각 용어의 단어 시퀀스를 저 차원 벡터 시퀀스로 변환합니다.
- 이 레이어의 단어 임베딩 매개 변수는 텍스트 표현 모델과 공유됩니다.
- i 번째 용어의 단어 임베딩 시퀀스는 [wi1, wi2, ... wiP]로 표시됩니다.
- 그런 다음 각 용어의 단어 임베딩 시퀀스에 단어 수준 Bi-GRU 네트워크를 적용하여 숨겨진 용어 표현을 학습합니다.
- GRU 계층은 두 방향으로 각 용어의 단어 임베딩 시퀀스를 스캔하고이 용어의 표현으로 양방향의 마지막 숨겨진 상태를 결합합니다.
- i 번째 용어의 경우 해당 표현은 ti로 표시됩니다.
- M 개의 일치 된 항의 표현 순서를 T = [t1, t2, ..., tM]으로 표시합니다.
3.3 Context-Dictionary Attention
- 세 번째 모듈은 문맥 사전주의입니다.
- 많은 엔티티 이름은 컨텍스트에 따라 다릅니다.
- 예를 들어, "Jordan은 유명한 NBA 선수입니다"라는 문장에서 "Jordan"이라는 단어는 사람 이름에 포함되어 있으며 위치 이름으로도 자주 사용됩니다.
- 따라서 우리는 일치하는 엔티티 용어와 그 컨텍스트 간의 관계를 모델링하여 컨텍스트 인식 방식으로 사전 지식을 통합하는 것을 제안합니다.
- 사전과 문장의 문맥과 일치하는 용어 간의 상호 작용을 모델링하는 데 사용됩니다.
- 일반적으로 엔티티 이름은 동일한 텍스트의 다른 단어와 상호 작용할 수 있으며 이러한 상호 작용은 이러한 엔티티를 인식하는 데 중요합니다.
- 예를 들어, "Jordan은 농구 선수입니다"라는 문장에서 엔티티 "Jordan"과 단어 "player"사이의 상호 작용은 이 엔티티의 유형을 "person"으로 식별하는 데 매우 유용합니다.
- 또한 엔티티는 여러 단어와 상호 작용할 수 있습니다.
- 예를 들어, "He travels from Houston to Seattle"이라는 문장에서 엔티티 "Houston"과 "travels"및 "Seattle"과 같은 컨텍스트 간의 상호 작용은이 엔티티를 인식하는 데 유용한 단서입니다.
- 이러한 관찰에 동기를 부여하여 사전과 텍스트의 모든 단어와 일치하는 용어 간의 상호 작용을 모델링하기 위해 문맥 사전주의 모듈을 제안합니다.
- 문맥 사전주의 네트워크는 단어 표현 R = [r1, r2, ..., rN] 및 용어 표현 T = [t1, t2, ..., tM]의 (N과 M은 단어와 용어의 수) 시퀀스를 입력으로 취하고 사전 인식 출력을 출력합니다.
- 텍스트의 단어 표현 (D로 표시) 및 용어의 상황 인식 표현 (C로 표시).
- 우리는 용어와 맥락 간의 상호 작용을 모델링하기 위해 다중 머리 생산주의 메커니즘 (Vaswani et al., 2017)을 사용합니다.
- 사전 인식 단어 표현 시퀀스 D는 다음과 같이 계산됩니다.
3.4 Term Classification
- 네 번째 모듈은 용어 분류로, 용어의 표현 및 컨텍스트와의 상호 작용을 기반으로 사전과 일치하는 용어의 유형을 분류하는 데 사용됩니다.
- 엔티티 사전의 유용한 정보를 최대한 활용하기 위해 엔티티 사전과 일치하는 엔티티 이름의 유형을 예측하는 보조 용어 분류 작업을 제안합니다.
- 예를 들어, "Michael Jordan Beats Houston Rockets"문장에서 "Michael Jordan"및 "Houston Rockets"라는 용어가 사전과 일치하는 경우 모델은 이 문장의 맥락에서 이러한 용어의 유형을 분류해야 합니다.
- softmax 활성화 함수와 함께 조밀 한 계층을 사용하여 각 용어의 유형을 다음과 같이 분류합니다.
3.5 Sequence Tagging
4 Experiments
4.1 Dataset and Experimental Settings
4.2 Comparison with Baseline Methods
- 모델 학습을 위해 데이터에서 다른 비율 (즉, 10 %, 25 % 및 100 %)의 샘플을 무작위로 샘플링하여 다른 양의 레이블이 지정된 데이터에서 이러한 방법을 평가했습니다.
- 생각보다 큰 향상은 없다..
- 10%일때는 성능이 꽤 올라야 하는 것 아닌가?
4.3 Effectiveness of Context-Dictionary Attention
4.4 Performance on Rare Entities
- 이 논문에서, 우리는 neural NER 접근법을 제시하고, 이는 entity dictionaries와 contextual information을 결합하는 것이다.
- 우리의 접근법에서, 우리는 context-dictionary attention network을 제안하여 dictionaries에의해 매칭된 entity names와 텍스트속의 contexts 사이의 interactions을 모델링하게 한다.
- 추가적으로, 우리는 auxiliary term classification task을 제안한다.
- 이는 컨텍스트 기반의 dictionaries에 의해 매칭된 terms의 타입을 예측하는 것으로 entity dictionaries와 contexts의 정보를 결합하여 NER에 넣는 것이다.
- CoNLL-2003에서 광범위한 실험들은 우리의 접근법이 학습 데이터가 부족할 때, NER의 성능을 효과적으로 향상시킬 수 있음을 보여준다.
Reference
댓글
댓글 쓰기