NL-086, A Unified MRC Framework for Named Entity Recognition (2020-ACL)

■ Comment

  • 상당히 흥미롭게 읽은 논문이다.
  • 컨셉은 BERT-MRC 모델로 NER tagging을 했다는 것이다.
  • NER에는 flat과 nested 두 가지로 나뉘는데, flat이 일반적인 NER이고 nested는 한 단어가 여러 개의 entites을 가지고 그런 것을 말하는 것이다.
  • 이 논문의 방법은 두 NER에서 다 성능이 SoTA지만, nested NER에서 효과를 강조해서 말하고 있다.
  • 성능이 좋은 대표적인 이유는 pretrained 모델을 사용한 부분도 있지만, query을 만들어서 사전 정보를 인코딩하는 것이 그 효과이다.
  • 여기서 어려울 것이라고 생각되는 부분은 multi start와 end index을 매칭시키는 부분이다.
    • 즉 ORG tag가 어떤 단어야? 라고 물어보면 여러 부분의 start와 end가 뽑힐텐데, 이를 토큰 sim 형식으로 매칭을 시킨다.
    • 성능이 좋은 것을 보면 괜찮은 방법이겠지만, 뭔가 2% 부족한 생각이 들기는 한다.
    • 왜냐하면, 이 방식은 단순 끝 token의 contextualied embedidng만을 비교하는 것이기 떄문이다.
    • 즉 그 사이의 token까지 고려한 매칭이어야 뭔가 더 정확할 거 같다..
  • zero-shot 실험으로 unseen NER tag에 대해 찾는 실험을 했는데, 꽤 괜찮은 성능을 보여주는 상당히 흥미로운 부분이다.
  • Pretrined 모델이라 그런지, 적은 데이터만으로도 꽤 괜찮은 성능도 달성함을 보여준다.
  • NER 말고도 여러 분야에서 MRC로 문제를 해결하는 시도가 있었다고 하니 읽어보면 좋을 것 같다. (2.3 절 참고)

0. Abstract

  • NER 테스크는 일반적으로 named entities가 nested인지 아닌지에 따라 nested NER과 flat NER로 나뉜다.
  • 모델들은 보통 두 가지 테스크에 대해 분리되서 개발된다 왜냐하면 시퀀스 레이블링 모델들은 오직 특정 token에 하나의 레이블만 할당할 수 있기 때문이다.
  • 이는 토큰에 여러 개의 레이블을 할당할 수 있는 nested NER에 적합하지 않다.
  • 이 논문에서, 우리는 unified framework를 제안하여 flat과 nested NER 테스크를 모두 핸들링할 수 있게 한다.
  • NER을 시퀀스 레이블링 문제로 다루는 것 대신에, 우리는 MRC 테스크로 형식함을 제안한다.
  • 예를 들어, PER(PERSON)의 entities을 추출하는 것은 "which person is mentioned in the text"라는 질문에 해당하는 answer span을 추출하는 것이다.
    • 이게 된다고? 신기신기
  • 이러한 formulation은 자연스럽게 nested NER의 entity overlapping 이슈를 해결한다:
    • 카테고리가 다른 두 개의 겹치는 엔티티를 추출하려면 두 개의 독립적인 질문에 답해야합니다.
  • 추가적으로, query는 유익한 prior knowledge을 인코딩하기 때문에, 이 전략은 entity extraction의 수행에 용이하고 nested NER뿐만 아니라 flat NER에도 좋은 성능을 낸다.
  • We conduct experiments on both nested and flat NER datasets. 
  • 실험 결과는 proposed formulation가 효과적임을 보여준다.
  • Nested NER 데이터 세트, ACE04, ACE05, GENIA and KBP17와 flat NER 데이터세트 English CoNLL 2003, English OntoNotes 5.0, Chinese MSRA and Chinese OntoNotes 4.0에서 SoTA을 달성한다.
  • 코드와 데이터 세트는 https://github.com/ShannonAI/mrc-for-flat-nested-ner에서 찾을 수 있습니다.

1 Introduction

  • NER은 text의 chunk으로부터 엔티티들의 semantic 카테고리와 span을 찾는 테스크를 말한다.
  • 테스크는 2개의 카테고리로 나뉠 수 있다: nested NER와 flat NER로 entities가 nested인지 아닌지에 따라 나뉜다.
  • Nested NER refers to a phenomenon that the spans of entities (mentions) are nested, as shown in Figure 1. 
  • 엔티티 overlapping은 자연어의 일반적인 현상이다.
  • flat NER 테스크는 일반적으로 시퀀스 레이블링 테스크로 되어있다.
    • 시퀀스 라벨링 모델 (Chiu and Nichols, 2016; Ma and Hovy, 2016; Devlin et al., 2018)은 토큰 시퀀스 내의 각 단위에 단일 태깅 클래스를 할당하도록 훈련되었습니다.
    • 이 formulation은 불행히도 nested NER (Huang et al., 2015; Chiu and Nichols, 2015)에서 nested 엔티티를 처리 할 수 없으며, 토큰이 여러 엔티티에 참여하는 경우 단일 토큰에 여러 범주를 할당해야합니다.
  • 많은 시도들이 nested NER을 가지는 시퀀스 라벨링 모델들을 파이프라인 시스템을 기반으로 조정하려고 해왔다.
    • 그러나 파이프라인 시스템은 error propagation, long running time과 hand-crafted 특징들로 개발된 집약등의 단점으로부터 고통을 받는다.
  • NLP 문제를 questiona ansering으로 형식화하는 현재 트렌드 (Levy et al., 2017; McCann et al., 2018; Li et al., 2019)에서 영감을 받아
    • 우리는 flat 및 nested NER을 모두 처리 할 수있는 새로운 프레임 워크를 제안합니다. 
    • NER의 테스크를 시퀀스 라벨링 문제로 처리하는 대신 SQuAD 스타일 (Rajpurkar et al., 2016, 2018) MRC (machine reading comprehension) 작업으로 공식화 할 것을 제안한다.
  • 각 엔티티 타입은 자연어 query에의해 특직되어지고 엔티티들은 주어진 contexts에서 이러한 querries들에 답함으로써 추출되게 된다.
    • 예를 들어, PER(PERSON)을 할당하는 다음의 문장에서 할당한다고 했을 때
    • 문장: “[Washington] was born into slavery on the farm of James Burroughs” 
    • “which person is mentioned in the text?”의 질문에 대해 답변을 찾는 것이 PER이 되는 것이다.
  • 이 전략은 자연스럽게 nested NER에서 발생하는 overlapping entity를 해결한다.
    • 서로 다른 카테고리가 겹치는 두 엔티티들을 추출하려면 두 개의 독립적인 질문에 답을 요구한다. 
    • 즉 질문을 하나만 하는 것이 아니라 여러 개 한다는 것이다.
    • 근데 그러면 쓰잘데기 없는 질문을 해야하는 경우도 있을텐데 이것이 잘 되나? 궁금함
  • MRC 형식은 또한 시퀀스 레이블링 형식에서 다른 핵심 장점을 가지고 있다.
  • golden NER 카테고리들은 단지 class indexes이고 엔티티 카테고리를위한 semantic prior information에 대한 사전 정보가 부족하다.
    • 예를 들어, ORG(ORGANIZATION) class는 시퀀스 레이블링 학습에서 onehot vector로 다루어진다.
    • 무엇을 추출 할 것인지에 대한 명확성이 부족하면 성능이 저하됩니다.
    • 반대로, MRC 형식에서는 query가 엔티티 카테고리에 대한 중요한 prior 정보를 인코딩하여 추출한다.
    • 예를 들어, query: “find an organization such as company, agency and institution in the context”
    • 모델이 query속 "organization"의 단어에 링크를 걸어 컨텍스트안에있는 엔티티들의 위치를 찾는다.
    • 즉, 일반적으로 classification 문제로 봤을 때는 단지 레이블이 one hot vector로 되어있으니까 의미가 정해져있지 않다는 것이다.
    • 하지만 QA 방식은 질문에 명시적으로 단어를 언급을 하니 좋다는 것 같다.
    • 또한 태깅 카테고리(예 : ORG)의 포괄적인 설명 (예 :  “company, agency and institution”)을 인코딩함으로써 모델은 유사한 태그 지정 클래스를 명확하게 할 수 있습니다.
  • 우리는 접근 방식의 일반성을 보여주기 위해 nested 및 flat NER 데이터 세트에 대한 실험을 수행합니다.
  • 실험 결과는 효과적임을 보여준다.
  • 우리는 nested NER 데이터세트에 대해 이전의 SoTA에 비해 성능 향상을 보여준다. (+1.28, +2.55, +5.44, +6.37, respectively on ACE04, ACE05, GENIA and KBP17)
  • flat NER 데이터세트에서도 다음과 같은 성능 향상을 보여준다. (+0.24, +1.95, +0.21, +1.49 respectively on English CoNLL 2003, English OntoNotes 5.0, Chinese MSRA, Chinese OntoNotes 4.0. )
    • 이 논문을 택한 이유 중에 하나가 paperswithcode의 SoTA 방법론 or 상위 랭킹에 이 논문이 많이 보인 이유다.
  • 우리의 테스크가 NER에 대한 새로운 패러다임의 도입에 영감을 주었으면 합니다.

2 Related Work (번역)

2.1 Named Entity Recognition (NER)

  • 전통적인 서열 라벨링 모델은 NER의 백본으로 CRF (Lafferty et al., 2001; Sutton et al., 2007)를 사용합니다.
  • NER에 대한 신경 모델을 사용한 첫 번째 작업은 Hammerton (2003)이 단방향 LSTM을 사용하여 문제를 해결하려했던 2003 년으로 거슬러 올라갑니다.
  • Collobert et al. (2011)은 Santos와 Guimaraes (2015)의 캐릭터 임베딩으로 보강 된 CNN-CRF 구조를 제시했습니다.
  • Lample et al. (2016)은 양방향 LSTM이 문자 기반 단어 표현 및 비지도 단어 표현을 기반으로 한 기능을 가진 CRF와 결합되는 NER의 신경 구조를 탐색했습니다.
  • Ma and Hovy (2016)와 Chiu and Nichols (2016)는 캐릭터 CNN을 사용하여 캐릭터에서 특징을 추출했습니다.
  • BERT (Devlin et al., 2018) 및 ELMo (Peters et al., 2018a)와 같은 최근 대규모 언어 모델 사전 훈련 방법은 NER의 성능을 더욱 향상시켜 최신 성능을 제공합니다.

2.2 Nested Named Entity Recognition

  • 엔티티 (멘션) 간의 overlapping은 Kim et al. (2003), 겹치는 언급을 식별하기 위해 손으로 만든 규칙을 개발했습니다. 
  • Alex et al. (2007)은 중첩 된 NER에 대해 두 가지 다층 CRF 모델을 제안했습니다.
  • 첫 번째 모델은 인사이드-아웃 모델로, 첫 번째 CRF는 가장 안쪽의 엔티티를 식별하고, 연속적인 레이어 CRF는 이전 CRF에서 추출 된 단어와 가장 안쪽의 엔티티 위에 구축되어 두 번째 레벨 엔티티 등을 식별합니다.
  • 다른 하나는 첫 번째 CRF가 가장 바깥 쪽 엔티티를 식별 한 다음 연속적인 CRF가 점점 더 중첩 된 엔티티를 식별하는 outsidein 모델입니다.
  • Finkel and Manning (2009)은 구문 분석 트리를 기반으로 중첩 된 엔티티 멘션을 추출하는 모델을 구축했습니다.
  • 그들은 겹칠 때 하나의 언급이 다른 언급에 의해 완전히 포함된다는 가정을했습니다. Lu and Roth (2015)는 중복되는 멘션을 인식하기 위해 멘션 하이퍼 그래프를 사용할 것을 제안했습니다.
  • Xu et al. (2017)은 겹치는 멘션을 감지하기 위해 가능한 모든 범위에서 실행되는 로컬 분류기를 사용했으며 Katiyar와 Cardie (2018)는 중첩 된 엔티티에 대한 하이퍼 그래프 표현을 학습하기 위해 신경 모델을 사용했습니다.
  • Ju et al. (2018) 계층 적 방식으로 동적으로 쌓인 평면 NER 레이어. Lin et al. (2019a)는 중첩 된 엔티티 멘션의 헤드 구동 구문 구조를 모델링하고 활용하여 ARN (Anchor-Region Networks) 아키텍처를 제안했습니다.
  • Luan et al. (2019)는 가장 확실한 엔터티 범위를 선택하고 이러한 노드를 신뢰 가중치 관계 유형 및 상호 참조와 연결하여 범위 열거 방식을 구축했습니다.
  • 다른 작품 (Muis and Lu, 2017; Sohrab and Miwa, 2018; Zheng et al., 2019)도 중첩 된 NER 문제를 해결하기위한 다양한 방법을 제안했습니다.
  • 최근에 중첩 된 NER 모델은 BERT (Devlin et al., 2018) 및 ELMo (Peters et al., 2018b)와 같은 사전 훈련 된 컨텍스트 임베딩으로 강화되었습니다.
  • Fisher와 Vlachos (2019)는 먼저 토큰 및 / 또는 엔티티를 엔티티로 병합 한 다음 이러한 엔티티에 레이블을 할당하는 BERT 기반 모델을 도입했습니다.
  • Shibuya and Hovy (2019)는 가장 바깥 쪽 항목에서 안쪽 항목으로 항목을 반복적으로 추출하는 추론 모델을 제공했습니다.
  • Strakova´ et al. (2019)는 중첩 된 NER를 시퀀스 대 시퀀스 생성 문제로 보았습니다. 여기서 입력 시퀀스는 토큰 목록이고 대상 시퀀스는 레이블 목록입니다.

2.3 Machine Reading Comprehension (MRC)

  • MRC 모델 (Seo et al., 2016; Wang et al., 2016; Wang and Jiang, 2016; Xiong et al., 2016, 2017; Wang et al., 2016; Shen et al., 2017; Chen et al. , 2017) 주어진 질문에 대한 구절에서 답을 추출합니다.
  • 작업은 두 개의 다중 클래스 분류 작업으로 공식화 될 수 있습니다. 즉, 답변 범위의 시작 및 끝 위치를 예측합니다.
  • 지난 1 ~ 2 년 동안 NLP 작업을 MRC 질문 답변으로 전환하는 추세가있었습니다.
  • 예를 들어, Levy et al. (2017)은 관계 추출 작업을 QA 작업으로 변환했습니다. 각 관계 유형 R (x, y)는 답이 y 인 질문 q (x)로 매개 변수화 될 수 있습니다. 
  • 예를 들어, EDUCATED-AT 관계는 "Where did x study?"로 매핑 될 수 있습니다.
  • 질문 q (x)가 주어 졌을 때, 문장에서 null이 아닌 답변 y를 추출 할 수 있다면 현재 문장의 관계 레이블이 R. McCann et al. (2018)은 요약 또는 감정 분석과 같은 NLP 작업을 질문 답변으로 전환했습니다.
  • 예를 들어, 요약 작업은 “What is the summary?”라는 질문에 대한 답으로 공식화 할 수 있습니다.
  • 우리의 작업은 Li et al. (2019), 개체-관계 추출 작업을 다 회전 질문 응답 작업으로 공식화했습니다.
  • 이 작품과는 달리 Li et al. (2019)는 NER보다는 관계 추출에 중점을 둡니다. 
  • 또한 Li et al. (2019)는 엔터티 간의 의미 관계를 추출하기 위해 쿼리를 구성하는 템플릿 기반 절차를 사용했으며 쿼리의 다양성이 부족했습니다.
  • 이 백서에서는 동의어 및 예제와 같은보다 factual knowledge을 queries에 통합하고 queries 구축 전략의 영향에 대한 깊은 분석을 제공합니다.
    • 즉, query을 어떻게 구성하냐에 따라 성능도 달라진다는 것

3 NER as MRC

3.1 Task Formalization

  • 시퀀스 X = {x1, x2, ..., xn}이 주어졌을 때, n은 여기서 시퀀스의 길이이고, 우리는 매 X안의 엔티티를 찾아야 하고 label y ∈ Y을 할당해야한다.
    • Y는 사전 정의된 모든 가능한 tag 타입들이다. (e.g., PER, LOC, etc). 
  • Dataset Construction
    • 먼저 tagging-style의 annotate된 NER 데이터 세트를 (QUESTION, ANSWER, CONTEXT) 트리플 세트로 변환한다.
    • 각 태그 유형 y ∈ Y에 대해 자연어 질문 과 연결됩니다. 
      • 여기서 m은 생성된 query 길이를 나타냅니다.
    • annotated entity 는 를 충족하는 X의 하위 문자열입니다. 
    • 각 엔티티는 golden 레이블 y ∈ Y와 연결됩니다.
    • 레이블 y를 기반으로 자연어 question 를 생성함으로써 우리는 필요한 (QUESTION, ANSWER, CONTEXT) 트리플인 을 얻을 수 있다.
    • 시퀀스에서 인덱스 'start'에서 'end'까지의 연속 토큰을 나타 내기 위해 아래 첨자 "start, end"를 사용합니다.
    • 즉 X문장에서 PERSON 엔티티를 찾는 문제라면
      • PERSON으로 을 생성한 게 첫 인자
      • 실제 PERSON에 해당하는 토큰들이 두 번째 인자
      • X가 세 번째 인자로
      • 의 입력이 들어가게 된다.

3.2 Query Generation

  • 질문 생성 절차는 queries가 레이블에 대한 prior knowledge을 인코딩하고 최종 결과에 중요한 영향을 미치기 때문에 중요합니다.
  • question generation을 제안한 다른 방법으로는 Li (2019)가 template-based 과정으로 queries을 구성하여 entities 사이의 semantic relation을 추출하는 것을 활용했습니다.
  • 이 논문에서는, 우리는 queries을 구성하기 위한 reference로 annotation 가이드라인을 가져간다.
    • Annotation guideline은 데이터세트 만든이가 annotator에게 주는 가이드라인이다.
  • 그들은 tag 카테고리의 설명들이며, 이는 annotators가 모호함 없이 어떠한 text안에서 concepts or mentions을 annotate할 수 있도록 가능한 generic과 precise(정확한)인 설명이다.
  • Examples are shown in Table 1.

3.3 Model Details

3.3.1 Model Backbone

  • 가 주어지면, 우리는 text span 을 뽑아야하고 이는 MRC 프레임워크에서 X로부터의 type y을 말한다.
  • We use BERT (Devlin et al., 2018) as the backbone. 
  • BERT와 같이, 와 passage X는 concatenated되어 string {[CLS], q1, q2, ..., qm, [SEP], x1, x2, ..., xn}을 구성한다.
  • 그리고나서, BERT는 string을 결합하여 context representation matrix E ∈ R(n×d)을 출력하고 d는 BERT 마지막 layer의 dimension이고 우리는 간단하게 query representation을 버린다.
    • 즉, X이전인 입력들인 [CLS], Q, [SEP]이 대한 embedding은 사용안한다는 것

3.3.2 Span Selection

  • MRC에서 span selection하는데는 2가지 전략이 있다.
  • 첫 번째 전략은 두 개의 n-class classifier을 가져서 start index와 end index을 예측하는 것으로 n은 context의 길이를 말한다.
    • softmax 함수는 컨텍스트의 모든 토큰에 적용되므로 이 전략은 쿼리가 주어진 경우 single span만 출력 할 수 있다는 단점이 있습니다. 
    • 즉, 이거는 context에 n개의 토큰이 있을 때, softmax결과로 n-vector을 2개를(start, end) 뽑는 것이다.
    • 그래서 start, end vecotr에서 가장 큰 확률이 각각 index가 되는 식이다.
  • 다른 전략은 두 개의 이진 분류기를 갖는 것입니다. 
    • 하나는 각 토큰이 시작 인덱스인지 여부를 예측하고 다른 하나는 각 토큰이 종료 인덱스인지 여부를 예측하는 것입니다.
    • 이 전략은, context and a specific query가 주어졌을 때, 여러 개의 start index와 여러 개의 end index을 출력할 수 있다.
    • 그리고 에 따라 관련된 모든 엔티티들을 추출할 수 있는 가능성이 있다.
  • 자세한 두 번째 전략은 아래와 같다.
    • Start Index Prediction
      • BERT로부터 representation matrix E (context)가 주어졌을 때, 모델은 먼저 각 토큰의 start index가 확률을 다음과 같이 뽑는다.
      • T_start ∈ R(d×2) is the weights to learn. 
      • P_start의 각 행은 쿼리가 제공된 엔티티의 시작 위치가되는 각 인덱스의 확률 분포를 나타냅니다.
    • End Index Prediction
      • End 인덱스 예측 절차는 확률 행렬 P_end ∈ R(n×2)를 얻기 위해 다른 행렬 T_end가 있다는 점을 제외하면 위 식 (1)과 똑같다. 
    • Start-End Matching
      • context X에는, 여러 개의 entites가 같은 카테고리에 있을 수 있다.
      • 이 뜻은, 여러 개의 start indexs와 end indexs가 prediction 모델에 의해 예측될 수 있다.
      • 즉 원래 보통 MRC에서는 start, end가 하나씩 존재하는 것인데 이것은 여러 개가 가능하다는 것!
      • entities가 overlap 될 수 있으므로 start index을 가장 가까운 end index와 일치시키는 휴리스틱은 여기서 작동하지 않습니다.
      • 즉 토큰 1번째~5번째와 토큰 4번째~7번째 등으로 overlap이 될 수 있다.
      • 우리는 그래서, start index와 대응되는 end index을 매칭시키는 방법이 필요하다.
    • 특히, P_start 및 P_end의 각 행에 argmax를 적용하여 시작 또는 끝 위치 (예 : I_start 및 I_end)가 될 수있는 예측 인덱스를 얻을 수 있습니다.
      • 여기서 위첨자 (i)는 행렬의 i 번째 행을 나타냅니다. 
      • 즉 식 1에서 말한 P_start는 현재 nx2 행렬이다.
      • 예로 5번째 행을 가져오면 1x2의 vector일 텐데, argmax을 씌운다.
      • argmax을 씌우면 0 또는 1이 나올 수 있을텐데
      • 1이 나오면 P_start인 토큰 위치로 5가 있다고 결정한다는 것이다.
    • 시작 인덱스 i_start ∈ I_start 및 끝 인덱스 i_end ∈ I_end가 주어지면 다음과 같이 이진 분류 모델이 일치해야 할 확률을 예측하도록 훈련된다.
      • where m ∈ R(1×2d) is the weights to learn
      • 여기서 E는 BERT로부터 뽑은 representation matrix E (context)로 nxd 행렬이다.
      • 즉 E_(i_start)와 E_(i_end)는 start와 end index에 해당하는 token의 representation이다.
      • 이 둘을 concat해서 m을 곱한 것으로 start와 end가 매칭이 되는지를 확인하는 것이다. 
      • 이 방법이 잘 통할까? 싶긴하다. 왜냐하면 첫 토큰과 끝 토큰이 연관성이 항상 있다고 볼 수는 없지 않을까? 싶은데.. 딱히 떠오르는 대안도 없다

3.4 Train and Test 

  • 학습에서 X는 모든 entites의 start 인덱스 또는 end 인덱스인 각 토큰 xi의 ground-truth labe을 나타내는 길이 n의 두 레이블 시퀀스 Y_start 및 Y_end와 쌍을 이룹니다.
  • 우리는 그래서 start와 end index 예측에 해당하는 두 개의 loss들을 따른다.
  • Let Y_(start, end) denote the golden labels for whether each start index should be matched with each end index.
    • 즉 이 부분은 위에서 여러 개의 start index와 여러 개의 end index을 매칭시키는 loss로 식 3을 말함
    • 일치하는 start, end외에 일치하지 않는 negative sample인 start, end 쌍에 대해서도 학습하겠지?
  • The start-end index matching loss is given as follows:
  • The overall training objective to be minimized is as follows: 
    • α, β, γ ∈ [0, 1] are hyper-parameters to control the contributions towards the overall training objective. 
    • The three losses are jointly trained in an end-to-end fashion, with parameters shared at the BERT layer. 
  • 테스트할 때는, start와 end indexes을 먼저 분리해서 I_start와 I_end을 선택하게 된다.
    • 그리고나서, index matching model으로 start indexs와 맞는 end indexes을 추출하여 aling한다.
    • matching 모델이 있다고 해서 사실 완벽하게 매칭할 수는 없을 것이다.
    • 예를 들어 start_1와 높은 식 3값을 가지는 end_A, end_B가 있으면 end_A와 end_B 어떤 것과 매칭을 해야 되는가?
    • 여러 개의 start와 높은 값을 가지는 end index도 마찬가지이다.
    • 가장 기본적인 방법으론 그냥 start_1~start_n 순서대로 가장 높은 sim(식 3값)을 가지는 end_x와 매칭을 해나갈 것으로 생각된다.

4 Experiments 

4.1 Experiments on Nested NER

4.1.1 Datasets (번역)

  • 중첩 된 NER의 경우 널리 사용되는 ACE 2004, ACE 2005, GENIA 및 KBP2017 데이터 세트에 대한 실험이 수행되며 각각 24 %, 22 %, 10 % 및 19 % nested 멘션이 포함됩니다.
  • 하이퍼 파라미터는 해당 development 세트에서 조정됩니다.
  • 평가를 위해 span level micro-averaged precision, recall and F1을 사용합니다.
  • ACE 2004 and ACE 2005 (Doddington et al., 2005; Christopher Walker and Maeda, 2006)
    • 두 데이터 세트에는 각각 7 개의 항목 범주가 포함되어 있습니다.
    • 각 엔티티 유형에 대해 엔티티 멘션과 멘션 헤드 모두에 대한 주석이 있습니다.
    • 공정한 비교를 위해 Katiyar and Cardie (2018)와 Lin et al.의 데이터 전처리 전략을 정확히 따릅니다. (2019b) bn, nw 및 wl의 파일을 유지하고 이러한 파일을 각각 8 : 1 : 1로 train, dev 및 test 세트로 분할합니다.
  • GENIA (Ohta et al., 2002) 
    • GENIA 데이터 세트의 경우 GENIAcorpus3.02p를 사용합니다. 
    • 우리는 Katiyar와 Cardie (2018)의 프로토콜을 따릅니다.
  • KBP2017
    • Katiyar와 Cardie (2018)를 따라 2017 년 영어 평가 데이터 세트 (LDC2017D55)에서 모델을 평가합니다.
    • 학습 세트는 LDC2015E29, LDC2015E68, LDC2016E31 및 LDC2017E02를 포함하는 RichERE 주석 데이터 세트로 구성됩니다.
    • Lin et al.의 데이터 세트 분할 전략을 따릅니다. (2019b).

4.1.2 Baselines

  • Hyper-Graph: Katiyar and Cardie (2018) proposes a hypergraph-based model based on LSTMs. 
  • Seg-Graph: Wang and Lu (2018) proposes a segmental hypergraph representation to model overlapping entity mentions. 
  • ARN: Lin et al. (2019a) proposes AnchorRegion Networks by modeling and levraging the head-driven phrase structures of entity mentions. 
  • KBP17-Best: Ji et al. (2017) gives an overview of the Entity Discovery task at the Knowledge Base Population (KBP) track at TAC2017 and also reports previous best results for the task of nested NER. 
  • Seq2Seq-BERT: Strakova et al. ´ (2019) views the nested NER as a sequence-to-sequence problem. Input to the model is word tokens and the output sequence consists of labels. 
  • Path-BERT: Shibuya and Hovy (2019) treats the tag sequence as the second best path within in the span of their parent entity based on BERT. 
  • Merge-BERT: Fisher and Vlachos (2019) proposes a merge and label method based on BERT. 
  • DYGIE: Luan et al. (2019) introduces a general framework that share span representations using dynamically constructed span graphs.

4.1.3 Results

  • 표 2는 중첩된 NER 데이터 집합에 대한 실험 결과를 보여준다. 
  • 이전 최신 모델에 비해 중첩된 NER 데이터셋에서 85.98%, 86.88%, ACE05, GENIA 및 KBP-2017 데이터셋에서 F1 점수가 85.78%, ACE04, ACE05, GENIA, 80.97%로 이전 SOTA보다 +1.55% 및 +5.44%, +6.37%의 성능 향상을 관찰한다.

4.2 Experiments on Flat NER

4.2.1 Datasets

  • flat NER의 경우 영어 데이터 세트 (예 : CoNLL2003 및 OntoNotes 5.0)와 중국어 데이터 세트 (예 : OntoNotes 4.0 및 MSRA)에서 실험이 수행됩니다.
  • 하이퍼 파라미터는 해당 development 세트에서 조정됩니다. 
  • 평가를 위해 span-level micro-averaged precision, recall and F1 scores을 측정한다.
  • CoNLL2003 (Sang and Meulder, 2003) is an English dataset with four types of named entities: Location, Organization, Person and Miscellaneous. We followed data processing protocols in Ma and Hovy (2016). 
  • OntoNotes 5.0 (Pradhan et al., 2013) is an English dataset and consists of text from a wide variety of sources. The dataset includes 18 types of named entity, consisting of 11 types (Person, Organization, etc) and 7 values (Date, Percent, etc)
  • MSRA (Levow, 2006) is a Chinese dataset and performs as a benchmark dataset. Data in MSRA is collected from news domain and is used as shared task on SIGNAN backoff 2006. There are three types of named entities
  • OntoNotes 4.0 (Pradhan et al., 2011) is a Chinese dataset and consists of text from news domain. OntoNotes 4.0 annotates 18 named entity types. In this paper, we take the same data split as Wu et al. (2019). 

4.2.2 Baselines

  • For English datasets, we use the following models as baselines.
    • BiLSTM-CRF from Ma and Hovy (2016). 
    • ELMo tagging model from Peters et al. (2018b). 
    • CVT from Clark et al. (2018), which uses Cross-View Training(CVT) to improve the representations of a Bi-LSTM encoder. 
    • Bert-Tagger from Devlin et al. (2018), which treats NER as a tagging task. 
  • For Chinese datasets, we use the following models as baselines: 
    • Lattice-LSTM: Zhang and Yang (2018) constructs a word-character lattice. 
    • Bert-Tagger: Devlin et al. (2018) treats NER as a tagging task. 
    • Glyce-BERT: The current SOTA model in Chinese NER developed by Wu et al. (2019), which combines glyph information with BERT pretraining.

4.2.3 Results and Discussions

  • 번역으로 간단히 살펴보자. 결과는 이 논문이 SoTA라는 것이다.
  • 표 3은 제안 된 모델과 기본 모델 간의 비교를 보여줍니다.
  • English CoNLL 2003의 경우 우리 모델은 F1 측면에서 미세 조정 된 BERT 태깅 모델보다 + 0.24 %, English OntoNotes 5.0의 경우 제안 된 모델은 + 1.95 %의 엄청난 향상을 달성했습니다.
  • OntoNotes에서 더 큰 성능 향상이 관찰되는 이유는 OntoNotes에 CoNLL03 (18 vs 4)보다 더 많은 유형의 엔티티가 포함되어 있고 일부 엔티티 범주는 심각한 데이터 희소성 문제에 직면하기 때문입니다.
  • 쿼리는 추출 할 엔터티 유형에 대한 중요한 사전 지식을 인코딩하므로 MRC 공식은 태그 희소성 문제에 더 영향을받지 않으므로 OntoNotes에서 더 많은 개선이 이루어집니다.
  • 제안 된 방법은 또한 중국 데이터 세트에 대한 새로운 최신 결과를 달성합니다.
  • 중국 MSRA의 경우 제안 된 방법은 F1 측면에서 미세 조정 된 BERT 태깅 모델보다 + 0.95 % 우수합니다.
  • 또한 중국어 OntoNotes4.0에서 F1을 79.16 %에서 82.11 %로 개선했습니다.

5 Ablation studies

5.1 Improvement from MRC or from BERT

  • flat NER에 대해서는, BERT-MRC로 성능이 향상된 이유가 명확하지는 않다.
  • 그러나, MRC 형식이 query 속의 prior knowledge을 인코딩함으로써 entity 추출 과정을 용이하게 한다.
    • 반면에, 좋은 성능은 아마 large-scale pre-training BERT로부터 올 것이다.
  • large-scale BERT pretraining의 영향을 분리하기 위해, 우리는 QAnet, BiDAF와 같은 MRC 기반의 모델과 LSTM-CRF tagging 모델과 비교한다.
    • 이것들은 large-scale pretraining에 의존하지 안흔다.
  • 결과는 Table 4에서 보여준다.
    • 여기서 볼 수 있듯이, LSTM-tagger은 BERT-tagger보다 성능이 떨어지지만, MRC 기반의 접근법인 QAnet과 BiDAF는 여전히 LSTM+CRF기반의 tagging models보다 성능이 좋다.
    • 이것은 MRC formulation의 중요성을 입증합니다.
  • BERT-tagger와 BERT-MRC를 비교할 때 MRC formulation의 이점을 볼 수 있다.
    • MRC가 tagger보다 + 1.95 % 더 우수합니다.
  • 그림 2의 쿼리와 컨텍스트 문장 사이에 BiDAF 모델에서 출력 된 attention matrices을 보여준다.
    • 알 수 있듯이 tagging classes와 contexts 간의 semantic similarity은 attention matrix에서 캡처할 수 있습니다. 
    • 예에서 Flevland는 지역, 도시 및 주와 일치합니다.

5.2 How to Construct Queries

  • 어떻게 query을 만드는 것이 최종 결과에 중요한 영향을 미친다.
  • 이 섹션에서는, 우리는 다른 방법으로 queries을 만들고 그들의 영향을 파악한다.
  • Position index of labels:
    • index tag을 사용하여 query을 구성한다. (즉 ”one”, ”two”, ”three”) 
    • 즉 ORG는 one PEO는 two 이런식으로 매칭한다는 것 같다.
  • Keyword:
    • query는 tag을 설명하는 keyword이다.
    • 예. tag ORG에 대한 질문 query는 "organization"이다.
  • Rule-based template filling:
    • 템플릿을 이용하여 질문들을 생성한다.
    • ORG tag에 대한 query는 “which organization is mentioned in the text”.
  • Wikipedia:
    • 위키피디아 정의를 사용하여 query을 구성한다.
    • ORG tag을 위한 query는 ”an organization is an entity comprising multiple people, such as an institution or an association.” 
  • Synonyms:
    • 옥스포드 사전을 사용하여 기존의 keyword와 똑같거나 비슷한 의미를 가지는 words 혹은 phrases을 사용한다.
    • ORG tag의 query는 “association
  • Keyword+Synonyms:
    • keyword와 동의어를 컨캣한 것 (ORG tag: "organization association")
  • Annotation guideline notes:
    • 우리가 논문에서 사용한 방법이다.
    • ORG tag의 query는 ”find organizations including companies, agencies and institutions
    • 즉 실제 사람이 보는 문장과 똑같은 annotation 가이드라인의 문장을 줬다는 것
  • 표 5는 English OntoNotes 5.0의 실험 결과를 보여줍니다.
  • BERT-MRC는 Position Index of Labels을 제외한 모든 설정에서 BERT-Tagger를 능가합니다.
  • Annotation Guideline Notes로 훈련 된 모델은 가장 높은 F1 점수를 얻습니다.
  • 설명은 다음과 같습니다. 
    • Position Index Dataset의 경우 쿼리는 태그 인덱스를 사용하여 구성되므로 의미있는 정보가 포함되지 않아 성능이 저하됩니다. 
    • Wikipedia의 정의는 비교적 일반적이고 데이터 주석에 맞는 방식으로 범주를 정확하게 설명하지 않을 수 있기 때문에 Wikipedia는 주석 지침 노트보다 성능이 낮습니다.

5.3 Zero-shot Evaluation on Unseen Labels

  • 한 데이터 세트에서 학습 된 모델이 다른 데이터 세트로 얼마나 잘 전달되는지 테스트하는 것이 흥미로울 것이고 이를 zero-shot learning ability이라고합니다.
  • We trained models on CoNLL 2003 and test them on OntoNotes5.0. 
  • OntoNotes5.0은 18개의 entity 타입들이 있고 3개를 CoNLL03과 공유하고 15개는 CoNLL03에서 unseen이다.
  • Table 6 presents the results. 
  • BERT-tagger는 zero-shot 능력을 가지지 못하는 31.87%의 성능이다.
  • 이것은 training 세트에서 unseen 레이블을 예측할 수 없기 때문에 기대와 일치한다.
  • 주어진 query에 대한 답을 예측하는 MRC 프레임 워크의 question-answering formalization는 보다 일반화 능력을 함께 제공되며 acceptable 가능한 결과를 얻습니다.
  • 이 부분이 상당히 인상적인 실험으로 생각한다.. ㄷㄷ

5.4 Size of Training Data

  • 자연어 query가 중요한 prior knowledge을 인코딩하기 때문에, 우리는 적은 학습데이터로 더 좋게 작동하고자하는 제안된 프레임워크를 기대한다.
  • 그림 3은 이 점을 입증한다.
    • on the Chinese OntoNotes 4.0 training set, the query-based BERT-MRC approach achieves comparable performance to BERT-tagger even with half amount of training data.

6 Conclusion

  • 이 논문에서는 NER 과제를 MRC question answering 과제로 재구성합니다.
  • 이 formalization에는 두 가지 주요 이점이 있습니다. 
    • (1) overlapping or nested entities 엔티티를 처리 할 수 있습니다. 
    • (2) query는 추출할 entity 카테고리에 대한 중요한 prior knowledge을 인코딩한다.
  • 제안된 방법은 nested and flat NER datasets 모두에 대한 SOTA 결과를 가져와 그 효과를 나타냅니다.
  • 앞으로 모델 아키텍처의 변형을 살펴보고자합니다.

Reference

댓글