NL-084, Neural Architectures for Named Entity Recognition (2016-NAACL)

■ Comment

  • 최근에 하도 Transformer 기반 논문만 읽다 보니 오랜만에 LSTM 기억이 새롭새롭..
  • 오히려 옛날 논문들이 이것저것 가져다 쓰다보니 더 어려운 것 같은 느낌이 듬;;
  • 어찌되었든 이 논문에서 말하길, 이전의 방법들은 hand-engineered features 와 gazetteers등을 사용해서 성능을 올렸다고 한다.
    • gazetteers은 전문지식 사전과 같은? 것이라고 한다.
    • 아무튼 어떠한 hand 엔지니어링적인 요소가 꽤 들어간다는 의미로 받아들이면 된다.
  • 하지만 여기서는 이런 거 없이 오직 학습만으로 SoTA을 달성한다고 한다.
  • 엔티티 태깅 방법으로는 IOB가 대표적이나 여기서는 IOBES을 썼다고 하는데, IOB에 비해 상당히 개선된 점은 없다고 하는데
    • IOBES의 장점은 알겠는데 정확히 IOBES을 쓴 이유가 이해는 안된다.
  • 논문에서는 두 가지 방법론을 제시하는데 transition 방법론은 읽지 않았다..
  • 읽은 방법으로는 LSTM-CRF이고 이것이 transition-based 방법보다 성능이 좋다.
    • LSTM은 BiLSTM을 쓴 것이고
    • CRF을 쓴 이유는, 태깅에서는 O뒤에 I-PER 식이 오는 결과는 문법적으로 불가능하기 때문에 이를 커버하기 위함이라고 보면된다.
    • 근데 생각해보면 사실상 LSTM이 앞뒤 문맥을 파악해서 token에 해당하는 최종 logit을 도출하고 이것으로 태깅을 예측하면 당연히 문맥을 고려한 것이기 때문에 위와 같은 문제점이 발생하면 안되겠지만
    • 실제로는 발생을 하고 이것을 해결하기 위해 보통은 그 뒤에 CRF 모델을 붙여서 방지하는 것이라 생각하면 된다.
    • 여기서 수식들이 쉽지는 않지만, 직관적으로 보자면 score 구할 때 transition score가 CRF의 핵심이라고 이해가 된다.
    • 궁금한 점은 A가 학습인지 아니면 rule로 구성해둔 건지가 의문이다. 아마도 학습으로 하는 것 같기는 하다.
  • LSTM-CRF의 입력인 input embedding은 character-level embedding + pretrained word embedding을 사용한다.
    • pretraeind word embedding은 word2vec의 skip-gram 방식을 이용하였다.
    • character-level embedding은 랜덤 초기화를 시켜서 진행하는데, 이것이 도메인과 테스크에 맞는 morphological and orthographic 정보를 캡처하는 역할을 한다고 한다. 
  • 실험 데이터세트는 CoNLL-2002,3을 사용했다고 한다.

0. Abstract

  • 최근 NER 시스템은 hand-crafted 특징과 domain-specific 지식에 의존하는데 이는 사용가능한 작은 학습 데이터로부터 효과적으로 배우기 위해서이다.
  • 이 연구에서는, 우리는 두 개의 뉴럴 네트워크를 소개한다.
    • bidirectional LSTMs and conditional random fields
    • shift-reduce parsers으로부터 영감을받은 transition-based 접근법을 사용한 label segements을 구성하고 레이블링하는 것
  • 우리의 모델은 단어들에 대한 정보에 대한 두 가지 소스에 의존한다.
    • character-based word representations learned from the supervised corpus 
    • unsupervised word representations learned from unannotated corpora. 
  • 우리의 모델은 4가지 언어에서 NER에 대해 SoTA 성능을 달성한다.
    • gagzetteers(지명사전)와 같이 어떠한 language-specific kwnoledge or resources 의존 없이 달성한다. 

1 Introduction 

  • NER은 학습 문제에서 챌린지하다.
  • 한편으로는, 대부분의 언어 및 도메인에서 매우 작은 supervised 학습 데이터만이 가능하다.
  • 다른 한편으로, names이 될 수있는 단어의 종류에는 제약이 거의 없기 때문에 작은 데이터 샘플에서 일반화하는 것은 어렵다.
  • 결과적으로 신중하게 구성된 orthographic(맞춤법) 특징과 지명 사전과 같은 language-specific knowledge resources이 작업을 해결하는 데 널리 사용됩니다.
    • 즉 rule-based로 일부분 해결할 거 같은데..?
  • 운이 없게도, 언어 특성을 가지는 자원과 특징들은 새로운 언어 및 도메인에 대해 개발하기 비용이 많이들고 이것이 NER을 적용하기 챌린지하게 한다.
    • 이 당시떄는 이런 문제가 가장 큰 장애물이였나봄. 
    • 요즘에는 어떨지..?
  • unannotated 말뭉치에서 unsupervised 학습은 적은 양의 감독으로 더 나은 일반화를 얻기위한 alternative 전략을 제공한다.
  • 그러나 unsupervised 않은 특징에 광범위하게 의존하는 시스템조차도 hand-enginerred 특징들과 (예 : 특정 언어의 대문자 사용 패턴 및 문자 클래스에 대한 지식) 전문 지식 리소스(e.g., gazetteers)를 대체하기 보다는 이를 augment로 사용하였다. 
    • 즉 unseupervised learning도 레이블링이 안되어있을 뿐, hand feature and 전문지식 등의 리소스가 들어간다는 것 같은데..
  • 이 논문에서 제시하는 NER 뉴럴 구조는 language-specific resources은 사용하지 않고, 적은 supervised training 데이터와 unlabeled 말뭉치를 사용한다.
  • 우리의 모델은 두 가지 직관을 캡쳐하여 디자인된다.
  • 1) 첫째, names은 종종 여러 토큰으로 구성되기 때문에 각각의 토큰에 대한 tagging decisions을 공동으로 추론하는 것이 중요하다.
  • 우리는 두 개의 모델을 비교한다.
    • (i) a bidirectional LSTM with a sequential conditional random layer above it (LSTM-CRF; §2), and 
    • (ii) a new model that constructs and labels chunks of input sentences using an algorithm inspired by transition-based parsing with states represented by stack LSTMs (S-LSTM; §3). 
  • 2) 둘째, "being a name"에 대한 token-level evidence에는 맞춤법 증거 (what does the word being tagged as a name look like?)와 distributional evidence (where does the word being tagged tend to occur in a corpus?)가 모두 포함됩니다.
    • 맞춤법 sensitivity를 포착하기 위해 character-based word representation 모델 (Ling et al., 2015b)을 사용하여 distributional sensitivity를 포착한다.
    • 우리는 이러한 representations을 distributional representations과 결합한다.(Mikolov et al., 2013b).
  • 우리의 word representations은 이 두 가지를 결합하고, dropout 학습은 모델이 두 증거 소스를 신뢰하는 법을 배우도록 권장하는 데 사용됩니다 (§4).
  • 모델을 설계할 때 두 가지 직관을 담으려고하는데
    • 첫번째는 모델은 어떤 단어가 names가 되기 위해서는 joint하게 추론을 한다고 한다.
    • 만약 "홍길동"의 단어가 이름인데 "홍", "길동"의 token으로 구분되면, 이것은 joint하게 추론해야만 찾을 수 있다는 것의 개념을 말하고자한것 같다.
    • 두 번째는 names가 되는 기준이 "맞춤법"(어떤 단어?)과 "distirubtional"(어디 위치의 단어?)이라는 것 같다.
    • 맞춤법 sensitivity을 알기 위해서 character-based word reprsentation을 이용하고 이것과 distribuional representation과 결합해서 names가 되는 단어를 찾아낸다라는 것이다.
    • 즉, 간단히 생각해보면 word embedding과 word embedding을 LSTM에 태운 결과을 결합해서 찾겠다라는 의미인거 같은데..? 
  • 영어, 네덜란드어, 독일어 및 스페인어로 실험 한 결과 네덜란드어, 독일어 및 스페인어로 된 LSTM-CRF 모델을 사용하여 최첨단 NER 성능을 얻을 수 있음을 보여주고 영어에서는 SoTA 근접한 결과를 달성한다.. 
    • 어떠한 hand-engineered features or gazetteers없다.
  • transition-based 알고리즘은 LSTM-CRF 모델보다 성능이 떨어지지만 이전에 여러 언어로 발표된 최고의 결과를 능가합니다.

2 LSTM-CRF Model

  • LSTM 및 CRF에 대한 간략한 설명을 제공하고 하이브리드 태깅 아키텍처를 제시합니다. 
  • 이 아키텍처는 Collobert 등이 제시 한 아키텍처와 유사합니다. (2011) 및 Huang et al. (2015).

2.1 LSTM (번역)

  • RNN에 대한 설명인데, 세세히 볼 필요는 없으므로 번역으로..
  • RNN (Recurrent Neural Network)은 순차 데이터에서 작동하는 신경망 제품군입니다.
  • 벡터 시퀀스 (x1, x2,..., xn)를 입력으로 취하고 입력의 모든 단계에서 시퀀스에 대한 일부 정보를 나타내는 다른 시퀀스 (h1, h2,..., hn)를 반환합니다.
  • RNN은 이론적으로 긴 종속성을 학습 할 수 있지만 실제로는 그렇게하지 못하고 시퀀스의 가장 최근 입력에 편향되는 경향이 있습니다 (Bengio et al., 1994).
  • 장기 단기 메모리 네트워크 (LSTM)는 메모리 셀을 통합하여이 문제를 해결하도록 설계되었으며 장기 종속성을 포착하는 것으로 나타났습니다.
  • 메모리 셀에 제공 할 입력의 비율과 잊을 이전 상태의 비율을 제어하는 여러 게이트를 사용하여 그렇게합니다 (Hochreiter and Schmidhuber, 1997). 다음 구현을 사용합니다.
  • n 개의 단어를 포함하는 주어진 문장 (x1, x2,..., xn)에 대해 LSTM은 모든 단어 t에서 문장의 왼쪽 컨텍스트에 대한 표현 ht→를 계산합니다.
  • 당연히 올바른 컨텍스트 ←ht의 표현을 생성하는 것도 유용한 정보를 추가해야합니다.
  • 이는 동일한 시퀀스를 역으로 읽는 두 번째 LSTM을 사용하여 달성 할 수 있습니다.
  • 전자를 순방향 LSTM으로, 후자를 역방향 LSTM으로 지칭합니다. 매개 변수가 다른 두 개의 별개 네트워크입니다.
  • 이 순방향 및 역방향 LSTM 쌍을 양방향 LSTM이라고합니다 (Graves and Schmidhuber, 2005).
  • 이 모델을 사용하는 단어의 표현은 왼쪽과 오른쪽 컨텍스트 표현을 연결하여 얻습니다. ht = [→ht; ←ht].
  • 이러한 표현은 문맥에 있는 단어의 표현을 효과적으로 포함하며, 이는 수많은 태그 적용에 유용하다.

2.2 CRF Tagging Models

  • 이것도 LSTM만큼 유명하지만, 나는 숙지를 잘 못하고 있기 때문에 한 번 봐보자.
  • 매우 간단하지만 놀라운 효과를 보여주는 tagging 모델은 을 특징으로 사용해서 각 출력 에 대한 tagging을 독립적으로 결정하는 것이다.
  • POS tagging과 같은 같은 문제에서 이 모델의 성공에도 불구하고, 이것의 독립적인 분류 결정은 output labels 사이에 강한 dependencies가 있을 때 한계가 있다.
  • 해석 가능한 tag의 시퀀스들을 특성화하는 "grammar"은 독립 가정으로 모델링 할 수없는 몇 가지 엄격한 제약 (예 : I-PER이 B-LOC을 따를 수 없음, 자세한 내용은 §2.4 참조)을 부과하기 때문에 NER는 그러한 테스크 중 하나입니다.
    • 즉 IOB 태깅에서 "seoul city"에서 seoul은 B-LOC라고 하자.
    • 그 뒤에 city는 실제로 I-PER은 아니지만, 만약에 city만 본다면 I-PER로 분류될 확률이 조금은 있을 수 있다.
    • 하지만 앞의 "seoul"이 B-LOC라는 것을 보면 I-PER이 문법적으로 안되기 때문에 주변을 고려해야한다는 말이다.
  • 그래서, 독립적인 tagging decisions 모델링 대신에, 우리는 conditional random field을 jointly하게 모델링한다. (Lafferty et al., 2001)
  • 입력 시퀀스
  • 우리는 P를 양방향 LSTM 네트워크에 의해 출력된 matrix of scores로 간주합니다.
  • P는 크기 n × k이며, 여기서 k는 고유 한 태그의 수이고 는 문장에서 i 번째 단어의 j 번째 태그 점수에 해당합니다.
  • 예측 시퀀스는 다음과 같다.
  • score 함수는 다음과 같이 정의된다.
    • 여기서 A는 가 태그 i에서 태그 j 로의 전환 점수를 나타내는 matrix of transition scores입니다. 
    • A는 학습이 되는 것인가?
    • 및 은 가능한 태그 세트에 추가하는 문장의 시작 및 끝 태그입니다. 
    • 따라서 A는 크기가 k + 2 인 정사각형 행렬입니다.
    • 즉, y0->y1, y1->y2, ..., yn->yn+1 까지의 태그 transition scores을 더한게 A term (이게 레이블링끼리 연관있도록 하는 부분일 듯)
    • k번째 단어의 yk번째 태그 점수를 다 더한게 P term (이 부분이 레이블링 정보겠지)
    • 즉 S(X, y)가 loss의 반대 개념이다.
  • 가능한 모든 태그 시퀀스에 대한 softmax 는 시퀀스 y에 대한 확률을 산출합니다.
    • 는 문장 X에 대해 가능한 모든 태그 시퀀스라고 한다. (IOB 형식을 확인하지 않는 시퀀스 포함)
    • 즉 레이블링된 태깅이든 아니든, 가능한 태깅 시퀀스에서 정답 태깅 시퀀스가 얼마나 높은 확률로 뽑히는지 softmax을 한 개념이다.
  • 훈련 중에 올바른 maximize the log-probability을 최대화합니다.
    • 위의 공식에서 네트워크가 유효한 출력 레이블 시퀀스를 생성하도록 권장하는 것이 분명합니다.
    • logadd가 log(sigma(exp)) 이것을 말하는건 처음알았음
  • 디코딩하는 동안 다음과 같이 주어진 최대 점수를 얻는 출력 시퀀스를 예측합니다.
    • 디코딩 할 때는, 위의 score function을 통해서 찾는다.
  • 출력 간의 바이그램 상호 작용 만 모델링하기 때문에 Eq1의 합과 Eq2의 최대 사후 시퀀스 는 동적 프로그래밍을 사용하여 계산할 수 있습니다.
  • 위처럼 학습을 하면 ref2에서 말하는 듯이, 레이블링끼리 금지되는 어떠한 rule? 등을 모델이 학습한다는 것이다.

2.3 Parameterization and Training

  • LSTM + CRF 모델에 대한 설명이므로 위에서 말한 거를 그냥 이어 붙인 거를 details하게 설명한 것.
  • 각 토큰 (즉, Pi, y 's)에 대한 각 태깅 결정과 관련된 점수는 Ling의 POS 태깅 모델과 똑같은 양방향 LSTM으로 계산 된 컨텍스트 내 단어 삽입 간의 내적 (dot product)으로 정의됩니다. et al. (2015b) 그리고 이들은 bigram 호환성 점수 (예 : Ay, y0)와 결합됩니다.
  • 이 아키텍처는 그림 1에 나와 있습니다. 

  • 원은 관찰 된 변수를 나타내고 다이아몬드는 부모의 결정적 함수이며 이중 원은 랜덤 변수입니다.
  • 따라서이 모델의 매개 변수는 bigram 호환성 점수 A의 행렬과 행렬 P를 발생시키는 매개 변수, 즉 양방향 LSTM의 매개 변수, 선형 특성 가중치 및 단어 임베딩입니다.
  • 파트 2.2에서와 같이 xi는 문장의 모든 단어에 대한 단어 임베딩의 순서를 나타내고 yi는 관련 태그입니다.
  • 임베딩 xi가 섹션 4에서 모델링되는 방법에 대한 논의로 돌아갑니다.
  • 단어 임베딩의 순서는 양방향 LSTM에 대한 입력으로 제공되며 2.1에서 설명한대로 각 단어에 대한 왼쪽 및 오른쪽 컨텍스트의 표현을 반환합니다.

2.4 Tagging Schemes

  • NER의 테스크는 named entity 레이블을 문장의 모든 단어에 할당하는 것입니다.
  • 단일 named entity는 문장 내에서 여러 토큰에 걸쳐있을 수 있습니다.
  • 문장은 일반적으로 IOB 형식(Inside, Outside, Beginning)으로 표현되며, 토큰이 named entity의 시작인 경우 모든 토큰은 B-라벨로, named entity내에 있지만 named entity 내의 첫 토큰이 아닌 경우 I-라벨 또는 O로 표시된다.
  • 그러나 우리는 단일 엔티티 (S)에 대한 정보를 인코딩하고 named entity(E)의 끝을 명시 적으로 표시하는 명명 된 엔티티 인식에 일반적으로 사용되는 IOB의 변형인 IOBES 태깅 체계를 사용하기로 결정했습니다.
    • IOBES는 END도 표시와 단엘 엔티티는 S로 표시하는 방법을 결정하나봄.
  • 이 기법을 사용하여, high-confidence으로 I-라벨로 단어를 태그하는 것은 후속 단어의 선택을 I-라벨 또는 E-라벨로 좁히지만, IOB 체계는 후속 단어가 다른 라벨의 내부가 될 수 없다는 것만 결정할 수 있다.
  • Ratinov와 Roth (2009) 및 Dai et al. (2015)는 IOBES와 같은보다 표현적인 태깅 체계를 사용하면 모델 성능이 약간 향상된다는 것을 보여주었습니다.
  • 그러나 우리는 IOB 태깅 체계에 비해 상당한 개선을 관찰하지 못했습니다.
    • 그럼 IOBES을 왜쓴거지?

3 Transition-Based Chunking Model

  • 이전 섹션에서 논의한 LSTM-CRF의 대안으로 전환 기반 종속성 구문 분석과 유사한 알고리즘을 사용하여 입력 시퀀스를 청크하고 레이블을 지정하는 새로운 아키텍처를 탐색합니다. 
  • 이 모델은 다중 토큰 이름의 표현을 직접 구성합니다 (예 : 이름 Mark Watney는 단일 표현으로 구성됨).
  • 더 자세한 건 읽어보면 좋겠지만...성능이 LSTM+CRF보다 안좋기도 하고 왠지 지금은 안쓰일 것 같으니 패스하자.

3.1 Chunking Algorithm

3.2 Representing Labeled Chunks

4 Input Word Embeddings

  • 여기서는 길게 다루지만, 쉽게 말해 pre-trained word embedding을 dropout과 함께 사용한다는 것이다.
  • 이렇게 뽑은 word embedding이 위에서 설명한 LSTM+CRF 입력이 되는 것이다.
  • 두 모델의 입력 레이어는 개별 단어의 벡터 표현입니다.
  • 제한된 NER 훈련 데이터에서 단어 유형에 대한 독립적 인 표현을 학습하는 것은 어려운 문제입니다. 
  • 신뢰할 수있는 추정을하기에는 매개 변수가 너무 많습니다.
  • 많은 언어가 어떤 것이 이름 (또는 이름이 아님)이라는 orthographic(맞춤법) or morphological(형태소) 증거를 가지고 있기 때문에 우리는 단어 철자에 민감한 표현을 원합니다.
  • 따라서 우리는 단어가 구성된 문자의 표현에서 단어의 표현을 구성하는 모델을 사용합니다 (4.1).
  • 우리의 두 번째 직관은 개별적으로 매우 다양 할 수있는 이름이 큰 말뭉치의 규칙적인 맥락에서 나타난다는 것입니다.
  • 따라서 우리는 단어 순서에 민감한 큰 말뭉치에서 학습 한임베딩을 사용합니다 (4.2).
  • 마지막으로 모델이 하나의 표현 또는 다른 표현에 너무 강하게 의존하는 것을 방지하기 위해 드롭 아웃 훈련을 사용하고 이것이 좋은 일반화 성능에 중요하다는 것을 발견했습니다 (4.3).

4.1 Character-based models of words

  • 대부분의 이전 접근 방식과 우리 작업의 중요한 차이점은 단어에 대한 접두사 및 접미사 정보를 수동으로 엔지니어링하는 대신 학습하면서 character-level의 기능을 학습한다는 것입니다.
  • character-level 임베딩 학습은 당면한 작업 및 도메인에 특정한 표현을 학습하는 이점이 있습니다.
    • 언어에서 CNN으로 classification 하는 데서 적용한 character-level word embedding을 사용한다는 것이다.
    • 대표적으로 이것의 장점은 UNK을 잘 대처하고 도메인 및 테스크에 대한 특정한 표현을 잘 학습한다고 한다.
    • 여기서는 그림 4에서 보듯이 character-level word embedding을 biLSTM을 태운것과 단어와 매칭되는 것을 lookup table로 찾은 뒤 이것을 concat한다고 한다.
    • 여기서 lookup table로 찾는 word embedding은 4.2에서 설명.
  • 이들은 형태 학적으로 풍부한 언어에 유용하고 품사 태깅 및 언어 모델링 (Ling et al., 2015b) 또는 종속성 구문 분석 (Ballesteros et al., 2015)과 같은 작업에 대한 어휘 외 문제를 처리하는 데 유용합니다.
  • 그림 4는 문자에서 단어 임베딩을 생성하는 아키텍처를 설명합니다.

  • 무작위로 초기화 된 문자 조회 테이블에는 모든 문자에 대한 임베딩이 포함됩니다.
  • 단어의 모든 문자에 해당하는 문자 임베딩은 정방향 및 역방향 LSTM에 정방향 및 역순으로 제공됩니다.
  • 문자에서 파생 된 단어에 대한 임베딩은 양방향 LSTM의 순방향 및 역방향 표현의 연결입니다.
  • 그런 다음이 문자 수준 표현은 단어 검색 테이블의 단어 수준 표현과 연결됩니다.
  • 테스트 중에 룩업 테이블에 임베딩이없는 단어는 UNK 임베딩에 매핑됩니다.
  • UNK 임베딩을 훈련하기 위해 싱글 톤을 확률 0.5의 UNK 임베딩으로 대체합니다.
  • 우리의 모든 실험에서 앞뒤 문자 LSTM의 숨겨진 차원은 각각 25 개이며, 결과적으로 단어의 문자 기반 표현은 50 차원입니다.
  • RNN 및 LSTM과 같은 반복 모델은 매우 긴 시퀀스를 인코딩 할 수 있지만 가장 최근 입력에 편향된 표현이 있습니다.
  • 결과적으로 우리는 순방향 LSTM의 최종 표현이 단어의 접미사를 정확하게 표현하고 역방향 LSTM의 최종 상태가 접두사를 더 잘 표현할 것으로 기대합니다.
  • 문자에서 단어의 표현을 배우기위한 대체 접근 방식 (가장 주목할 만하게 컨볼 루션 네트워크와 같은)이 제안되었습니다 (Zhang et al., 2015; Kim et al., 2015).
  • 그러나 convnet은 입력의 위치 불변 기능을 발견하도록 설계되었습니다.
  • 이것은 이미지 인식 (고양이는 사진 어디에서나 나타날 수 있음)과 같은 많은 문제에 적합하지만, 중요한 정보는 위치에 따라 다르므로 (예 : 접두사와 접미사는 줄기와 다른 정보를 인코딩) LSTM이 더 나은 선험적이라고 주장합니다. 단어와 문자 간의 관계를 모델링하기위한 함수 클래스.

4.2 Pretrained embeddings

  • Collobert et al. (2011), 사전 훈련 된 단어 임베딩을 사용하여 조회 테이블을 초기화합니다.
  • 무작위로 초기화 된 것보다 사전 훈련 된 단어 임베딩을 사용하여 상당한 개선을 관찰합니다.
  • 임베딩은 단어 순서를 설명하는 word2vec (Mikolov et al., 2013a)의 변형인 skip-n-gram (Ling et al., 2015a)을 사용하여 사전 훈련됩니다.
  • 이러한 임베딩은 훈련 중에 미세 조정됩니다.
  • 스페인어, 네덜란드어, 독일어 및 영어에 대한 단어 임베딩은 스페인어 Gigaword 버전 3, 라이프 치히 말뭉치 컬렉션, 2010 기계 번역 워크샵의 독일어 단일 언어 교육 데이터 및 영어 Gigaword 버전 4 (LA Times 및 NY Times 부분 포함)를 사용하여 학습됩니다. 제거됨).
  • We use an embedding dimension of 100 for English, 64 for other languages, a minimum word frequency cutoff of 4, and a window size of 8.

4.3 Dropout training

  • 초기 실험에서 문자 수준 임베딩이 사전 훈련 된 단어 표현과 함께 사용될 때 전반적인 성능이 향상되지 않았 음을 보여주었습니다.
  • 모델이 두 표현 모두에 의존하도록 장려하기 위해 드롭 아웃 훈련 (Hinton et al., 2012)을 사용하여 그림 1의 양방향 LSTM에 대한 입력 직전에 최종 임베딩 레이어에 드롭 아웃 마스크를 적용합니다.
  • 드롭 아웃을 사용한 후 모델의 성능이 크게 향상되었습니다 (표 5 참조).

5 Experiments 

  • 최신 논문이라면, 살펴보는 것도 괜찮겠지만.. 2016년이면 딥러닝에선 현재 오래된 논문이니 굳이 실험결과를 자세히 볼 필요는 없다고 생각.
  • 테이블만 간단히 살펴보자.

5.1 Training

5.2 Data Sets

  • named entity recognition을 위해 다른 데이터 세트에서 모델을 테스트합니다. 
  • 본 연구에서는 다양한 언어로 일반화하는 우리 모델의 능력을 증명하기 위해 영어, 스페인어, 독일어, 네덜란드어에 독립된 엔티티 레이블을 포함하는 CoNLL-2002 및 CoNLL-2003 데이터 세트(Tjong Kim Sang, 2002; Tjong Kim Sang and De Mulder, 2003)에 대한 결과를 제시한다.
  • 그리고 네덜란드. 모든 데이터 세트에는 이전 세 가지 범주에 속하지 않는 locations(위치), persons(사람), organizations(조직), and miscellaneous(기타) entities의 네 가지 유형의 명명 된 엔티티가 포함됩니다. 
  • 모든 데이터 세트에 POS 태그를 사용할 수 있었지만 모델에 포함하지 않았습니다. 
  • 영어 NER 데이터 세트에서 모든 숫자를 0으로 바꾸는 것 외에는 데이터 세트 전처리를 수행하지 않았습니다.

5.3 Results

    • Table 1(영어) 결과를 보면, LSTM-CRF with char이 젤 성능이 좋음을 알 수 있다.
    • LSTM-CRF에서는 char을 쓴다고 엄청난 향상이라고 볼 수는 없지만, S-LSTM에서는 꽤 의미있는 차이를 보여주게 된다.
    • 그리고 이 분야를 잘 몰라서 그런데.. 90.94면 기존의 F1들과 1 point도 차이는 안나는데 꽤 의미있는 결과인가 싶다.

5.4 Network architectures 

    • LSTM-CRF 실험 결과를 보면 당연히 pretrain word embedding있어야 성능이 꽤 좋게 나온다.
    • dropout과 char도 성능을 올려주는데 일조하는 것을 볼 수가 있다.

6 Related Work 

7 Conclusion

  • 이 논문은 지명 사전(gazetteers)과 같은 외부 리소스를 사용하는 모델과 비교해도 standard evaluation settings에서 리포트된 best NER 결과를 제공하는 시퀀스 라벨링을위한 두 가지 뉴럴 네트워크를 제시합니다.
  • 우리 모델의 주요 키는 간단한 CRF 아키텍처를 통해 또는 transition-based algorithm을 사용하여 입력 chunks를 명시적으로 구성하고 레이블을 지정하여 출력 레이블 종속성을 모델링한다는 것입니다.
  • Word representations은 성공을 위해 매우 중요합니다. 
    • pre-trained word representations과 morphological and orthographic 정보를 캡처하는 “character-based” representations을 모두 사용합니다.
  • 학습자가 하나의 표현 클래스에 너무 많이 의존하는 것을 방지하기 위해 dropout이 사용됩니다.
Reference

댓글