■ Comment

최근에 하도 Transformer 기반 논문만 읽다 보니 오랜만에 LSTM 기억이 새롭새롭..
오히려 옛날 논문들이 이것저것 가져다 쓰다보니 더 어려운 것 같은 느낌이 듬;;
어찌되었든 이 논문에서 말하길, 이전의 방법들은 hand-engineered features 와 gazetteers등을 사용해서 성능을 올렸다고 한다.

gazetteers은 전문지식 사전과 같은? 것이라고 한다.
아무튼 어떠한 hand 엔지니어링적인 요소가 꽤 들어간다는 의미로 받아들이면 된다.

하지만 여기서는 이런 거 없이 오직 학습만으로 SoTA을 달성한다고 한다.
엔티티 태깅 방법으로는 IOB가 대표적이나 여기서는 IOBES을 썼다고 하는데, IOB에 비해 상당히 개선된 점은 없다고 하는데

IOBES의 장점은 알겠는데 정확히 IOBES을 쓴 이유가 이해는 안된다.

논문에서는 두 가지 방법론을 제시하는데 transition 방법론은 읽지 않았다..
읽은 방법으로는 LSTM-CRF이고 이것이 transition-based 방법보다 성능이 좋다.

LSTM은 BiLSTM을 쓴 것이고
CRF을 쓴 이유는, 태깅에서는 O뒤에 I-PER 식이 오는 결과는 문법적으로 불가능하기 때문에 이를 커버하기 위함이라고 보면된다.
근데 생각해보면 사실상 LSTM이 앞뒤 문맥을 파악해서 token에 해당하는 최종 logit을 도출하고 이것으로 태깅을 예측하면 당연히 문맥을 고려한 것이기 때문에 위와 같은 문제점이 발생하면 안되겠지만
실제로는 발생을 하고 이것을 해결하기 위해 보통은 그 뒤에 CRF 모델을 붙여서 방지하는 것이라 생각하면 된다.
여기서 수식들이 쉽지는 않지만, 직관적으로 보자면 score 구할 때 transition score가 CRF의 핵심이라고 이해가 된다.
궁금한 점은 A가 학습인지 아니면 rule로 구성해둔 건지가 의문이다. 아마도 학습으로 하는 것 같기는 하다.

LSTM-CRF의 입력인 input embedding은 character-level embedding + pretrained word embedding을 사용한다.

pretraeind word embedding은 word2vec의 skip-gram 방식을 이용하였다.
character-level embedding은 랜덤 초기화를 시켜서 진행하는데, 이것이 도메인과 테스크에 맞는 morphological and orthographic 정보를 캡처하는 역할을 한다고 한다.

실험 데이터세트는 CoNLL-2002,3을 사용했다고 한다.

0. Abstract

최근 NER 시스템은 hand-crafted 특징과 domain-specific 지식에 의존하는데 이는 사용가능한 작은 학습 데이터로부터 효과적으로 배우기 위해서이다.
이 연구에서는, 우리는 두 개의 뉴럴 네트워크를 소개한다.

bidirectional LSTMs and conditional random fields
shift-reduce parsers으로부터 영감을받은 transition-based 접근법을 사용한 label segements을 구성하고 레이블링하는 것

우리의 모델은 단어들에 대한 정보에 대한 두 가지 소스에 의존한다.

character-based word representations learned from the supervised corpus
unsupervised word representations learned from unannotated corpora.

우리의 모델은 4가지 언어에서 NER에 대해 SoTA 성능을 달성한다.

gagzetteers(지명사전)와 같이 어떠한 language-specific kwnoledge or resources 의존 없이 달성한다.

1 Introduction

NER은 학습 문제에서 챌린지하다.
한편으로는, 대부분의 언어 및 도메인에서 매우 작은 supervised 학습 데이터만이 가능하다.
다른 한편으로, names이 될 수있는 단어의 종류에는 제약이 거의 없기 때문에 작은 데이터 샘플에서 일반화하는 것은 어렵다.
결과적으로 신중하게 구성된 orthographic(맞춤법) 특징과 지명 사전과 같은 language-specific knowledge resources이 작업을 해결하는 데 널리 사용됩니다.

즉 rule-based로 일부분 해결할 거 같은데..?

운이 없게도, 언어 특성을 가지는 자원과 특징들은 새로운 언어 및 도메인에 대해 개발하기 비용이 많이들고 이것이 NER을 적용하기 챌린지하게 한다.

이 당시떄는 이런 문제가 가장 큰 장애물이였나봄.
요즘에는 어떨지..?

unannotated 말뭉치에서 unsupervised 학습은 적은 양의 감독으로 더 나은 일반화를 얻기위한 alternative 전략을 제공한다.
그러나 unsupervised 않은 특징에 광범위하게 의존하는 시스템조차도 hand-enginerred 특징들과 (예 : 특정 언어의 대문자 사용 패턴 및 문자 클래스에 대한 지식) 전문 지식 리소스(e.g., gazetteers)를 대체하기 보다는 이를 augment로 사용하였다.

즉 unseupervised learning도 레이블링이 안되어있을 뿐, hand feature and 전문지식 등의 리소스가 들어간다는 것 같은데..

이 논문에서 제시하는 NER 뉴럴 구조는 language-specific resources은 사용하지 않고, 적은 supervised training 데이터와 unlabeled 말뭉치를 사용한다.
우리의 모델은 두 가지 직관을 캡쳐하여 디자인된다.
1) 첫째, names은 종종 여러 토큰으로 구성되기 때문에 각각의 토큰에 대한 tagging decisions을 공동으로 추론하는 것이 중요하다.
우리는 두 개의 모델을 비교한다.

(i) a bidirectional LSTM with a sequential conditional random layer above it (LSTM-CRF; §2), and
(ii) a new model that constructs and labels chunks of input sentences using an algorithm inspired by transition-based parsing with states represented by stack LSTMs (S-LSTM; §3).

2) 둘째, "being a name"에 대한 token-level evidence에는 맞춤법 증거 (what does the word being tagged as a name look like?)와 distributional evidence (where does the word being tagged tend to occur in a corpus?)가 모두 포함됩니다.

맞춤법 sensitivity를 포착하기 위해 character-based word representation 모델 (Ling et al., 2015b)을 사용하여 distributional sensitivity를 포착한다.
우리는 이러한 representations을 distributional representations과 결합한다.(Mikolov et al., 2013b).

우리의 word representations은 이 두 가지를 결합하고, dropout 학습은 모델이 두 증거 소스를 신뢰하는 법을 배우도록 권장하는 데 사용됩니다 (§4).
모델을 설계할 때 두 가지 직관을 담으려고하는데

첫번째는 모델은 어떤 단어가 names가 되기 위해서는 joint하게 추론을 한다고 한다.
만약 "홍길동"의 단어가 이름인데 "홍", "길동"의 token으로 구분되면, 이것은 joint하게 추론해야만 찾을 수 있다는 것의 개념을 말하고자한것 같다.
두 번째는 names가 되는 기준이 "맞춤법"(어떤 단어?)과 "distirubtional"(어디 위치의 단어?)이라는 것 같다.
맞춤법 sensitivity을 알기 위해서 character-based word reprsentation을 이용하고 이것과 distribuional representation과 결합해서 names가 되는 단어를 찾아낸다라는 것이다.
즉, 간단히 생각해보면 word embedding과 word embedding을 LSTM에 태운 결과을 결합해서 찾겠다라는 의미인거 같은데..?

영어, 네덜란드어, 독일어 및 스페인어로 실험 한 결과 네덜란드어, 독일어 및 스페인어로 된 LSTM-CRF 모델을 사용하여 최첨단 NER 성능을 얻을 수 있음을 보여주고 영어에서는 SoTA 근접한 결과를 달성한다..

어떠한 hand-engineered features or gazetteers없다.

transition-based 알고리즘은 LSTM-CRF 모델보다 성능이 떨어지지만 이전에 여러 언어로 발표된 최고의 결과를 능가합니다.

2 LSTM-CRF Model

LSTM 및 CRF에 대한 간략한 설명을 제공하고 하이브리드 태깅 아키텍처를 제시합니다.
이 아키텍처는 Collobert 등이 제시 한 아키텍처와 유사합니다. (2011) 및 Huang et al. (2015).

2.1 LSTM (번역)

RNN에 대한 설명인데, 세세히 볼 필요는 없으므로 번역으로..
RNN (Recurrent Neural Network)은 순차 데이터에서 작동하는 신경망 제품군입니다.
벡터 시퀀스 (x1, x2,..., xn)를 입력으로 취하고 입력의 모든 단계에서 시퀀스에 대한 일부 정보를 나타내는 다른 시퀀스 (h1, h2,..., hn)를 반환합니다.
RNN은 이론적으로 긴 종속성을 학습 할 수 있지만 실제로는 그렇게하지 못하고 시퀀스의 가장 최근 입력에 편향되는 경향이 있습니다 (Bengio et al., 1994).
장기 단기 메모리 네트워크 (LSTM)는 메모리 셀을 통합하여이 문제를 해결하도록 설계되었으며 장기 종속성을 포착하는 것으로 나타났습니다.
메모리 셀에 제공 할 입력의 비율과 잊을 이전 상태의 비율을 제어하는 여러 게이트를 사용하여 그렇게합니다 (Hochreiter and Schmidhuber, 1997). 다음 구현을 사용합니다.
n 개의 단어를 포함하는 주어진 문장 (x1, x2,..., xn)에 대해 LSTM은 모든 단어 t에서 문장의 왼쪽 컨텍스트에 대한 표현 ht→를 계산합니다.
당연히 올바른 컨텍스트 ←ht의 표현을 생성하는 것도 유용한 정보를 추가해야합니다.
이는 동일한 시퀀스를 역으로 읽는 두 번째 LSTM을 사용하여 달성 할 수 있습니다.
전자를 순방향 LSTM으로, 후자를 역방향 LSTM으로 지칭합니다. 매개 변수가 다른 두 개의 별개 네트워크입니다.
이 순방향 및 역방향 LSTM 쌍을 양방향 LSTM이라고합니다 (Graves and Schmidhuber, 2005).
이 모델을 사용하는 단어의 표현은 왼쪽과 오른쪽 컨텍스트 표현을 연결하여 얻습니다. ht = [→ht; ←ht].
이러한 표현은 문맥에 있는 단어의 표현을 효과적으로 포함하며, 이는 수많은 태그 적용에 유용하다.

2.2 CRF Tagging Models

이것도 LSTM만큼 유명하지만, 나는 숙지를 잘 못하고 있기 때문에 한 번 봐보자.
매우 간단하지만 놀라운 효과를 보여주는 tagging 모델은 $\mathbf{h}_t$ 을 특징으로 사용해서 각 출력 $y_t$ 에 대한 tagging을 독립적으로 결정하는 것이다.
POS tagging과 같은 같은 문제에서 이 모델의 성공에도 불구하고, 이것의 독립적인 분류 결정은 output labels 사이에 강한 dependencies가 있을 때 한계가 있다.
해석 가능한 tag의 시퀀스들을 특성화하는 "grammar"은 독립 가정으로 모델링 할 수없는 몇 가지 엄격한 제약 (예 : I-PER이 B-LOC을 따를 수 없음, 자세한 내용은 §2.4 참조)을 부과하기 때문에 NER는 그러한 테스크 중 하나입니다.

즉 IOB 태깅에서 "seoul city"에서 seoul은 B-LOC라고 하자.
그 뒤에 city는 실제로 I-PER은 아니지만, 만약에 city만 본다면 I-PER로 분류될 확률이 조금은 있을 수 있다.
하지만 앞의 "seoul"이 B-LOC라는 것을 보면 I-PER이 문법적으로 안되기 때문에 주변을 고려해야한다는 말이다.

그래서, 독립적인 tagging decisions 모델링 대신에, 우리는 conditional random field을 jointly하게 모델링한다. (Lafferty et al., 2001)
입력 시퀀스

우리는 P를 양방향 LSTM 네트워크에 의해 출력된 matrix of scores로 간주합니다.
P는 크기 n × k이며, 여기서 k는 고유 한 태그의 수이고 $P_{i,j}$ 는 문장에서 i 번째 단어의 j 번째 태그 점수에 해당합니다.
예측 시퀀스는 다음과 같다.

score 함수는 다음과 같이 정의된다.

여기서 A는 $A_{i,j}$ 가 태그 i에서 태그 j 로의 전환 점수를 나타내는 matrix of transition scores입니다.
A는 학습이 되는 것인가?
$y_0$ 및 $y_n$ 은 가능한 태그 세트에 추가하는 문장의 시작 및 끝 태그입니다.
따라서 A는 크기가 k + 2 인 정사각형 행렬입니다.
즉, y0->y1, y1->y2, ..., yn->yn+1 까지의 태그 transition scores을 더한게 A term (이게 레이블링끼리 연관있도록 하는 부분일 듯)
k번째 단어의 yk번째 태그 점수를 다 더한게 P term (이 부분이 레이블링 정보겠지)
즉 S(X, y)가 loss의 반대 개념이다.

가능한 모든 태그 시퀀스에 대한 softmax 는 시퀀스 y에 대한 확률을 산출합니다.

$\mathbf{Y}_\mathbf{X}$ 는 문장 X에 대해 가능한 모든 태그 시퀀스라고 한다. (IOB 형식을 확인하지 않는 시퀀스 포함)
즉 레이블링된 태깅이든 아니든, 가능한 태깅 시퀀스에서 정답 태깅 시퀀스가 얼마나 높은 확률로 뽑히는지 softmax을 한 개념이다.

훈련 중에 올바른 maximize the log-probability을 최대화합니다.

위의 공식에서 네트워크가 유효한 출력 레이블 시퀀스를 생성하도록 권장하는 것이 분명합니다.
logadd가 log(sigma(exp)) 이것을 말하는건 처음알았음

디코딩하는 동안 다음과 같이 주어진 최대 점수를 얻는 출력 시퀀스를 예측합니다.

디코딩 할 때는, 위의 score function을 통해서 찾는다.

출력 간의 바이그램 상호 작용 만 모델링하기 때문에 Eq1의 합과 Eq2의 최대 사후 시퀀스 $\mathbf{y}^*$ 는 동적 프로그래밍을 사용하여 계산할 수 있습니다.
위처럼 학습을 하면 ref2에서 말하는 듯이, 레이블링끼리 금지되는 어떠한 rule? 등을 모델이 학습한다는 것이다.

2.3 Parameterization and Training

LSTM + CRF 모델에 대한 설명이므로 위에서 말한 거를 그냥 이어 붙인 거를 details하게 설명한 것.
각 토큰 (즉, Pi, y 's)에 대한 각 태깅 결정과 관련된 점수는 Ling의 POS 태깅 모델과 똑같은 양방향 LSTM으로 계산 된 컨텍스트 내 단어 삽입 간의 내적 (dot product)으로 정의됩니다. et al. (2015b) 그리고 이들은 bigram 호환성 점수 (예 : Ay, y0)와 결합됩니다.
이 아키텍처는 그림 1에 나와 있습니다.
원은 관찰 된 변수를 나타내고 다이아몬드는 부모의 결정적 함수이며 이중 원은 랜덤 변수입니다.
따라서이 모델의 매개 변수는 bigram 호환성 점수 A의 행렬과 행렬 P를 발생시키는 매개 변수, 즉 양방향 LSTM의 매개 변수, 선형 특성 가중치 및 단어 임베딩입니다.
파트 2.2에서와 같이 xi는 문장의 모든 단어에 대한 단어 임베딩의 순서를 나타내고 yi는 관련 태그입니다.
임베딩 xi가 섹션 4에서 모델링되는 방법에 대한 논의로 돌아갑니다.
단어 임베딩의 순서는 양방향 LSTM에 대한 입력으로 제공되며 2.1에서 설명한대로 각 단어에 대한 왼쪽 및 오른쪽 컨텍스트의 표현을 반환합니다.

2.4 Tagging Schemes

NER의 테스크는 named entity 레이블을 문장의 모든 단어에 할당하는 것입니다.
단일 named entity는 문장 내에서 여러 토큰에 걸쳐있을 수 있습니다.
문장은 일반적으로 IOB 형식(Inside, Outside, Beginning)으로 표현되며, 토큰이 named entity의 시작인 경우 모든 토큰은 B-라벨로, named entity내에 있지만 named entity 내의 첫 토큰이 아닌 경우 I-라벨 또는 O로 표시된다.
그러나 우리는 단일 엔티티 (S)에 대한 정보를 인코딩하고 named entity(E)의 끝을 명시 적으로 표시하는 명명 된 엔티티 인식에 일반적으로 사용되는 IOB의 변형인 IOBES 태깅 체계를 사용하기로 결정했습니다.

IOBES는 END도 표시와 단엘 엔티티는 S로 표시하는 방법을 결정하나봄.

이 기법을 사용하여, high-confidence으로 I-라벨로 단어를 태그하는 것은 후속 단어의 선택을 I-라벨 또는 E-라벨로 좁히지만, IOB 체계는 후속 단어가 다른 라벨의 내부가 될 수 없다는 것만 결정할 수 있다.
Ratinov와 Roth (2009) 및 Dai et al. (2015)는 IOBES와 같은보다 표현적인 태깅 체계를 사용하면 모델 성능이 약간 향상된다는 것을 보여주었습니다.
그러나 우리는 IOB 태깅 체계에 비해 상당한 개선을 관찰하지 못했습니다.

그럼 IOBES을 왜쓴거지?

3 Transition-Based Chunking Model

이전 섹션에서 논의한 LSTM-CRF의 대안으로 전환 기반 종속성 구문 분석과 유사한 알고리즘을 사용하여 입력 시퀀스를 청크하고 레이블을 지정하는 새로운 아키텍처를 탐색합니다.
이 모델은 다중 토큰 이름의 표현을 직접 구성합니다 (예 : 이름 Mark Watney는 단일 표현으로 구성됨).
더 자세한 건 읽어보면 좋겠지만...성능이 LSTM+CRF보다 안좋기도 하고 왠지 지금은 안쓰일 것 같으니 패스하자.

3.1 Chunking Algorithm

3.2 Representing Labeled Chunks

4 Input Word Embeddings

여기서는 길게 다루지만, 쉽게 말해 pre-trained word embedding을 dropout과 함께 사용한다는 것이다.
이렇게 뽑은 word embedding이 위에서 설명한 LSTM+CRF 입력이 되는 것이다.
두 모델의 입력 레이어는 개별 단어의 벡터 표현입니다.
제한된 NER 훈련 데이터에서 단어 유형에 대한 독립적 인 표현을 학습하는 것은 어려운 문제입니다.
신뢰할 수있는 추정을하기에는 매개 변수가 너무 많습니다.
많은 언어가 어떤 것이 이름 (또는 이름이 아님)이라는 orthographic(맞춤법) or morphological(형태소) 증거를 가지고 있기 때문에 우리는 단어 철자에 민감한 표현을 원합니다.
따라서 우리는 단어가 구성된 문자의 표현에서 단어의 표현을 구성하는 모델을 사용합니다 (4.1).
우리의 두 번째 직관은 개별적으로 매우 다양 할 수있는 이름이 큰 말뭉치의 규칙적인 맥락에서 나타난다는 것입니다.
따라서 우리는 단어 순서에 민감한 큰 말뭉치에서 학습 한임베딩을 사용합니다 (4.2).
마지막으로 모델이 하나의 표현 또는 다른 표현에 너무 강하게 의존하는 것을 방지하기 위해 드롭 아웃 훈련을 사용하고 이것이 좋은 일반화 성능에 중요하다는 것을 발견했습니다 (4.3).

4.1 Character-based models of words

대부분의 이전 접근 방식과 우리 작업의 중요한 차이점은 단어에 대한 접두사 및 접미사 정보를 수동으로 엔지니어링하는 대신 학습하면서 character-level의 기능을 학습한다는 것입니다.
character-level 임베딩 학습은 당면한 작업 및 도메인에 특정한 표현을 학습하는 이점이 있습니다.

언어에서 CNN으로 classification 하는 데서 적용한 character-level word embedding을 사용한다는 것이다.
대표적으로 이것의 장점은 UNK을 잘 대처하고 도메인 및 테스크에 대한 특정한 표현을 잘 학습한다고 한다.
여기서는 그림 4에서 보듯이 character-level word embedding을 biLSTM을 태운것과 단어와 매칭되는 것을 lookup table로 찾은 뒤 이것을 concat한다고 한다.
여기서 lookup table로 찾는 word embedding은 4.2에서 설명.

이들은 형태 학적으로 풍부한 언어에 유용하고 품사 태깅 및 언어 모델링 (Ling et al., 2015b) 또는 종속성 구문 분석 (Ballesteros et al., 2015)과 같은 작업에 대한 어휘 외 문제를 처리하는 데 유용합니다.
그림 4는 문자에서 단어 임베딩을 생성하는 아키텍처를 설명합니다.
무작위로 초기화 된 문자 조회 테이블에는 모든 문자에 대한 임베딩이 포함됩니다.
단어의 모든 문자에 해당하는 문자 임베딩은 정방향 및 역방향 LSTM에 정방향 및 역순으로 제공됩니다.
문자에서 파생 된 단어에 대한 임베딩은 양방향 LSTM의 순방향 및 역방향 표현의 연결입니다.
그런 다음이 문자 수준 표현은 단어 검색 테이블의 단어 수준 표현과 연결됩니다.
테스트 중에 룩업 테이블에 임베딩이없는 단어는 UNK 임베딩에 매핑됩니다.
UNK 임베딩을 훈련하기 위해 싱글 톤을 확률 0.5의 UNK 임베딩으로 대체합니다.
우리의 모든 실험에서 앞뒤 문자 LSTM의 숨겨진 차원은 각각 25 개이며, 결과적으로 단어의 문자 기반 표현은 50 차원입니다.
RNN 및 LSTM과 같은 반복 모델은 매우 긴 시퀀스를 인코딩 할 수 있지만 가장 최근 입력에 편향된 표현이 있습니다.
결과적으로 우리는 순방향 LSTM의 최종 표현이 단어의 접미사를 정확하게 표현하고 역방향 LSTM의 최종 상태가 접두사를 더 잘 표현할 것으로 기대합니다.
문자에서 단어의 표현을 배우기위한 대체 접근 방식 (가장 주목할 만하게 컨볼 루션 네트워크와 같은)이 제안되었습니다 (Zhang et al., 2015; Kim et al., 2015).
그러나 convnet은 입력의 위치 불변 기능을 발견하도록 설계되었습니다.
이것은 이미지 인식 (고양이는 사진 어디에서나 나타날 수 있음)과 같은 많은 문제에 적합하지만, 중요한 정보는 위치에 따라 다르므로 (예 : 접두사와 접미사는 줄기와 다른 정보를 인코딩) LSTM이 더 나은 선험적이라고 주장합니다. 단어와 문자 간의 관계를 모델링하기위한 함수 클래스.

4.2 Pretrained embeddings

Collobert et al. (2011), 사전 훈련 된 단어 임베딩을 사용하여 조회 테이블을 초기화합니다.
무작위로 초기화 된 것보다 사전 훈련 된 단어 임베딩을 사용하여 상당한 개선을 관찰합니다.
임베딩은 단어 순서를 설명하는 word2vec (Mikolov et al., 2013a)의 변형인 skip-n-gram (Ling et al., 2015a)을 사용하여 사전 훈련됩니다.
이러한 임베딩은 훈련 중에 미세 조정됩니다.
스페인어, 네덜란드어, 독일어 및 영어에 대한 단어 임베딩은 스페인어 Gigaword 버전 3, 라이프 치히 말뭉치 컬렉션, 2010 기계 번역 워크샵의 독일어 단일 언어 교육 데이터 및 영어 Gigaword 버전 4 (LA Times 및 NY Times 부분 포함)를 사용하여 학습됩니다. 제거됨).
We use an embedding dimension of 100 for English, 64 for other languages, a minimum word frequency cutoff of 4, and a window size of 8.

4.3 Dropout training

초기 실험에서 문자 수준 임베딩이 사전 훈련 된 단어 표현과 함께 사용될 때 전반적인 성능이 향상되지 않았 음을 보여주었습니다.
모델이 두 표현 모두에 의존하도록 장려하기 위해 드롭 아웃 훈련 (Hinton et al., 2012)을 사용하여 그림 1의 양방향 LSTM에 대한 입력 직전에 최종 임베딩 레이어에 드롭 아웃 마스크를 적용합니다.
드롭 아웃을 사용한 후 모델의 성능이 크게 향상되었습니다 (표 5 참조).

5 Experiments

최신 논문이라면, 살펴보는 것도 괜찮겠지만.. 2016년이면 딥러닝에선 현재 오래된 논문이니 굳이 실험결과를 자세히 볼 필요는 없다고 생각.
테이블만 간단히 살펴보자.

5.1 Training

5.2 Data Sets

named entity recognition을 위해 다른 데이터 세트에서 모델을 테스트합니다.
본 연구에서는 다양한 언어로 일반화하는 우리 모델의 능력을 증명하기 위해 영어, 스페인어, 독일어, 네덜란드어에 독립된 엔티티 레이블을 포함하는 CoNLL-2002 및 CoNLL-2003 데이터 세트(Tjong Kim Sang, 2002; Tjong Kim Sang and De Mulder, 2003)에 대한 결과를 제시한다.
그리고 네덜란드. 모든 데이터 세트에는 이전 세 가지 범주에 속하지 않는 locations(위치), persons(사람), organizations(조직), and miscellaneous(기타) entities의 네 가지 유형의 명명 된 엔티티가 포함됩니다.
모든 데이터 세트에 POS 태그를 사용할 수 있었지만 모델에 포함하지 않았습니다.
영어 NER 데이터 세트에서 모든 숫자를 0으로 바꾸는 것 외에는 데이터 세트 전처리를 수행하지 않았습니다.

5.3 Results

Table 1(영어) 결과를 보면, LSTM-CRF with char이 젤 성능이 좋음을 알 수 있다.
LSTM-CRF에서는 char을 쓴다고 엄청난 향상이라고 볼 수는 없지만, S-LSTM에서는 꽤 의미있는 차이를 보여주게 된다.
그리고 이 분야를 잘 몰라서 그런데.. 90.94면 기존의 F1들과 1 point도 차이는 안나는데 꽤 의미있는 결과인가 싶다.

5.4 Network architectures

LSTM-CRF 실험 결과를 보면 당연히 pretrain word embedding있어야 성능이 꽤 좋게 나온다.
dropout과 char도 성능을 올려주는데 일조하는 것을 볼 수가 있다.

6 Related Work

7 Conclusion

이 논문은 지명 사전(gazetteers)과 같은 외부 리소스를 사용하는 모델과 비교해도 standard evaluation settings에서 리포트된 best NER 결과를 제공하는 시퀀스 라벨링을위한 두 가지 뉴럴 네트워크를 제시합니다.
우리 모델의 주요 키는 간단한 CRF 아키텍처를 통해 또는 transition-based algorithm을 사용하여 입력 chunks를 명시적으로 구성하고 레이블을 지정하여 출력 레이블 종속성을 모델링한다는 것입니다.
Word representations은 성공을 위해 매우 중요합니다.

pre-trained word representations과 morphological and orthographic 정보를 캡처하는 “character-based” representations을 모두 사용합니다.

학습자가 하나의 표현 클래스에 너무 많이 의존하는 것을 방지하기 위해 dropout이 사용됩니다.

Reference

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-084, Neural Architectures for Named Entity Recognition (2016-NAACL)

■ Comment

0. Abstract

1 Introduction

2 LSTM-CRF Model

2.1 LSTM (번역)

2.2 CRF Tagging Models

2.3 Parameterization and Training

2.4 Tagging Schemes

3 Transition-Based Chunking Model

3.1 Chunking Algorithm

3.2 Representing Labeled Chunks

4 Input Word Embeddings

4.1 Character-based models of words

4.2 Pretrained embeddings

4.3 Dropout training

5 Experiments

5.1 Training

5.2 Data Sets

5.3 Results

5.4 Network architectures

6 Related Work

7 Conclusion

댓글

댓글 쓰기