NL-016, Let's do it "again": A First Computational Approach to Detecting Adverbial Presupposition Triggers (2018-ACL)
0. Abstract
- Presupposition triggers을 predicting 하는 task를 제안
- Presupposition triggers란?: also, again과 같은 것을 의미, 뒤에서 더 자세히 설명
- 이러한 task는 담화 문맥에서 비슷한 사건의 발생, natural language generation에서 summarization and dialogue system 등에서 필요하다.
- 데이서 세트가 이전에 없었나봄 → 제작함. Penn Treebank와 Annotated English Gigaword cropora을 이용하여 제작
- This task에 맞는 Novel attention mechanism
1. Introduction
- Presupposition을 알아야 자연스러운 communication 기능을 하고 이해할 수 있다.
- Presuppoistion triggers: presence of presuppositions (PT라고 쓰겠음)
- PT는 definite descriptions, factive verbs and certain adverbs을 포함하고 있음. (각각에 대한 설명은 언어학 용어로써 상당히 어려움)
- 쉽게 생각해보았을 때, PT는 확실성이 있는 것에 대한 정보를 담고 있는 것을 포함한다.
- Factive verbs: http://grammarsimplified.altervista.org/list-verbs-7-12/factive-verbs/
- Example:
- (1) John is going to the restaurant again.
- (2) John has been to the restaurant.
- Trigger again 존재의 차이
- 여기서 (1)은 (2)가 참이어야 참이다. 즉 이런 것은 presupposition의 성질로 구분할 수 있다.
- Entailment와는 살짝 다르다. Entailment는 (1)이 부정이되면 거짓이 되는데 PT는 그대로 참이다.(긍부정에 영향을 안 받음)
- 하는 이유: Indicate the recurrence, continuation, termination of an event in the discourse context, or the presence of a similar event
- 대화를 좀 더 잘 이해하려고 하는 듯함.
- 실제로 이것을 우리가 쓰려면 대화 생성 모델 정도..?(챗봇?)
- 이전 연구 중에, PT는 existential triggers 이후에 자주 등장한다는 것이 있음 (머 어쩌자는 거지? 여기서 이걸 실제로 이용하지도 않음)
- 연구가 거의 없다.
- 즉 language 기술 시스템에서 필요하다는 것을 강조!
- 요약 혹은 대화 시스템에 잘 적용하면 문맥적으로 적절하게 PT가 등장하면서 readability와 coherence을 향상 시킬 수 있다.
- 여기서는 too, again, aslo, still and yet에 집중한다.
- 데이터를 balance있게 만들었다.
- Attention 사용하였는데 weighted pooling attention mechanism 방법을 제시한다.
- 이 방법은 기존의 attention과 다르게 새로운 parameters 등을 요구하지 않는다.
- Self-attention 컨셉임.
- Contribution 정리
- PT task 제시
- 이것을 위한 dataset 방법 제시. 이것을 이용하여 다른 유사한 task에도 데이터 세트 구성할 수 있을 듯
- 새로운 attention 제시
2. Related Work
2.1 Presupposition and pragmatic reasoning
- 1892년 Frege's work → 1970, 1950년 Frege-Strawson theory → 2003년 (Blutner), 2012년 (Kang), 'too', 'again'에 대한 PT 연구 → 2016년 (Kabbara) noun phrase definiteness의 예측 연구
- 2012년(Zare) Factive verbs 와 implicative verbs의 차이에 대한 연구?
- 이 논문은 adverbial presupposition triggers에 집중
- 우리의 연구는 Cloze test에서의 fill-in-the-blanks task와 유사함.
- 하지만 fill-in-the-blank와 달리 우리는 어디에 PT의 위치에 대한 정보가 없이 예측함.(이 부분은 데이터 세트 구조를 보면 이해가 됨.)
- 2015년 (Hill) Childern's Book에 대한 memory encode.
- 이 관련 연구들에 대해서는 잘 설명되어 있지 않음. 하지만 이 논문에서 하고자 하는 PT의 정말 똑같은 task는 2012년 Kang 뿐인 듯?
2.2 Attention
- 일반적인 attention 구조 컨셉 설명
- Attention is all u need에 나온 self-attention 구조 컨셉 설명 → 우리도 이 컨셉을 따랐다.
3. Datasets
3.1 Corpora
- 두 개의 데이터 세트, PTB와 English Gigaword corpus을 이용하였다.
- 어떻게 데이터 세트 구성하였는지 설명 (train, test, development)
- 5개의 triggers에 대해 집중하는데 이것에 대한 five classification을 하게 되면 잘 안되나봄.(because of small size)
- 따라서 5개를 통합한 binary classification으로 접근하였음.
3.2 Data extraction process
- 3개의 tuple로 구성. (label / tokens / POS tags)
- 나오는 용어들이 (개인적으로) 상당히 어려웠음.
- Adverb triggers / Head word / Governor / unlemmatized
- Head word of trigger = Governor 개념이고, 이는 trigger가 수식해주는 단어라고 생각됨.(추측이나 형식을 보면 맞는듯..?)
- Positive sample 부터 만들고 이에 따른 Negative sample을 만듬으로써 balance 조정하는 식
- 이 떄, random하게 문서에서 매칭하는 식
- 데이터 구성의 실제 예시 및 느낌은 첨부한 PPT 자료 참조.
4. Learning Model
- 모델 그림:
- 모델에 대한 흐름은 첨부한 PPT 자료 참조.
5. Experiments
5.1 Baselines
- 비교 알고리즘: 1. MFC, 2, LogReg, 3, LSTM (여기서 제시한 모델에서 attention의 가중치를 1로 둔 것으로 생각하면 됨), 4. Sentence classification (KIM)을 이 task에 맞게 변경한 것
5.2 Hyparameters & Additional Features
- 64-units의 FC layers (ouput 쪽 말하는 거인 듯)
- 40 units의 POS embeddings (CoreNLP을 말하는 거 일거 같은데..모르겠음)
- Dropout: 0.5 확률
- Pre-trained word2vec 사용(fixed parameters, 이게 fine-tunning보다 성능이 좋았다고 함)
- Adam optimization
- Gradient clipping(bound -1, +1)
- Early stopping, 10 epochs for development accuracy.
- CoreNLP로 POS tagger 함.
- Maximum length: 60 tokens
6. Results
- 자기네가 제시한 모델이 다른 것들 보다 좋다는 것 말고는 딱히 없음. (POS가 효과가 있다고도 말함.)
- 그런데 사전연구가 없는 새로운 dataset에서 새로운 task를 제시한 것인데 비교 CNN은 옛날이고 이 task에 맞는 구조가 아니고 LSTM은 당연히 attention을 안썻기 때문에 당연한 것 같음.
- 개인적으로 이 실험 비교를 통해 아는 것은 WP(weighted pooling attention)이 효과가 있다인 듯.
- 즉 비교를 정확히 하려면 더 많은 parameters을 사용한 기본 self-attention 혹은 basic-attention과 비교도 해야 정확한 분석이 있을 거 같음.
7. Analysis
- 맞춘 예시1을 보여주면서 모델이 잘 이해했기 때문에 맞출 수 있었다고 설명.
- 틀린 예시2를 보여주면서, 이것은 사람도 애매하다고 생각한다고 설명.
- 하지만 틀린 데이터세트쪽에서 생각해보면 모든 틀린 데이터세트가 그럴 거 같지는 않음. 단지 애매하게 틀린 데이터세트를 가져다 설명했을 거 같음..
8. Conclusion
- Contribution에 대한 내용 다시 언급
- 새로운 task를 제안했고 이에 대한 데이터 세트를 소개했음.
- 새로운 attention 방법은 parameters의 추가가 필요하지 않으므로 의미있다.
- Imbalance의 다양한 데이터세트에 대한 시나리오도 생각해 볼 것
- 다양한 어플리케이션에 적용해보려고 한다.
Reference
댓글
댓글 쓰기