NL-100, Birds have four legs?! NumerSense: Probing Numerical Commonsense Knowledge of Pre-trained Language Models (EMNLP-2020)
◼️ Comment
- 이 논문은 pretrained LM을 분석하는 하나의 논문이다.
- 제목이 흥미롭고, 관심있는 내용이라 한 번 살펴보았는데 결론은 간단하다.
- 현재 pretrained LM이 수치적인 지식을 제대로 담고 있다고 보기 어렵다는 것이다.
- 논문의 제목처럼 "새가 4개의 다리를 가지고 있다"라고 한다는 것이고, 이는 MASK 토큰을 채우는 식으로 인퍼런스를 시킨다.
- 제대로 답변을 맞추는 것일지라도, [MASK] 주변에 다른 단어를 넣어주면, 잘못된 예측을 한다는 것이다.
- 즉 adversarial attack에 취약한 모습을 보여준다는 것이다.
- 위 주장을 입증하기 위해, NUMERSENSE 데이터세트를 제작했으며, diagnostic 예제들 (간단한 변형을 준) 포함한다.
- NUMERSNESE는 OMCS (Open Mind Common Sense) 데이터를 기반으로 제작이 되었다고 한다.
- 문장의 카테고리는 8개를 포함한다고 하고 데이터통계를 보면 no와 0~10까지의 숫자를 정답으로 하는 데이터세트이다.
- 모델에 대한 검증을 할 때는 pretraeind LM과 이를 fine-tuned한 LM 두 가지를 비교한다.
- fine-tuned하는 데이터세트는 GenericsKB 데이터세트를 이용했다고 한다.
- NUMERSENSE와 비교해서 GenericsKB 데이터의 설명은 조금 부족한게 아쉽고 NUMERSENSE을 쪼개서 fine-tuning 해서 비교해볼 수도 있지 않았을까? 싶은데
- 평가 메트릭은 hit@1,2,3을 이용하고 사람의 평가는 위키피디아를 이용한 평가와 아닌 평가 두 개를 제공한다.
- 근데 위키피디아를 이용하든 안하든 모델의 성능은 현저히 부족함을 보여준다.
- 실제로 케이스 스터디를 통하여, attention이 제대로 이루어지지 않고 있음을 보여주고, 즉 bias을 줄이는 것을 고려한 LM이 발전해야 된다고 말하는게 논문의 요지이다.
0 Abstract
- 최근 연구들은 BERT와 같은 pre-trained LM (PTLMs) 특정 commonsense와 factual knowledge을 가지고 있습니다.
- 그들은 마스킹된 단어들을 예측하는것을 통해 "neural knowledge bases"으로써 PTLMs을 사용하는 것은 믿을만하다고 제안한다.
- 놀랍게도, 우리는 이것이 numerical commonsense knowledge에서 잘 작동하지 않을 수 있음을 알아냈다. (예. 새는 보통 2개의 다리를 가진다.)
- 이 논문에서, 우리는 이 프로세스의 강인함뿐만 아니라 PTLMs의 numerical commonsense knowledge을 유도할 수 범위를 조사한다.
- 이 연구를 위해, 우리는 diagnostic dataset NUMERSENSE으로 novel probing task을 소개하고 이는 masked-word-prediction probes 13.6k을 포함한다 (10.5k for fine-tuning and 3.1k for testing).
- 우리의 분석은 다음을 밝혀냈다.
- (1) BERT와 강력한 변형인 RoBERTa는 fine-tuning전에 diagnostic dataset에서 성능이 저하된다.
- (2) 다른 supervision을통한 fine-tuning은 약간의 성능향상을 가져온다.
- (3) 최고의 supervised model은 여전히 human performance에 비해 성능이 낮다. (54.06% vs. 96.3% in accuracy).
1 Introduction
- BERT와 같은 Pre-trained language models (PTLMs)은 많은 NLP 테스크들에서 SoTA을 달성해왔다.
- 일반적이지만 유용한 텍스트 표현을 만드는 PTLM의 인용 된 능력을 감안할 때 commonsense knowledge을 representation으로 인코딩하는 능력에 대한 조사가 필요합니다.
- 언어를 완전히 이해하려면 commonsense knowledge이 필요한 경우가 많다.
- 최근 몇 연구들이 PTLMs가 commonsense knowledge을 함유하고 있는지에 대한 연구를 하였다.
- Language models as knowledge bases?
- Commonsense knowledge mining from pretrained models.
- Inducing relational knowledge from bert.
- 전체적으로, 이러한 사전 연구들은 PTLMs가 text representations을 생성하는 것이 종종 인코딩된 commonsense knowledge을 가지고 있음을 제안한다.
- 우리는, 그러나 유사하게 reasoning-based masked-word-prediction task로 목표를 잡았을 때, PTLMs은 요구하는 numerical commonsense knowledge을 기억하지 못한다는 것을 알아낸다.
- 그래서, 이 논문에서, 우리의 목표는 PTLMs가 numerical commonsense knowledge을 캡쳐하는지 아닌지를 연구하는 것이다.
- 즉, commonsense knowledge는 entities간의 numeric relation의 이해를 제공하는지 보는 것이다.
- 우리는 probing task을 기반으로 masked-word-prediction을 통한 이러한 능력을 측정하는 것을 제안한다.
- 이 때, 모델이 가장 가능성 높게 믿는 숫자 단어들의 랭킹은 숫자 commonsense knowledge을 캡쳐하는 PTLMs의 기능등을 노출한다.
- 예를 들어, 문장에서 masked position인 "A bird usually has [MASK] legs."의 숫자는 "two"로 채워지는게 가장 적절할 것이다. (숫자단어만 고려했을 때)
- 이 컨셉을 중심으로, 우리는 세심히 데이터세트 NUMERSENSE을 제작한다.
- 3,145 probes개가 8개의 다른 카테고리들로부터의 질문들을 커버한다.
- 카테고리들은 everyday objects, biology, geometry, etc.이다.
- 우리의 초기실험에서, 우리는 PTLMs가 adversarial attacks에 취약함을 알아낸다.
- 그림 1의 아래 섹션에서 보듯이, BERT는 처음에 masked word을 "four"로 제대로 예측을 하나, 약간의 변형으로 (round 단어를 삽입함으로써) top 결과를 "two"로 예측을 바꾼다.
- 그래서, 우리는 강인함을 테스트하기위해 의도적으로 adversarial examples을 조사에 넣었다.
- 우리는 PTLMs을 두 가지 세팅에서 평가한다.
- (1) zero-shot setting으로 evaluation전에 우리의 데이터가 모델이 fine-tuned에 사용되지 않은 상태에서의 평가
- (2) supervision setting으로 evaluated되기 전에 모델들이 관련된 commonsense reasoning 데이터세트로부터 fine-tuned된 것
- 우리의 발견들은 이 테스크에서 PTLMs가 여전히 humans보다 나쁘지만, supervision으로 fine-tuning은 도움이 될 수 있음을 밝힌다.
- 우리는 또한, PTLMs가 아마도 성능이 낮은 이유를 분석하고 흥미로운 미래 연구를 집어낸다.
- 우리는 또한 우리의 연구가 미래 연구들에 도움이될 희망한다.
- 1) PTLMs의 숫자 상식을 잡아내는 능력을 향상
- 2) 현재 상식 기반으로 numerical 사실 채우기
- 3) open-domain QA - "Q: 개미들은 다리가 몇 개야?", "A: 여섯 개"
2 The NUMERSENSE Probing Task
- 우리는 우리의 numerical commonsense reasoning probing task을 소개하고, 데이터세트 NUMERSENSE 생성 과정도 소개한다.
- 그리고나서, 우리는 probes가 커버하는지 knowledge의 타입에 대한 분석을 제공하고 최종적으로 fine-tuning이 성능 향상시킬 수 있는지 추가적인 고품질 supervision을 포함한다.
2.1 Task Formulation
- 우리는 필수적으로 PTLMs로 단어들의 분포로 PTLM이 masked position을 채울 수 있는 softmax 점수로 (greatest to least) 조사를 한다..
- 만약 ranking이 numerical commonsense knowledge을 입증한다면, highest 랭크된 숫자 단어는 (예. 'one', 'two' 등) 올바른 정답이 것이고, 그러고나면 조사는 PTLM에의해 성공적으로 완선된다.
- 각 조사에서의 masked position은 숫자 단어가 공백을 채울 수 있는 매우 가능성 있는 방법이다.
2.2 Probing Data Collection
- 제안된 프로빙 작업에 적합한 데이터 세트를 구축하기 위해 우리는 OMCS (Open Mind Common Sense)라는 상식 주장으로 구성된 기존 코퍼스를 사용합니다 (Singh et al., 2002).
- 먼저 OMCS에서 { "no"2, "zero", "one", "two", ..., "ten"}의 12 개 숫자 단어 중 하나 이상이 포함 된 문장을 추출했습니다.
- 그러나 예상대로 1) 부정확하거나 2) 오타를 포함하거나 3) 수치적 상식 논리가없는 시끄러운 진술이 많이있었습니다.
- 따라서 우리는 이러한 문장을 수동으로 실용적으로 다듬고 다른 대학원생에 의해 두 차례의 심사를 수행했으며 모든 주석가가 수락 한 진술 만 유지했습니다.
- 이 엄격한 여과 과정 후에 우리는 조사를 위해 1,131 개의 정리된 statements을 얻었습니다.
- 우리는 초기 테스트를 수행했고 PTLMs가 maksed 숫자 단어근처에 형용사의 간단한 perturbation을 삽입함으로써 깨지는 현상을 관찰했다.
- 그래서, 제안된 테스크에서 모델들의 강인함을 연구하기위해, 우리는 또한 각 probe에서 nuemrical reasoning에 연루된 명사이전에 형용사를 추가함으로써 adversarial examples을 우리의 데이트세트에 추가했다.
- 후보 형용사들은 commonsense knolwedge 그래프인 ConceptNet에서 연관된 triples을 (그림 1의 예) 질문함으로써 생성됐고 더 나아가 human annotators에의해 선택되고 수정되어서 adversarial 예제들이 여전히 유용하고 자연스러움을 보장한다.
- 우리는 마침내, NUMERSENSE을 위한 3,145 테스팅 probes을 진단 데이터세트로 만든다.
- 우리는 또한 각 인서턴스에대한 카테고리 레이블을 직접 어노테이트하여서 우리가 커버하는 토픽들과 그들의 퍼센티지를 더 잘 이해할 수 있게 한다.
- 우리는 유형의 일상적인 물건 (예 : 자동차, 기타, 테이블)에서 기하학 (예 : 큐브)에 이르는 8 가지 유형의 numerical commonsense knolwedge을 발견했습니다.
- 표 1에는 각 범주의 구체적인 예가 나와 있습니다.
2.3 Supervision for Fine-Tuning PTLMs (번역)
- 이 작업에 대한 fine-tuning이 성능을 향상시킬 수 있는지 궁금 할 수 있습니다.
- 이 질문을 해결하기 위해 GenericsKB 코퍼스 (Bhakthavatsalam et al., 2020)에서 훈련 문장을 추가로 수집했습니다.
- GenericsKB의 문장은 Simple Wikipedia, 교육 도메인 내 공통 크롤링, ARC 코퍼스 등에서 추출한 generic commonsense statements입니다.
- 먼저 MSCOCO (Lin et al., 2014) 및 VATEX (Wang et al., 2019)와 같은 다양한 caption corpora에서 자주 사용되는 명사 목록을 가져 와서 이러한 문장을 수집했습니다.
- 그런 다음 관심있는 단어가 하나 이상 포함 된 수집 된 문장을 선택하고 마지막으로 테스트 데이터와 동일한 사람 어노 테이터 검증 프로세스를 거칩니다.
- 우리는 미세 조정을 위해 10,492 개의 문장을 수집했으며, 이러한 문장을 적절하게 사용하면 PTLM의 numerical commonsense knowledge을 회상하는 능력을 향상시킬 수 있다고 믿습니다.
2.4 Statistics of NUMERSENSE
- We show the distribution of the truth number words in the test data in Fig. 2.
- The average length of the sentence in training data is 11.1 and it is 8.9 in test data.
3 Empirical Analysis
- 우리는 실험환경 세팅, 그리고나서 다른 PTLMs의 zero-shot setting과 distantly supervised finetuned 에서의 현재 결과를 소개한다.
- 우리는 또한 다양한 모델들에 대한 강인함과 biases에 대한 몇 가지 분석을 제공하고 마침내 SoTA open-domain question-answering 모델의 성능의 연구를 한다.
3.1 Experiment Set-up
- zeroshot inference과 finetuning을 통한 추가적인 supervision이라는 두 가지 설정에서 실험을 실행합니다.
- 첫 번째 설정에서는 수정없이 PTLM을 조사한다.
- 특히 pre-trained masked word-predection heads을 가지는 BERT 및 RoBERTa를 사용한다.
- 두 번째 설정에서는 수집된 additional supervision dataset(2.3 절)를 사용하고 각 문장의 숫자 단어들을 마스킹합니다.
- 그런 다음 NUMERSENSE에서 평가하기 전에 이러한 마스크 된 문장에서 위의 모델을 미세 조정합니다.
- 여기서 fine tuning에 사용되는 데이터세트는 위에서 말했듯이, GenericsKB 데이터세트고 평가 데이터세트는 NUMERSENSE 데이터세트임
3.2 Evaluation Metric and Human Bound
- 마스킹 된 단어 예측 헤드 (미세 조정 여부에 관계없이)는 softmax 레이어를 통해 전체 어휘에 대한 확률 분포를 생성합니다.
- 여기서 class에는 데이터 통계에서 말하는 0~10+no만 있는것인가? 아니면 그냥 vocab과 똑같나?
- Sec. 2.1에서 NUMERSENSE는이 확률 분포를 사용하여 모든 숫자 단어의 순위를 지정하고이 순위를 평가하는 작업입니다.
- 평가하기 위해 우리는 hit@1/2/3 accuracy를 사용하여 정확한 숫자 단어가 상위 k 개의 숫자 단어에서 순위가 매겨진 예측 비율을 계산합니다.
- 작업에 대한 human performance를 추정하기 위해 300 개의 예제를 샘플링하고 세 사람으로 구성된 두 그룹에 가면을 입력하도록 요청했습니다.
- 한 그룹은 Wikipedia와 같은 웹의 외부 정보 (오픈 북 테스트)에 액세스하고 다른 그룹은 액세스하지 못했습니다. 비공개 테스트).
- 우리는 대다수 레이블을 최종 인간 레이블로 사용합니다.
3.3 Experimental results
- 우리는 우리의 실험 결과를 테이블2에서 보여준다.
- PTLMs의 첫 번째 4줄의 결과들은 zero-shot inference 세팅이다.
- 우리는 모델 사이즈가 늘어날수록 명백한 성능 향상이 일어나기에 모델 사이즈가 중요함을 알 수 있다.
- 또한, RoBERTa의 결과들은 일관적으로 BERT보다 좋은데, 이는 아마도 RoBERTa가 너 많은 학습 코퍼스를 사용하고 pre-training 스테이지에서 masked language modeling에 좀 더 집중하기 떄문일 것이다.
- 우리는 우리의 fine-tuning 노력들이 모델 성능향상에 도움이 됨을 확인한다
- BERT-large: 37.63 → 50.00
- RoBERTa-large: 45.85 → 54.06
- 그러나, 둘다 여전히 사람의 closed-book evaluation과는 멀리 떨어져있다.
- 그림 3에서 PTLMs의 성능은 NUMERSENSE의 core set 안에서 모든 카테고리에 대해 성능이 낮다.
- Core Probes set (#=1,131) vs +Adversarial Examples set (#=3,145)에대한 PTLM의 성능에 비교해서 우리는 그들의 강인함을 측정한다.
- 우리는 adversarial set에서 평가될 때 모든 모델들이 중요한 성능 저하가 일어남을 알아냈다.
- 이것은 PTLMs이 (fine-tuned 될 때도) adversarial attacks을 다루기 어려울 수 있고 미래의 pre-training LMs의 방향은 좀 더 contextual representations을 학습할 때, dependencies와 semantic roles에 대한 inductive biases을 고려해야하는 것이다.
4 Case Studies
- Object bias.
- 예제인 "a bird usually has [MASK] legs,"을 회상할 때, BERT-large은 "four"로 예측한다.
- BERT-Large가 [MASK] 뒤에 인접단어가 "legs"인 한, 항상 "four"로 예측할까?
- bias가 존재하는지 조사하기 위해, 우리는 Table 3의 case studies을 보여준다.
- 랜덤으로 1000개의 다른 단어들을 생성함으로써, '[x]'을 채우고 우리는 softmax 분포의 지배적인 답변에 의해 BERT와 RoBERTa 특정 답변을 향하여 모두 bias을 가짐을 알 수 있다.
- 그러나, RoBERTa의 수정된 pre-training 전략은 bias가 적게 가지는 것에 도움이 된다.
- 우리는 미래 연구들은 masked language modeling의 bias을 컨트롤 해야함을 주장한다.
- Attention distribution.
- 이전의 attention weights와 syntactic structures사이의 관계에 대한 probing work을 따라서, 우리는 문장의 attention 분포를 그려본다. (“A bird usually has two legs.”에서 "two"에 해당하는 것을 그림 4에서)
- 단어 'has'는 처음 몇 층과 중간 층에서 최대의 관심을받는 반면 'two'라는 단어는 결국 그 자체로 최대의 관심을 받습니다.
- 숫자 상식을 쿼리하는 데 중요한 단어 인 'bird'와 'legs'는 항상 attention 가중치가 낮습니다.
- 이는 BERT (및 RoBERTa)가 본질적으로 subject/object 및 숫자 단어 간의 관계를 잃을 수 있음을 시사합니다.
5 Open-Domain ‘How-Many’ Questions (번역)
- NUMERSENSE의 예는 '얼마나 많은'상식을 대상으로하는 개방형 질문으로도 볼 수 있습니다.
- “파리는 보통 다리가 몇 개입니까?” 이러한 오픈 도메인 수치 상식 질문에 답하는 것은 NUMERSENSE에서 성공적인 모델의 실질적인 다운 스트림 적용입니다.
- 따라서, 우리는 또한 최신 오픈 도메인 QA 모델의 성능을보고합니다 (Asai et al., 2020).
- 우리는 Natural Question (NQ) 데이터 세트 (Kwiatkowski et al., 2019)에서 훈련 된 모델을 사용합니다.
- 여기서 예제의 '[MASK]'를 'how many'로 대체하여 프로브가 NQ 예제와 유사한 형식입니다.
- 예를 들어,“파리는 보통 [MASK] 다리를 가지고 있습니다.”는“파리는 보통 다리가 몇 개입니까?”로 변환됩니다.
- 최첨단 모델의 정확도는 15.4 %에 불과하여 미세 조정없이 BERT 기반을 사용하는 것보다 훨씬 낮습니다.
- 이는 NUMERSENSE의 성능을 개선하면 개방형 도메인 "how-many"질문에 대한 응답 성능을 향상시키는 데 도움이 될 수 있음을 나타냅니다.
6 Related Work (번역)
- Probing Tasks for PTLMs.
- 프로빙 언어 모델의 이전 작업은 주로 언어 현상 분석에 초점을 맞추 었습니다.
- Clark은 BERT의주의 가중치와 구문 구조 간의 관계를 조사하면서 종속성 (예 : 직접 대상, 명사 수정 자), 상호 참조, 문장 분할 등이 있습니다.
- Tenney는 BERT 내에서 특정 유형의 언어 정보가 캡처되는 위치를 표시 할 수있었습니다.
- 실제로 PTLM의 계층이 고전적인 NLP 파이프 라인의 단계를 나타냅니다: POS
- Probing Commonsense Knowledge.
- 섹션 1에서 논의한 작업 외에도 Zhou와 Talmor는 Trinh와 Le (2018a 및 2018b)의 이전 작업에 따라 사전 훈련 된 언어 모델의 상식 지식을 조사 할 것을 제안했습니다.
- 둘 다 상식 지식을 대상으로하는 다양한 기존 언어 이해 데이터 세트를 활용하여 PTLM이 특정 상식 지식을 캡처 할 수 있는지 테스트했습니다.
- Lin은 또한 PTLM이 CommonsenseQA 데이터 세트에 대한 PTLM의 결정을 해석하는 데 도움이되는 ConceptNet에서 경로를 검색 할 수 있음을 보여줍니다.
- Lin은 제한된 텍스트 생성 작업을 통해 사전 훈련 된 언어 생성 모델의 상식 지식을 조사합니다.
- 그러나 그들은 상대적으로 미개발 분야 인 수치 상식은 고려하지 않는다.
- Numerical Commonsense Knowledge.
- Forbes와 Choi와 Goel은 사전 훈련 된 단어 임베딩에서 두 물리적 대상 (예 : 집은 일반적으로 사람보다 큽니다) 간의 상식적 비교를 연구했습니다.
- Elazar와 Yamane은 물체의 양적 속성 (예 : 질량, 길이 및 통화)의 상식적 분포를 유도 할 것을 제안합니다.
- 그들의 목표는 그러한 수치 적 속성을 추출하거나 크라우드 소싱 한 다음 상식적인 지식을 반영하는 분포를 얻는 것입니다. 그러나 NUMERSENSE는 값 범위 (예 : 호랑이의 몸무게 약 120kg) 대신 정확한 수치 상식적 사실 (예 : 새의 다리가 두 개임)에 주로 초점을 맞추고 물리적 속성 외에 더 많은 인수를 가지고 있습니다.
- Encoding Numerics for Computation.
- Wallace는 회귀 작업 (예 : "71"→ 71.0)에 의해 수리 토큰을 표현하는 능력 측면에서 PTLM을 조사하고 BERT가 숫자 토큰을 인코딩하는 데 적합하지 않다는 것을 발견했습니다.
- 일부 작업은 PTLM에 대수 계산 능력을 통합하여 MAWPS 및 DROP과 같은 수학 추론 작업에 답할 수 있도록하는 데 중점을 둡니다.
- 이러한 모델과 작업은 수치 상식 지식이 아니라 주로 텍스트 내의 수치 관련 계산을 대상으로합니다.
7 Conclusion
- 우리는 pretrained LM으로부터 숫자적인 commonsense knowledge을 유도하기위해 probing task, NUMERSENSE을 소개한다.
- 우리는 새로운 진단 데이터세트를 신중하게 수집하고, 사람으로부터 검증받고, 이는 8개의 다른 토픽들을 커버한다.
- BERT와 RoBERTa와 같은 강력한 pre-trained 모델은 성능이 현저히 낮으며, 심지어 높은 퀄리티의 distant supervision을 이용한 fine-tuning 이후에도 마찬가지이다.
- 우리는 우리의 발견들과 probing dataset가 pretrained masked LM의 수치적이고 기타 commonsense knowledge의 구체적인 타입을 개선하는 기반을 제공하길 희망한다.
Reference
댓글
댓글 쓰기