NL-125, FEVER: a large-scale dataset for Fact Extraction and VERification, (NAACL-2018)
◼ Comment
- 데이터는 위키랑 연동해서 구성된거 같고.. 직접 봐야 이해가 확되겠지만, 주어진 문장(claim)에 대해 위키피디아의 글이 뒷받침하냐, 뒷받침하지 않냐, 상관없냐 이렇게 나뉘어져 있다.
- 말 그대로, 사실여부를 추출하고 검증하는 것이다.
- 데이터 구축하는 것이 컨트리뷰션인 논문이기 때문에 이 데이터를 이용해 어떻게 연구하는지를 추가적으로 봐야할 거 같다.
0 Abstract
- 이 논문에서, 우리는 FEVER이라고하는 텍스트 소스에 대한 검증 데이터세트를 소개한다. (act Extraction and VERification)
- 이는 Wikipedia에서 추출한 문장을 변경하여 생성된 185,445개의 claims으로 구성되어 있으며 이후에 파생된 문장에 대한 knowledge 없이 검증되었습니다.
- claims들은 어노테이터로부터 SUPPORTED, REFUTED or NOTENOUGHINFO으로 분류되고 Fleiss k에서 0.6841을 달성한다.
- 첫 2클래스에 대해, 어노테이터들은 판단에 필요한 evidence을 형성하는 문장들을 기록했다.
- 소개된 데이터세트의 챌린지를 특성화하기 위해, 우리는 파이프라인 접근법을 개발하고 디자인된 적절한 오라클들과 비교한다.
- 올바른 evidence와 같이 레이블링된 claim에서 가장 좋은 정확도는 31.87%이곤 반면, evidence을 무시하면 50.91%이다.
- 따라서 우리는 FEVER가 텍스트 소스에 대한 claim verification 진행을 촉진하는 데 도움이 될 도전적인 testbed라고 믿습니다.
1 Introduction
- 웹을 통한 공유의 용이성과 함께 사용 가능한 텍스트 정보의 양이 계속 증가함에 따라 fact checking이라고도 하는 검증에 대한 요구가 증가했습니다.
- 저널리즘의 context에서 많은 관심을 받았지만, verification은 다른 영역에서 중요합니다. (scientific publications, product reviews, etc.)
- 이 논문에서, 우리는 텍스트 소스에 대한 textual claims의 verification에 집중한다.
- textual entailment (TE)/nautral language inference와 비교했을 때, 이러한 테스크들에서 주요 다른점은 각 claim이 주어졌을 때, 패시지를 검증하는 것이고
- 최근 몇년동안 이것은 전형적으로 싱글 문장으로 구성되었다.
- 반면에 verification systems에서는 evidence을 형상하기 위해 많은 세트의 documents으로부터 검색을 해야한다.
- 즉 TE/NLI은 검증을 한 문장에 대해서만 하지만, FEVER은 많은 evidence (검색으로부터 뽑은 documents)에서부터 해야한다?
- 다른 관련있는 테스크는 question answering (QA)이고, 이는 최근에 위키피디아 같은 large-scale 리소스를 핸들링하기 위해 접근방식이 확장되어왔다.
- 그러나, questions은 일반적으로 answer을 식별하기 위한 정보를 제공하고, 반면에 claim으로부터 누락된 정보는 종종 반박 evidence를 검색하는 데 중요할 수 있습니다.
- 예를 들어, calim이 "피지에서 가장 큰 섬은 카우아이입니다." 이면, 이는 "카우아이는 하와이에서 가장 오래된 섬입니다"을 검색하는데 evidence로 쓰여 반박할 수 있다.
- 즉, QA는 question이 answer을 위한 true evidence만 있는데, FEVER은 negative evidence로도 작동할 수 있다?
- 미리 언급된 테스크들에서 진행은 large-scale datasets의 사용성의 도움이 있었다.
- 그러나, 연구자들사에 verification와 fact checking에 관심이 증가함에도 불구하고, 이 테스크에대해 사용가능한 데이터세트는 현재 몇백개의 claims에 한계가 있다.
- 암시적으로, 최근에 50개 참가 팀과 함께 실시한 Fake News Challenge는 TE 및 QA에 사용된 것보다 훨씬 작은 2,595개의 관련 뉴스 기사에 대해 검증된 300개의 claims으로 구성된 데이터 세트를 사용했습니다.
- In this paper we present a new dataset for claim verification, FEVER: Fact Extraction and VERification.
- 이는 위키피디아 페이지의 소개 섹션에 대해 수동으로 검증된 185,445 calims으로 구성되고 SUPPORTED(지원), REFUTED(반박) or NOTENOUGHINFO(참고정보)으로 분류된다.
- 첫 두 클래스들에 대해선, 시스템들과 어노테이터들은 claim을 뒷받침하거나 반박하는 필수적인 evidence을 형성하는 문장들의 조합을 반환해야한다.
- claims들은 위피디이아로부터 사람 어노테이터가 추출하여 생성되고, 다양한 방식으로 주장들을 변경하고, 일부는 의미를 교체한다.
- 각 claim에 대한 검증은 분리된 어노테이션 프로레스로 수행되었다.
- 즉, 어노테이터는 페이지를 알고있지만, 추출된 original claim을 모른다.
- claim의 31.75%에서 하나 이상의 문장이 적절한 증거로 간주되었습니다.
- claims은 16.82% 케이스에서 여러 문장들로부터 evidence를 구성을 요구한다.
- 게다가, claims의 12.15%에서 evidence는 여러 pages로부터 얻는다.
- annotation 일관성을 보장하기 위해, 우리는 적합한 가이드라인과 user 인터페이스들을 개발했고 claim verification classifcation에서 Fleiss k 0.6841의 inter-annotator 동의를 얻고, evidence retrieval에서 precision과 recall을 65.42%, 72.36% 얻는다.
- FEVER가 제기하는 챌린지를 특성화하기 위해 우리는 claim이 주어지면 먼저 관련 document를 식별하는 파이프라인 접근 방식을 개발한다.
- 그런 다음 documents에서 evidence을 구성하는 문장들을 선택하고
- 마지막으로 evidence에 관련된 claim을 분류한다.
- 가장 좋은 성능 버전은 claims SUPPORTED or REFUTED에 대해 올바른 evidence을 요구할 때 verification에서 31.87% accuracy을 수행한다.
- 만약 evidence의 올바름이 무시될 때는 50.91%이다.
- 둘 다 task의 가능성에 대한 어려움을 나타낸다.
- 우리는 또한 파이프라인의 구성 요소를 standard annotations으로 대체하는 Oracle 실험을 수행했으며 작업의 가장 어려운 부분이 증거가 포함된 문장을 선택하는 것임을 관찰했습니다.
- 웹사이트를 통해 데이터를 게시하는 것 외에도 주석 인터페이스와 기준 시스템을 게시하여 검증에 대한 추가 연구를 촉진합니다.
2 Related Works
3 Fact extraction and verification dataset
- The dataset was constructed in two stages:
- Claim Generation
- Wikipedia에서 정보를 추출하고 이에 대한 클레임을 생성합니다.
- Claim Labeling
- Wikipedia에서 주장을 지지하거나 반박하는지 분류하고 이에 대한 증거를 선택하거나 결정을 내리기에 정보가 충분하지 않다고 판단합니다.
3.1 Task 1 - Claim Generation
- 이 테스크의 objective는 위키피디아로부터 추출된 information으로부터 claims을 생성하는 것이다.
- 우리는 2017년 7월 위키피디아를 덤프해서, stanford cornlp로 프로세싱하고 대략 50,000 유명한 페이지에서 산업 섹션으로부터 문장들을 샘플링했다.
- 어노테이터는 랜덤으로 선택된 샘플로부터 문장을 받고, information의 한 조각을 포함하는 claims을 생성하도록 요청받는다.
- 이는 original 위키페이지에 관한 엔티티에 초점을 맞춘다.
- 우리는 어노테이터에게 하나의 사실에 관한 claims을 생성하도록 요청했고, 이는 임의의 복잡할 수 있고 엔티티에 대해 다양한 표현이 가능하다.
- 만약 소스 문장들만 claims을 생성하는데 사용되면, 새로운 claims은 단순화 및 패러프레이즈되는 것으로써 사소하게 검증 가능한 claim이 된다.
- 다른 극단에서, 만약 우리가 world knowledge을 자유롭게 통합이 가능하게하면, 이것은 위키피디아만으로는 확인하기 어려운 claims이 나온다.
- 우리는 이러한 이슈를 dictionary을 소개함으로써 설명한다
- 기존 문장에서 하이퍼링크된 terms의 리스트는 그들에 해당하는 위키피디아 페이지로부터 첫 번째 문장이다?
- 이러한 dictionary을 사용해서, 우리는 추가적인 knowledge을 제공해서 컨트롤 가능한 방법으로 생성된 claims의 복잡성을 향상시키키는데 사용한다.
- 어노테이터들은 또한 claims의 변형을 생성하도록 요청받는다.
- original claims의 altered 버전은 (이에 대해 검증이 가능할 수 있는 경우에도) 위키피디아로부터 지지받는지 여부를 변경하거나/변경하지 않아야한다.
- 즉, claims을 변형하는데 변형된 claims에 대해 위키피디아에 의해 support하는지 안하는지를 검증해야한다?
- Natural Logic Inference(Angeli and Manning, 2014)에 사용된 연산자에서 영감을 받아 우리는 6가지 유형의 변형을 지정했습니다:
- paraphrasing, negation(부정), entity/relation를 similar/dissimilar것으로 대체, claim을 보다 general/specific하게 만들기.
- See Appendix A for the full guidelines.
- 어노테이션 테스크의 시도중에, 우리는 어노테이터의 사소한 부정 변형에 (기존에 'not'을 추가하는 것) 어려움을 겪는것을 밝혀냈다.
- 게다가, 각 변형들로부터 수 많은 예제들을 제공함으로써, 우리는 또한 annotation 인터페이스 디자인을 다시해서 모든 변형 타입들이 한 번에 시각적으로 보이고 highlighted 변형들이 'not'을 포함하지 않도록 해서 사소한 negations을 하지 않도록 한다.
- 마지막으로, 엔티티 유사성과 클래스 멤버십의 다양한 수준을 설명하기 위해 애노테이터에게 온톨로지 다이어그램을 제공했습니다.
- This process resulted in claims (both extracted and mutated) with a mean length of 9.4 tokens which is comparable to the average hypothesis length of 8.3 tokens in Bowman et al. (2015).
3.2 Task 2 - Claim Labeling
- 어노테이터들은 Task1 동안, 각각 개별적으로 생성된 claim을 SUPPORTED, REFUTED or NOTENOUGHINFO 로써 레이블링하도록 요청받는다.
- 앞의 2케이스들에서, 어노테이터들은 모든 페이지로부터 claim을 supprot하거나 refute하는 evidence을 찾도록 요구받는다.
- 어노테이터 간의 일관성을 장려하기 위해 다음과 같은 일반 지침을 제공했습니다.
- 내가 선택한 문장만 주어진다면 그 주장이 사실이라고 믿을 만한 강력한 이유가 있습니까(지원됨) 아니면 주장이 거짓이라고 믿을 만한 강력한 이유가 있습니까(반박됨).
- 확실하지 않은 경우 이 결론에 도달하기 위해 어떤 추가 정보(사전)를 추가해야 합니다.
- 어노테이션 인터페이스에서, claim의 주요 entitiy와 문장들에서 모든 linked entity을 위한 페이지의 산업 섹션으로부터의 모든 문장들은 evidence의 default 소스로 제공된다. (그림2의 왼쪽)
- 이 인터페이스를 사용하여 주석 작성자는 분류 결정을 정당화하는 데 필요한 문장을 기록했습니다.
- 기본 페이지와 링크된 페이지를 넘어 탐색할 수 있도록 하기 위해 우리는 또한 주석자가 URL을 제공하여 임의의 Wikipedia 페이지를 추가할 수 있도록 허용했으며 시스템은 소개 섹션을 추가 문장으로 추가한 다음 증거로 선택할 수 있습니다(오른쪽 그림 2).
- 페이지의 타이틀또한 co-reference을 해결하기위해 evidence으로 사용될 수 있지만, 이 결정은 기록되지 않는다.
- 우리는 작업에 대한 엄격한 시간 제한을 설정하지 않았지만 어노테이터는 클레임당 2-3분 이상을 소비하지 않는 것이 좋습니다.
- NOTENOUGHINFO라는 레이블은 Wikipedia의 정보량으로 주장을 뒷받침하거나 반박할 수 없는 경우 사용되었습니다(너무 일반적이거나 너무 구체적이기 때문에).
3.3 Annotators (번역)
- 주석 팀은 총 50명으로 구성되었으며, 그 중 25명은 첫 번째 작업에만 참여했습니다.
- 모든 주석가는 미국 영어 원어민이었고 저자 또는 경험 많은 주석가에게 직접 교육을 받았습니다.
- 두 작업의 인터페이스는 작성자가 두 명의 주석으로 구성된 초기 팀과 협력하여 개발했습니다.
- 그들의 메모와 제안은 주석 지침에 통합되었습니다.
- 주석가로부터 받은 대부분의 피드백은 매우 긍정적이었습니다.
- 그들은 작업이 매력적이고 도전적이라는 것을 알았고 주석의 초기 단계 후에 그들은 그룹으로서 엣지 케이스에 대한 솔루션을 논의할 수 있도록 작업의 요구에 대한 이해를 발전시켰습니다.
3.4 Data Validation (번역)
- 두 번째 작업(클레임 레이블 지정)의 복잡성을 고려하여 세 가지 형식의 데이터 유효성 검사를 수행했습니다.
- 5방향 애노테이터 간 합의, 수퍼 애노테이터에 대한 합의(섹션 3.4.2에 정의), 작성자의 수동 검증.
- 클레임 생성에 대한 유효성 검사는 클레임 레이블을 지정하는 동안 암시적으로 수행되었습니다.
- 그 결과 클레임의 1.01%는 건너뛰었고 2.11%는 오타를 포함했으며 생성된 클레임의 6.63%는 너무 모호하거나 모호한 것으로 표시되어 "Sons of Anarchy"에서 제외되었습니다.
3.4.1 5-way Agreement (번역)
- 5명의 주석이 주석을 추가하도록 건너뛰지 않은 클레임 중 4%(n = 7506)를 무작위로 선택했습니다.
- 우리는 Fleiss κ 점수(Fleiss, 1971)를 0.6841로 계산하여 작업의 복잡성을 고려할 때 권장하는 것으로 간주합니다.
- 이에 비해 Bowman et al. (2015) 더 간단한 작업에 대해 0.7의 κ를 보고했습니다.
- 어노테이터에게 가설을 찾는 추가 작업 없이 가설을 검증하기 위한 전제/증거가 제공되었기 때문입니다.
3.4.2 Agreement against Super-Annotators (번역)
- 슈퍼 어노테이터가 주석 처리할 데이터의 1%를 무작위로 선택했습니다.
- 즉, 제안된 시간 제한이 없는 전문가 애노테이터입니다.
- 이 연습의 목적은 가능한 한 많은 증거를 제공하는 것이었습니다.
- 우리는 증거로 사용될 수 있는 모든 가능한 문장에 대해 전체 Wikipedia를 검색하도록 superannotators에게 지시했습니다.
- 우리는 이 증거 세트와 일반 주석을 비교했으며 정밀도/회상률은 각각 95.42%와 72.36%였습니다.
3.4.3 Validation by the Authors (번역)
- 최종 품질 관리 단계로 227개의 예를 선택하고 레이블과 제공된 증거의 정확성을 위해 주석을 달았습니다.
- 우리는 예제의 91.2%가 올바르게 주석 처리되었음을 발견했습니다.
- 클레임의 3%는 라벨링 중에 플래그가 지정되지 않은 클레임 생성의 실수였습니다.
- 기준 시스템의 수동 오류 분석(섹션 5.8) 중에 지침을 충족하지 않는 유사한 수의 청구를 발견했습니다.
3.4.4 Findings (번역)
- 슈퍼 애노테이터와 비교할 때 두 애노테이터를 제외한 모든 애노테이터는 > 90%의 정확도를 달성했고 9명을 제외한 모든 애노테이터는 증거 검색에서 >70%의 재현율을 달성했습니다.
- 낮은 회상 사례의 대부분은 "Akshay Kumar는 배우입니다."와 같은 주장에 대한 것입니다.
- 여기서 슈퍼 주석가는 증거로 34개의 문장을 추가했으며 대부분은 영화 목록이었습니다(예: "2000년에 그는 Priyadarshan 감독 코미디 Hera Pheri에 출연했습니다").
- 저자의 검증 과정에서 우리는 잘못 주석이 달린 대부분의 예가 레이블은 정확했지만 선택한 증거가 충분하지 않은 경우임을 발견했습니다(227개의 예 중 4개만 지침에 따라 잘못 레이블이 지정됨).
- 우리는 애노테이터에게 주의를 기울이도록 요청하여 이 문제를 해결하려고 했습니다.
- 예를 들어, "Shakira는 캐나다인이다"라는 주장은 "Shakira는 콜롬비아 가수, 작곡가, 댄서 및 음반 제작자입니다."라는 문장으로 REFUTED로 분류될 수 있지만, 우리는 더 명확한 증거가 제공되지 않는 한(예: "그녀는 부인되었습니다. 캐나다 시민권”), 이중 국적이 허용되고 주석가의 세계 지식이 고려되어서는 안 되므로 주장을 NOTENOUGHINFO로 표시해야 합니다.
- 관련 문제는 엔터티 해결입니다.
- "David Beckham은 United와 함께했습니다."와 같은 주장에 대해 주석가가 "David Beckham은 맨체스터 유나이티드에서 뛰면서 유럽 리그 데뷔를 했습니다."라고 받아들이는 것은 사소한 일일 수 있습니다. 뒷받침하는 증거로.
- 이것은 암시적으로 "United"가 "Manchester United"를 의미한다고 가정하지만 Wikipedia에는 축구 클럽뿐만 아니라 많은 유나이티드가 있습니다. 유나이티드 항공사.
- 애노테이터는 메인 엔터티의 페이지를 알고 있었기 때문에 모호한 엔터티를 비교적 쉽게 해결할 수 있었습니다.
- 이 정보를 데이터 세트의 일부로 제공하지만 시스템 교육/개발에만 사용해야 한다고 주장합니다.
4 Baseline System Description
- 우리는 간단한 파이프라인 시스템을 3가지 요소를 구성하며 만들었다.
- document retrieval,
- sentence-level evidence selection
- textual entailment.
- 각 컴포넌트는 development 세트에 대해 oracle evlauations을 통해 단독으로 평가되며, 우리는 test 세트에 대한 final 정확도를 리포트한다.
- Document Retrieval
- 우리는 DrQA 시스템으로부터 document retrieval 요소를 사용하고, 이는 query에 대해 unigram과 bigram TF-IDF vectors사이의 cosine similairty을 통해 k개의 가장 가까운 문서들을 내뱉는다.
- Sentence Selection
- 우리의 간단한 문장 선택 방법은 claim에 대해 TF-IDF 유사도로 인해 문장들을 랭킹하는 것이다.
- 우리는 가장 유사한 문장들을 정렬하고 development set에 대한 validation 정확도를 사용하여 cut-off 조정한다.
- 우리는 DrQA와 간단한 unigram TF-IDF 둘다를 사용해서 selection을 위한 문장들을 랭킹매긴다.
- 우리는 더 나아가서 sentence selection 없이 주어진 original documents에 대해 entailment을 예측함으로써 RTE (Recognizing Textual Entailment ) 모듈에서 sentence selection의 impact을 평가한다.
- Recognizing Textual Entailment
- 우리는 textual entailment을 인식하기 위해 두 가지 모델들을 비교한다.
- 간단히 잘 작동하는 베이스라인으로 우리는 Riedel (2017)을 선택했다. (2018 Fake news challenge에 제출되었던)
- 이것은 single hidden layer을 가지는 MLP으로, 이는 claim과 evidence간의 TF-IDF cosine similarity을 features로써 사용한다.
- RTE에서 SoTA을 평가하면서, 우리는 decomposable attention (DA) 모델을 claim과 evidecn passage 사이에서 사용했다.
- 개발 당시 이 모델은 입력 텍스트를 구문 분석할 필요도 없고 앙상블도 필요하지 않은 공개 코드를 사용하는 Stanford Natural Language Inference 작업의 최고 점수 시스템이었기 때문에 이 모델을 선택했습니다.
- RTE 요소는 검색된 evidence가 연관없거나 유익하지 않을 때, claim을 NOTENOUGHINFO으로 정확히 분류해야만 한다.
- 그러나, NOTENOUGHINFO으로 레이블링된 인스턴스들은 어노테이트된 evidence가 없고, 그래서 RTE을 이 클래스에 학습되도록 사용되지 못한다.
- 즉, 구성된 데이터는 claim vs sentence: SUPPORTED or REFUTED 이기 때문에 NOTENOUGHINFO으로 분류하지 못한다는 것
- 이러한 이슈를 극복하기 위해, 우리는 NOTENOUGHINFO을 두 가지 방법으로 학습을 시뮬레이션한다.
- 우리의 document retrieval 요소를 사용해서 가장 가까운 page (NEARSTP)으로부터 샘플링한 문장을 claim에 대한 evidence로 사용
- 위키피디아에서 랜덤으로 샘플링한 문장 (RANDOMS)
5 Experiments
5.1 Dataset Statistics
5.2 Evaluation
- claim이 SUPPORTED, REFUTED or NOTENOUGHINFO 인지 예측하는 것은 3-way classification 테스크로, 우리는 accuracy을 사용한다.
- 첫 두 케이스에 대해서는, classification을 정당화하기 위해 sentence-level에서 적절한 evidence만이 제공되어야 한다.
- 우리는 만약 올바른 evidence가 리턴된 경우에만, 첫 2클래스들에 대해 올바른 answer이 리턴된 것으로 간주한다.
- development and test 데이터세트가 밸러스된 클래스 분포를 가지게 주어졌을 때,
- 만약 SUPPORTED and REFUTED에 대한 evidence의 요구를 무시한다고 하면 랜덤 베이스라인은 33% 정확도를 달성한다.
- 우리는 완전한 파이프라인 시스템(섹션 5.7)에 대한 증거가 필요한 주장에 대해 인간 주석이 달린 문장과 비교하여 모든 예측 문장의 F1 점수를 계산하여 검색된 증거의 정확성을 평가합니다.
- 그림 1과 같이, 몇 가지 claims은 multi-hop 인퍼런스를 요구한다.
- 이는 한 개 이상의 문서로부터 연관된 문장들이 올바르게 SUPPORTED/REFUTED을 지원해야한다.
- 이 경우 evidence가 올바른 것으로 표시되도록 모든 문장을 선택해야 합니다.
- 우리는 이것을 완전히 지원되는 주장의 비율로 보고합니다.
- 일부 주장은 다른 증거에 의해 동등하게 뒷받침될 수 있습니다. 이 경우 하나의 완전한 문장 세트가 예측되어야 합니다.
- 애노테이터가 선택하지 않은 정보를 선택하는 시스템은 정밀도 측면에서 불이익을 받습니다.
- 우리는 증거 선택 주석이 완전하다는 것을 보장하는 것이 실현 가능하지 않다는 것을 알고 있지만 그럼에도 불구하고 시스템 개발 중 자동 평가에 유용하다고 주장합니다.
- 보다 신뢰할 수 있는 평가를 위해 TAC KBP 슬롯 필러 검증(Ellis et al., 2016)과 유사한 방식으로 나중에 거짓 양성 예측의 크라우드 소싱 주석을 옹호합니다.
5.3 Document Retrieval (번역)
- 기준 시스템의 문서 검색 구성 요소는 k-최근접 문서를 반환하기 위해 DrQA(Chen et al., 2017) TF-IDF 구현을 사용하여 청구에 가장 가까운 k 문서를 반환합니다.
- 여러 문서의 증거가 필요한 시나리오에서 k는 이 수치보다 커야 합니다.
- 지원/반박 증거가 포함된 문서가 문서 검색에 의해 반환되고 항상 증거와 독립적으로 NOTENOUGHINFO 인스턴스를 올바르게 예측하는 경우에만 SUPPORTED/REFUTED를 올바르게 예측하는 Oracle 3-way RTE 분류기를 사용하여 정확도의 상한을 시뮬레이션합니다.
- Results are shown in Table 2.
5.4 Sentence Selection
- 미러링 문서 검색, TF-IDF 벡터 유사도를 사용하여 k-가장 관련 문서에서 가장 유사한 문장을 추출합니다.
- 우리는 DrQA의 document retrieval component을 수정하여 binning과 함께 bigram TF-IDF로 문장들을 선택하고, 이를 NLTK을 사용한 simple unigram TF-IDF와 비교하는 것과 비교한다.
- 매개변수 k = 5개 문서 및 l = 5개 문장을 사용하면 청구의 55.30%(NOTENOUGHINFO 제외)가 문장 선택 전에 검색된 문서에 의해 완전히 지원되거나 반박될 수 있습니다(표 2 참조).
- 문장 선택 구성 요소를 적용한 후 DrQA에서는 추출된 문장을 사용하여 주장의 44.22%, NLTK에서는 34.03%만 완전히 지원될 수 있습니다.
- 이것은 각각 62.81%와 56.02%의 오라클 정확도를 산출할 것입니다.
5.5 Recognizing Textual Entailment
- RTE 구성 요소는 문장 수준과 쌍을 이루는 레이블이 지정된 주장에 대해 교육됩니다.
- 여러 문장이 증거로 필요한 경우 문자열이 연결됩니다.
- 섹션 4에서 논의한 바와 같이, 그러한 데이터는 NOTENOUGHINFO라고 표시된 클레임에 대해 주석이 달려 있지 않으므로 우리는 그것을 생성하기 위한 무작위 샘플링 기반 및 유사성 기반 전략을 비교합니다.
- 올바른 증거 문장이 선택되었다고 가정하고 오라클 평가에서 개발 세트에 대한 분류 정확도를 평가합니다(표 3).
- 또한 DA 모델의 경우 비교를 위해 사전 훈련된 Stanford Natural Language Inference(SNLI) 모델을 사용하여 AllenNLP(Gardner et al., 2017)를 사용하여 증거가 제공되는 함의를 예측합니다.
- 무작위 샘플링(RANDOMS) 접근 방식(NOTENOUGHINFO로 표시된 주장에 대한 증거 대신 Wikipedia에서 무작위로 문장을 샘플링함)은 주장과 의미적으로 다를 뿐만 아니라 관련이 없는 문장을 산출했습니다.
- 샘플링 접근 방식으로 훈련된 모델의 정확도는 오라클 평가 설정에서 더 높지만 파이프라인 설정에서는 더 나은 시스템을 산출하지 못할 수 있습니다.
- 대조적으로, 가장 가까운 페이지(NEARESTP) 방법은 문서 검색 모듈에서 반환된 가장 높은 순위의 페이지에서 문장을 샘플링합니다.
- 이것은 주장을 지지하거나 반박하기에 충분하지 않을 수 있는 관련 정보를 찾는 것을 시뮬레이션합니다.
- 우리는 전체 파이프라인 설정에서 RANDOMS와 NEARESTP를 모두 평가할 것이지만 SNLI로 훈련된 모델이 훨씬 더 나쁜 성능을 나타내므로 더 이상 추구하지 않을 것입니다.
5.6 Full Pipeline
- 전체 파이프라인은 DrQA 문서 검색 모듈(섹션 5.3), DrQA 기반 문장 검색 모듈(섹션 5.4) 및 분해 가능한 주의 RTE 모델(섹션 5.5)으로 구성됩니다.
- 두 개의 매개변수: k(숫자 문서를 설명함)와 l(반환할 숫자 문장을 설명함)은 DA 모델로 RTE 정확도를 최적화하는 그리드 검색을 사용하여 찾았습니다.
- 파이프라인의 경우, 우리는 k = 5 및 l = 5를 설정하고 SUPPORTED/REFUTED 예측에 대한 정확한 증거를 제공해야 하는 요구 사항이 있거나 없는 상태에서 개발 세트 정확도를 보고합니다(각각 ScoreEv 및 NoScoreEv로 표시됨).
- NEARESTP로 훈련된 분해 가능한 주의 모델은 증거를 고려할 때 가장 정확합니다.
- 혼동 행렬을 조사한 결과 RANDOMS 전략이 NOTENOUGHINFO 클래스에 대한 회상을 손상시키는 것으로 나타났습니다.
- 이는 훈련 세트에서 샘플링된 페이지와 개발 세트에서 검색된 페이지 간의 차이로 인해 관련되지만 정보가 없는 증거가 SUPPORTED 및 REFUTED로 잘못 분류되기 때문입니다.
- Ablation of the sentence selection module
- 문장 선택 모듈을 제거하여 RTE 정확도에 미치는 영향을 평가합니다.
- 문장 선택 모듈은 RTE 구성 요소의 정확도를 향상시킬 수 있지만 주장을 뒷받침하는 증거로 필요한 문장을 버리고 성능을 저하시킵니다(섹션 5.4 참조).
- 오라클 설정(섹션 5.5와 유사)(표 5 참조)과 전체 파이프라인(표 6 참조)에서 정확도를 평가합니다.
- 오라클 설정에서 분해 가능한 주의 모델은 문장 선택 모듈을 제거하면 가장 큰 영향을 받습니다.
- NEARESTP 훈련 체제는 NOTENOUGHINFO 클래스의 거의 완벽한 재현에도 불구하고 17% 감소하고 RANDOMS 정확도는 19% 감소합니다.
- 파이프라인 설정에서는 k = 5개의 가장 유사한 예측 문서를 사용하여 문장 선택 없이 RTE 구성 요소를 실행합니다.
- 문장 선택 구성 요소를 제거하면 두 분해 가능한 주의 모델 모두에서 정확도(NOSCOREEV)가 약 10% 감소했습니다.
5.7 Evaluating Full Pipeline on Test Set
- We evaluate our pipeline approach on the test set based on the results observed in Section 5.6. First, we use DrQA to select select 5 documents nearest to the claim. Then, we select 5 sentences using our DrQA-based sentence retrieval component and concatenate them. Finally, we predict entailment using the Decomposable Attention model trained with the NEARESTP strategy. The classification accuracy is 31.87%. Ignoring the requirement for correct evidence (NoScoreEv) the accuracy is 50.91%, which highlights that while the systems were predicting the correct label, the evidence selected was different to that which the human annotators chose. The recall of the document and sentence retrieval modules for claims which required evidence on the test set was 45.89% (considering complete groups of evidence) and the precision 10.79%. The resulting F1 score is 17.47%.
5.8 Manual Error Analysis
- Using the predictions on the test set, we sampled 961 of the predictions with an incorrect label or incorrect evidence and performed a manual analysis (procedure described in Appendix B). Of these, 28.51% (n = 274) had the correct predicted label but did not satisfy the requirements for evidence. The information retrieval component of the pipeline failed to identify any correct evidence in 58.27% (n = 560) of cases which accounted for the large disparity between accuracy of the system when evidence was and was not considered. Where suitable evidence was found, the RTE component incorrectly classified 13.84% (n = 133) of claims. The pipeline retrieved new evidence that had not been identified by annotators in 21.85% (n = 210) of claims. This was in-line with our expectation given the measured recall rate of annotators (see Section 3.4.2), who achieved recall of 72.36% of evidence identified by the super-annotators. We found that 4.05% (n = 41) of claims did not meet our guidelines. Of these, there were 11 claims which could be checked without evidence as these either tautologous or self-contradictory. Some correct claims appeared ungrammatical due to the mis-parsing of named entities (e.g. Exotic Birds is the name of a band but could be parsed as a type of animal). Annotator errors (where the wrong label was applied) were present in 1.35% (n = 13) of incorrectly classified claims. Interestingly, our system found new evidence that contradicted the gold evidence in 0.52% (n = 5) of cases. This was caused either by entity resolution errors or by inconsistent information present in Wikipedia pages (e.g. Pakistan was described as having both the 41st and 42nd largest GDP in two different pages).
5.9 Ablation of Training Data
- To evaluate whether the size of the dataset is suitable for training the RTE component of the pipeline, we plot the learning curves for the DA and MLP models (Fig. 3). For each model, we trained 5 models with different random initializations using the NEARESTP method (see Section 5.5). We selected the highest performing model when evaluated on development set and report the oracle RTE accuracy on the test set. We observe that with fewer than 6000 training instances, the accuracy of DA is unstable. However, with more data, its accuracy increases with respect to the log of the number of training instances and exceeds that of MLP. While both learning curves exhibit the typical diminishing return trends, they indicate that the dataset is large enough to demonstrate the differences of models with different learning capabilities.
6 Discussion (번역)
- 이전 섹션에서 제시하고 평가한 파이프라인은 데이터 세트에서 제안된 작업에 대한 하나의 가능한 접근 방식이지만, 다른 파이프라인이 동등하게 유효하고 더 나은 성능을 보일 것으로 예상합니다.
- 예를 들어, natural logic inference (Angeli and Manning, 2014)과 유사한 접근 방식이 적용될 수 있는지 테스트하는 것은 흥미로울 것입니다.
- 여기서 지식 기반/그래프는 텍스트 소스를 읽고 구성한 다음 주장에 대한 추론 프로세스가 적용되며 아마도 최근의 신경 정리 증명의 발전을 사용하여 적용됩니다(Rocktaschel and Riedel ¨, 2017).
- 다른 접근 방식은 질문 생성(Heilman and Smith, 2010)과 BiDAF(Seo et al., 2016)와 같은 질문 응답 모델의 조합을 고려하는 것입니다.
- 점수 기준에 따라 하나 이상의 문장을 반환하는 대신 문서에서 텍스트를 검색합니다.
- 우리 데이터 세트의 문장 수준 증거 주석은 여러 문서 및 비연속 구절에서 관련 정보를 선택하고 처리하는 모델을 개발하는 데 도움이 됩니다.
- 이것은 예측의 해석 가능성을 향상시킬 뿐만 아니라 읽기 이해를 위한 새로운 방법의 개발을 촉진합니다.
- FEVER 데이터 세트의 또 다른 사용 사례는 주장 추출입니다. 더 긴 백과사전 텍스트에서 짧고 간결한 텍스트 사실을 생성합니다.
- Wikipedia 또는 뉴스 기사와 같은 출처의 경우 문장에 여러 개별 주장이 포함될 수 있으므로 구문 분석이 어려울 뿐만 아니라 증거에 대해 평가하기가 어렵습니다.
- FEVER 데이터 세트를 구성하는 동안 여러 복잡한 문장에서 간단한 주장을 추출할 수 있는 작업의 확장을 허용했습니다.
- 마지막으로 Wikipedia를 텍스트 소스로 선택했지만 검증에서 고려할 가치가 있는 유일한 정보 소스로 간주하지 않으므로 분류 체계에서 TRUE 또는 FALSE를 사용하지 않습니다.
- 우리는 제시된 데이터 세트에서 개발된 시스템이 다른 텍스트 소스로 이식될 수 있기를 기대합니다.
7 Conclusions
- 이 논문에서, 우리는 FEVER을 소개하고, 이는 텍스트 소스에 대한 fact extraction과 verification을 하는 사용가능한 데이터세트이다.
- 우리는 data collection과 annotation 방법을 논의하고 어노테이션 프로레스중에 얻은 인사이트의 일부를 공유한다.
- 이것이 우리는 다른 large-scale annotation 노력들에 유용하길 희망한다.
- 이 데이터세트가 제시하는 챌린지를 평가하기 위해, 우리는 information retrieval와 textual entailment 요소들로 구성된 파이프라인 접근법을 개발하였다.
- 우리는 테스크가 실형가능함을 보여준다.
- 최고로 좋은 시스템은 31.87%의 정확도를 달성하여서
- 또한 FEVER 데이터 세트의 다른 용도에 대해 논의하고 앞으로 작업하고 싶은 몇 가지 추가 확장을 제시했습니다.
- 우리는 FEVER가 claim extraction 및 verification 시스템에 대한 자극적인 도전을 제공할 것이라고 믿습니다.
Reference
댓글
댓글 쓰기