Short-005, TyDi QA: A Multilingual Question Answering Benchmark (2020-Arxiv + 20.04-Google AI Blog)
■ 개요, Comment
◾구글에서 공개한 데이터세트로 다국어 QA에 대한 데이터를 공개하였다.
◾일반적인 MRC 데이터세트는 문제점이 있다. (밑의 설명 참고)
◾또한 영어에 관련된 데이터세트가 많기 때문에 모든 언어적 특성을 이해하는 일반적으로 모델링을 하기 위한 데이터세트라고 보면 된다.
◾리더보드 사이트도 오픈되어있으니 많은 연구가 이뤄질 것으로 생각된다.
◾한국어 데이터세트도 포함하니 활용하기 좋을 것 같다.
◾참고로 논문의 reference에 KorQuAD가 있어서 깜짝 놀랐다.
◾구글에서 공개한 데이터세트로 다국어 QA에 대한 데이터를 공개하였다.
◾일반적인 MRC 데이터세트는 문제점이 있다. (밑의 설명 참고)
◾또한 영어에 관련된 데이터세트가 많기 때문에 모든 언어적 특성을 이해하는 일반적으로 모델링을 하기 위한 데이터세트라고 보면 된다.
◾리더보드 사이트도 오픈되어있으니 많은 연구가 이뤄질 것으로 생각된다.
◾한국어 데이터세트도 포함하니 활용하기 좋을 것 같다.
◾참고로 논문의 reference에 KorQuAD가 있어서 깜짝 놀랐다.
0. Abstract
- 다국어 모델링의 과정을 신뢰도를 높이기 위해서는 믿을만하고 가치있는 평가들을 만들어야 하는 챌린지가 있다.
- 이 논문에서는 TyDi QA을 소개하고 11개의 다양한 언어들과 204K QA 쌍을 만들었다고 한다.
- TyDi QA는 다양한 언어들의 특성을 가지고 있기 때문에 (이것으로) 모델링한 결과가 세계의 많은 언어들을 일반화하길 기대한다.
- 여기서는 데이터의 품질을 검증하고 예시로 언어적인 분석과 영어에서만 발견되는 것이 아닌 언어적 현상을 관찰한다고 한다.
- 리얼하게 정보를 찾는 것을 제공하기 위하여 (priming effects을 피하기 위하여) 답을 모르는 사람이 질문을 하고 이것에 대해 답변을 하면서 데이터를 수집하였다고 한다. (번역을 이용한 데이터 수집은 안했는데 이유는 논문 뒷 부분에 있음)
- 기본적인 베이스라인 모델을 제공한다.
1. Introduction
- 일반적으로 정보를 찾는 유저들은 자동 QA 시스템과 높은 품질을 가지는 검색 엔진, 디지털 어시스턴트들로 부터 도움을 받는다.
- 그들의 질문을 information-seeking이고 그들은 답변을 원하는 상태이고 답을 모르는 상황이다.
- 실제 사용자들에게 연구가 align(일치)이 되어야 하며 커뮤니티는 information-seeking의 데이터세트로 대응을 하였다.
- 이러한 데이터세트로는 WikiQA, MS MARCO, QuAD, NQ (Natural Question)이 있다.
- 그러나 많은 사람들이 질문을 할 때 영어로만 질문을 하지 않는다.
- Word Atlas of Language Structures 에서는 2600개의 언어를 192 typological 특징들로 구분을 한다.
- 이는 word order, reduplication, grammatical meanings encoded in morphosyntax, case markings, plurality systems, question marking, relativization 등으로 구분이 된다고 한다.
- 만약 모델이 모든 사람의 언어들을 정확하게 반영하는 것이라면, 모델을 이러한 다양성을 보여주는 데이터로 평가를 해야한다.
- 추가적으로 유형적차이로 단일언어 데이터의 가능성, 병렬 번역 데이터의 구축하기 비쌈 등, 표준화된 쓰기 시스템의 차이가 언어마다 다르 때문에 모델링은 더욱 더 어렵다.
- 여기서는 처음으로 다국어 데이털르 공개하고 모델과 번역에 자유로운 단순하고 novel한 데이터 수집 방법을 사용한다.
- 목표는 다음과 같다.
- to enable research progress toward building high-quality question answering systems in roughly the world’s top 100 languages
- to encourage research on models that behave well across the linguistic phenomena and data scenarios of the world’s languages.
- 여기서는 baseline 모델을 제시하고 리더보드도 제시해준다 (테스트 셋은 비공개)
- 이것으로 다양한 언어에 대한 intrinsic, extrinsic 한 분석이 되기를 기원한다.
- 또한 "Is QA solved?", "Do our models accurately represent a large variety of languages?"와 같은 질문들에 대답하는 것과 같이 너무 쉬운 데이터는 낙관적인 결과를 초래할 수 있다고 한다.
- (여기서는 그렇게 데이터를 구성하지 않았나봄 )
- 따라서 TYD1 QA는 information-seeking 능력에서 믿을만한 결과를 보여줄 것이라고 기대한다.
2. Task definition
- 두 가지 예측 task가 있다.
- Passage Selection Task
- 기사의 리스트가 주어지고 다음의 둘 중 하나를 반환
- (a) 질문에 해당하는 passage의 index을 반환하는 식
- (b) 만약 존재하지 않는다면 NULL을 반환
- Minimal Answer Span Task
- 기사의 full text가 주어진다.
- (a) 시작과 끝의 byte을 span으로 해서 정답을 내뱉는 식
- (b) 질문이 yes/no 정답을 요구하면 Yes나 No로 대답해야 한다.
- (c) 만약 질문에서 생성할 답변이 없으면 NULL을 내뱉는다.
- 일반적인 MRC, squad 2.0 유사
■ Google AI Blog
◆ A Typologically Diverse Collection of Languages
- TyDi QA는 11개 언어에 대해 200,000 QA 쌍을 가지고 있고 다양한 언어적 현상과 데이터 챌린지를 포함하고 있다.
- 많은 언어들은 라틴 알파벳을 사용안한다.
- Arabic, Bengali, Korean, Russian, Telugu, and Thai.
- 다른 것들은 복잡한 방법들을 사용한다.
- Arabic, Finnish, Indonesian, Kiswahili, Russian.
- 일본어는 4개의 알파벳을 사용한다.
- shown by the four colors in “24時間でのサーキット周回数”)
- 한국어는 그자체로 매우 구성적이다(?)
- the Korean alphabet itself is highly compositional.
- 이러한 언어들 중 웹에서 가능한 데이터가 많은 것도 있고 적은 것도 있다.
- much available data: English and Arabic
- to very little: Bengali and Kiswahili).
- 이 논문에서는 많은 수의 언어들을 설명할 수 있는 성공적인 시스템을 기대한다.
◆ Creating Realistic Data
- 연구 커뮤니티가 사용하는 많은 초기 QA 데이터 세트는 먼저 사람들에게 단락을 보여준 다음 단락을 읽음으로써 무엇이 대답 할 수 있는지에 따라 질문을 작성하도록 요청함으로써 만들어졌다.
- 그러나 사람들이 각 질문을 작성하는 동안 답변을 볼 수 있었기 때문에이 접근 방식은 종종 답변과 동일한 단어가 포함 된 질문을 생성했다.
- 결과적으로, 그러한 데이터에 대해 훈련 된 머신 러닝 알고리즘은 단어 일치를 선호하며, 사용자의 요구를 충족시키는 데 필요한 미묘한 답변을 잊게된다.
- 즉 데이터 만들 때, paragraph을 안보고 질문을 만들어야 한다는 말임
- 보다 자연스러운 데이터 세트를 구성하기 위해 답변을 원했지만 아직 답을 모르는 사람들로부터 질문을 수집했다.
- 논문에서는 we collected questions from people who wanted an answer, but did not know the answer yet. 의 말을 많이 씀
- 질문을 불러 일으키기 위해 사람들은 모국어로 작성된 Wikipedia의 관심있는 구절을 보여주었다.
- 우리는 그 구절에 의해 답변을받지 않고 실제로 그 답을 알고 싶을 때의 질문을 하게했다.
- This is similar to how your own curiosity might spawn questions about interesting things you see while walking down the street.
- 이러한 질문들은 상상력을 발휘하도록 격려한다고 한다.
- 예시) Does a passage about ice make you think about popsicles(아이스크림 조각) in summer? Great! Ask who invented popsicles.
- 번역) 얼음에 관한 구절이 여름에 아이스 캔디에 대해 생각하게합니까? 큰! 누가 아이스 캔디를 발명했는지 물어보십시오.
- 중요하게도, 질문은 번역되지 않고 각 언어로 직접 작성되었으므로 많은 질문은 영어 우선 코퍼스에서 볼 수있는 질문과 다르다.
- One question in Bengali asks, “সফেদা ফল খেতে কেমন?” (What does sapodilla taste like?) Never heard of it? That’s probably because it’s grown much more commonly in India than the U.S.
- 번역) 벵골어의 한 질문은“সফেদা ফল খেতে কেমন?”(사포 딜라의 맛은 어떻습니까?)을 묻습니다. 아마도 인도보다 미국에서 훨씬 일반적으로 자라기 때문일 것입니다.
- 여기서 질문 작성자가 세계 언어에서 (놀라운) 언어 현상과 함께 답변을 얻지 못했을 때 질문과 답변 사이에 흥미로운 차이점이있을 것으로 예상했지만 상황이 훨씬 더 복잡함을 알아냈다.
- 위의 그림이 핀란드어 예시가 있지만 이해가 안되서 패스
■ 리더보드
Reference
댓글
댓글 쓰기