NL-078, ToTTo: A Controlled Table-To-Text Generation Dataset (2020-Preprint)
◼︎ Comment
- 이 논문은 새로운 데이터세트 ToTTo을 제시하는데, 이 데이터세트가 모델 연구뿐만 아니라 평가지표를 개발하는데도 유용하다고 말을 한다.
- 기본적으로 표에 맞는 문장을 생성하는 controlled generation 테스크이다.
- 단순 표의 정보만 주는 것이 아니라 문장과 매칭이 되는 표에서 쓰이는 cell과 섹션 제목, 섹션 테스트, 페이지 제목의 메타데이터가 주어진다.
- 물론 이것을 활용안해도 되지만, 활용하는 것이 당연히 성능이 좋다.
- 이를 활용하면 다양한 테스크를 만들 수 있다고 하나, 기본 테스크는 위와 같다.
- 그리고 데이터 만드는 과정에 대해서 상세히 적혀있다.
- 간단히 말하면 two step이다.
- 첫 번째 step은 표와 매칭되는 문장을 페이지내에서 찾는다. (휴리트식하게)
- 물론 이렇게 하면 부정확하니까, 사람이 표의 cell과 맞도록 수정을 해준다.
- 두 번째 step은 첫 번째 step을 통과해도 문법적인 부분이 틀릴 수 있기 때문에 수정한다는 것이다.
- 아무튼 이렇게 데이터를 구성하고 몇 가지 SoTA 모델을 활용하여 베이스라인을 구축한다.
- 그렇게 헀을 때 다음의 5가지 면에서 한계가 있기 때문에 이 데이터세트의 유용함을 보여준다고 보면된다.
- Hallucination / Rare topics / Diverse table structure / Numerical reasoning / Evaluation Metrics
- 위의 모든 문제를 해결하는게 쉽지는 않아보인다.
- 특히 Diverse table structure / numerical reasoning 문제는 손 쉽게 해결할 수 없어 보인다.
- 이 부분은 입력을 어떤 식으로 구성할지부터가 되게 중요할 것 같다.
0. Abstract
- 우리는 ToTTo을 소개하는데, 이는 table-to-text 데이터세트로 120,000 학습 예제를 가지고 다음의 controlled generation task 목적을 갖는다.
- 위키피디아 테이블이 주어지고 highlighted table cells이 주어지면, one-sentence description을 생성한다.
- 생성된 타겟을 자연스럽고 source table에 충실해야 한다.
- 우리는 annotators가 Wikipedia의 기존 후보 문장을 직접 수정하는 데이터 세트 구성 프로세스를 소개합니다.
- 우리는 데이터 세트 및 주석 프로세스에 대한 체계적인 분석과 몇 가지 최신 기준으로 얻은 결과를 제시합니다.
- 일반적으로 유창하지만 기존 방법은 종종 표에서 지원하지 않는 문구를 환각한다.
- 이것은 이 데이터 세트가 high-precision conditional 텍스트 생성에 유용한 연구 벤치 마크 역할을 할 수 있음을 시사합니다.
1 Introduction
- Data-to-text 생성은 테이블과 같은 structured data source content x을 조건으로 타겟 textual description y을 생성하는 것이다.
- 예제로는 다음과 같은 것들이 있다.
- 주어진 biographical data가 주어졌을 때 문장을 생성하기 (Lebret et al., 2016)
- (E2E dataset) textual descriptions of restaurants given meaning representations (Novikova et al., 2017)
- basketball game summaries given boxscore statistics
- 기존의 data-to-text 작업은 뉴럴 생성 모델에 중요한 test-bed를 제공했습니다 (Sutskever et al., 2014; Bahdanau et al., 2014).
- 뉴럴 모델은 환각(hallucination)되기 쉬운 것으로 알려져 있습니다.
- 즉, 유창하지만 소스에 충실하지 않은 텍스트를 생성합니다 (Vinyals and Le, 2015; Koehn and Knowles, 2017; Lee et al., 2018; Tian et al., 2019)
- 그리고 source 컨텐츠가 구조화 될 때 생성 된 텍스트의 충실성(faithfulness)을 평가하는 것이 더 쉬운 경우가 많습니다 (Wiseman et al., 2017; Dhingra et al., 2019).
- 또한 구조화 된 데이터는 모델의 추론 및 수치 추론 (Wiseman et al., 2017) 및 구조화 된 객체의 표현 표현 (Liu et al., 2018)에 대한 모델의 기능을 테스트하여 이러한 측면을 테스트하는 작업에 대한 흥미로운 보완 기능을 제공합니다. NLU 설정 (Pasupat and Liang, 2015; Chen et al., 2019; Dua et al., 2019).
- 또한 구조화 된 데이터는 모델의 reasoning 및 numerical inference와 structured objects의 building representation 능력을 테스트 할 수 있으며 NLU 설정에서 이러한 측면을 테스트하는 작업에 흥미로운 보완을 제공한다.
- 그러나, data-to-text 데이터 세트를 구성하는 것은 다음의 두 가지 축에서 어렵다.
- task design
- annotation process.
- 첫째, 요약과 같은 open-ended 출력을 가진 과제는 무엇을 생성해야 할지에 대한 모델에 대한 명시적인 신호가 부족하여 주관적인 내용과 평가의 챌린지로 이어질 수 있다.
- 반면에, 완전히 구체적인 meaning representation verbalizing하는데 한계가 있는 data-to-text 테스크는 모델의 능력이 inference의 수행능력을 테스트하지않고 그래서 테스크로부터 고려해야할 상당한 양의 챌린지를 제거한다.
- 너무 구체적으로 text <-> table 쌍을 지으면, 모델의 여러 챌린지를 해결하는 능력을 평가할 수 없다.
- 둘째로, 자연적스럽고 깨끗한 targets을 얻기 위해 annotation 프로세스를 설계하는 것은 중요한 과제다.
- 많은 데이터 세트에 의해 채택된 한 가지 전략은 annotators가 structure and style 관점에서 종종 다양성이 부족한 targets을 처음부터 작성하도록 하는 것이다.
- 대안은 자연적으로 발생하는 텍스트를 표와 쌍으로 묶는 것이다.
- 보다 다양하지만 자연적으로 발생하는 targets은 종종 noisy가 심하고 source로부터 추론할 수 없는 정보를 포함하고 있다.
- 이로 인해 데이터 노이즈에서 modeling weaknesses을 분리하는 것이 문제가 될 수 있다.
- 데이터를 만들기 위해 어떻게 annotation하는 지가 중요한데, table과 text을 그냥 쌍지으면 추론할 수 없는 정보들이 많기 때문에 annotator가 직접 table에 맞는 text을 작성하게끔 하는 것이 하나의 전략이다.
- 이 연구에서는, 우리는 ToTTo을 제안하는데 이는 open-domain의 table-to-text 생성 데이터세트로 새로운 task desing과 annotation process을 소개하여 위의 챌린지를 설명한다.
- 먼저, ToTTo는 controlled generation 태스크를 제안한다.
- 위키피디아 테이블과 하이라이트된 셀의 세트가 source x로부터 주어졌을 때, 목표는 single sentence description y을 생성하는 것이다.
- 하이라이트된 셀은 verbalize를 위해 명시적인 meaning representation을 구체화 하지 않고 target 문장이 설명해야 하는 잠재적으로 큰 표의 부분을 식별한다.
- 데이터세트 구성의 경우, targets이 자연으스러우면서 source table에 충실하도록 하기 위해, 우리는 annotators에게 new target sentences을 쓰라고 요구하는 대신 기존의 위키백과 candidate 문장을 target 문장으로 수정하도록 요청한다.
- Table 1 presents a simple example from TOTTO to illustrate our annotation process.
- table과 original text는 semantic이 겹치도록 위키피디아에서 휴리스틱하게 tables x와 sentences y을 쌍지어 모은다.
- 이 방법은 표와 부분적으로만 관련이 있을 수 있지만 대상 문장이 자연스럽다는 것을 보장한다.
- 그 다음, 우리는 annotators에게 original sentence을 support하는 table의 부분을 하이라이트하도록 요청하고 반복적으로 수정하여 final sentence을 생성한다. (see §5)
- 예를 들어, Table 1에서 annotator은 original text에서 언급된 table cell의 하이라이트 집합을 선택한다.
- 그들은 그리고 나서 table을 supported하지 않는 original text으로부터 phrases을 삭제한다.
- 즉 위의 예시에서 the playoffs first leg 삭제하고 entity Cristhian Stuani 대명사로 대체한다.
- 최종 문장 결과는 original sentence보다 생성 타겟에 적합한 역할을 한다.
- 이 annotation 과정은 우리의 데이터세트가 high-precision conditional text generation에 좀 더 적합하게 한다.
- 위키백과 표의 다양한 특성 때문에 TOTTO는 source에 완전히 충실한 targets을 포함하면서 상당히 다양한 도메인을 커버한다 (더 복잡한 예는 그림 2-6 참조).
- 우리의 실험은 SoTA 뉴럴 모델들이 훈련 데이터의 높은 품질에도 불구하고 충실한 결과를 내기 어렵다는 것을 보여준다.
- 이러한 결과는 우리의 데이터세트와 뒤따라오는 태스크가 controllable data-to-text 생성 모델을 위한 강력한 벤치마크의 역할을 할 수 있음을 보여준다.
2 Related Work
- TOTTO는 아래에서 설명하는 것처럼 task design and annotation process에서 기존 데이터 세트와 다릅니다.
- 요약은 표 2에 나와 있습니다.
- Task Design (번역)
- 기존의 테이블-텍스트 데이터 세트는 대부분 WEATHERGOV (Liang et al., 2009), ROBOCUP (Chen and Mooney, 2008), Rotowire (Wiseman et al., 2017, 농구), E2E (Novikova)와 같은 주제 및 스키마로 제한됩니다. et al., 2016, 2017, 레스토랑), KBGen (Banik et al., 2013, 생물학) 및 Wikibio (Lebret et al., 2016, 전기).
- 반대로 TOTTO에는 Wikipedia의 다양한 주제 카테고리에 걸친 다양한 스키마가 포함 된 테이블이 포함되어 있습니다.
- 또한 TOTTO는 기존 데이터 세트와 다른 컨텐츠 선택 관점을 취합니다.
- Prior to the advent of neural approaches, generation systems typically separated content selection (what to say) from surface realization (how to say it) (Reiter and Dale, 1997).
- 따라서 많은 세대의 데이터 세트는 후자의 단계에만 초점을 맞췄습니다 (Wen et al., 2015; Gardent et al., 2017b).
- 그러나 신경 시스템은 이미 유창한 텍스트를 생성하는 데 상당히 강력했기 때문에 작업 복잡성을 줄입니다.
- 최근의 일부 데이터 세트 (Wiseman et al., 2017; Lebret et al., 2016)는 요약 문제로 구성하여 컨텐츠 선택을 작업에 통합 할 것을 제안했습니다.
- 그러나 요약은 훨씬 더 주관적이므로 작업이 제한되고 평가하기가 어려울 수 있습니다 (Krysci´ nski et al., 2019).
- 우리는 강조 표시된 셀이 대상의 주제에 대한 지침을 제공하지만 모델에 의해 수행 될 상당한 양의 컨텐츠 계획을 남겨 두는 중간 지점으로 TOTTO를 배치합니다.
- Annotation Process (번역)
- reference target y를 생성하는 기존의 다양한 전략이 있습니다.
- 많은 데이터 세트에 의해 채택 된 전략 중 하나는 소스를 표현할 때 주석 작성자가 처음부터 대상을 작성하도록하는 것입니다 (Banik et al., 2013; Wen et al., 2015; Gardent et al., 2017a).
- 이로 인해 소스 데이터에 충실한 대상이 생성되지만 구조 및 스타일 측면에서 다양한 요소가 부족한 경우가 많습니다 (Gururangan et al., 2018; Poliak et al., 2018).
- raw 데이터 대신 annotators 에게 이미지를 제시하는 등의 도메인 별 전략 (Novikova et al., 2016)은 우리가 고려하는 복잡한 테이블 중 일부에는 실용적이지 않습니다.
- 다른 데이터 셋은 반대의 접근법을 취했다.
- 웹에서 소스 내용을 논의하는 방식으로 발견 된 실제 문장 찾기 (Lebret et al., 2016; Wiseman et al., 2017).
- 이 전략은 일반적으로 자연스럽고 다양한 대상을 유도하지만 시끄럽고 소스에서 유추 할 수없는 정보를 포함 할 수 있습니다 (Dhingra et al., 2019).
- TOTTO를 구성하기 위해 annotators에게 Wikipedia의 기존 후보 문장을 수정하여 테이블에서 지원하는 정보 만 포함하도록 요청합니다.
- 이를 통해 TOTTO는 자연스러운 문장에서 발견되는 다양한 언어와 구조를 유지하면서보다 명확한 대상을 만들 수 있습니다.
- 예시적인 문장을 편집하는 기술은 반모 수 생성 모델 (Guu et al., 2018; Pandey et al., 2018; Peng et al., 2019)에서 사용되었으며 텍스트에 대한 크라우드 소싱 작고 반복적 인 변경이 주도하는 것으로 나타났습니다 더 높은 품질의 데이터와보다 강력한 주석 프로세스 (Little et al., 2010).
- 그러나 우리가 아는 한,이 기술을 사용하여 생성 데이터 세트를 구성하는 첫 번째 사람입니다.
- 이 작업과 동시에 Chen et al. (2020)은 Wikipedia 테이블도 사용하는 LogicNLG를 제안했지만 데이터 세트에 포함 된 좀 더 복잡한 구조화 된 테이블은 생략했습니다.
- 그들의 목표 문장은 annotators에 의해 생성되며 annotators에 의해 강조된 셀이 없기 때문에 그들의 작업은 상당히 통제되지 않습니다.
3 Preliminaries
- 우리의 테이블은 영어 위키피이다 기사에서 가져왔고 아마도 일반적인 grids는 아닐 것이다.
- 간단히, 우리는 table
을 cell
로 정의하고 τ는 여기서 table의 cell의 수이다.
- 각 cell은 다음을 가지고 있다.
- (1) string value
- (2) row 혹은 column header인지 아닌지
- (3) tabel에있는 cell의 row와 column 위치
- (4) 이 셀에 걸쳐있는 행과 열의 수입니다.
은 table metadata을 가리킨다.
- 즉 page title, section title와 section text의(존재한다면) 첫 두 문장까지 가리킨다.
- 이 필드는 테이블 내용에 대한 컨텍스트를 제공하는 데 도움이됩니다.
에서 n은 길이를 가리킨다.
- 우리는 예제
을 table, table metadata, and sentence의 tuple로 annotation한다. (
)
- 여기서
는 데이터세트로 에제 사이즈가 N개라는 것이다.
4 Dataset Collection (번역)
- 먼저 후속 주석에 대한 annotation 예제를 얻는 방법을 설명합니다.
- Wikibio 데이터 셋과의 중복을 방지하기 위해 (Lebret et al., 2016) infobox 테이블을 사용하지 않습니다.
- 테이블과 문장을 수집하기 위해 3 가지 휴리스틱 방법을 사용한다:
- Number matching
- 동일한 Wikipedia 페이지에서 0이 아닌 3 자리 이상의 날짜가 아닌 숫자와 겹치는 표와 문장을 검색합니다.
- 숫자는 쉼표와 소수점이있는 숫자를 포함하여 가장 일반적인 숫자 패턴을 캡처하는 정규식으로 추출됩니다.
- 이 방법은 통계 (예 : 스포츠, 선거, 인구 조사, 과학, 날씨)를 설명하는 대부분의 표 문장 쌍을 캡처합니다.
- Cell matching
- 표의 동일한 행에서 3 개 이상의 개별 셀 내용과 일치하는 토큰이있는 경우 문장을 추출합니다.
- 직관은 대부분의 테이블이 구조화되어 있고, 행은 보통 완전한 이벤트(예: 스포츠 경기, 선거, 특정 연도의 인구조사 데이터)를 묘사하는 데 사용되며, 같은 페이지에서 상응하는 문장 설명이 있을 가능성이 높다.
- Hyperlinks
- 위의 휴리스틱은 동일한 페이지의 문장과 표만 고려합니다.
- 문장에 List로 시작하는 제목이있는 페이지에 대한 하이퍼 링크가 포함 된 예도 있습니다 (이 페이지는 일반적으로 큰 테이블로만 구성됨).
- 해당 페이지의 테이블 t에 s가 포함 된 페이지에 대한 하이퍼 링크가있는 경우 주석 예제로 간주합니다.
- 이러한 예는 일반적으로 다른 두 가지 휴리스틱보다 더 다양한 예를 제공하지만 문장이 테이블과 먼 관계를 가질 수 있기 때문에 더 많은 노이즈를 추가합니다.
- 위의 휴리스틱을 사용하여 많은 주석 예제 D를 얻습니다.
- 그런 다음 주석 예제의 무작위 하위 집합 인 191,693 개 교육 예제, 11,406 개 개발 예제, 11,406 개 테스트 예제를 샘플링합니다.
- 이 중 35.8 %는 숫자 일치, 29.4 %는 cell 일치, 34.7 %는 하이퍼 링크에서 파생되었습니다.
5 Data Annotation Process
- The collected annotation examples are noisy since a sentence s may be partially or completely unsupported by the table t.
- 따라서 우리는 annotator를 원래 문장의 작은 점진적 변경을 통해 안내하는 데이터 annotation 프로세스를 정의합니다.
- 이를 통해 프로세스의 모든 단계에서 annotator 계약을 측정 할 수 있으며 이는 기존 세대 데이터 세트에서는 비정형입니다.
5.1 Primary Annotation Task
- The primary annotation task consists of the following steps
- (1) Table Readability
- (2) Cell highlighting
- (3) Phrase Deletion
- (4) Decontextualization
- Each of these are described below and more examples are provided in Table 3.
- 즉 위 그림이 전체적이 annotation 과정을 보여주는 것이다.
- 자세한 부분은 생략..
5.2 Secondary Annotation Task
- 이전의 annotation task의 복잡성 때문에, s_decontext 결과는 심지어 annotators가 문법을 수정했어도 문법적으로 틀릴 수 있다.
- 따라서 annotators의 두 번째 그룹은 문장을 추가적으로 수정하도록 요청되었고 하이라이트된 cells을 가진 테이블이 추가적인 context인지 요청했다.
- 테이블 3에서 Final로 가는 단계로 보면 될 듯
- 그러나, 이때 annotoators은 테이블을 사용하도록 요청되지 않는다.
- 그들은 제공된 문장이 문법과 유창한지 결정한다.
- 만약 문장이 유창하지 않거나 문법적으로 틀리면, 그 에러를 고친다.
- Annotators은 또한 문장이 수정될 수 없는 옵션또한 주어진다.
- 무조건 고칠필요는 없단 얘기
- 최종 결과는 s_final 문장이다.
- 평균적으로, annotators은 문장들의 27%정도 수정했고 문장의 길이는 17.2에서 17.4 tokens으로 약간 증가했다.
- 우리는 대부분의 케이스가, 테이블이 문장을 수정할 때 필수적이지 않다는 것을 알았다.
- 왜냐하면 문법적 에러는 surface syntax이기 때문이다.
- surface syntax은 punctuation 혹은 missing determiner와 같은 것이다.
- 경우에 따라 동사가 누락 될 수 있으며 이러한 경우 사용할 올바른 동사를 표시하기 위해 테이블이 필요하다.
6 Dataset Analysis
- Basic statistics of TOTTO are described in Table 4.
- The number of unique tables and vocabulary size attests to the open domain nature of our dataset.
- Furthermore, while the median table is actually quite large (87 cells), the median number of highlighted cells is significantly smaller (3).
- This indicates the importance of the cell highlighting feature of our dataset toward a well-defined text generation task.
6.1 Annotator Agreement
6.2 Topics and Linguistic Phenomena
6.3 Training, Development, and Test Splits
- This results in a development set D_dev of size 7,700 and a test set D_test of size 7,700.
7 Machine Learning Task Construction
- 테이블 t, 관련있는 metadata m(page title, section title, table section text)와 하이라이트된 cells인 t_highlight가 주어졌을 때 최종 문장인 s_final을 생성하는 것이다.
- 수학적으로 이는 function f : x → y 을 학습하는 것으로 x = (t, m, t_highlight) and y = s_final 이다.
- 이 테스크는 annotators가 수행한 것과는 다르다.
- 왜냐하면 그들은 revision을 요구하는 문장으로부터 시작했기 때문이다.
- 즉 annotator은 original 문장이라는 것이 있지만, 이 task는 아니라는 것이다.
- 그래서 이 테스크는 좀 더 챌린지하며, 모델은 기존의 문장을 수정하는 대신 새로운 문장을 생성해야만 한다.
- 우리는 우리의 annotation 메커니즘에서 여러 개의 스테이지를 사용하지만, sentence revision or cell highlighting와 같은 데이터가 주어졌을 때 머신러닝 모델들을 위한 다양한 테스크를 디자인 가능하다.
- 그러나 이것은 이 연구의 범위에서 벗어난다.
- 즉 여기서 구성한 데이터세트다 단순 cell <-> 문장이 아니기 때문에 다양한 테스크를 구성할 수 있다는 얘기
8 Experiment
- We present baseline results on TOTTO by examining three existing state-of-the-art approaches
- BERT-to-BERT (Rothe et al., 2019)
- Leveraging pre-trained checkpoints for sequence generation tasks 논문인데, encoder-decoder 모두 BERT를 활용해서 문장생성하는 것인가 보다
- Pointer-Generator (See et al., 2017)
- A Seq2Seq model with attention and copy mechanism (our implementation)
- Puduppully et al. (2019)
- A Seq2Seq model with an explicit content selection and planning mechanism designed for data-to-text
- 게다가, 여기서는 source content의 표현을 하는데 다른 전략을 탐구하고 기존의 lineraization 접근법과 닮았다.
- Full Table
- 가장 간단한 방법은 전체 테이블을 소스로 사용하고 강조 표시된 셀을 표시하는 특수 토큰을 추가하는 것입니다.
- 그러나 많은 테이블이 매우 클 수 있으며이 전략은 제대로 수행되지 않습니다.
- 언뜻보면, 알고리즘적으로는 괜찮을 것 같은데 많은 source을 처리하는 것이 문제일 것 같고 실제로 제대로 수행되지 않는 결과를 보여주낟.
- Subtable
- 다른 옵션은 강조 표시된 셀 t_highlight ∈ t를 강조 표시된 각 셀에 대해 heuristically 추출 된 행 및 열 머리글과 함께 사용하는 것입니다.
- 이를 통해 모델은 관련 내용에만 집중할 수 있지만 테이블 구조의 맥락에서 추론을 수행하는 기능이 제한됩니다 (표 10 참조).
- 그러나 전반적으로이 표현은 더 높은 성능으로 이어집니다.
- 즉 header을 표기하여 cell의 속성 정보를 준다는 개념인데, 나도 간단히 이 데이터로 실험할 때, 이것으로 해보고 싶었지만 header와 cell을 매칭시키는 전처리가 그리 간단하지 않아서 패스했다..
- 물론 성능을 좀 더 올리려면 괜찮은 접근법이라는 실험결과를 얻는다고 한다.
8.1 Evaluation metric
- Automatic Metrics
- BLEU (Papineni et al., 2002)
- PARENT (Dhingra et al., 2019)
8.2 Results
- 역시 여기서도 pre-trained model의 효과를 볼 수 있다.
- 위에서 말했듯이 full table보단 subtable이 낫다.
- 아마도 쓸데없는 정보가 너무 많아서 그럴 것 같다.
- 또한 metadata가 있어야 성능이 더 좋아지는데 이건 뭐 당연한 결과이다.
- metadata = (page-title, section-title, section-text)
8.3 Human evaluation
- For each of the 2 top performing models in Table 7, we take 500 random outputs and perform human evaluation using the following axes:
- Fluency
- Faithfulness (Precision)
- Covered Cells (Recall)
- Coverage with Respect to Reference (Recall)
9 Model Errors and Challenges
- 이 섹션에서는, 몇 개의 BERT-to-BERT Books model으로부터의 decoder 출력 예제를 보여주고 이 데이터세트가 직면한 기존의 접근법 한계를 얘기해본다.
- 일반적으로, 모델은 합리적으로 문법이 맞고 유창한 문장 생성을 수행한다. (table 10에서 가리키는 것처럼)
- “full table”이 주어졌을 때, 모델은 정확하게 reference을 생성하는데 필요한 정보를 선택할 수 없는 대신 관련없는 정보를 가진 임의의 문장을 생성한다.
- 직관적으로 생각한 문제점이 드러나는 듯
- 모델은 하이라이트된 cell 정보(“subtable”) 자체로 수정하고 metadata로 문장을 향상시키는데 사용하는 것을 배운다.
- 그러나 우리는 또한 기존 접근 방식이 어려움을 겪고있는 특정 문제를 관찰하여 향후 연구를 위한 지침으로 활용할 수 있습니다.
- Hallucination
- 표 10 (예 1-4)에 표시된 것처럼 모델은 때때로 first scottish(스코틀랜드어), third와 같은 문구를 출력하지만 합리적으로 보이지만 테이블에 충실하지 않다.
- 즉 하이라이트된 cell과 상관 없는 부분이 있다는 것
- 이 환각 현상은 기존의 다른 데이터 data-to-text 데이터세트에서 널리 관찰된다. (Lebret et al., 2016; Wiseman et al., 2017).
- 그러나 이러한 데이터 집합에서 노이즈가 많은 references는 모델 무능을(incapability) 데이터 노이즈와 분리하기 어렵게 만듭니다.
- 참조 대상이 소스에 충실하더라도 신경 모델이 여전히 faithfulness에 대해 투쟁하는 것은 우리의 데이터 세트가 strong evidence로 작용한다는 것이다.
- Rare topics
- 다른 챌린지로는 우리 테스크의 오픈 도메인 특성에 의해 rare or complex 토픽들에 모델은 어려움을 격는다.
- 예를 들어, 테이블 10의 예제 5는 microdrive capacities에 관련된 것으로 챌린지하다.
- 우리의 토픽 분포은 (그림 1)에서 알 수 있듯이 특정 토픽은 학습 예제가 비교적 제한적이다.
- 이것은 limited examples와 더 나은 일반화 가능성으로 배울 수있는 모델의 개발을 요구합니다.
- Diverse table structure
- 예제 6에서 six과 five를 올바르게 추론하려면 테이블 행과 열을 계산해야합니다.
- reference에 있는 것처럼 문장에 six와 five가 들어가려면
- 테이블 10의 마지막 예제도 유사하게, last 와 career highs의 구는 테이블 구조로 및 columns 끼리 비교를 해서 유추해야한다.
- 즉, 뭔가 비교를 하는 단어들은 그 자체만으로는 알기 어렵고 테이블의 구조를 알아야 한다는 것 같다.
- 그러나, 모델들은 우리가 사용하는 간단한 소스 표현으로부터 이러한 추론을 쉽게 유추할 수 없다.
- 우리의 데이터 집합은 다양한 유형의 테이블 스키마로 인해 더 나은 테이블 표현을 학습하는 독특한 과제를 제시한다.
- 자세한 예제 표는 그림 2-6을 참조
- Numerical reasoning (번역)
- 위에서 논의한 바와 같이, 테이블 구조에 대한 추론은 종종 행 또는 열을 계산하거나 셀 집합에 대한 숫자를 비교해야합니다.
- 예제 6 및 7 외에도 예제 4에서는 숫자를 비교하여 third가(red word) 잘못된 관계라는 결론을 내립니다.
- 위와 비슷한 문제지만, 테이블의 구조말고 숫자간의 비교 같은 것이 필요하다.
- 모델 오류는 수치 추론이 발전 시스템에서 여전히 어려운 과제임을 나타냅니다.
- 질문 답변에서이 문제에 대한 최근의 관심 (Dua et al., 2019; Andor et al., 2019)은 우리의 업무와 관련이있을 수 있습니다.
- Evaluation metrics (번역)
- 위의 문제 중 많은 부분이 BLEU와 같은 메트릭으로 캡처하기가 어렵습니다.
- reference and prediction은 단어에 의해서만 다를 수 있지만 semantic meaning면에서 크게 다를 수 있기 때문입니다.
- 더욱이, 적절한 평가를 위해 학습된 모델(Wiseman et al., 2017; Ma et al., 2019; Sellam et al., 2020)에 구축될 수 있는 더 나은 측정 기준을 요구하면서, 더 많은 추론을 가지고 산출물을 생산하는 모델을 어떻게 올바르게 보상할 것인지는 불분명하다.
- 원래 생성 테스크의 고질적인 문제라고 볼 수 있다.
10 Conclusion
- 이 연구에서, 우리는 ToTTo 데이터세트인 크고 english table-to-text 데이터세트를 보여주고 이것은 controlled 생성 테스크와 iterative sentence revision을 기반으로한 데이터 annotation 과정을 보여준다.
- 우리는 또한 몇 가지 SoTA 베이스라인을 제공했고, ToTTo가 모델 연구뿐만 아니라 모델 개선을 더 잘 감지할 수 있는 평가 지표를 개발하는 데 유용한 데이터 집합이 될 수 있음을 입증했다.
- TOTTO is available at https://github. com/google-research-datasets/totto.
Reference
댓글
댓글 쓰기