◼︎ Comment

이 논문은 새로운 데이터세트 ToTTo을 제시하는데, 이 데이터세트가 모델 연구뿐만 아니라 평가지표를 개발하는데도 유용하다고 말을 한다.
기본적으로 표에 맞는 문장을 생성하는 controlled generation 테스크이다.

단순 표의 정보만 주는 것이 아니라 문장과 매칭이 되는 표에서 쓰이는 cell과 섹션 제목, 섹션 테스트, 페이지 제목의 메타데이터가 주어진다.
물론 이것을 활용안해도 되지만, 활용하는 것이 당연히 성능이 좋다.
이를 활용하면 다양한 테스크를 만들 수 있다고 하나, 기본 테스크는 위와 같다.

그리고 데이터 만드는 과정에 대해서 상세히 적혀있다.

간단히 말하면 two step이다.
첫 번째 step은 표와 매칭되는 문장을 페이지내에서 찾는다. (휴리트식하게)
물론 이렇게 하면 부정확하니까, 사람이 표의 cell과 맞도록 수정을 해준다.
두 번째 step은 첫 번째 step을 통과해도 문법적인 부분이 틀릴 수 있기 때문에 수정한다는 것이다.

아무튼 이렇게 데이터를 구성하고 몇 가지 SoTA 모델을 활용하여 베이스라인을 구축한다.

그렇게 헀을 때 다음의 5가지 면에서 한계가 있기 때문에 이 데이터세트의 유용함을 보여준다고 보면된다.
Hallucination / Rare topics / Diverse table structure / Numerical reasoning / Evaluation Metrics
위의 모든 문제를 해결하는게 쉽지는 않아보인다.
특히 Diverse table structure / numerical reasoning 문제는 손 쉽게 해결할 수 없어 보인다.
이 부분은 입력을 어떤 식으로 구성할지부터가 되게 중요할 것 같다.

0. Abstract

우리는 ToTTo을 소개하는데, 이는 table-to-text 데이터세트로 120,000 학습 예제를 가지고 다음의 controlled generation task 목적을 갖는다.

위키피디아 테이블이 주어지고 highlighted table cells이 주어지면, one-sentence description을 생성한다.

생성된 타겟을 자연스럽고 source table에 충실해야 한다.
우리는 annotators가 Wikipedia의 기존 후보 문장을 직접 수정하는 데이터 세트 구성 프로세스를 소개합니다.
우리는 데이터 세트 및 주석 프로세스에 대한 체계적인 분석과 몇 가지 최신 기준으로 얻은 결과를 제시합니다.
일반적으로 유창하지만 기존 방법은 종종 표에서 지원하지 않는 문구를 환각한다.

이것은 이 데이터 세트가 high-precision conditional 텍스트 생성에 유용한 연구 벤치 마크 역할을 할 수 있음을 시사합니다.

1 Introduction

Data-to-text 생성은 테이블과 같은 structured data source content x을 조건으로 타겟 textual description y을 생성하는 것이다.
예제로는 다음과 같은 것들이 있다.

주어진 biographical data가 주어졌을 때 문장을 생성하기 (Lebret et al., 2016)
(E2E dataset) textual descriptions of restaurants given meaning representations (Novikova et al., 2017)
basketball game summaries given boxscore statistics

기존의 data-to-text 작업은 뉴럴 생성 모델에 중요한 test-bed를 제공했습니다 (Sutskever et al., 2014; Bahdanau et al., 2014).
뉴럴 모델은 환각(hallucination)되기 쉬운 것으로 알려져 있습니다.

즉, 유창하지만 소스에 충실하지 않은 텍스트를 생성합니다 (Vinyals and Le, 2015; Koehn and Knowles, 2017; Lee et al., 2018; Tian et al., 2019)
그리고 source 컨텐츠가 구조화 될 때 생성 된 텍스트의 충실성(faithfulness)을 평가하는 것이 더 쉬운 경우가 많습니다 (Wiseman et al., 2017; Dhingra et al., 2019).

또한 구조화 된 데이터는 모델의 추론 및 수치 추론 (Wiseman et al., 2017) 및 구조화 된 객체의 표현 표현 (Liu et al., 2018)에 대한 모델의 기능을 테스트하여 이러한 측면을 테스트하는 작업에 대한 흥미로운 보완 기능을 제공합니다. NLU 설정 (Pasupat and Liang, 2015; Chen et al., 2019; Dua et al., 2019).
또한 구조화 된 데이터는 모델의 reasoning 및 numerical inference와 structured objects의 building representation 능력을 테스트 할 수 있으며 NLU 설정에서 이러한 측면을 테스트하는 작업에 흥미로운 보완을 제공한다.
그러나, data-to-text 데이터 세트를 구성하는 것은 다음의 두 가지 축에서 어렵다.

task design
annotation process.

첫째, 요약과 같은 open-ended 출력을 가진 과제는 무엇을 생성해야 할지에 대한 모델에 대한 명시적인 신호가 부족하여 주관적인 내용과 평가의 챌린지로 이어질 수 있다.

반면에, 완전히 구체적인 meaning representation verbalizing하는데 한계가 있는 data-to-text 테스크는 모델의 능력이 inference의 수행능력을 테스트하지않고 그래서 테스크로부터 고려해야할 상당한 양의 챌린지를 제거한다.
너무 구체적으로 text <-> table 쌍을 지으면, 모델의 여러 챌린지를 해결하는 능력을 평가할 수 없다.

둘째로, 자연적스럽고 깨끗한 targets을 얻기 위해 annotation 프로세스를 설계하는 것은 중요한 과제다.

많은 데이터 세트에 의해 채택된 한 가지 전략은 annotators가 structure and style 관점에서 종종 다양성이 부족한 targets을 처음부터 작성하도록 하는 것이다.
대안은 자연적으로 발생하는 텍스트를 표와 쌍으로 묶는 것이다.
보다 다양하지만 자연적으로 발생하는 targets은 종종 noisy가 심하고 source로부터 추론할 수 없는 정보를 포함하고 있다.
이로 인해 데이터 노이즈에서 modeling weaknesses을 분리하는 것이 문제가 될 수 있다.
데이터를 만들기 위해 어떻게 annotation하는 지가 중요한데, table과 text을 그냥 쌍지으면 추론할 수 없는 정보들이 많기 때문에 annotator가 직접 table에 맞는 text을 작성하게끔 하는 것이 하나의 전략이다.

이 연구에서는, 우리는 ToTTo을 제안하는데 이는 open-domain의 table-to-text 생성 데이터세트로 새로운 task desing과 annotation process을 소개하여 위의 챌린지를 설명한다.
먼저, ToTTo는 controlled generation 태스크를 제안한다.

위키피디아 테이블과 하이라이트된 셀의 세트가 source x로부터 주어졌을 때, 목표는 single sentence description y을 생성하는 것이다.

하이라이트된 셀은 verbalize를 위해 명시적인 meaning representation을 구체화 하지 않고 target 문장이 설명해야 하는 잠재적으로 큰 표의 부분을 식별한다.
데이터세트 구성의 경우, targets이 자연으스러우면서 source table에 충실하도록 하기 위해, 우리는 annotators에게 new target sentences을 쓰라고 요구하는 대신 기존의 위키백과 candidate 문장을 target 문장으로 수정하도록 요청한다.
Table 1 presents a simple example from TOTTO to illustrate our annotation process.
table과 original text는 semantic이 겹치도록 위키피디아에서 휴리스틱하게 tables x와 sentences y을 쌍지어 모은다.
이 방법은 표와 부분적으로만 관련이 있을 수 있지만 대상 문장이 자연스럽다는 것을 보장한다.
그 다음, 우리는 annotators에게 original sentence을 support하는 table의 부분을 하이라이트하도록 요청하고 반복적으로 수정하여 final sentence을 생성한다. (see §5)

예를 들어, Table 1에서 annotator은 original text에서 언급된 table cell의 하이라이트 집합을 선택한다.
그들은 그리고 나서 table을 supported하지 않는 original text으로부터 phrases을 삭제한다.
즉 위의 예시에서 the playoffs first leg 삭제하고 entity Cristhian Stuani 대명사로 대체한다.

최종 문장 결과는 original sentence보다 생성 타겟에 적합한 역할을 한다.
이 annotation 과정은 우리의 데이터세트가 high-precision conditional text generation에 좀 더 적합하게 한다.
위키백과 표의 다양한 특성 때문에 TOTTO는 source에 완전히 충실한 targets을 포함하면서 상당히 다양한 도메인을 커버한다 (더 복잡한 예는 그림 2-6 참조).
우리의 실험은 SoTA 뉴럴 모델들이 훈련 데이터의 높은 품질에도 불구하고 충실한 결과를 내기 어렵다는 것을 보여준다.
이러한 결과는 우리의 데이터세트와 뒤따라오는 태스크가 controllable data-to-text 생성 모델을 위한 강력한 벤치마크의 역할을 할 수 있음을 보여준다.

2 Related Work

TOTTO는 아래에서 설명하는 것처럼 task design and annotation process에서 기존 데이터 세트와 다릅니다.
요약은 표 2에 나와 있습니다.
Task Design (번역)

기존의 테이블-텍스트 데이터 세트는 대부분 WEATHERGOV (Liang et al., 2009), ROBOCUP (Chen and Mooney, 2008), Rotowire (Wiseman et al., 2017, 농구), E2E (Novikova)와 같은 주제 및 스키마로 제한됩니다. et al., 2016, 2017, 레스토랑), KBGen (Banik et al., 2013, 생물학) 및 Wikibio (Lebret et al., 2016, 전기).
반대로 TOTTO에는 Wikipedia의 다양한 주제 카테고리에 걸친 다양한 스키마가 포함 된 테이블이 포함되어 있습니다.
또한 TOTTO는 기존 데이터 세트와 다른 컨텐츠 선택 관점을 취합니다.
Prior to the advent of neural approaches, generation systems typically separated content selection (what to say) from surface realization (how to say it) (Reiter and Dale, 1997).
따라서 많은 세대의 데이터 세트는 후자의 단계에만 초점을 맞췄습니다 (Wen et al., 2015; Gardent et al., 2017b).
그러나 신경 시스템은 이미 유창한 텍스트를 생성하는 데 상당히 강력했기 때문에 작업 복잡성을 줄입니다.
최근의 일부 데이터 세트 (Wiseman et al., 2017; Lebret et al., 2016)는 요약 문제로 구성하여 컨텐츠 선택을 작업에 통합 할 것을 제안했습니다.
그러나 요약은 훨씬 더 주관적이므로 작업이 제한되고 평가하기가 어려울 수 있습니다 (Krysci´ nski et al., 2019).
우리는 강조 표시된 셀이 대상의 주제에 대한 지침을 제공하지만 모델에 의해 수행 될 상당한 양의 컨텐츠 계획을 남겨 두는 중간 지점으로 TOTTO를 배치합니다.

Annotation Process (번역)

reference target y를 생성하는 기존의 다양한 전략이 있습니다.
많은 데이터 세트에 의해 채택 된 전략 중 하나는 소스를 표현할 때 주석 작성자가 처음부터 대상을 작성하도록하는 것입니다 (Banik et al., 2013; Wen et al., 2015; Gardent et al., 2017a).
이로 인해 소스 데이터에 충실한 대상이 생성되지만 구조 및 스타일 측면에서 다양한 요소가 부족한 경우가 많습니다 (Gururangan et al., 2018; Poliak et al., 2018).
raw 데이터 대신 annotators 에게 이미지를 제시하는 등의 도메인 별 전략 (Novikova et al., 2016)은 우리가 고려하는 복잡한 테이블 중 일부에는 실용적이지 않습니다.
다른 데이터 셋은 반대의 접근법을 취했다.

웹에서 소스 내용을 논의하는 방식으로 발견 된 실제 문장 찾기 (Lebret et al., 2016; Wiseman et al., 2017).

이 전략은 일반적으로 자연스럽고 다양한 대상을 유도하지만 시끄럽고 소스에서 유추 할 수없는 정보를 포함 할 수 있습니다 (Dhingra et al., 2019).
TOTTO를 구성하기 위해 annotators에게 Wikipedia의 기존 후보 문장을 수정하여 테이블에서 지원하는 정보 만 포함하도록 요청합니다.
이를 통해 TOTTO는 자연스러운 문장에서 발견되는 다양한 언어와 구조를 유지하면서보다 명확한 대상을 만들 수 있습니다.
예시적인 문장을 편집하는 기술은 반모 수 생성 모델 (Guu et al., 2018; Pandey et al., 2018; Peng et al., 2019)에서 사용되었으며 텍스트에 대한 크라우드 소싱 작고 반복적 인 변경이 주도하는 것으로 나타났습니다 더 높은 품질의 데이터와보다 강력한 주석 프로세스 (Little et al., 2010).
그러나 우리가 아는 한,이 기술을 사용하여 생성 데이터 세트를 구성하는 첫 번째 사람입니다.
이 작업과 동시에 Chen et al. (2020)은 Wikipedia 테이블도 사용하는 LogicNLG를 제안했지만 데이터 세트에 포함 된 좀 더 복잡한 구조화 된 테이블은 생략했습니다.
그들의 목표 문장은 annotators에 의해 생성되며 annotators에 의해 강조된 셀이 없기 때문에 그들의 작업은 상당히 통제되지 않습니다.

3 Preliminaries

우리의 테이블은 영어 위키피이다 기사에서 가져왔고 아마도 일반적인 grids는 아닐 것이다.
간단히, 우리는 table $\textbf{\textit{t}}$ 을 cell $\textbf{\textit{t}} = \{ \textbf{\textit{c}}_j \}^{\tau}_{j=1}$ 로 정의하고 τ는 여기서 table의 cell의 수이다.
각 cell은 다음을 가지고 있다.

(1) string value
(2) row 혹은 column header인지 아닌지
(3) tabel에있는 cell의 row와 column 위치
(4) 이 셀에 걸쳐있는 행과 열의 수입니다.

$\textbf{\textit{m}} = (m_{page-title}, m_{section-title}, m_{section-text})$ 은 table metadata을 가리킨다.

즉 page title, section title와 section text의(존재한다면) 첫 두 문장까지 가리킨다.

이 필드는 테이블 내용에 대한 컨텍스트를 제공하는 데 도움이됩니다.
$\textbf{\textit{s}} = (s_1, ..., s_n)$ 에서 n은 길이를 가리킨다.
우리는 예제 $\textbf{\textit{d}} = (\textbf{\textit{t}}, \textbf{\textit{m}}, \textbf{\textit{s}})$ 을 table, table metadata, and sentence의 tuple로 annotation한다. ( $\textbf{\textit{d}}$ $\textbf{\textit{t}}$ $\textbf{\textit{m}}$ $\textbf{\textit{s}}$ )
여기서 $\textbf{\textit{D}} = \{\textbf{\textit{d}}_n \}_{n=1}^{N}$ 는 데이터세트로 에제 사이즈가 N개라는 것이다.

4 Dataset Collection (번역)

먼저 후속 주석에 대한 annotation 예제를 얻는 방법을 설명합니다.
Wikibio 데이터 셋과의 중복을 방지하기 위해 (Lebret et al., 2016) infobox 테이블을 사용하지 않습니다.
테이블과 문장을 수집하기 위해 3 가지 휴리스틱 방법을 사용한다:

Number matching

동일한 Wikipedia 페이지에서 0이 아닌 3 자리 이상의 날짜가 아닌 숫자와 겹치는 표와 문장을 검색합니다.
숫자는 쉼표와 소수점이있는 숫자를 포함하여 가장 일반적인 숫자 패턴을 캡처하는 정규식으로 추출됩니다.
이 방법은 통계 (예 : 스포츠, 선거, 인구 조사, 과학, 날씨)를 설명하는 대부분의 표 문장 쌍을 캡처합니다.

Cell matching

표의 동일한 행에서 3 개 이상의 개별 셀 내용과 일치하는 토큰이있는 경우 문장을 추출합니다.
직관은 대부분의 테이블이 구조화되어 있고, 행은 보통 완전한 이벤트(예: 스포츠 경기, 선거, 특정 연도의 인구조사 데이터)를 묘사하는 데 사용되며, 같은 페이지에서 상응하는 문장 설명이 있을 가능성이 높다.

Hyperlinks

위의 휴리스틱은 동일한 페이지의 문장과 표만 고려합니다.
문장에 List로 시작하는 제목이있는 페이지에 대한 하이퍼 링크가 포함 된 예도 있습니다 (이 페이지는 일반적으로 큰 테이블로만 구성됨).
해당 페이지의 테이블 t에 s가 포함 된 페이지에 대한 하이퍼 링크가있는 경우 주석 예제로 간주합니다.
이러한 예는 일반적으로 다른 두 가지 휴리스틱보다 더 다양한 예를 제공하지만 문장이 테이블과 먼 관계를 가질 수 있기 때문에 더 많은 노이즈를 추가합니다.
위의 휴리스틱을 사용하여 많은 주석 예제 D를 얻습니다.
그런 다음 주석 예제의 무작위 하위 집합 인 191,693 개 교육 예제, 11,406 개 개발 예제, 11,406 개 테스트 예제를 샘플링합니다.
이 중 35.8 %는 숫자 일치, 29.4 %는 cell 일치, 34.7 %는 하이퍼 링크에서 파생되었습니다.

5 Data Annotation Process

The collected annotation examples are noisy since a sentence s may be partially or completely unsupported by the table t.
따라서 우리는 annotator를 원래 문장의 작은 점진적 변경을 통해 안내하는 데이터 annotation 프로세스를 정의합니다.
이를 통해 프로세스의 모든 단계에서 annotator 계약을 측정 할 수 있으며 이는 기존 세대 데이터 세트에서는 비정형입니다.

5.1 Primary Annotation Task

The primary annotation task consists of the following steps

(1) Table Readability
(2) Cell highlighting
(3) Phrase Deletion
(4) Decontextualization
Each of these are described below and more examples are provided in Table 3.

즉 위 그림이 전체적이 annotation 과정을 보여주는 것이다.

자세한 부분은 생략..

5.2 Secondary Annotation Task

이전의 annotation task의 복잡성 때문에, s_decontext 결과는 심지어 annotators가 문법을 수정했어도 문법적으로 틀릴 수 있다.
따라서 annotators의 두 번째 그룹은 문장을 추가적으로 수정하도록 요청되었고 하이라이트된 cells을 가진 테이블이 추가적인 context인지 요청했다.

테이블 3에서 Final로 가는 단계로 보면 될 듯

그러나, 이때 annotoators은 테이블을 사용하도록 요청되지 않는다.
그들은 제공된 문장이 문법과 유창한지 결정한다.
만약 문장이 유창하지 않거나 문법적으로 틀리면, 그 에러를 고친다.
Annotators은 또한 문장이 수정될 수 없는 옵션또한 주어진다.

무조건 고칠필요는 없단 얘기

최종 결과는 s_final 문장이다.
평균적으로, annotators은 문장들의 27%정도 수정했고 문장의 길이는 17.2에서 17.4 tokens으로 약간 증가했다.
우리는 대부분의 케이스가, 테이블이 문장을 수정할 때 필수적이지 않다는 것을 알았다.

왜냐하면 문법적 에러는 surface syntax이기 때문이다.
surface syntax은 punctuation 혹은 missing determiner와 같은 것이다.

경우에 따라 동사가 누락 될 수 있으며 이러한 경우 사용할 올바른 동사를 표시하기 위해 테이블이 필요하다.

6 Dataset Analysis

Basic statistics of TOTTO are described in Table 4.
The number of unique tables and vocabulary size attests to the open domain nature of our dataset.
Furthermore, while the median table is actually quite large (87 cells), the median number of highlighted cells is significantly smaller (3).
This indicates the importance of the cell highlighting feature of our dataset toward a well-defined text generation task.

6.1 Annotator Agreement

6.2 Topics and Linguistic Phenomena

6.3 Training, Development, and Test Splits

This results in a development set D_dev of size 7,700 and a test set D_test of size 7,700.

7 Machine Learning Task Construction

테이블 t, 관련있는 metadata m(page title, section title, table section text)와 하이라이트된 cells인 t_highlight가 주어졌을 때 최종 문장인 s_final을 생성하는 것이다.
수학적으로 이는 function f : x → y 을 학습하는 것으로 x = (t, m, t_highlight) and y = s_final 이다.
이 테스크는 annotators가 수행한 것과는 다르다.

왜냐하면 그들은 revision을 요구하는 문장으로부터 시작했기 때문이다.
즉 annotator은 original 문장이라는 것이 있지만, 이 task는 아니라는 것이다.

그래서 이 테스크는 좀 더 챌린지하며, 모델은 기존의 문장을 수정하는 대신 새로운 문장을 생성해야만 한다.
우리는 우리의 annotation 메커니즘에서 여러 개의 스테이지를 사용하지만, sentence revision or cell highlighting와 같은 데이터가 주어졌을 때 머신러닝 모델들을 위한 다양한 테스크를 디자인 가능하다.

그러나 이것은 이 연구의 범위에서 벗어난다.
즉 여기서 구성한 데이터세트다 단순 cell <-> 문장이 아니기 때문에 다양한 테스크를 구성할 수 있다는 얘기

8 Experiment

We present baseline results on TOTTO by examining three existing state-of-the-art approaches

BERT-to-BERT (Rothe et al., 2019)

Leveraging pre-trained checkpoints for sequence generation tasks 논문인데, encoder-decoder 모두 BERT를 활용해서 문장생성하는 것인가 보다

Pointer-Generator (See et al., 2017)

A Seq2Seq model with attention and copy mechanism (our implementation)

Puduppully et al. (2019)

A Seq2Seq model with an explicit content selection and planning mechanism designed for data-to-text

게다가, 여기서는 source content의 표현을 하는데 다른 전략을 탐구하고 기존의 lineraization 접근법과 닮았다.

Full Table

가장 간단한 방법은 전체 테이블을 소스로 사용하고 강조 표시된 셀을 표시하는 특수 토큰을 추가하는 것입니다.
그러나 많은 테이블이 매우 클 수 있으며이 전략은 제대로 수행되지 않습니다.
언뜻보면, 알고리즘적으로는 괜찮을 것 같은데 많은 source을 처리하는 것이 문제일 것 같고 실제로 제대로 수행되지 않는 결과를 보여주낟.

Subtable

다른 옵션은 강조 표시된 셀 t_highlight ∈ t를 강조 표시된 각 셀에 대해 heuristically 추출 된 행 및 열 머리글과 함께 사용하는 것입니다.
이를 통해 모델은 관련 내용에만 집중할 수 있지만 테이블 구조의 맥락에서 추론을 수행하는 기능이 제한됩니다 (표 10 참조).
그러나 전반적으로이 표현은 더 높은 성능으로 이어집니다.
즉 header을 표기하여 cell의 속성 정보를 준다는 개념인데, 나도 간단히 이 데이터로 실험할 때, 이것으로 해보고 싶었지만 header와 cell을 매칭시키는 전처리가 그리 간단하지 않아서 패스했다..
물론 성능을 좀 더 올리려면 괜찮은 접근법이라는 실험결과를 얻는다고 한다.

8.1 Evaluation metric

Automatic Metrics

BLEU (Papineni et al., 2002)
PARENT (Dhingra et al., 2019)

8.2 Results

역시 여기서도 pre-trained model의 효과를 볼 수 있다.

위에서 말했듯이 full table보단 subtable이 낫다.
아마도 쓸데없는 정보가 너무 많아서 그럴 것 같다.
또한 metadata가 있어야 성능이 더 좋아지는데 이건 뭐 당연한 결과이다.

metadata = (page-title, section-title, section-text)

8.3 Human evaluation

For each of the 2 top performing models in Table 7, we take 500 random outputs and perform human evaluation using the following axes:

Fluency
Faithfulness (Precision)
Covered Cells (Recall)
Coverage with Respect to Reference (Recall)

9 Model Errors and Challenges

이 섹션에서는, 몇 개의 BERT-to-BERT Books model으로부터의 decoder 출력 예제를 보여주고 이 데이터세트가 직면한 기존의 접근법 한계를 얘기해본다.
일반적으로, 모델은 합리적으로 문법이 맞고 유창한 문장 생성을 수행한다. (table 10에서 가리키는 것처럼)
“full table”이 주어졌을 때, 모델은 정확하게 reference을 생성하는데 필요한 정보를 선택할 수 없는 대신 관련없는 정보를 가진 임의의 문장을 생성한다.

직관적으로 생각한 문제점이 드러나는 듯

모델은 하이라이트된 cell 정보(“subtable”) 자체로 수정하고 metadata로 문장을 향상시키는데 사용하는 것을 배운다.
그러나 우리는 또한 기존 접근 방식이 어려움을 겪고있는 특정 문제를 관찰하여 향후 연구를 위한 지침으로 활용할 수 있습니다.

Hallucination

표 10 (예 1-4)에 표시된 것처럼 모델은 때때로 first scottish(스코틀랜드어), third와 같은 문구를 출력하지만 합리적으로 보이지만 테이블에 충실하지 않다.

즉 하이라이트된 cell과 상관 없는 부분이 있다는 것

이 환각 현상은 기존의 다른 데이터 data-to-text 데이터세트에서 널리 관찰된다. (Lebret et al., 2016; Wiseman et al., 2017).
그러나 이러한 데이터 집합에서 노이즈가 많은 references는 모델 무능을(incapability) 데이터 노이즈와 분리하기 어렵게 만듭니다.
참조 대상이 소스에 충실하더라도 신경 모델이 여전히 faithfulness에 대해 투쟁하는 것은 우리의 데이터 세트가 strong evidence로 작용한다는 것이다.

Rare topics

다른 챌린지로는 우리 테스크의 오픈 도메인 특성에 의해 rare or complex 토픽들에 모델은 어려움을 격는다.
예를 들어, 테이블 10의 예제 5는 microdrive capacities에 관련된 것으로 챌린지하다.
우리의 토픽 분포은 (그림 1)에서 알 수 있듯이 특정 토픽은 학습 예제가 비교적 제한적이다.
이것은 limited examples와 더 나은 일반화 가능성으로 배울 수있는 모델의 개발을 요구합니다.

Diverse table structure

예제 6에서 six과 five를 올바르게 추론하려면 테이블 행과 열을 계산해야합니다.

reference에 있는 것처럼 문장에 six와 five가 들어가려면

테이블 10의 마지막 예제도 유사하게, last 와 career highs의 구는 테이블 구조로 및 columns 끼리 비교를 해서 유추해야한다.

즉, 뭔가 비교를 하는 단어들은 그 자체만으로는 알기 어렵고 테이블의 구조를 알아야 한다는 것 같다.

그러나, 모델들은 우리가 사용하는 간단한 소스 표현으로부터 이러한 추론을 쉽게 유추할 수 없다.
우리의 데이터 집합은 다양한 유형의 테이블 스키마로 인해 더 나은 테이블 표현을 학습하는 독특한 과제를 제시한다.
자세한 예제 표는 그림 2-6을 참조

Numerical reasoning (번역)

위에서 논의한 바와 같이, 테이블 구조에 대한 추론은 종종 행 또는 열을 계산하거나 셀 집합에 대한 숫자를 비교해야합니다.
예제 6 및 7 외에도 예제 4에서는 숫자를 비교하여 third가(red word) 잘못된 관계라는 결론을 내립니다.

위와 비슷한 문제지만, 테이블의 구조말고 숫자간의 비교 같은 것이 필요하다.

모델 오류는 수치 추론이 발전 시스템에서 여전히 어려운 과제임을 나타냅니다.
질문 답변에서이 문제에 대한 최근의 관심 (Dua et al., 2019; Andor et al., 2019)은 우리의 업무와 관련이있을 수 있습니다.

Evaluation metrics (번역)

위의 문제 중 많은 부분이 BLEU와 같은 메트릭으로 캡처하기가 어렵습니다.
reference and prediction은 단어에 의해서만 다를 수 있지만 semantic meaning면에서 크게 다를 수 있기 때문입니다.
더욱이, 적절한 평가를 위해 학습된 모델(Wiseman et al., 2017; Ma et al., 2019; Sellam et al., 2020)에 구축될 수 있는 더 나은 측정 기준을 요구하면서, 더 많은 추론을 가지고 산출물을 생산하는 모델을 어떻게 올바르게 보상할 것인지는 불분명하다.
원래 생성 테스크의 고질적인 문제라고 볼 수 있다.

10 Conclusion

이 연구에서, 우리는 ToTTo 데이터세트인 크고 english table-to-text 데이터세트를 보여주고 이것은 controlled 생성 테스크와 iterative sentence revision을 기반으로한 데이터 annotation 과정을 보여준다.
우리는 또한 몇 가지 SoTA 베이스라인을 제공했고, ToTTo가 모델 연구뿐만 아니라 모델 개선을 더 잘 감지할 수 있는 평가 지표를 개발하는 데 유용한 데이터 집합이 될 수 있음을 입증했다.
TOTTO is available at https://github. com/google-research-datasets/totto.

Reference

https://arxiv.org/pdf/2004.14373.pdf

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-078, ToTTo: A Controlled Table-To-Text Generation Dataset (2020-Preprint)

◼︎ Comment

0. Abstract

1 Introduction

2 Related Work

3 Preliminaries

4 Dataset Collection (번역)

5 Data Annotation Process

5.1 Primary Annotation Task

5.2 Secondary Annotation Task

6 Dataset Analysis

6.1 Annotator Agreement

6.2 Topics and Linguistic Phenomena

6.3 Training, Development, and Test Splits

7 Machine Learning Task Construction

8 Experiment

8.1 Evaluation metric

8.2 Results

8.3 Human evaluation

9 Model Errors and Challenges

10 Conclusion

댓글

댓글 쓰기