◼ Comment

https://drive.google.com/file/d/1u2WNSI8NmUa7TQ9D7fU5feeJXwJv9rHC/view?usp=sharing
먼저 pre-training을 한다.

학습하기 위해 3가지 데이터를 합성한다.
1) BERT을 이용한 mask-filling
2) backtranslation
3) Randomly dropping out words
즉 이것들이 positive 쌍이 되는 것이다. (마치 패러프레이징 느낌)
이것으로 두 문장의 관계를 학습한다.

그리고나서, 기존의 automatic evaluation 방식을 pre-training signals로 하여 모델을 학습한다는 것이다. (fine-tuning)

signal에 따라 regression / calssification 테스크로 나뉜다.
signal로는 BLEU/ROUGE/BERTScore/Backtrans(+tag)/Entailment이 있다.
결과는 BLEU와 ROGUE는 signal로 별로고, 나머지는 괜찮다.

0 Abstract

Text 생성은 최근 몇년동안 상당한 발전을 해왔다.
그러나, 가장 인기가 좋은 (BELU or ROUGE)이 인간의 판단과 좋지 않은 상관관계를 가질 수 있기 때문에 평가 metric은 매우 뒤쳐져 있다.
우리는 BLEURT을 제안하고, 이는 수천개의 평향된 학습 샘플들로 사람의 판단을 모델링하는 BERT 기반으로한 학습된 평가 메트릭이다.
우리의 접근법에 대한 주요한 관점은 새로운 pre-training 기법으로 모델이 일반화하도록 돕는 수백만개의 합성(synthetic) 예제들이다.
BLEURT는 WMT Metrics shared task와 WebNLG 대회 데이터세트에서 SoTA을 달성한다.
vanilla BERT 기반 접근법과 비교하여, 이는 학습 데이터가 부족하고 out-of-distribution일 때 조차 더 좋은 결과를 달성한다.

1 Introduction

지난 몇 년 동안 자연 텍스트 생성(NLG) 연구는 다양한 문제를 해결할 수 있는 신경 인코더-디코더 패러다임(Sutskever et al., 2014; Bahdanau et al., 2015)에 의해 크게 발전했습니다. 번역(Koehn, 2009), 요약(Mani, 1999; Chopra et al., 2016), 구조화된 데이터를 텍스트로 생성(McKeown, 1992; Kukich, 1983; Wiseman et al., 2017) 대화(Smith and Hipp)를 포함한 작업 , 1994; Vinyals and Le, 2015) 및 이미지 캡션(Fang et al., 2015).
그러나, 기존 metrics의 단점으로 인해 진행은 점점 더뎌지고 있다.

사람 평가는 종종 시스템의 퀄리티의 가장 좋은 indicator이다.
그러나, 고안된 크라우드소싱 실험들은 매우 비싸고, high-latency 과정을 가지고, 이는 쉽게 메일 모델 개발 파이프라인에 적합하지 않다.

그래서, NLG 연구자들은 보통 automatic evaluation metrics을 사용하고, 이는 quality에 대해 사용가능한 proxy을 제공하고 계산하기 매우 싸다.
논문은 문장 단위인 reference 기반의 metrics을 조사하고, 이는 candidate 문장이 reference와 유사한 정도를 설명한다.
유사도의 정확한 definition는 string의 겹침부터 logical 포함까지 다양하다.
먼저, 핸드크래프트 룰에 의존한 생성 메트릭은은 문장들간의 surface similarity을 측정한다.

설명하기 위해 BLEU(Papineni et al., 2002) 및 ROUGE(Lin, 2004), 두 가지 인기 있는 측정항목은 N-gram 겹침에 의존합니다.
이러한 메트릭들은 오직 lexical variation에만 민감하기 때문에, 그들은 주어진 reference의 semantic or syntactic variations에 적절한 reward을 할 수 없다.
따라서 특히 비교할 모든 시스템이 비슷한 수준의 정확도를 가질 때 인간의 판단과 좋지 않은 상관 관계가 있는 것으로 반복적으로 나타난다.

점점 더 NLG 연구원들은 학습된 구성 요소를 메트릭에 주입하여 이러한 문제를 해결해오고 있다.

설명하기 위해, WMT Metrics Shared Task을 고려하면, 매년 열리는 benchmark는로 번역 메트릭이 사람의 평가를 능력에 대한 것이다.

컴페티션의 최근 2년은 뉴럴 기반의 접근법들이 매우 크게 기여해왔따. (RUSE, YiSi, ESIM)
현재 접근법들은 두 가지 카테리기에 속한다.
fully 학습 메트릭 (BERT, RUSE, ESIM)과 같은 모델들이 end-to-end로 학습되는 것이고, 그들은 전형적으로 handcrafted features 혹은 학습된 embeddings에 의존한다.
반대로, hybrid 메트릭 (YiSi and BERTScore0은 학습된 요소들 (즉, contextual embeddings)와 handwrittedn logic (즉 token alignment rules)을 결합한다.
첫 번째 카테고리는 전형적으로 매우 뛰어난 표현력을 제공한다.

만약, 사람 평가 데이터의 학습 세트가 가능하다면, 메트릭들은 이를 최대한 활용하고 평가 분포를 밀접하게 맞출 수 있다.
게다가, 학습된 메트릭들은 테스크의 특정 속성들에 (fluency, faithfulness, grammar, or style) 튜닝될 수 있다.

반면에, hybrid 메트릭들은 강인함을 제공한다.

훈련 데이터가 거의 또는 전혀 없을 때 더 나은 결과를 제공할 수 있으며 훈련 데이터와 테스트 데이터가 동일하게 분포된다는 가정에 의존하지 않습니다.
그리고 실제로 IID 가정은 NLG 평가에서 특히 문제가 됩니다.
이는 메트릭 문헌의 주요 대상인 도메인 드리프트뿐만 아니라 품질 드리프트 때문이기도 합니다.
NLG 시스템들은 시간이 지남에 따라 좋아지는 경향이 있어서, 2015년의 ratings 데이터로 훈련된 모델은 (특히 새로운 연구 작업의 경우) 2019년에 최고 성능 시스템을 구별하지 못할 수 있습니다.

이상적인 학습된 메트릭은 학습의 ratings data의 사용가능함과 distribution dritfs에도 강인함을 최대한 활용할 수 있어야 한다. (즉, 추론할 수 있어야 한다.)

우리의 인사이트는 사람 평가에 대해 fine-tuning하기 전에 많은 합성 데이터에 대해 fully 학습된 메트릭을 pretraining하여 expressivity와 robustness을 결합할 수 있게 한다.

To this end, we introduce BLEURT, a text generation metric based on BERT (Devlin et al., 2019).
BLEURT의 주요 요소는 새로운 pre-training 스키마이고, 이는 위키피디아 (lexical과 semantic-level supervision signals의 다양한 세트로 증강한) 문장의 랜덤 perturbations을 사용한다.
우리의 접근법을 입증하기 위해, 우리는 BLEURT을 영어에 대해 학습하고 다른 일반화된 참조에들에서 평가한다.

우리는 먼저, WMT Metrics Shared task의 최근 SoTA 결과들을 제공한다. (2017 to 2019, to-English language pairs)
그런 다음 WMT 2017을 기반으로 하는 종합 벤치마크를 사용하여 품질 드리프트에 대처하는 능력을 스트레스 테스트합니다.
마지막으로, 데이터-텍스트 데이터 세트인 WebNLG 2017(Gardent et al., 2017)의 세 가지 작업으로 다른 도메인에 쉽게 적응할 수 있음을 보여줍니다.

Ablations는 합성 pretraining 체계가 IID 설정에서 성능을 향상시키고 훈련 데이터가 부족하거나, 편향되거나, 도메인을 벗어날 때 견고성을 보장하는 데 중요하다는 것을 보여줍니다.

2 Preliminaries

x = (x1, ..., xr)이 길이 r을 가진 reference 문장이고, 여기서 xi는 token이다.

$\tilde{x} = (\tilde{x_1}, .., \tilde{x_p})$ 는 길이 p을 가진 prediction sentence이다.

$\{ (x_i, \tilde{x_i}, y_i) \}^{N}_{n=1}$ 는 N 사이즈를 가지는 학습 데이터세트이고, $y_i \in \mathbb{R}$ 는 사람 평가가 $\tilde{x_i}$ 가 xi에 관하여 얼마나 좋은지를 가리킨다.
Given the training data, our goal is to learn a function f : (x, x˜) → y that predicts the human rating.

3 Fine-Tuning BERT for Quality Evaluation

사용가능한 평가 데이터가 적게 주어지면, 이 테스크를 위해 unsupervised representations을 활용하는 것이 자연스럽다.
우리의 모델에서, 우리는 BERT을 사용하고, 이는 unsupervised 기술로 텍스트 시퀀스의 contextualized representations을 학습한다.
Given x and x˜, BERT is a Transformer (Vaswani et al., 2017) that returns a sequence of contextualized vectors:

where v[CLS] is the representation for the special [CLS] token.

As described by Devlin et al. (2019), we add a linear layer on top of the [CLS] vector to predict the rating:

W와 b는 각각 weight matrix와 bias vector이다.
위의 두 linear layer는 BERT 파라미터처럼 supervised data에 대해 학습된다. (전형적으로 수천개의 예제에 대해)

We use the regression loss

이 접근 방식은 매우 간단하지만 WMT Metrics Shared Task 17-19에 대한 최신 결과를 제공하므로 이를 고성능 평가 메트릭으로 만드는 방법을 섹션 5에서 보여줍니다.
그러나 BERT를 미세 조정하려면 상당한 양의 IID 데이터가 필요하며, 이는 다양한 작업 및 모델 드리프트로 일반화해야 하는 메트릭에 이상적이지 않습니다.

4 Pre-Training on Synthetic Data

우리의 접근법의 key 관점은 pre-training 기술로 우리는 평가 데이터에 fine-tuning하기 전에 'warm-up' BERT을 사용한다.
우리는 많은 합성 reference-candidate pairs (z, z˜)을 생성하고, 우리는 BERT을 multi-task loss와 함께 여러 lexical- and semantic-level supervision signals에 대해 학습한다.

우리의 실험들은 BLEURT가 이 phase에서 훨씬 더 잘 일반화하고, 특히 불완전한 학습 데이터에 대해서 더욱 그렇다.
모든 pre-training 접근법들은 pre-training tasks의 세트와 데이터세트를 요구한다.

이상적으로 설정은 최종 NLG 평가 작업과 유사해야 합니다.

즉, 문장 쌍은 유사하게 분포해야 하고 사전 훈련 신호는 사람의 평가와 상관되어야 합니다.
운이 나쁘게도, 우리는 미래에 평가할 NLG 모델들에 접근할 수 없다.

따라서 우리는 세 가지 요구 사항으로 일반성을 위해 계획을 최적화했습니다.

(1) reference 문장의 세트는 크고 다양해서 BLEURT가 많은 NLG 도메인과 테스크를 다룰 수 있어야 한다.
(2) 문장 쌍들은 lexical, syntactic, semantic 차이의 다양한 변형을 포함해야한다.

여기서 목표는 NLG 시스템이 생성할 수 있는 모든 변형을 예상하는 것이다. (즉, substitution, paraphrases, noise, omissions)

(3) pre-training objectives는 효과적으로 이러한 현상들을 잡아낼 수 있어서, BLEURT가 그들을 식별하는 것을 학습할 수 있어야 한다.

The following sections present our approach.

4.1 Generating Sentence Pairs

BLEURT를 다양한 문장 변형에 노출시키는 한 가지 방법은 기존 문장 쌍 데이터 세트를 사용하는 것입니다.
이러한 세트들은 연관있는 문장들의 풍부한 소스들이나, 그들은 NLG 시스템들이 생성하는 오류 및 변경을 캡쳐하는데 실패할 수 있다. (즉, 생략, 반복, 무의미한 대체 )
우리는 그 대신에 적은 비용으로 임의로 확장할 수 있는 자동 접근 방식을 선택했습니다.

we generate synthetic sentence pairs (z, z˜) by randomly perturbing 1.8 million segments z from Wikipedia.

우리는 3가지 테크닉을 사용한다.

mask-filling with BERT
backtranslation
randomly dropping out words

We obtain about 6.5 million perturbations z˜.
Let us describe those techniques.
Mask-filling with BERT:

BERT의 초기 학습 테스크는 토크나이징된 문장들에서 gaps (masked tokens)을 채우는 것이다.
Wikipedia 문장에서 임의의 위치에 마스크를 삽입하여 이 기능을 활용하고 언어 모델로 채웁니다.
그래서, 우리는 문장의 fluency을 유지하면서 lexical 교체를 소개한다.
우리는 2가지 마스킹 전략을 사용하낟.
우리는 문장에서 랜덤 포지션을 mask 하거나, masked tokens의 연속 시퀀스들을 생성한다.
More details are provided in the Appendix.

Back translation:

우리는 paraphrase와 perturbations을 backtranslation으로 생성한다.
즉, 영어에서 다른 언어로 보냈다 다시 영어로 오게끔 번역 모델을 사용한다.
우리의 주 목표는 reference sentence의 변형을 생성하지만 semantic을 보존하는 것이다.
추가적으로, 우리는 back-translation 모델의 오류를 realistic alterations의 소스로 사용한다.

Dropping words:

다른 예를 만들기 위해 위의 합성예에서 단어를 무작위로 삭제하는 것이 실험에서 유용하다는 것을 알았습니다.
이 방법은 "병리학적" 행동 또는 NLG 시스템(예: 무효 예측 또는 문장 잘림)에 대해 BLEURT를 준비합니다.

4.2 Pre-Training Signals

next step은 pre-training signals $\{ \tau_k \}$ 로 각 문장 pair (z, $\tilde{z}$ )을 증강시키는 것이다.

여기서 $\tau$ k는 pre-training task k의 target vector이다.

좋은 pre-training signals은 lexical과 semantic의 많은 차이를 캡쳐할 수 있어야한다.
그들은 획득하기 싸서, 접근법이 많은 양의 합성 데이터로 확장할 수 있다.
다음의 섹션에서는 우리의 pretraining tasks을 설명하고, Table1에서 요약되있다.
Additional implementation details are in the Appendix.
Automatic Metrics:

우리는 세가지 signals $\tau$ BLEU, $\tau$ ROUGE, $\tau$ BERTscore을 각각 sentence BLEU, ROUGE, BERTscore로 각각 계산한다. (우리는 뒤의 2개에 대해 precision, recall, F-score을 사용한다.)

Backtranslation Likelihood:

이 시그널의 아이디어는 기존의 번역 모델들이 semantic equivalence을 측정하는 것을 활용하는 것이다.
pair (z, $\tilde{z}$ )가 주어지면, training signal은 $\tilde{z}$ 가 z의 backtranslation이 될 확률을 측정하고, P( $\tilde{z}$ |z)는 $\tilde{z}$ 의 길이에 대해 normalized된다.
P(en->fr)(z_fr|z)는 영어 문장 z를 조건으로 프랑스 문장 z_fr일 확률을 모델링하는 번역 모델이고 P(fr->en)(z|z_fr)은 프랑스 문장이 주어졌을 때 영어 문장이 할당될 확률인 번역 모델이다.
| $\tilde{z}$ |은 $\tilde{z}$ 의 토큰 수이고, 우리는 score 을 다음과 같이 계산한다.

가능한 모든 프랑스어 문장에 대한 합산을 계산하는 것은 다루기 어렵기 때문에 를 사용하여 합계를 근사하고 이라고 가정합니다.

즉, 중간의 영어 z1, 영어 z2가 주어지면 z1->프랑스어->z2로 갈 확률을 구한다고 보면 된다.
근데, 중간에 가능한 모든 프랑스어에 대한 확률을 구해야하는데, 불가능하기 때문에 중간의 프랑스어는 argmax로 가장 높은 확률로 번역된 프랑스어라는 것이다.
그리고 이 프랑스어에서 z2로 될 확률을 구한다고 보면 된다.

P(z| $\tilde{z}$ )를 계산하는 절차를 간단하게 뒤집을 수 있으므로 4개의 사전 훈련 신호 를 생성합니다.

두 쌍의 언어(en ↔ de 및 en ↔ fr)가 양방향으로 사용됩니다.
총 4가지 시그널 (영-프-영, 프-영-프, 영-독-영, 독-영-독)

Textual Entailment:

signal $\tau$ ential은 z가 $\tilde{z}$ 을 entail or contradict 하는지 classifier을 사용해서 표현한 것이다.
우리는 3개의 레이블의 확률을 사용한다.

Entail, Contradict, and Neutral, using BERT finetuned on an entailment dataset, MNLI (Devlin et al., 2019; Williams et al., 2018).

Backtranslation flag:

$\tau$ backtran signal은 perturbation이 back-translation 혹은 mask-filling 무엇으로 생성됐는지를 가리키는 flag이다.

4.3 Modeling

각 사전 훈련 작업에 대해 우리 모델은 regression 또는 classification 손실을 사용합니다.
그런 다음 task-level losses을 weighted sum로 집계합니다.
τk가 각 작업에 대한 목표 벡터를 설명하도록 합시다(예: Entail, Contradict, Neutral 클래스의 확률 또는 ROUGE에 대한 정밀도, 재현율 및 Fscore).
If τk is a regression task,

l2 loss인 $l_k = || \tau_k - \tilde{\tau_k} ||^{2}_{2} / |\tau_k|$ 가 사용되고 $|\tau_k|$ 은 τk의 dimension이고
$\tilde{\tau_k}$ 는 task-specific linear layer가 [CLS] embeddingd위에 붙어서 다음과 같이 계산된다.
$\tilde{\tau_k} = W_{\tau_k}\tilde{v_{[CLS]}}+b_{\tau_k}$

If τk is a classification task

우리는 seperate linear layer으로 각 class에대해 logit을 예측한다: $\tilde{\tau_{kc}} = W_{\tau_{kc}}\tilde{v_{[CLS]}}+b_{\tau_{kc}}$
우리는 multi-class cross-entropy loss을 사용한다

우리의 pre-training loss function은 다음을 따른다.

where τmk is the target vector for example m, M is number of synthetic examples, and γk are hyperparameter weights obtained with grid search (more details in the Appendix).

5 Experiments

이 섹션에서는 번역과 데이터를 텍스트로 변환하는 두 가지 작업에 대한 실험 결과를 보고합니다.
먼저 WMT 메트릭 공유 작업(Bojar et al., 2017)의 지난 3년 동안 기존 텍스트 생성 메트릭에 대해 BLEURT를 벤치마킹합니다.
그런 다음 WMT17을 기반으로 하는 일련의 합성 데이터 세트를 사용하여 품질 드리프트에 대한 견고성을 평가합니다.
WebNLG 2017 Challenge Dataset(Gardent et al., 2017)을 사용하여 다양한 작업에 적응하는 BLEURT의 능력을 테스트합니다.
마지막으로 절제 실험을 통해 각 사전 훈련 작업의 기여도를 측정합니다.
Our Models:

달리 지정하지 않는 한 모든 BLEURT 모델은 일반 BERT 사전 훈련(Devlin et al., 2019), 합성 데이터 사전 훈련(섹션 4에서 설명), 작업별 등급 미세 조정의 세 단계로 훈련됩니다. (번역 및/또는 데이터를 텍스트로).
우리는 BERTLarge(24개 레이어, 1024개 은닉 유닛, 16개 헤드) 및 BERT-Base(12개 레이어, 768개 히든 유닛, 12개 헤드)를 기반으로 각각 BLEURT, BLEURT 및 BLEURTbase의 두 가지 버전으로 실험합니다 (Devlin et al., 2019). , (둘 다 uncased)
배치 크기 32, 학습률 1e-5, 사전 훈련에 800,000단계, 미세 조정에 40,000단계를 사용합니다. 부록에서 교육 설정에 대한 전체 세부 정보를 제공합니다.

5.1 WMT Metrics Shared Task (번역)

We evaluate the agreement between the automatic metrics and the human ratings.
매년 Kendall의 Tau τ(실험 간 일관성)와 해당 연도의 공식 WMT 메트릭(완전성)의 두 가지 메트릭을 보고합니다.

공식 WMT 메트릭은 Pearson의 상관 관계 또는 부록에 설명된 DARR이라고 하는 Kendall의 Tau의 강력한 변형입니다.

모델: BLEURT의 네 가지 버전인 BLEURT, BLEURTbase, BLEURT -pre 및 BLEURTbase -pre로 실험합니다.

처음 두 모델은 BERT-large 및 BERT-base를 기반으로 합니다. 후자의 두 버전에서는 사전 교육 단계를 건너뛰고 WMT 등급에서 직접 미세 조정합니다.
WMT 공유 작업의 각 연도에 대해 교육 및 검증을 위해 이전 연도의 테스트 세트를 사용합니다. 부록에서 설정에 대해 자세히 설명합니다.
BLEURT를 우리가 직접 실행한 공유 작업 및 자동 메트릭의 참가자 데이터와 비교합니다.
전자의 경우 매년 chrF++, BEER, Meteor++, RUSE, Yisi1, ESIM 및 Yisi1-SRL과 같이 가장 실적이 좋은 참가자를 사용합니다(Mathur et al., 2019).
모든 참가자는 기존 문장 또는 토큰 임베딩 외에도 동일한 WMT 교육 데이터를 사용합니다.
후자의 경우에는 Moses 문장BLEU, BERTscore(Zhang et al., 2020) 및 MoverScore(Zhao et al., 2019)를 사용합니다. BERTscore의 경우 공정성을 위해 BERT-large를 사용하고 완전성을 위해 roBERTa(권장 버전)를 사용합니다(Liu et al., 2019).
저자가 게시한 스크립트를 사용하여 WMT 2017에서 MoverScore를 실행합니다.

We explain the difference by the fact that the training data used for 2017 is smaller than the datasets used for the following years, so pre-training is likelier to help.
In general pretraining yields higher returns for BERT-base than for BERT-large—in fact,
BLEURT-base with pretraining is often better than BLEURT without.
Takeaways:

Pre-training delivers consistent improvements, especially for BLEURT-base.
BLEURT yields state-of-the art performance for all years of the WMT Metrics Shared task

5.2 Robustness to Quality Drift

Takeaways:

Pre-training makes BLEURT significantly more robust to quality drifts.

5.3 WebNLG Experiments

Takeaways:

Thanks to pre-training, BLEURTcan quickly adapt to the new tasks. BLEURT finetuned twice (first on synthetic data, then on WMTdata) provides acceptable results on all tasks without training data.

5.4 Ablation Experiments

그림 4는 각 사전 훈련 작업의 상대적 중요성을 강조하는 WMT 2017에 대한 절제 실험을 보여줍니다.
왼쪽에서는 단일 작업에 대해 사전 훈련된 BLEURT와 사전 훈련이 없는 BLEURT를 비교합니다.
오른쪽에서 전체 BLEURT를 하나를 제외한 모든 작업에서 사전 훈련된 BLEURT와 비교합니다.
BERTscore, 수반 및 역번역 점수에 대한 사전 교육은 개선을 가져옵니다(대칭적으로 제거하면 BLEURT가 저하됨).
반대로 BLEU와 ROUGE는 부정적인 영향을 미칩니다.
우리는 고품질 신호에 대한 사전 훈련이 BLEURT에 도움이 되지만 인간의 판단과 덜 상관관계가 있는 메트릭이 실제로 모델에 해를 끼칠 수 있다고 결론지었습니다.

6 Related Work

7 Conclusion

우리는 BLEURT을 소개했고, 이는 영어에 대해 reference-based text generation 메트릭이다.
metric은 end-to-end 이기 때문에, BLEURT는 사람의 평가를 좋은 정확도를 가지도록 모델링이 가능하다.
게다가, pre-training은 metrics가 domain과 quality drifts 둘다에 강인하게 만들어준다.
후속 연구의 방향은 multilingual NLG 평가이고, humans와 classifiers 둘다를 포함하는 하이브리드 방법이다.

Reference

https://arxiv.org/pdf/2004.04696.pdf

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-128, BLEURT: Learning Robust Metrics for Text Generation, ACL-2020

◼ Comment

0 Abstract

1 Introduction

2 Preliminaries

3 Fine-Tuning BERT for Quality Evaluation

4 Pre-Training on Synthetic Data

4.1 Generating Sentence Pairs

4.2 Pre-Training Signals

4.3 Modeling

5 Experiments

5.1 WMT Metrics Shared Task (번역)

5.2 Robustness to Quality Drift

5.3 WebNLG Experiments

5.4 Ablation Experiments

6 Related Work

7 Conclusion

댓글

댓글 쓰기