NL-128, BLEURT: Learning Robust Metrics for Text Generation, ACL-2020

◼ Comment

  • https://drive.google.com/file/d/1u2WNSI8NmUa7TQ9D7fU5feeJXwJv9rHC/view?usp=sharing
  • 먼저 pre-training을 한다.
    • 학습하기 위해 3가지 데이터를 합성한다.
    • 1) BERT을 이용한 mask-filling
    • 2) backtranslation
    • 3) Randomly dropping out words
    • 즉 이것들이 positive 쌍이 되는 것이다. (마치 패러프레이징 느낌)
    • 이것으로 두 문장의 관계를 학습한다.
  • 그리고나서, 기존의 automatic evaluation 방식을 pre-training signals로 하여 모델을 학습한다는 것이다. (fine-tuning)
    • signal에 따라 regression / calssification 테스크로 나뉜다.
    • signal로는 BLEU/ROUGE/BERTScore/Backtrans(+tag)/Entailment이 있다.
    • 결과는 BLEU와 ROGUE는 signal로 별로고, 나머지는 괜찮다.

0 Abstract

  • Text 생성은 최근 몇년동안 상당한 발전을 해왔다.
  • 그러나, 가장 인기가 좋은 (BELU or ROUGE)이 인간의 판단과 좋지 않은 상관관계를 가질 수 있기 때문에 평가 metric은 매우 뒤쳐져 있다.
  • 우리는 BLEURT을 제안하고, 이는 수천개의 평향된 학습 샘플들로 사람의 판단을 모델링하는 BERT 기반으로한 학습된 평가 메트릭이다.
  • 우리의 접근법에 대한 주요한 관점은 새로운 pre-training 기법으로 모델이 일반화하도록 돕는 수백만개의 합성(synthetic) 예제들이다.
  • BLEURT는 WMT Metrics shared task와 WebNLG 대회 데이터세트에서 SoTA을 달성한다.
  • vanilla BERT 기반 접근법과 비교하여, 이는 학습 데이터가 부족하고 out-of-distribution일 때 조차 더 좋은 결과를 달성한다.

1 Introduction

  • 지난 몇 년 동안 자연 텍스트 생성(NLG) 연구는 다양한 문제를 해결할 수 있는 신경 인코더-디코더 패러다임(Sutskever et al., 2014; Bahdanau et al., 2015)에 의해 크게 발전했습니다. 번역(Koehn, 2009), 요약(Mani, 1999; Chopra et al., 2016), 구조화된 데이터를 텍스트로 생성(McKeown, 1992; Kukich, 1983; Wiseman et al., 2017) 대화(Smith and Hipp)를 포함한 작업 , 1994; Vinyals and Le, 2015) 및 이미지 캡션(Fang et al., 2015).
  • 그러나, 기존 metrics의 단점으로 인해 진행은 점점 더뎌지고 있다.
    • 사람 평가는 종종 시스템의 퀄리티의 가장 좋은 indicator이다.
    • 그러나, 고안된 크라우드소싱 실험들은 매우 비싸고, high-latency 과정을 가지고, 이는 쉽게 메일 모델 개발 파이프라인에 적합하지 않다.
  • 그래서, NLG 연구자들은 보통 automatic evaluation metrics을 사용하고, 이는 quality에 대해 사용가능한 proxy을 제공하고 계산하기 매우 싸다.
  • 논문은 문장 단위인 reference 기반의 metrics을 조사하고, 이는 candidate 문장이 reference와 유사한 정도를 설명한다.
  • 유사도의 정확한 definition는 string의 겹침부터 logical 포함까지 다양하다.
  • 먼저, 핸드크래프트 룰에 의존한 생성 메트릭은은 문장들간의 surface similarity을 측정한다.
    • 설명하기 위해 BLEU(Papineni et al., 2002) 및 ROUGE(Lin, 2004), 두 가지 인기 있는 측정항목은 N-gram 겹침에 의존합니다.
    • 이러한 메트릭들은 오직 lexical variation에만 민감하기 때문에, 그들은 주어진 reference의 semantic or syntactic variations에 적절한 reward을 할 수 없다.
    • 따라서 특히 비교할 모든 시스템이 비슷한 수준의 정확도를 가질 때 인간의 판단과 좋지 않은 상관 관계가 있는 것으로 반복적으로 나타난다.
  • 점점 더 NLG 연구원들은 학습된 구성 요소를 메트릭에 주입하여 이러한 문제를 해결해오고 있다.
    • 설명하기 위해, WMT Metrics Shared Task을 고려하면, 매년 열리는 benchmark는로 번역 메트릭이 사람의 평가를 능력에 대한 것이다.
  • 컴페티션의 최근 2년은 뉴럴 기반의 접근법들이 매우 크게 기여해왔따. (RUSE, YiSi, ESIM)
  • 현재 접근법들은 두 가지 카테리기에 속한다.
  • fully 학습 메트릭 (BERT, RUSE, ESIM)과 같은 모델들이 end-to-end로 학습되는 것이고, 그들은 전형적으로 handcrafted features 혹은 학습된 embeddings에 의존한다.
  • 반대로, hybrid 메트릭 (YiSi and BERTScore0은 학습된 요소들 (즉, contextual embeddings)와 handwrittedn logic (즉 token alignment rules)을 결합한다.
  • 첫 번째 카테고리는 전형적으로 매우 뛰어난 표현력을 제공한다.
    • 만약, 사람 평가 데이터의 학습 세트가 가능하다면, 메트릭들은 이를 최대한 활용하고 평가 분포를 밀접하게 맞출 수 있다.
    • 게다가, 학습된 메트릭들은 테스크의 특정 속성들에 (fluency, faithfulness, grammar, or style) 튜닝될 수 있다.
  • 반면에, hybrid 메트릭들은 강인함을 제공한다.
    • 훈련 데이터가 거의 또는 전혀 없을 때 더 나은 결과를 제공할 수 있으며 훈련 데이터와 테스트 데이터가 동일하게 분포된다는 가정에 의존하지 않습니다.
    • 그리고 실제로 IID 가정은 NLG 평가에서 특히 문제가 됩니다. 
    • 이는 메트릭 문헌의 주요 대상인 도메인 드리프트뿐만 아니라 품질 드리프트 때문이기도 합니다.
    • NLG 시스템들은 시간이 지남에 따라 좋아지는 경향이 있어서, 2015년의 ratings 데이터로 훈련된 모델은 (특히 새로운 연구 작업의 경우) 2019년에 최고 성능 시스템을 구별하지 못할 수 있습니다.
  • 이상적인 학습된 메트릭은 학습의 ratings data의 사용가능함과 distribution dritfs에도 강인함을 최대한 활용할 수 있어야 한다. (즉, 추론할 수 있어야 한다.)
    • 우리의 인사이트는 사람 평가에 대해 fine-tuning하기 전에 많은 합성 데이터에 대해 fully 학습된 메트릭을 pretraining하여 expressivity와 robustness을 결합할 수 있게 한다.
  • To this end, we introduce BLEURT, a text generation metric based on BERT (Devlin et al., 2019). 
  • BLEURT의 주요 요소는 새로운 pre-training 스키마이고, 이는 위키피디아 (lexical과 semantic-level supervision signals의 다양한 세트로 증강한) 문장의 랜덤 perturbations을 사용한다. 
  • 우리의 접근법을 입증하기 위해, 우리는 BLEURT을 영어에 대해 학습하고 다른 일반화된 참조에들에서 평가한다.
    • 우리는 먼저, WMT Metrics Shared task의 최근  SoTA 결과들을 제공한다. (2017 to 2019, to-English language pairs)
    • 그런 다음 WMT 2017을 기반으로 하는 종합 벤치마크를 사용하여 품질 드리프트에 대처하는 능력을 스트레스 테스트합니다.
    • 마지막으로, 데이터-텍스트 데이터 세트인 WebNLG 2017(Gardent et al., 2017)의 세 가지 작업으로 다른 도메인에 쉽게 적응할 수 있음을 보여줍니다.
  • Ablations는 합성 pretraining 체계가 IID 설정에서 성능을 향상시키고 훈련 데이터가 부족하거나, 편향되거나, 도메인을 벗어날 때 견고성을 보장하는 데 중요하다는 것을 보여줍니다.

2 Preliminaries

  • x = (x1, ..., xr)이 길이 r을 가진 reference 문장이고, 여기서 xi는 token이다. 
    • 는 길이 p을 가진 prediction sentence이다.
  • 는 N 사이즈를 가지는 학습 데이터세트이고, 는 사람 평가가 가  xi에 관하여 얼마나 좋은지를 가리킨다.
  • Given the training data, our goal is to learn a function f : (x, x˜) → y that predicts the human rating.

3 Fine-Tuning BERT for Quality Evaluation

  • 사용가능한 평가 데이터가 적게 주어지면, 이 테스크를 위해 unsupervised representations을 활용하는 것이 자연스럽다.
  • 우리의 모델에서, 우리는 BERT을 사용하고, 이는 unsupervised 기술로 텍스트 시퀀스의 contextualized representations을 학습한다.
  • Given x and x˜, BERT is a Transformer (Vaswani et al., 2017) that returns a sequence of contextualized vectors:
    • where v[CLS] is the representation for the special [CLS] token. 
  • As described by Devlin et al. (2019), we add a linear layer on top of the [CLS] vector to predict the rating: 
    • W와 b는 각각 weight matrix와 bias vector이다.
    • 위의 두 linear layer는 BERT 파라미터처럼 supervised data에 대해 학습된다. (전형적으로 수천개의 예제에 대해)
  • We use the regression loss 
  • 이 접근 방식은 매우 간단하지만 WMT Metrics Shared Task 17-19에 대한 최신 결과를 제공하므로 이를 고성능 평가 메트릭으로 만드는 방법을 섹션 5에서 보여줍니다.
  • 그러나 BERT를 미세 조정하려면 상당한 양의 IID 데이터가 필요하며, 이는 다양한 작업 및 모델 드리프트로 일반화해야 하는 메트릭에 이상적이지 않습니다.

4 Pre-Training on Synthetic Data

  • 우리의 접근법의 key 관점은 pre-training 기술로 우리는 평가 데이터에 fine-tuning하기 전에 'warm-up' BERT을 사용한다.
  • 우리는 많은 합성 reference-candidate pairs (z, z˜)을 생성하고, 우리는 BERT을 multi-task loss와 함께 여러 lexical- and semantic-level supervision signals에 대해 학습한다.
    • 우리의 실험들은 BLEURT가 이 phase에서 훨씬 더 잘 일반화하고, 특히 불완전한 학습 데이터에 대해서 더욱 그렇다.
    • 모든 pre-training 접근법들은 pre-training tasks의 세트와 데이터세트를 요구한다.
  • 이상적으로 설정은 최종 NLG 평가 작업과 유사해야 합니다. 
    • 즉, 문장 쌍은 유사하게 분포해야 하고 사전 훈련 신호는 사람의 평가와 상관되어야 합니다.
    • 운이 나쁘게도, 우리는 미래에 평가할 NLG 모델들에 접근할 수 없다.
  • 따라서 우리는 세 가지 요구 사항으로 일반성을 위해 계획을 최적화했습니다.
    • (1) reference 문장의 세트는 크고 다양해서 BLEURT가 많은 NLG 도메인과 테스크를 다룰 수 있어야 한다.
    • (2) 문장 쌍들은 lexical, syntactic, semantic 차이의 다양한 변형을 포함해야한다.
      • 여기서 목표는 NLG 시스템이 생성할 수 있는 모든 변형을 예상하는 것이다. (즉, substitution, paraphrases, noise, omissions)
    • (3) pre-training objectives는 효과적으로 이러한 현상들을 잡아낼 수 있어서, BLEURT가 그들을 식별하는 것을 학습할 수 있어야 한다.
  • The following sections present our approach.

4.1 Generating Sentence Pairs

  • BLEURT를 다양한 문장 변형에 노출시키는 한 가지 방법은 기존 문장 쌍 데이터 세트를 사용하는 것입니다. 
  • 이러한 세트들은 연관있는 문장들의 풍부한 소스들이나, 그들은 NLG 시스템들이 생성하는 오류 및 변경을 캡쳐하는데 실패할 수 있다. (즉, 생략, 반복, 무의미한 대체 )
  • 우리는 그 대신에 적은 비용으로 임의로 확장할 수 있는 자동 접근 방식을 선택했습니다.
    • we generate synthetic sentence pairs (z, z˜) by randomly perturbing 1.8 million segments z from Wikipedia. 
  • 우리는 3가지 테크닉을 사용한다.
    • mask-filling with BERT
    • backtranslation
    • randomly dropping out words
  • We obtain about 6.5 million perturbations z˜. 
  • Let us describe those techniques. 
  • Mask-filling with BERT: 
    • BERT의 초기 학습 테스크는 토크나이징된 문장들에서 gaps (masked tokens)을 채우는 것이다.
    • Wikipedia 문장에서 임의의 위치에 마스크를 삽입하여 이 기능을 활용하고 언어 모델로 채웁니다.
    • 그래서, 우리는 문장의 fluency을 유지하면서 lexical 교체를 소개한다.
    • 우리는 2가지 마스킹 전략을 사용하낟.
    • 우리는 문장에서 랜덤 포지션을 mask 하거나, masked tokens의 연속 시퀀스들을 생성한다.
    • More details are provided in the Appendix.
  • Back translation: 
    • 우리는 paraphrase와 perturbations을 backtranslation으로 생성한다.
    • 즉, 영어에서 다른 언어로 보냈다 다시 영어로 오게끔 번역 모델을 사용한다.
    • 우리의 주 목표는 reference sentence의 변형을 생성하지만 semantic을 보존하는 것이다.
    • 추가적으로, 우리는 back-translation 모델의 오류를 realistic alterations의 소스로 사용한다.
  • Dropping words: 
    • 다른 예를 만들기 위해 위의 합성예에서 단어를 무작위로 삭제하는 것이 실험에서 유용하다는 것을 알았습니다.
    • 이 방법은 "병리학적" 행동 또는 NLG 시스템(예: 무효 예측 또는 문장 잘림)에 대해 BLEURT를 준비합니다.

4.2 Pre-Training Signals

  • next step은 pre-training signals 로 각 문장 pair (z, )을 증강시키는 것이다.
    • 여기서 k는 pre-training task k의 target vector이다.
  • 좋은 pre-training signals은 lexical과 semantic의 많은 차이를 캡쳐할 수 있어야한다.
  • 그들은 획득하기 싸서, 접근법이 많은 양의 합성 데이터로 확장할 수 있다.
  • 다음의 섹션에서는 우리의 pretraining tasks을 설명하고, Table1에서 요약되있다.

  • Additional implementation details are in the Appendix.
  • Automatic Metrics: 
    • 우리는 세가지 signals BLEU, ROUGE, BERTscore을 각각 sentence BLEU, ROUGE, BERTscore로 각각 계산한다. (우리는 뒤의 2개에 대해 precision, recall, F-score을 사용한다.)
  • Backtranslation Likelihood: 
    • 이 시그널의 아이디어는 기존의 번역 모델들이 semantic equivalence을 측정하는 것을 활용하는 것이다.
    • pair (z, )가 주어지면, training signal은 가 z의 backtranslation이 될 확률을 측정하고, P(|z)는 의 길이에 대해 normalized된다.
    • P(en->fr)(z_fr|z)는 영어 문장 z를 조건으로 프랑스 문장 z_fr일 확률을 모델링하는 번역 모델이고 P(fr->en)(z|z_fr)은 프랑스 문장이 주어졌을 때 영어 문장이 할당될 확률인 번역 모델이다.
    • ||은 의 토큰 수이고, 우리는 score 을 다음과 같이 계산한다.
    • 가능한 모든 프랑스어 문장에 대한 합산을 계산하는 것은 다루기 어렵기 때문에 를 사용하여 합계를 근사하고 이라고 가정합니다.
      • 즉, 중간의 영어 z1, 영어 z2가 주어지면 z1->프랑스어->z2로 갈 확률을 구한다고 보면 된다.
      • 근데, 중간에 가능한 모든 프랑스어에 대한 확률을 구해야하는데, 불가능하기 때문에 중간의 프랑스어는 argmax로 가장 높은 확률로 번역된 프랑스어라는 것이다.
      • 그리고 이 프랑스어에서 z2로 될 확률을 구한다고 보면 된다.
    • P(z|)를 계산하는 절차를 간단하게 뒤집을 수 있으므로 4개의 사전 훈련 신호 를 생성합니다. 
      • 두 쌍의 언어(en ↔ de 및 en ↔ fr)가 양방향으로 사용됩니다.
      • 총 4가지 시그널 (영-프-영, 프-영-프, 영-독-영, 독-영-독)
  • Textual Entailment: 
    • signal ential은 z가 을 entail or contradict 하는지 classifier을 사용해서 표현한 것이다.
    • 우리는 3개의 레이블의 확률을 사용한다. 
      • Entail, Contradict, and Neutral, using BERT finetuned on an entailment dataset, MNLI (Devlin et al., 2019; Williams et al., 2018).
  • Backtranslation flag:
    • backtran signal은 perturbation이 back-translation 혹은 mask-filling 무엇으로 생성됐는지를 가리키는 flag이다.

4.3 Modeling

  • 각 사전 훈련 작업에 대해 우리 모델은 regression 또는 classification 손실을 사용합니다. 
  • 그런 다음 task-level losses을 weighted sum로 집계합니다.
  • τk가 각 작업에 대한 목표 벡터를 설명하도록 합시다(예: Entail, Contradict, Neutral 클래스의 확률 또는 ROUGE에 대한 정밀도, 재현율 및 Fscore).
  • If τk is a regression task, 
    • l2 loss인 가 사용되고 은 τk의 dimension이고 
    • 는 task-specific linear layer가 [CLS] embeddingd위에 붙어서 다음과 같이 계산된다.
  • If τk is a classification task
    • 우리는 seperate linear layer으로 각 class에대해 logit을 예측한다:  
    • 우리는 multi-class cross-entropy loss을 사용한다
  • 우리의 pre-training loss function은 다음을 따른다.
  • where τmk is the target vector for example m, M is number of synthetic examples, and γk are hyperparameter weights obtained with grid search (more details in the Appendix).

5 Experiments

  • 이 섹션에서는 번역과 데이터를 텍스트로 변환하는 두 가지 작업에 대한 실험 결과를 보고합니다. 
  • 먼저 WMT 메트릭 공유 작업(Bojar et al., 2017)의 지난 3년 동안 기존 텍스트 생성 메트릭에 대해 BLEURT를 벤치마킹합니다. 
  • 그런 다음 WMT17을 기반으로 하는 일련의 합성 데이터 세트를 사용하여 품질 드리프트에 대한 견고성을 평가합니다. 
  • WebNLG 2017 Challenge Dataset(Gardent et al., 2017)을 사용하여 다양한 작업에 적응하는 BLEURT의 능력을 테스트합니다. 
  • 마지막으로 절제 실험을 통해 각 사전 훈련 작업의 기여도를 측정합니다. 
  • Our Models: 
    • 달리 지정하지 않는 한 모든 BLEURT 모델은 일반 BERT 사전 훈련(Devlin et al., 2019), 합성 데이터 사전 훈련(섹션 4에서 설명), 작업별 등급 미세 조정의 세 단계로 훈련됩니다. (번역 및/또는 데이터를 텍스트로). 
    • 우리는 BERTLarge(24개 레이어, 1024개 은닉 유닛, 16개 헤드) 및 BERT-Base(12개 레이어, 768개 히든 유닛, 12개 헤드)를 기반으로 각각 BLEURT, BLEURT 및 BLEURTbase의 두 가지 버전으로 실험합니다 (Devlin et al., 2019). , (둘 다 uncased)
    • 배치 크기 32, 학습률 1e-5, 사전 훈련에 800,000단계, 미세 조정에 40,000단계를 사용합니다. 부록에서 교육 설정에 대한 전체 세부 정보를 제공합니다.

5.1 WMT Metrics Shared Task (번역)

  • We evaluate the agreement between the automatic metrics and the human ratings.
  • 매년 Kendall의 Tau τ(실험 간 일관성)와 해당 연도의 공식 WMT 메트릭(완전성)의 두 가지 메트릭을 보고합니다. 
    • 공식 WMT 메트릭은 Pearson의 상관 관계 또는 부록에 설명된 DARR이라고 하는 Kendall의 Tau의 강력한 변형입니다.
  • 모델: BLEURT의 네 가지 버전인 BLEURT, BLEURTbase, BLEURT -pre 및 BLEURTbase -pre로 실험합니다. 
    • 처음 두 모델은 BERT-large 및 BERT-base를 기반으로 합니다. 후자의 두 버전에서는 사전 교육 단계를 건너뛰고 WMT 등급에서 직접 미세 조정합니다. 
    • WMT 공유 작업의 각 연도에 대해 교육 및 검증을 위해 이전 연도의 테스트 세트를 사용합니다. 부록에서 설정에 대해 자세히 설명합니다. 
    • BLEURT를 우리가 직접 실행한 공유 작업 및 자동 메트릭의 참가자 데이터와 비교합니다. 
    • 전자의 경우 매년 chrF++, BEER, Meteor++, RUSE, Yisi1, ESIM 및 Yisi1-SRL과 같이 가장 실적이 좋은 참가자를 사용합니다(Mathur et al., 2019). 
    • 모든 참가자는 기존 문장 또는 토큰 임베딩 외에도 동일한 WMT 교육 데이터를 사용합니다. 
    • 후자의 경우에는 Moses 문장BLEU, BERTscore(Zhang et al., 2020) 및 MoverScore(Zhao et al., 2019)를 사용합니다. BERTscore의 경우 공정성을 위해 BERT-large를 사용하고 완전성을 위해 roBERTa(권장 버전)를 사용합니다(Liu et al., 2019). 
    • 저자가 게시한 스크립트를 사용하여 WMT 2017에서 MoverScore를 실행합니다. 
  • We explain the difference by the fact that the training data used for 2017 is smaller than the datasets used for the following years, so pre-training is likelier to help. 
  • In general pretraining yields higher returns for BERT-base than for BERT-large—in fact, 
  • BLEURT-base with pretraining is often better than BLEURT without.
  • Takeaways: 
    • Pre-training delivers consistent improvements, especially for BLEURT-base. 
    • BLEURT yields state-of-the art performance for all years of the WMT Metrics Shared task

5.2 Robustness to Quality Drift

  • Takeaways: 
    • Pre-training makes BLEURT significantly more robust to quality drifts.

5.3 WebNLG Experiments 


  • Takeaways: 
    • Thanks to pre-training, BLEURTcan quickly adapt to the new tasks. BLEURT finetuned twice (first on synthetic data, then on WMTdata) provides acceptable results on all tasks without training data.

5.4 Ablation Experiments

  • 그림 4는 각 사전 훈련 작업의 상대적 중요성을 강조하는 WMT 2017에 대한 절제 실험을 보여줍니다. 
  • 왼쪽에서는 단일 작업에 대해 사전 훈련된 BLEURT와 사전 훈련이 없는 BLEURT를 비교합니다. 
  • 오른쪽에서 전체 BLEURT를 하나를 제외한 모든 작업에서 사전 훈련된 BLEURT와 비교합니다. 
  • BERTscore, 수반 및 역번역 점수에 대한 사전 교육은 개선을 가져옵니다(대칭적으로 제거하면 BLEURT가 저하됨). 
  • 반대로 BLEU와 ROUGE는 부정적인 영향을 미칩니다. 
  • 우리는 고품질 신호에 대한 사전 훈련이 BLEURT에 도움이 되지만 인간의 판단과 덜 상관관계가 있는 메트릭이 실제로 모델에 해를 끼칠 수 있다고 결론지었습니다. 

6 Related Work

7 Conclusion

  • 우리는 BLEURT을 소개했고, 이는 영어에 대해 reference-based text generation 메트릭이다.
  • metric은 end-to-end 이기 때문에, BLEURT는 사람의 평가를 좋은 정확도를 가지도록 모델링이 가능하다.
  • 게다가, pre-training은 metrics가 domain과 quality drifts 둘다에 강인하게 만들어준다.
  • 후속 연구의 방향은 multilingual NLG 평가이고, humans와 classifiers 둘다를 포함하는 하이브리드 방법이다. 
Reference

댓글