Text Generation Evaluation 13 - Bluert

 개요

  • BLEURT는 자연어 생성을위한 학습 된 평가 지표입니다. 
  • 사전 훈련 된 BERT 모델 (Devlin et al. 2018)에서 시작하여 여러 단계의 전이 학습을 사용하여 구축 된 다음 합성 데이터를 사용하는 또 다른 사전 훈련 문구를 사용합니다. 
  • 마지막으로 WMT 휴먼 어노테이션에 대해 학습됩니다. 
  • BLEURT를 기본적으로 실행하거나 특정 응용 프로그램에 맞게 미세 조정할 수 있습니다 (후자가 더 나은 성능을 발휘할 것으로 예상 됨). 
  • 이는 sentence-BLEU나 BERTscore와 유사한 메트릭이라고 보면 될 것 같다.

요약

  • 텍스트 생성은 지난 몇 년 동안 상당한 발전을 이루었습니다. 그러나 가장 인기있는 선택 (예 : BLEU 및 ROUGE)이 사람의 판단과 잘 관련되지 않을 수 있기 때문에 평가 지표가 뒤처졌습니다. 
  • 우리는 BERT를 기반으로 학습 된 평가 메트릭 인 BLEURT를 제안합니다.이 지표는 수천 개의 편향된 훈련 예제로 인간의 판단을 모델링 할 수 있습니다. 
  • 우리 접근 방식의 주요 측면은 수백만 개의 합성 예제를 사용하여 모델을 일반화하는 데 도움이되는 새로운 사전 훈련 체계입니다. 
  • BLEURT는 지난 3 년간의 WMT Metrics 공유 작업 및 WebNLG Competition 데이터 세트에 대한 최신 결과를 제공합니다. 
  • 바닐라 BERT 기반 접근 방식과 달리, 훈련 데이터가 부족하고 분산되지 않은 경우에도 우수한 결과를 제공합니다.
  • 우리는 영어를위한 참조 기반 텍스트 생성 지표 인 BLEURT를 제시했습니다. 
  • 메트릭은 종단 간 교육을 받았기 때문에 BLEURT는 뛰어난 정확도로 인간 평가를 모델링 할 수 있습니다. 
  • 또한 사전 훈련은 메트릭이 도메인 및 품질 드리프트 모두에 대해 특히 강력하게 만듭니다. 
  • 향후 연구 방향에는 다국어 NLG 평가 및 인간과 분류자를 모두 포함하는 하이브리드 방법이 포함됩니다.
Reference

댓글