Text Generation Evaluation 12 - SacreBLEU

요약

  • SacreBLEU는 공유 가능하고 비교 가능하며 재현 가능한 BLEU 점수를 번거롭지 않게 계산합니다. 
  • Rico Sennrich의`multi-bleu-detok.perl`에서 영감을 받아 공식 WMT 점수를 생성하지만 일반 텍스트로 작동합니다. 
  • 또한 모든 표준 테스트 세트를 알고 있으며 다운로드, 처리 및 토큰 화를 처리합니다. 

개요

  • 기계 번역 분야는 주요 측정 항목의 점수보고에 일관성이 없기 때문에 잘 인식되지 않는 문제에 직면 해 있습니다. 사
  • 람들은 ""BLEU 점수를 참조하지만 실제로 BLEU는 이러한 매개 변수의 변경에 따라 값이 크게 달라질 수있는 매개 변수화 된 측정 항목입니다. 
  • 이러한 매개 변수는 종종보고되지 않거나 찾기 어렵기 때문에 논문 간의 BLEU 점수를 직접 비교할 수 없습니다. 
  • 나는 일반적으로 사용되는 구성 사이에 1.8의 높은 차이를 찾아이 변형을 정량화합니다. 
  • 주요 원인은 레퍼런스에 적용된 다른 토큰 화 및 정규화 체계입니다. 
  • 파싱 커뮤니티의 성공을 지적하면서, 기계 번역 연구자들은 사용자가 제공 한 참조 처리를 허용하지 않는 연례 기계 번역 회의 (WMT)에서 사용하는 BLEU 체계에 정착하고 새로운 도구 인 SACREBLEU, 1를 제공하여 이것을 촉진하십시오.
  • BLEU 문제점, 다음과 같은 다양한 하이퍼-파리미터를 정해야함
    • The number of references used; 
    • for multi-reference settings, the computation of the length penalty; 
    • the maximum n-gram length; and 
    • smoothing applied to 0-count n-grams.
  • 쉽게 말해서 BLEU을 계산할 때, 토크나이저을 무엇을 쓰냐에 따라 측정 값이 달라지는 문제점을 해결하기 위해, 하나의 라이브러리르 만든 것.
    • 논문 마다 다른거를 쓸 수도 있고 논문에 안써있는 경우가 많다고 함.

Reference

댓글