Text Generation Evaluation 12

요약

기계 번역 분야는 주요 측정 항목의 점수보고에 일관성이 없기 때문에 잘 인식되지 않는 문제에 직면 해 있습니다. 사
람들은 ""BLEU 점수를 참조하지만 실제로 BLEU는 이러한 매개 변수의 변경에 따라 값이 크게 달라질 수있는 매개 변수화 된 측정 항목입니다.
이러한 매개 변수는 종종보고되지 않거나 찾기 어렵기 때문에 논문 간의 BLEU 점수를 직접 비교할 수 없습니다.
나는 일반적으로 사용되는 구성 사이에 1.8의 높은 차이를 찾아이 변형을 정량화합니다.
주요 원인은 레퍼런스에 적용된 다른 토큰 화 및 정규화 체계입니다.
파싱 커뮤니티의 성공을 지적하면서, 기계 번역 연구자들은 사용자가 제공 한 참조 처리를 허용하지 않는 연례 기계 번역 회의 (WMT)에서 사용하는 BLEU 체계에 정착하고 새로운 도구 인 SACREBLEU, 1를 제공하여 이것을 촉진하십시오.
BLEU 문제점, 다음과 같은 다양한 하이퍼-파리미터를 정해야함

Reference