Text Generation Evaluation 14 - WER (Word Error Rate)
개요
- 단어 오류율 (WER)은 자동 음성 인식 시스템 성능의 일반적인 지표입니다.
- 성능 측정의 일반적인 어려움은 인식 된 단어 시퀀스가 참조 단어 시퀀스 (올바른 것으로 추정 됨)와 길이가 다를 수 있다는 사실에 있습니다.
- WER는 음소 수준 대신 단어 수준에서 작동하는 Levenshtein 거리에서 파생됩니다. WER는 여러 시스템을 비교하고 하나의 시스템 내에서 개선 사항을 평가하는 데 유용한 도구입니다.
- 그러나 이러한 종류의 측정은 번역 오류의 특성에 대한 세부 정보를 제공하지 않으므로 오류의 주요 원인을 식별하고 연구 노력에 집중하기 위해 추가 작업이 필요합니다.
- 이 문제는 먼저 동적 문자열 정렬을 사용하여 인식 된 단어 시퀀스를 참조 (음성) 단어 시퀀스와 정렬하여 해결됩니다.
- 이 문제에 대한 조사는 난이도와 단어 오류율 사이의 상관 관계를 나타내는 멱 법칙이라는 이론을 통해 볼 수 있습니다.
- 워드 오류율은 다음과 같이 계산할 수 있습니다.
- WER = (S + D + I) / N = (S + D + I) / (S + D + C) 여기서 S는 대체 횟수, D는 삭제 횟수입니다.
- I는 삽입 수, C는 올바른 단어 수, N은 참조의 단어 수입니다 (N = S + D + C).
- WER의 출력은 항상 0과 1 사이의 숫자입니다.
- 이 값은 잘못 예측 된 단어의 백분율을 나타냅니다.
- 값이 낮을수록 WER 0이 만점 인 ASR 시스템의 성능이 향상됩니다.
요약
- ASR 평가에서 일반적으로 사용되는 단어 오류율 (WER)은 출력 단어 시퀀스를 원래 입력 시퀀스로 복원하는 비용을 측정합니다.
- 그러나 받아쓰기 기계를 제외한 대부분의 CSR 애플리케이션의 경우 전달되는 정보의 비율에 따라 더 의미있는 성능 측정이 제공됩니다.
- 이 기사에서는 MER (일치 오류율) 및 WIL (단어 정보 손실)이라는 두 가지 새로운 절대 CSR 성능 측정을 소개합니다.
- MER는 오류 인 I / O 단어 일치의 비율입니다.
- WIL은 반세기 전에 제안 된 RIL (상대 정보 손실) 측정과 관련된 문제를 극복하는 단어 정보 손실 비율에 대한 간단한 근사치입니다.
- 이상적인 성능 측정과 관련된 문제가 논의되고 일반적으로 사용되는 Viterbi 입력 / 출력 정렬 절차 (적중에 대한 가중치가 0이고 대체, 삭제 및 삽입에 대한 동일한 가중치)가 최적인 것으로 표시됩니다.
- MER와 WIL은 모두 오류가없는 경우 0에서 히트가없는 경우 1까지 다양한 간단한 CSR 성능 측정을 제공합니다.
- 전달되는 단어 정보의 비율이 편집 비용보다 더 의미있는 모든 응용 프로그램의 평가에 WER보다 더 적합합니다.
- 낮은 오류율에서는 세 가지 모두 유사한 점수를 제공하므로 WER 측정에 대한 부적절한 이론적 근거가 눈에 띄지 않습니다.
- 그러나 상당한 오류율이 흔하고 최상의 시스템을 선택하는 것이 매우 중요한 많은 실제 응용 프로그램에 대한 테스트에서 각 측정 값의 순위가 크게 다르기 시작하고 최상의 성능 시스템을 잘못 선택할 위험이 매우 현실화됩니다.
- MER와 WIL은 모두 직관적으로 간단한 확률론적 해석을 가지고 있지만 WIL이 전달되는 단어 정보의 (mapping sensitive) 비율을 측정하고 의사 소통이 (at least, when N is dominated by H) 주로 음성의 목적인 한 선호되는 척도입니다.
Reference
댓글
댓글 쓰기