Text Generation Evaluation 07 - NIST / METEOR

Text Generation Evaluation 07 - NIST / METEOR

NIST와 Meteor metric은 언어 처리에서 많이 쓰이는 metric이라고 한다.
NIST 논문은 공개되지 않아서 저널을 구독하는 사람은 찾아서 볼 수 있겠다.

사실 어차피 논문은 읽을 생각은 아니였기 때문에..

두 방법다 BLEU의 변형 방법이라고 생각하면 된다.
위키피디아가 생각보다 잘 정리되어 있어서 위키피디아만 읽었다.
핵심만 간단히 정리하자면..
NIST

BLEU에서 n-gram이 겹치는 것을 동등한 weight로 생각하지 않는다.
즉 언어생성모델에서 "나는 매우" 라는 2-gram이 소스문장과 겹쳤고 "영화는 재밌다"라는 2-gram이 겹쳤다고 하자.
"나는 매우"는 자주 나오는 표현이기 때문에 (영어로 치면 "I am" 같은 것) 적은 weight를 "영화는 재밌다"는 어쩌다 나오는 표현이기 때문에 큰 가중치를 줘서 metric을 결정한다.
약간 BLEU에 tf-idf 개념이 살짝 섞인 것 같다.

Meteor

Unigram precision과 recall의 조화평균이라고 생각하면 된다.
이때 recall에 조금 더 가중치를 준다.
이 방법이 사람의 판단과 높은 관계를 보여준다고 한다.
다른 metric과의 차이점은 stemming(형태소분석)과 synonyms(동의어)를 고려하는 점이다.

Reference

NIST 논문: The nist speaker recognition evaluation–overview, methodology, systems, results, perspective. Speech Communication
Meteor 논문: METEOR: An Automatic Metric for MT Evaluation withImproved Correlation with Human Judgments
위키피디아

NIST
Meteor

댓글