Text Generation Evaluation 07 - NIST / METEOR

  • NIST와 Meteor metric은 언어 처리에서 많이 쓰이는 metric이라고 한다.
  • NIST 논문은 공개되지 않아서 저널을 구독하는 사람은 찾아서 볼 수 있겠다.
    • 사실 어차피 논문은 읽을 생각은 아니였기 때문에..
  • 두 방법다 BLEU의 변형 방법이라고 생각하면 된다.
  • 위키피디아가 생각보다 잘 정리되어 있어서 위키피디아만 읽었다.
  • 핵심만 간단히 정리하자면..
  • NIST
    • BLEU에서 n-gram이 겹치는 것을 동등한 weight로 생각하지 않는다.
    • 즉 언어생성모델에서 "나는 매우" 라는 2-gram이 소스문장과 겹쳤고 "영화는 재밌다"라는 2-gram이 겹쳤다고 하자.
    • "나는 매우"는 자주 나오는 표현이기 때문에 (영어로 치면 "I am" 같은 것) 적은 weight를 "영화는 재밌다"는 어쩌다 나오는 표현이기 때문에 큰 가중치를 줘서 metric을 결정한다.
    • 약간 BLEU에 tf-idf 개념이 살짝 섞인 것 같다.
  • Meteor
    • Unigram precision과 recall의 조화평균이라고 생각하면 된다.
    • 이때 recall에 조금 더 가중치를 준다.
    • 이 방법이 사람의 판단과 높은 관계를 보여준다고 한다.
    • 다른 metric과의 차이점은 stemming(형태소분석)과 synonyms(동의어)를 고려하는 점이다.

Reference


댓글