Text Generation Evaluation 05 - Pre-trained Model based Metric

NL-031, Toward Controlled Generation of Text와 NL-032, Style Transfer from Non-Parallel Text by Cross-Alignment 에서 언급했듯이, Style transfer 문장을 생성할 경우 어떻게 style이 제대로 바뀌었는지 판별을 할까?
  • 이 방법을 model based metric? 이라 부르는지는 모르겠다.(네이밍은 잘 모르겠지만..)
  • 어찌되었든 이미 기학습된 모델을 이용한다는 것이다.
  • "그 영화는 재밌다"라는 positive 문장을 negative로 바꾸고 싶다고 해보자.
  • 모델1은 "그 영화는 재미없다", 모델2는 "그 영화는 볼 만 했다"라고 생성되었다고 하자.
  • 그럼 sentiment classification을 잘 수행하는, 보통은 SOTA 알고리즘을 가져와서 생성된 문장을 넣는다.
  • 모델1의 결과는 negative이므로 부정으로 classification이 될 것이고 모델2는 부정으로 안 될 것이다.
  • 이렇게 test dataset에서 모델1에서 생성한 문장들과 모델2에서 생성한 문장들을 SOTA 긍부정 분류기에 넣어 성능을 평가하겠다는 것이다.
    • 물론 SOTA 알고리즘이라고 긍부정을 완벽히 분류하지는 않을 것이고
    • "재미없다 그 드라마는"라고 문장을 content도 바뀌고 문법도 잘 안맞더라도 SOTA 알고리즘은 negative라고 판별을 할 것이기에 이 metric만으로는 style transfered generation이 잘 되었다고 볼 수는 없다.
    • NL-031은 정성적으로 문장의 예시를 들었음.
    • NL-032는 사람의 평가도 추가적으로 하였음.
  • 다른 task에서는 다른 식으로 해볼 수도 있는데 NL-032의 암호해독 task에서는 BLEU 방법을 이용하였음.
    • 이거는 암호가 해독되어서 제대로 된 단어들로 치환되었는지를 판별하는 것이기 때문에 BLEU score이 적절하다고 생각한다.
    • 즉 Style transfer에서도 평가하는 방법이 task에 따라 다를 수 있다.

댓글