Text Generation Evaluation 04 - MaskGAN metric
이 방법은 BLEU의 방법에서 영감을 받아 MaskGAN에서 제시한 방법이다.
BLEU score에서 영감을 받아서 다음과 같은 metric을 제안한다.
- we compute the number of unique n-grams produced by the generator that occur in the validation corpus for small n.
- we compute the geometric average over these metrics to get a unified view of the performance of the generator.
- 이해한 바로는, 생성된 sentence에서 unique은 n-grams을 계산한다.
- n이 small number 여러 경우(n=2,3,4 등)에 따라 unique n-grams을 구하고 이의 기하 평균을 취한다.
- 예시) 나는 약간 집에 가고 나는 약간 회사에 나는 약간 놀이동산에 가고 싶다.
- 2-gram은 <나는, 약간> <약간, 집에> ... <가고, 싶다> 총 11개이다.
- 하지만 <나는, 약간>은 3번이나 등장하므로 unique 2-gram은 9개이다.
- 마찬가지로 세어보면 unique 3-gram은 10개이다.
- 즉, n=2,3만을 사용했다고 하면 기하평균은 root(9*10)이 score가 것이다.
- 이 score로 알 수 있는 점은 얼마나 겹치지 않는 n-gram이 발생했냐는 것이다.
- 즉 mode collapse가 일어나는 model은 이 metric 값이 작을 것이다.
- 반대로 말하면 unique n-gram이 큰 방향인, mode collapse가 안 일어나는 모델을 만들고 싶다.
- 하지만 이 방법또한, MaskGAN의 논문을 보면, 완벽히 mode collapse을 판별하기는 부족하다는 뉘앙스다.
- 즉 아직까지는 사람이 판별하는 방법이 가장 좋다는...ㅠ
댓글
댓글 쓰기