Quora 데이터세트에서는 baseline으로 삼을만한 실험이 없어서 Unsupervised와 VAE-s을 baseline으로 삼았다.
Unsupervised은 standard VAE을 의미한다고 보면 됨
VAE-S에서 S는 supervised임
vareinat VAE이고 제안한 모델에서 2번째 encoder가 빠진 것이다.
즉 pair 데이터로 학습하는 것은 아니고 문장을 reconstruction을 하는 것으로 학습을 하는데 구조는 제안 모델의 1,3,4 LSTM만을 이용해서 학습하는 것이다.
4.3 Experimental Setup
External word embedding, 예로 Glove와 같은 것 사용안함
Embedding vector: 300
encoder와 decoder의 dimension: 600
latent space dimension: 1100
encoder, decoder의 layer 수: 1, 2
SGD로 lr: 5x10-5로 학습
dropout rate: 30%
Batch size: 32
fixed epoch가 아닌, fixed iteration으로 학습
이는 데이터세트의 크기에 따라 학습의 시간이 고정되는 효과
따라서 데이터가 많으면 그 만큼 한 데이터 샘플을 학습하는 횟수가 줄어드는거
근데 굳이 이럴 필요가 뭐지..?
LSTM의 units수는 학습 데이터의 maximum length으로 설정
즉 학습할 때 길이를 중간에 잘라서 하지 않음
근데 만약 test때 입력 문장 길이가 더 길다면 이것은 짤라서 진행할 듯
4.4 Evaluation
4.4.1 Quantitative Evaluation Metrics
번역 도메인에서 쓰이던 metric들을 사용하였다.
BLEU
METEOR
형태소 분석(stemming)과 동의어를 사용한 score 계산
unigram-precision, unigram-recall을 이용
TER (Translation Error Rate)
사람이 만약 시스템의 출력을 reference paraphrase로 바꾸려는데 드는 과정에 쓰이는 insertion, deletions, substitutions, shifts의 수
4.4.2 Qualitative Evaluation Metrics
automatic evaluation으로 설명되지 않는 관점을 해결하기 위해 human evaluation이 필요하다.
MSCOCO와 Quora 데이터세트 둘 다 100개의 입력을 랜덤으로 골라 사람에게 평가를 하라고 했다.
Relevance와 Readability 2개의 관점에서 평가를 하게 하였고 각각 데이터세트에 3명씩 총 6명의 사람이 평가를 하였다.
점수는 1점~5점이며 5점이 best이다.
요즘엔 Amazon Turk을 사용하는데 이 당시엔 활성화가 안되었던 것일까? 이렇게 사람을 뽑아서 하면 신뢰도가 떨어지는 것 같은데..
4.4.3 Model Variations
Encoder와 decoder side에 모두 original sentence의 LSTM encoder을 포함하고 있다.
즉 1, 3번째의 LSTM을 같게 하는 모델을 VAE-SVG-eq라고 부른다.
여기서 SVG는 Stands for sentence variant generation을 의미함
eq의 효과는 model parameters을 줄여서 학습에 효과적이기를 기대하는 것이다.
4.4.4 Results
빨강과 파랑 색이 흥미로운 phrase 부분으로 ground truth와 다른 점이라고 볼 수 있다.
생성되는 문장이 대부분 문법이 잘 맞는다고 주장을 한다.
VAE-SVG-eq가 VAE-SVG 보다 살짝 좋다고 한다.
table2, 3을 보면 모델에 변형을 줘서 다양하게 결과를 측정하고 이에 대한 분석은 논문 참고..
제안한 모델이 GT와 크게 차이가 안난다고 주장
그림 3을 보면, 오른쪽으로 갈수록 변형이 더 많이 가는 경우다.
recall을 10으로 낮추면 모델의 automatic evaluation이 증가하는 것을 보여준다.
즉 변형을 덜 주면 되는 데 이걸 어떻게 컨트롤 한거지? 아니면 그냥 여러 샘플중에 이렇게 된 것을 뽑은 것인가?
5. Conclusion
In this paper we have proposed a deep generative framework, in particular, a Variational Autoencoders based architecture, augmented with sequence-to-sequence models, for
generating paraphrases.
Unlike traditional VAE and unconditional sentence generation model, our model conditions
the encoder and decoder sides of the VAE on the input sentence, and therefore can generate multiple paraphrases for
a given sentence in a principled way.
We evaluate the proposed method on a general paraphrase generation dataset,
and show that it outperforms the state-of-the-art by a significant margin, without any hyper-parameter tuning. We also
evaluate our approach on a recently released question paraphrase dataset, and demonstrate its remarkable performance.
The generated paraphrases are not just semantically similar
to the original input sentence, but also able to capture new
concepts related to the original sentence.
댓글
댓글 쓰기