Scheduled sampling
Scheduled sampling (SS)은 LM으로 sequence generation 할 때, training과 inference의 간극을 해결하려고 제시된 방법이다.
논문 제목은 "Scheduled Sampling for Sequence Prediction with Recurrent Neural Networks" 으로 Bengio가 15년 6월에 발표하였고 논문의 2.4절에 SS에 대해 설명된 부분만 보았음.
Reference
논문 제목은 "Scheduled Sampling for Sequence Prediction with Recurrent Neural Networks" 으로 Bengio가 15년 6월에 발표하였고 논문의 2.4절에 SS에 대해 설명된 부분만 보았음.
2.4 Bridging the Gap with Scheduled Sampling
- 토큰 yt를 예측할 때, training과 inference의 차이는 true previous token / estimated previous token 이냐의 차이다.
- 그래서 학습할 때,
,
(prediction) 을 쓸 지 랜덤하게 선택하겠단 것이다.
- SGD로 학습할 때, i-th mini-batch
만큼 true을 고를 확률,
만큼 model이 뽑아낸 previous token을 사용할 확률로 말한다.
여기서 왜 두 개를 합쳤을 때 1이 안되지..?- Figure 1 처럼 학습을 진행하겠단 것이다.
- epsilon=1이면 원래 하던대로 true token만 이용하겠단 것이고 epsilon=0이면 inference처럼 학습하겠단 뜻이다.
- epsilon을 curriculum learning strategy 방법으로 정하는 것을 제시한다.
- 즉 초기에는 모델의 학습 수렴이 잘 안되기 때문에 true token을 많이 사용하고 나중에는 inference와 비슷하게 되어야 하기 때문에 model prediction token을 많이 사용하는 식으로 가야한다.
- 따라서 여기서 epsilon을 다음과 같이 스케줄링한다.
- 이러한 방법을 "Scheduled sampling" 이라고 한다.
Reference
논문 보시면 (1-epsilon) 제곱이 아니고, 그 해당페이지 reference 로 2가 붙은거로 알고있습니다!
답글삭제아 감사합니다! 수정할게요 ㅎㅎ
삭제