Word dropout
2017 ICLR에 나온 논문 중
"Data Noising as Smoothing in Neural Network Language Models"
논문이 있다. 이 논문을 읽어보지는 않아서 papers 카테고리에 넣지는 않았다.
논문 포스팅 중, Toward Controlled Generation of Text을 정리하고 코드단을 보는데 word dropout이 나와서 논문에는 없는 내용인데 어떤 것인지를 찾아보게 되었다.
그러다 위의 논문을 발견하게 되었고 이는 Data noising을 통하여 모델의 성능을 향상시키는 것이다. 간단하게 정리하자면 다음과 같다.
- 시작은 data agumentation이다. 즉 데이터를 증가시키는 것에 목적이 있다.
- 예를 들면, 영상에서는 이미지에 노이즈를 추가, 변환 등을 통하여 증가시킬 수 있고 음성에는 background noise 소리를 추가하여 증가시키는 방법이 대표적이다.
- 언어에서는 아직 대표적으로 방법이 존재하지 않았고 이 논문에서는 그 방법으로 word dropout을 제시하는 것이다.
- 따라서 문장에서 랜덤하게 word를 blank(<unk>)으로 바꾸어서 입력 데이터를 변형시키고 이를 통하여 데이터를 증가시킬 수 있다.
- 이렇게 하면 overfitting을 방지할 수도 있는 하나의 regularization 방법이고 이외에 다른 방법을 논문에서 제시하는 것 같은데 보통은 간단하게 random으로 mask을 씌워서 학습하는 방식을 사용하는 것 같다.
댓글
댓글 쓰기