NL-002, Efficient Estimation of Word Representations in Vector Space (2013-ICLR)

  • 언어처리를 입문할 때 맨 처음 읽은 논문이다. 그만큼 매우 매우 기본이 되는 논문이고 word2vec을 다루는 논문이다.
  • 맨 처음에 읽는 논문으로써 background를 깊게 요구하지는 않는다. 또한 2013년에 나온 논문이라 정리된 포스팅 자료도 너무나도 많다. 
  • 또한 현재 trend(2019년 3월)에서 이 논문의 구석구석까지 꼭 알아야되나 싶긴 하지만 언어처리를 입문하는 사람이 공부하는 목적이라면 논문은 직접 한 번 읽어보자!
  • 잘 정리된 블로그를 참조하면 되니...굳이 직접 정리하는 것은 비효율적이라 생각되어 참고 reference을 보자.
  • Backgorund없이 논문, 포스팅 자료들에서 살짝 이해가 안가는 부분이 있을 수 있는데 hierarchical softmax/negative sampling 부분이다.
  • 실제로는 hierarchical softmax보다는 negative sampling이 성능이 더좋다고 하고 CBOW보다는 skip-gram이 성능이 좋다고 한다.
  • 지금도 자세히 이해는 안되는 부분인데 결론은 skip-gram + negative sampling이 일반적이고 negative sampling을 좀 더 자세히 알려면 포스팅 자료들과 다른 자료들도 직접 찾아보시길 바란다..(개인적으로는 ref [5]가 제일 자세히 설명해둔 듯)
  • ref[6]또한 이 논문 이후 나온 word2vec 학습에 대해 skip-gram 기준으로 설명하는 것 같은데(읽어보지는 않았음) 여기에 hierarchical softmax/negative sampling 설명 부분을 참고하는 것도 좋을 것 같다.


Reference
  1. 논문: https://arxiv.org/pdf/1301.3781.pdf
  2. https://medium.com/mathpresso/efficient-estimation-of-word-representations-in-vector-space-%EB%B2%88%EC%97%AD-ac2a104a23ca
  3. https://shuuki4.wordpress.com/2016/01/27/word2vec-%EA%B4%80%EB%A0%A8-%EC%9D%B4%EB%A1%A0-%EC%A0%95%EB%A6%AC/
  4. https://brunch.co.kr/@learning/7
  5. http://solarisailab.com/archives/959
  6. negative sampling 등 word2vec 설명: https://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf

댓글