NL-002, Efficient Estimation of Word Representations in Vector Space (2013-ICLR)

언어처리를 입문할 때 맨 처음 읽은 논문이다. 그만큼 매우 매우 기본이 되는 논문이고 word2vec을 다루는 논문이다.
맨 처음에 읽는 논문으로써 background를 깊게 요구하지는 않는다. 또한 2013년에 나온 논문이라 정리된 포스팅 자료도 너무나도 많다.
또한 현재 trend(2019년 3월)에서 이 논문의 구석구석까지 꼭 알아야되나 싶긴 하지만 언어처리를 입문하는 사람이 공부하는 목적이라면 논문은 직접 한 번 읽어보자!
잘 정리된 블로그를 참조하면 되니...굳이 직접 정리하는 것은 비효율적이라 생각되어 참고 reference을 보자.
Backgorund없이 논문, 포스팅 자료들에서 살짝 이해가 안가는 부분이 있을 수 있는데 hierarchical softmax/negative sampling 부분이다.
실제로는 hierarchical softmax보다는 negative sampling이 성능이 더좋다고 하고 CBOW보다는 skip-gram이 성능이 좋다고 한다.
지금도 자세히 이해는 안되는 부분인데 결론은 skip-gram + negative sampling이 일반적이고 negative sampling을 좀 더 자세히 알려면 포스팅 자료들과 다른 자료들도 직접 찾아보시길 바란다..(개인적으로는 ref [5]가 제일 자세히 설명해둔 듯)
ref[6]또한 이 논문 이후 나온 word2vec 학습에 대해 skip-gram 기준으로 설명하는 것 같은데(읽어보지는 않았음) 여기에 hierarchical softmax/negative sampling 설명 부분을 참고하는 것도 좋을 것 같다.

Reference

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-002, Efficient Estimation of Word Representations in Vector Space (2013-ICLR)

댓글

댓글 쓰기