English Sentiment Dataset
1. Yelp (restaurant 후기)
- Yelp는 sentiment classification 관련된 task 할 때, 자주 보던 데이터세트이다.
- Yelp에는 다양한 데이터 세트가 있는 것 같은데 나는 개인적으로 sentiment(style) transfer을 위해 다운로드 받았다.
- Yelp는 고객이 식당에 들려서 후기를 남긴 데이터다.
- 문장이 긍정, 붖어으로 딱 나뉘어있지 않고 star(평점) 개념으로 매겨져 있다.
- 5점 만점인 것 같은데 다음의 논문에서는
- This dataset consists of Yelp reviews for flipping sentiment. We consider reviews with a rating above three as positive samples and those below three as negative ones;
- 즉 3점을 기준으로 긍정,부정으로 나눈다고 한다.
- 데이터 예시
2. Amazon (고객 상품평)
- Amazon 고객 데이터로 상품에 관한 긍부정 문장들.
- 다음의 링크에서 Yelp, Amazon 정제된 데이터 다운 가능
- 정제 방법에 따라 조금은 데이터가 다를 수 있긴 함.
- 원본 데이터는 다음의 링크에서 다운받을 수 있음.
3. IMDB (영화리뷰)
- 긍부정 문장 분류에서 가장 유명한 데이터세트로 영화 리뷰에 관한 것이다.
- 한국어의 NSMC 같은 개념.
- 쉽게 다음의 링크에서 정제된 데이터를 사용해도 되고
- IMDB는 기본으로 라이브러리에 내장되어 있어서 tensorflow, pytorch로 가볍게 시작하는 튜토리얼도 많고 찾아보면 쉽게 사용이 가능하다고 보면 됨.
Reference
- 프리프로세싱된 편한 데이터
- https://github.com/lijuncen/Sentiment-and-Style-Transfer/tree/master/data
- (Human reference 참고) https://github.com/luofuli/DualRL
- https://github.com/Yelp/dataset-examples
- https://www.yelp.com/dataset/download
- https://statkclee.github.io/ml/ml-text-sentiment-yelp.html
- https://github.com/fastnlp/style-transformer/tree/master/data/imdb
- https://www.yelp.com/dataset/challenge
댓글
댓글 쓰기