English Sentiment Dataset

1. Yelp (restaurant 후기)

  • Yelp는 sentiment classification 관련된 task 할 때, 자주 보던 데이터세트이다.
  • Yelp에는 다양한 데이터 세트가 있는 것 같은데 나는 개인적으로 sentiment(style) transfer을 위해 다운로드 받았다.
  • Yelp는 고객이 식당에 들려서 후기를 남긴 데이터다.
  • 문장이 긍정, 붖어으로 딱 나뉘어있지 않고 star(평점) 개념으로 매겨져 있다.
  • 5점 만점인 것 같은데 다음의 논문에서는
    • This dataset consists of Yelp reviews for flipping sentiment. We consider reviews with a rating above three as positive samples and those below three as negative ones; 
    • 즉 3점을 기준으로 긍정,부정으로 나눈다고 한다.
  • 데이터 예시

2. Amazon (고객 상품평)

  • Amazon 고객 데이터로 상품에 관한 긍부정 문장들.
  • 다음의 링크에서 Yelp, Amazon 정제된 데이터 다운 가능
  • 정제 방법에 따라 조금은 데이터가 다를 수 있긴 함.
  • 원본 데이터는 다음의 링크에서 다운받을 수 있음.

3. IMDB (영화리뷰)

  • 긍부정 문장 분류에서 가장 유명한 데이터세트로 영화 리뷰에 관한 것이다.
  • 한국어의 NSMC 같은 개념.
  • 쉽게 다음의 링크에서 정제된 데이터를 사용해도 되고
  • IMDB는 기본으로 라이브러리에 내장되어 있어서 tensorflow, pytorch로 가볍게 시작하는 튜토리얼도 많고 찾아보면 쉽게 사용이 가능하다고 보면 됨.

댓글