從哪裏可以獲得已在企業領域中被分類爲積極/消極情緒的文檔的語料庫?我想要一大批爲公司提供評論的文件集,比如分析師和媒體提供的公司評論。情緒分析的培訓數據
我發現有產品和電影評論的語料庫。是否有商業領域的語料庫,包括與企業語言相匹配的公司評論?
從哪裏可以獲得已在企業領域中被分類爲積極/消極情緒的文檔的語料庫?我想要一大批爲公司提供評論的文件集,比如分析師和媒體提供的公司評論。情緒分析的培訓數據
我發現有產品和電影評論的語料庫。是否有商業領域的語料庫,包括與企業語言相匹配的公司評論?
http://www.cs.cornell.edu/home/llee/data/
http://mpqa.cs.pitt.edu/corpora/mpqa_corpus
您可以使用Twitter,與它的表情,就像這樣:http://web.archive.org/web/20111119181304/http://deepthoughtinc.com/wp-content/uploads/2011/01/Twitter-as-a-Corpus-for-Sentiment-Analysis-and-Opinion-Mining.pdf
希望得到您開始。如果你對特定的子任務感興趣,比如否定,情感範圍等,
爲了把重點放在公司上,你可以將一種方法與主題檢測結合起來,或者便宜地提到很多提及一個給定的公司。或者您可以獲得Mechanical Turkers註釋的數據。
FYI pitt移到這裏http://mpqa.cs.pitt .edu/corpora/mpqa_corpus/ –
我不知道任何這樣的語料庫是免費提供的,但您可以在未標記的數據集上嘗試使用unsupervised method。
這裏有幾個;
http://inclass.kaggle.com/c/si650winter11
http://alias-i.com/lingpipe/demos/tutorial/sentiment/read-me.html
我們需要輸入kaggle鏈接的大學電子郵件和密碼。 – user3798602
如果您對您要瀏覽的域的一些資源(媒體渠道,博客等),您可以創建自己的語料庫。 我這樣做在python:
創建語料庫是預先的辛勤工作處理,檢查,標記等,但具有爲特定領域準備模型多次提高準確性的益處。如果你已經準備好語料庫,只需繼續進行情感分析;)
你可以從Datafiniti獲得大量的在線評論。大多數評論都帶有評分數據,這會提供比正面/反面更加細化的情緒。這是一個list of businesses with reviews,這裏是一個list of products with reviews。
這是我幾個星期前寫的一個清單,從my blog。其中一些數據集最近已被包含在NLTK Python平臺中。
意見詞彙
MPQA主體性詞彙
SentiWordNet
哈佛一般問詢
語言調查和字數(LIWC)
維達詞彙
MPQA數據集
NOTES:GNU Public License。
Sentiment140(鳴叫)
STS-黃金(鳴叫)
顧客評分數據集(產品評論)
包括在NLTK Python的平臺
優點和缺點數據集(利弊句子)
<pros>
或<cons>
比較句(評論)
包括在在NLTK Python的平臺
桑德斯分析Twitter的情緒語料庫(TWE ETS)
5513手分類鳴叫WRT 4個不同的主題。由於Twitter的ToS,包含一個小的Python腳本來下載所有的推文。情感分類本身是免費提供的,沒有任何限制。它們可能被用於商業產品。他們可能被重新分配。他們可能會被修改。
西班牙鳴叫(鳴叫)
SemEval 2014(鳴叫)
您不得重新分配的鳴叫,註釋或獲得的語料庫(自述文件)
各種數據集(評論)
各種數據集#2(評價)
參考文獻:
很好的答案。非常感謝Kurt。 – ylnor
又見此相關的問題: http://stackoverflow.com/questions/5570681/what-training-data-sources-could-be-used-for-sentiment-classification-models –