46

從哪裏可以獲得已在企業領域中被分類爲積極/消極情緒的文檔的語料庫?我想要一大批爲公司提供評論的文件集,比如分析師和媒體提供的公司評論。情緒分析的培訓數據

我發現有產品和電影評論的語料庫。是否有商業領域的語料庫,包括與企業語言相匹配的公司評論?

+0

又見此相關的問題: http://stackoverflow.com/questions/5570681/what-training-data-sources-could-be-used-for-sentiment-classification-models –

回答

32

http://www.cs.cornell.edu/home/llee/data/

http://mpqa.cs.pitt.edu/corpora/mpqa_corpus

您可以使用Twitter,與它的表情,就像這樣:http://web.archive.org/web/20111119181304/http://deepthoughtinc.com/wp-content/uploads/2011/01/Twitter-as-a-Corpus-for-Sentiment-Analysis-and-Opinion-Mining.pdf

希望得到您開始。如果你對特定的子任務感興趣,比如否定,情感範圍等,

爲了把重點放在公司上,你可以將一種方法與主題檢測結合起來,或者便宜地提到很多提及一個給定的公司。或者您可以獲得Mechanical Turkers註釋的數據。

+1

FYI pitt移到這裏http://mpqa.cs.pitt .edu/corpora/mpqa_corpus/ –

1

我不知道任何這樣的語料庫是免費提供的,但您可以在未標記的數據集上嘗試使用unsupervised method

4

如果您對您要瀏覽的域的一些資源(媒體渠道,博客等),您可以創建自己的語料庫。 我這樣做在python:

  • 用美麗的湯http://www.crummy.com/software/BeautifulSoup/解析,我要分類的內容。
  • 將那些對公司有正面或負面意見的句子分開。
  • 使用NLTK來處理這個句子,令牌化的話,詞性標註等
  • 使用NLTK PMI來計算只有一個類的雙字母組或卦MOS頻繁

創建語料庫是預先的辛勤工作處理,檢查,標記等,但具有爲特定領域準備模型多次提高準確性的益處。如果你已經準備好語料庫,只需繼續進行情感分析;)

13

這是我幾個星期前寫的一個清單,從my blog。其中一些數據集最近已被包含在NLTK Python平臺中。

辭書由劉兵


數據集


參考文獻:

+1

很好的答案。非常感謝Kurt。 – ylnor