3

我正計劃開發一個系統來預測給定文本的情緒(簡稱情感分析)。使用apache mahout的感傷分析

我也更喜歡apache mahout,因爲它是嚴重的巨大數據,系統應該是可伸縮的實時。請建議我使用apache mahout提供的算法,這將適用於情感分析。

+0

我想你想要一個分類器,但你應該詳細說明一下:輸入是什麼樣的,輸出是什麼樣的,你的比例是什麼,你已經嘗試了什麼,什麼都不工作 –

+0

你好肖恩,輸入是來自文本文件的字符流。輸出將是反映作者情緒的極性(負面,正面,中性)。我只是從這個開始,需要建議選擇一個合適的分類器。 – Greenhorn

回答

3

如果你已經標記了訓練數據,那麼你可以嘗試Naive Bayes classifier這是最簡單的監督學習算法之一(並由Mahout支持)。如果這還不夠,那麼你可以嘗試更多的參與算法,如邏輯迴歸等。

如果你沒有標籤的數據,那麼你是運氣不好 - 你需要得到一些這個工作(例如通過聘請某人通過Amazon's Mechanical Turk爲您標記數據)

順便說一句,我們在談論什麼數據量? (如果它是高達幾百GB的話,那麼你不需要hadoop/mahout來訓練這種類型的模型 - 除非你已經有數據坐在hadoop當然了..)

+0

已將標籤外包給自由職業者。培訓數據大約500Mb,系統將部署在hadoop集羣上。感謝您的答覆。 – Greenhorn