我試圖分類一個包含離散和連續特徵的例子。此外,該示例表示的是稀疏數據,因此即使系統可能已經接受過100個功能的培訓,該示例可能只有12個。稀疏數據上的離散和連續分類器
什麼是最好的分類器算法來完成此操作?我一直在尋找貝葉斯,Maxent,決策樹和KNN,但我不確定這個法案是否恰當。我發現的最大障礙是大多數實現不支持離散和連續功能的稀疏數據集和。任何人都可以推薦一個適合這些標準的算法和實現(最好在Python中)嗎?
圖書館我已經看了到目前爲止,包括:(。晴學術的實現並不十分有效或實際)
我試圖分類一個包含離散和連續特徵的例子。此外,該示例表示的是稀疏數據,因此即使系統可能已經接受過100個功能的培訓,該示例可能只有12個。稀疏數據上的離散和連續分類器
什麼是最好的分類器算法來完成此操作?我一直在尋找貝葉斯,Maxent,決策樹和KNN,但我不確定這個法案是否恰當。我發現的最大障礙是大多數實現不支持離散和連續功能的稀疏數據集和。任何人都可以推薦一個適合這些標準的算法和實現(最好在Python中)嗎?
圖書館我已經看了到目前爲止,包括:(。晴學術的實現並不十分有效或實際)
Weka(Java)的,均滿足你的要求:
看看這個Pentaho wiki爲鏈接的文檔,指南,視頻教程等列表...
Support vector machines? libsvm可以從Python中使用,而且速度相當快。
把手稀疏矢量輸入,並且將不介意的一些功能是連續的,其中,其它的是隻是-1/+ 1。 (如果你有一個n路離散特性,做標準就是它擴展成n個二進制功能)。
有趣。儘管我之前聽說過他們,但我對SVMs沒有多少經驗。但是,找到一個合適的內核不是很難嗎? – Cerin 2010-03-23 18:45:21
我發現libsvm嚴重缺乏文檔,並且沒有社區論壇。如果它支持稀疏數據集,則該功能非常隱蔽。發行版中包含的* single * Python示例使用密集數據集,儘管其他培訓文件似乎以稀疏樣式格式化。 – Cerin 2010-03-23 19:39:08
libsvm的默認內存佈局被調整爲有效處理稀疏數據,而libsvm文件輸入格式不存儲零值屬性。有關另一方面密集的數據,你需要一個特殊的實現:http://www.csie.ntu.edu.tw/~cjlin/libsvmtools/#libsvm_for_dense_data http://www.csie.ntu.edu.tw/~cjlin /libsvm/faq.html#f303 – ogrisel 2012-06-24 12:51:47
scikit-learn,Python的機器學習模塊支持稀疏數據Stochastic Gradient Descent和Support Vector machines。
除此之外,還有一個爲Weka在NLTK中實現的Python綁定。 – ferdystschenko 2010-03-24 18:03:07