2011-01-27 137 views
23

Java based Mahout's目標是構建可伸縮的機器學習庫。 Python中是否有任何等效的庫?Python中的Mahout相當於

+1

您可以使用Jython或JPype將Mahout與您的Python代碼進行整合。看到我的simular問題: http://stackoverflow.com/questions/7491953/is-there-any-python-libraries-for-mahout – 2011-10-14 13:39:52

+0

Python不被認爲是大型數據集計算的好選擇,因爲性能變得非常慢。 – Swapnil 2012-12-28 15:15:58

回答

19

scikits學習的是強烈建議http://scikit-learn.sourceforge.net/

+4

請注意:目前scikit-learn的實現尚未能夠利用Hadoop集羣來執行分佈式計算。然而,解決中型問題(例如線性模型的數十萬個樣本和特徵)是相當具有可擴展性的,如果您使用稀疏表示和/或memmap'ed數組。 – ogrisel 2011-05-31 12:03:49

1

Orange據說是相當不錯的,從我聽說過,但我從來沒有使用過個人。 PyML也值得一看。另外,Monte

1

pysuggestSUGGEST的Python包裝器,它是一種Top-N推薦引擎,實現了多種用於協作過濾的推薦算法。

0

一個有趣的圖書館是crab

從本文開始,該庫只有穩定的協作過濾算法實現:基於用戶和基於項目。

包含一個SVD實現,但它是實驗性的,基於內容的算法在路線圖上。

請檢查一下!

1

MLlib被推薦。它是一個可擴展的機器學習庫,可以讀取hdfs的數據。