爲了完成各種標準的機器學習任務,我已經使用Amazon Elastic MapReduce創建了自己。過去我廣泛使用Python進行本地機器學習,而且我不知道Java。是否有任何分佈式機器學習庫在Hadoop中使用Python?
據我所知,目前還沒有很好開發的用於分佈式機器學習的Python庫。另一方面,Java有Cloudera的Apache Mahout和最近的Oryx。
從本質上看,我必須在兩個選項之間進行選擇。 Slog通過並行化我自己的算法與Hadoop streaming或Python wrapper for Hadoop之一一起使用,直到正式的庫存在或跳轉到Java,以便我可以使用Mahout/Oryx。在編寫自己的MapReduce字數統計代碼和編寫自己的MapReduce SVM之間有着天壤之別!即使藉助了諸如this等優秀教程。
我不知道哪個是更明智的選擇,所以我的問題是:
A)有一些Python庫我已經錯過了這將是有用的?如果沒有,你知道是否有任何正在開發的產品在不久的將來會有用嗎? B)如果上面的答案是否定的,那麼我的時間會更好地花在Java上嗎?
檢出:http://stackoverflow.com/questions/4819437/javas-mahout-equivalent-in-python – alexplanation
問題要求我們**推薦或找到一個工具,圖書館或最喜愛的異地資源**因爲他們傾向於吸引自以爲是的答案和垃圾郵件,所以不適合堆棧溢出。相反,[描述問題](http://meta.stackexchange.com/q/139399/)以及迄今爲止已經做了什麼來解決它。 –
繼續[軟件推薦](http://area51.stackexchange.com/proposals/60887/software-recommendations?referrer=L1kFo5C96mMK8IujJZeI4A2)。 – user