2013-08-29 42 views
-1

Map-reduce/hadoop非常適合從各種資源中收集數據,並以我們希望的方式組織它們。map-reduce/hadoop在機器學習培訓中的用途是什麼?

但是當涉及到訓練時,我的印象是我們必須一次性將所有訓練數據轉儲到算法中(無論是SVN,邏輯迴歸還是隨機森林),以便算法能夠提出擁有這一切的模型。在訓練部分可以映射 - 減少/ hadoop幫助嗎?如果是的話,一般情況如何?

回答

2

是的。有很多MapReduce實現,比如hadoop streaming,甚至一些簡單的工具,比如Pig,可以用於學習。此外,還有基於Map/Reduce構建的分佈式學習工具集,如vowpal wabbit(https://github.com/JohnLangford/vowpal_wabbit/wiki/Tutorial)。這種方法的主要思想是對小部分數據(由HDFS分割)進行訓練,然後對每個節點的模型和換向進行平均。因此,該模型直接從建立在部分數據上的子模型中獲取更新。