2016-03-06 74 views
2

可以加工成學習由「火花mllib」像天真輪空,在跨過火花集羣並行模式隨機森林運行提供算法?或者我們需要更改代碼?請提供一個並行運行的例子嗎?不確定MLLIB中的並行性如何工作(地圖) - 因爲每個處理都需要整個訓練數據集。計算是否與訓練數據的子集並行運行? 由於星火MLLIB並行多個節點

回答

0

Spark MLLib提供這些算法不平行自動運行。他們期望RDD作爲輸入。 RDD是一個彈性分佈式數據集,分佈在一組計算機上。

Here是使用決策樹分類問題的示例的問題。

我強烈建議在深入探索link provided above。該頁面包含大量文檔以及如何對這些算法進行編碼的示例,包括生成培訓和測試數據集,計分,交叉驗證等。

這些算法通過對工作節點的數據子集運行計算並行運行,然後在工作節點和主節點之間共享這些計算的結果。主節點收集單個計算的結果並根據需要對它們進行彙總,以根據整個數據集做出決策。計算繁重的活動主要在工作節點上執行。