我正在尋找Hadoop Mapreduce上決策樹算法的實現。 是否有任何實施準備好?我看到Mahout只有決策森林,可以使用決策樹和決策森林嗎?相似性/差異是什麼?Hadoop Mapreduce上有決策樹算法的實現嗎?
0
A
回答
0
決策樹可能是分佈式最常見的方式是森林。因爲通過計算獨立樹來進行分發並不重要,而不重要的是以分佈的方式高效地構建單個樹?
0
隨機森林當然可以很好地並行化,因爲每棵樹都是建立在(有希望的)隨機獨立子集的訓練數據上的。
但是,Hadoop已經決定了每個節點上的哪些數據(以及它的數量)。根據源數據,在分發到節點之前先進行隨機化可能不切實際。此外,每個節點上的觀測數量不再是RF算法的一個參數,它由Hadoop配置控制數據如何分佈以及節點上的數據冗餘度。如果沒有特別的注意,樣本偏差會很容易蔓延到每棵樹(專家)模型中。因爲CART中的二進制遞歸分區所需的核心計算(例如計算方法(除以計數的總和),誤差函數(方差,偏移量等))需要跨多個hadoop節點並行化單個樹(CART)基尼等)應該可以寫在地圖上減少。這並不是微不足道的,因爲節點需要非常健談,才能發揮作用 - 發送索引來分割原始數據樣本的子節點,然後遞歸子節點。我認爲這可能適用於真正龐大的數據集,但對於那些已經可以「適合」到單個工作站內存中的數據集來說,速度會更慢。
革命分析最近發佈了他們的版本或R已經在Hadoop集羣上實施了decsion樹。我沒有嘗試過,但看看它如何在各種大型數據集上執行會很有趣。
這裏是鏈接:Revolution Analytics Brings Big Data Decision Trees and New Hadoop Support to Predictive Analytics
相關問題
- 1. 在Hadoop上並行實現決策樹ID3/C4.5
- 2. 遞歸排序算法的決策樹
- 3. PHP決策樹實現(ID3或C4.5)
- 4. 增量式決策樹C++實現
- 5. 用決策樹邏輯實現程序
- 6. Adaboost實現與決策樹樁
- 7. 需要幫助實現這個算法與地圖Hadoop MapReduce
- 8. 構建一個算法決策樹
- 9. 如何計算決策樹
- 10. 用foo算法實現hadoop
- 11. Hadoop MapReduce Java實現中的減速器
- 12. 微軟商業智能 - 決策樹 - 「決策樹沒有發現模型拆分」
- 13. 無法使用Accord.Net框架實現基本決策樹
- 14. Apache Hama適合構建決策樹嗎?
- 15. 樹算法實現C#
- 16. 樹上的算法。有幫助指出有效解決方法的提示嗎?
- 17. J48決策樹
- 18. 決策樹jQuery
- 19. 的Hadoop MapReduce的實踐
- 20. 得到熊貓的實際決策樹
- 21. 與java的apache的火花決策樹實現問題
- 22. 決策樹。噪聲策略
- 23. hadoop mapreduce距離計算
- 24. 如何實現基於決策樹的C#代碼/邏輯?
- 25. Adaboost決策樹/樹樁
- 26. 在mapreduce中有一個索引器的Java實現嗎?
- 27. 決策樹問題解決
- 28. 決策樹學習算法中的重複訓練數據
- 29. 決策樹算法名稱「c4.5」的含義是什麼?
- 30. 如何分割CART決策樹算法中的連續屬性?