在Hadoop上並行實現決策樹ID3/C4.5

我想在Hadoop上實現決策樹ID3/C4.5。任何人都可以通過想法如何繼續前進。在Hadoop上並行實現決策樹ID3/C4.5

我很清楚算法，但我需要知道如何並行化它們。

2012-10-15 wmahendra

我會考慮將屬性選擇的迭代作爲一個MapReduce作業的方法。遵循這個想法，您可以爲每個映射器分配屬性以檢查信息增益，並且在縮小階段（使用單個縮減器）可以選擇最佳屬性。
如果計算一臺機器上的單次迭代（在所有屬性上）的計算時間稍長一些，那麼工作開始時間開始時間大約爲20-40秒，我認爲這種方法很實用。

來源

2012-10-15 16:14:05

在Hadoop上並行實現決策樹ID3/C4.5

回答

相關問題