2017-08-17 30 views
1

windows screen shotH2O autoML網絡使用

首先,我想感謝H2O團隊爲一個偉大的產品,快速的發展/迭代。

我在4臺機器集羣上測試h2o autoML。 (40個內核,256個RAM,千兆位帶寬)

對於20MB的數據集,我注意到集羣使用了很多網絡,幾乎沒有觸及CPU。我想知道是否對每臺計算機訓練1個模型是有意義的,而不是試圖在整個集羣上訓練每個模型。

回答

1

AutoML正在按照順序對H2O模型進行訓練,所以此建議一般適用於H2O模型,而不僅僅是AutoML - 如果數據集足夠小,向您的H2O羣添加機器只會減慢訓練過程。

對於20MB的數據集,我注意到集羣使用了很多網絡,幾乎沒有碰到CPU。

如果你有一個20MB的數據集,在單臺機器上運行H2O總是會更好。使用多臺機器的開銷只有在您的訓練框架無法放入單臺機器的RAM時才值得。 在另一個堆棧溢出答案中有一個更長的解釋,我寫了here

我想知道是否有意義的H20每臺電腦訓練1模型,而不是試圖訓練整個集羣的每個模型。

確實是有意義的小數據,但將H 2 O可擴展到大數據(數百萬或數百萬行),所以訓練中的幾個機型並行不被使用的設計模式。爲了加速培訓過程,您可以使用具有更多核心的單臺機器。