2017-07-14 46 views
0

我允許在h2o上使用的最大數據集大小是多少?H2O使用大數據集大小

特別是數據集大小可能大於每個節點上的RAM /磁盤空間。

我有大約25 GB的磁盤空間和40 GB的RAM的節點,我想使用大約70 GB的數據集。

謝謝

獲取的錯誤:

Exception in thread "qtp1392425346-39505" java.lang.OutOfMemoryError: GC overhead limit exceeded 

回答

2

有在水中沒有最大數據集大小。需求由您創建的羣集的大小來定義。有更多關於如何判斷H2O最大堆大小的信息here

如果您的數據集是70G,並且您的節點只有40G內存,那麼您將不得不使用多節點集羣。我們告訴人們的一般經驗法則是,您的H2O集羣應該是磁盤上數據大小的3倍。但是,它高度依賴於您使用的算法。

70G * 3 = 210G,所以您可能想嘗試5節點羣集。或者,您可以從更少的節點開始,嘗試運行您的代碼並根據需要增加集羣的大小。