2015-09-28 52 views
1

我有一個使用h2o.randomForest()的隨機森林模型。在R中創建2個h2o實例

現在,我需要使用h2o.predict()分數很多數據。由於一些限制,我無法一次對所有數據進行評分。所以基本上我想在循環中評分不同的數據集。所以,爲了加速這個過程,我想通過在兩個不同的R實例中運行相同的腳本來同時對多個數據集進行評分。但是當我這樣做時,一個實例運行正常,但其他實例給我以下錯誤。有時兩個實例都會出現此錯誤。

Error in .h2o.__checkConnectionHealth(conn) : 
H2O connection has been severed. Cannot connect to instance at http://127.0.0.1:54321/ 
Failed to connect to 127.0.0.1 port 54321: Address already in use 

上面的錯誤甚至沒有一致性,有時我得到它有時我不知道。

我正在初始化h2o,並在所有R實例中進行如下的預測。

h2oServer = h2o.init(nthreads = -1, max_mem_size = '8g') 
h2.predict(model, test_data) 

我該如何做到這一點?我如何通過2個不同的R實例使用h2o雲?

感謝,

回答

1

在genenral,您試圖利用不加快進程,因爲得分單一數據集將佔用CPU的,多次調用只會產生不必要的競爭方法。另外,你只能從R中啓動一個H2O實例,如果你試圖啓動多個實例,你可以從命令行(java -jar h2o.jar)來啓動它。