我想通過從火花地板文件創建一個h2o幀來導入一個幀。 文件是2GB具有約12M行和稀疏矢量與12k色。 木地板格式並不是那麼大,但是導入需要永遠。 在h2o中它實際上報告爲447mb壓縮大小。其實很小。h2o閃閃發光的水保存幀到磁盤
我做錯了,當我真正完成導入(花了39分鐘),是否有任何形式在H20中保存幀到磁盤下次快速加載?
我知道h2o在現場需要這麼長時間纔會做一些魔術,但我只找到一個下載csv選項,對於11k x 1M稀疏數據來說速度很慢並且很大,我懷疑它的導入速度會更快。
我覺得有一部分缺失。任何關於h2o數據導入/導出的信息都會被讚賞。 模型保存/加載效果很好,但train/val /測試數據加載似乎是一個不合理的緩慢過程。
我得到10個sparkgorkers,每個10g,並給司機8克。這應該是很多。
(我沒有使用Spark的這種方法,所以我只是與其中一位開發人員進行覈對,看看是否有任何理由無法使用......) –