2017-03-27 60 views
0

我正在將Spark數據框加載到H2O中(使用Python)以構建機器學習模型。我建議我應該分配一個H2O集羣,RAM的大小與我將要訓練的框架一樣大,以便分析可以很好地適應內存。但我不知道如何精確估計H2O框架的大小。如何確定Python中H2O框架的字節大小?

所以假設我已經有一個H2O框架已經加載到Python中,我怎樣才能真正確定它的大小以字節爲單位?近似值在10-20%之內很好。

回答

2

這將顯示底層表示的在H 2 O的鍵值存儲的摘要,包括完整的字節大小:

frame.describe(chunk_summary=True) 
0

這是指磁盤上文件大小的2-4倍,所以不要在Python中查看內存,請查看原始文件大小。此外,2-4x建議因算法而異(GLM & DL需要的內存少於基於樹的模型)。

+0

是通過從施加各種變換火花數據幀轉換產生的H 2 O幀(這是它本身最初是從Hive查詢生成的)。據我所知,它並不直接與磁盤上的文件相對應。 – abeboparebop

相關問題