我正在處理一個巨大的H2OFrame
(約150GB,約2億行),我需要稍微操作一下。更具體地說:我必須使用框架的ip
列來查找每個IP的位置/城市名稱,並將此信息添加到每個框架的行中。在H2OFrame的每一行添加額外數據
由於幀的巨大尺寸,將幀轉換爲普通的python對象並在本地操作它不是一個選項。所以我希望我能做的就是使用我的H2O集羣創建一個新的H2OFrame city_names
使用原始幀的ip
列,然後合併這兩個幀。
我的問題類似於提出的問題here,我從這個問題的答案中得出的結論是,H2O中沒有辦法對每個幀的行進行復雜的操作。這是真的嗎? H2OFrame
的apply
函數畢竟只接受一個沒有自定義方法的lambda。
我想到的一個選擇是使用Spark/Sparkling Water
進行這種數據操作,然後將火花幀轉換爲H2OFrame來完成機器學習操作。但是,如果可能的話,我寧願避免這種情況,只使用H2O,這不僅僅是由於這種轉換造成的開銷。
所以我想它歸結爲這樣:有沒有什麼辦法可以使用H2O進行這種操作?如果沒有另外的選擇來做到這一點,而不必改變我的集羣架構(即不必將我的H2O集羣變成波光粼粼的水集羣?)