H2o解析文件時出錯

我解析的文件也包含UUID類型。我無法解析文件並得到此錯誤。H2o解析文件時出錯

從/127.0.0.1:54321 DistributedException： 'NewChunk具有類型數值，但VEC是類型UUID的'，致java.lang.AssertionError：NewChunk具有類型數值，但VEC是類型UUID的

任何人都知道這意味着什麼？

2017-10-17 kivk02

請提供一個示例，說明如何嘗試現在執行此操作，並在可能的情況下提供數據樣本。有多種方法可以將數據導入'h2o'。您的數據來自哪種類型的來源？ – Mako212

我正在使用流UI。數據來自csv文件。我在這裏共享了csv文件。 https://drive.google.com/open?id=0B9A7NrDPc-aQeTN0QnlpcWFROVE – kivk02

我在本地下載了您的160MB文件進行實驗，發現您的數據格式不正確。

因爲數據集中的最後一列是UUID，所以出現上述錯誤，因此H2O確保將列類型設置爲UUID，但是在最後一列顯示數字值後，206000行會導致H2O在設置數值時出現恐慌UUID。

我能夠在H2O中加載多達206000行而沒有任何問題，但是207000行給了我錯誤，因此您可以嘗試哪些行格式不正確。您可以運行以下命令以獲取從206000到207000的所有行，並且在加載這1000行時您將看到相同的問題。

$ sed -n '206000,207000p' <consumer_complaints.csv> consumer_complaints_bad.csv

如果無法修復行級別格式不正確的數據，則可以將所有列保存爲字符串。這樣H2O將以字符串形式接收所有數據，然後您可以分析數據，正確清理數據，然後更改爲enum或int或UUID。不是一個好的選擇，因爲你的數據已經格式化不好，但這樣你可以把所有的數據加載到H2O中。

2017-10-18 23:08:06 AvkashChauhan

回答