2017-10-17 130 views
2

我解析的文件也包含UUID類型。 我無法解析文件並得到此錯誤。H2o解析文件時出錯

從/127.0.0.1:54321 DistributedException: 'NewChunk具有類型數值,但VEC是類型UUID的',致java.lang.AssertionError:NewChunk具有類型數值,但VEC是類型UUID的

任何人都知道這意味着什麼?

+0

請提供一個示例,說明如何嘗試現在執行此操作,並在可能的情況下提供數據樣本。有多種方法可以將數據導入'h2o'。您的數據來自哪種類型的來源? – Mako212

+0

我正在使用流UI。數據來自csv文件。我在這裏共享了csv文件。 https://drive.google.com/open?id=0B9A7NrDPc-aQeTN0QnlpcWFROVE – kivk02

回答

0

我在本地下載了您的160MB文件進行實驗,發現您的數據格式不正確。

因爲數據集中的最後一列是UUID,所以出現上述錯誤,因此H2O確保將列類型設置爲UUID,但是在最後一列顯示數字值後,206000行會導致H2O在設置數值時出現恐慌UUID。

我能夠在H2O中加載多達206000行而沒有任何問題,但是207000行給了我錯誤,因此您可以嘗試哪些行格式不正確。您可以運行以下命令以獲取從206000到207000的所有行,並且在加載這1000行時您將看到相同的問題。

$ sed -n '206000,207000p' <consumer_complaints.csv> consumer_complaints_bad.csv 

如果無法修復行級別格式不正確的數據,則可以將所有列保存爲字符串。這樣H2O將以字符串形式接收所有數據,然後您可以分析數據,正確清理數據,然後更改爲enum或int或UUID。不是一個好的選擇,因爲你的數據已經格式化不好,但這樣你可以把所有的數據加載到H2O中。