2017-08-02 27 views
1

我與形式的值的svmlight格式的文件:Python的H2O svmlight數據

92.91 18256731:1 71729421:1 72329637:1 83328561:1 118265976:1 134892759:1 198163358:1 352348616:1 526943048:1 5.30 102156934:1 134892759:1 198163358:1 254112843:1 262373758:1 512748316:1 526943048:1 22.00 32172600:1 72329637:1 118265976:1 134892759:1 198163358:1 411824213:1 443226486:1 445371412:1 526943048:1

我試圖在水導入此使用h2o.import_file(fname.svmlight)

是否H2O支持高維稀疏二進制特徵?

是否需要轉換某些索引中的散列值才能使其工作?

+0

你可以顯示你的完整代碼和一些示例數據嗎? –

+0

也許嘗試將文件重命名爲'「fname.svmlight」'。 –

+0

示例數據如圖所示,導入文件需要時間,但是當我將它們轉換爲小型索引時,它似乎可以正常工作。 – user90772

回答

0

你的三行svmlight就像病毒!根據top,java進程接近800%的CPU(8核機器)。在CPU工作45分鐘後(5-6分鐘掛鐘),我不得不使用kill -9來取回我的機器。

即使你的文件的類型不正式支持,我認爲它帶來下來一臺機器的事實使其成爲一個嚴重的錯誤,所以我在這裏報道的那樣:https://0xdata.atlassian.net/browse/PUBDEV-4798

順便說一句,你可以找到一個單元測試顯示在這裏使用smvlight: https://github.com/h2oai/h2o-3/blob/30f382efac687be3959a253d975cb48c341c92b4/h2o-r/tests/testdir_misc/runit_parser_type.R

+0

謝謝你報告它。我認爲這是稀疏數組的重點,通過僅使用索引:值組合來節省內存。這是一個有效的svmlight格式,你可以嘗試在scikit-learn上解析它。如果索引是1,100或1,000,000,應該沒有關係。感謝您的及時答覆! – user90772