2015-02-07 13 views
1

'h2o'包是一個有趣的ML Java工具,可通過R訪問。用於訪問'h2o'的R包稱爲「」。使用r將壓縮的csv導入'h2o'

其中一個輸入途徑是告訴'h2o'csv文件的位置,並讓'h2o'上傳原始CSV。指出文件夾並告訴'h2o'使用h2o.importFolder命令導入「其中的所有內容」會更有效。

有沒有辦法指出「gzip」或「bzip」csv文件的文件夾並獲得'h2o'來導入它們?

根據此鏈接(here),h2o可以導入壓縮文件。我只是沒有看到爲importFolder方法指定此方法。

導入壓縮表單的速度更快還是更慢?如果我有另一個程序,使輸出,它可以節省我在h2o導入過程中的速度,如果他們被壓縮?如果他們是原始文本?指導方針和性能最佳實踐表示讚賞。

一如既往,徵求意見,建議和反饋意見。

+0

我無法回答問題,但您可能需要在H2O JIRA網站上發佈關於此問題的鏈接:https://0xdata.atlassian.net/secure/Dashboard.jspa - 他們對以往問題的反應非常快。 – screechOwl 2015-02-19 16:22:26

回答

0

我把@screechOwl的意見,並要求在0xdata.atlassian.net板爲H2O,並給出了明確的答案:

它是由用戶「懸崖」提供。

嗨,是H2O - 導入文件夾時 - 將文件夾中的所有文件;它會根據需要解壓縮gzip或zip文件,並將它們全部解析爲一個大的CSV文件。所有文件必須在CSV中兼容 - 相同數量和種類的列。

H2O目前不處理bzip文件。