如何使用bigmemory軟件包加載混合類型的大型csv文件

有沒有一種方法可以將bigmemory軟件包中scan（）和read.big.matrix（）的使用組合起來，以讀取200 MB .csv使用混合類型列的文件，以便結果是包含整數，字符和數字列的數據框？如何使用bigmemory軟件包加載混合類型的大型csv文件

來源

2011-08-07 Lourdes

是否必須是bigmemory軟件包？我發現ff對這類東西更有用 – mdsumner

@mdsumner在正確的軌道上。它甚至需要文件支持嗎？對於200MB，我只是閱讀它，使用它，然後將它保存爲一個或多個BM文件（或者如果您願意，可以用'ff'來保存）。 – Iterator

根據幫助文件，沒有。

文件只能包含一個原子類型（例如全部整數）。您，用戶應該知道您的文件是否有行名稱和/或列名爲，並且各種選項組合應該有助於獲取所需的行爲。

我不熟悉這個包/函數，但是在R中，矩陣只能有一個原子類型（不像data.frames）。

來源

2011-08-07 06:37:47

謝謝你的兩分錢。在這個博客上，http://joshpaulson.wordpress.com/2010/12/20/michael-kane-on-bigmemory/有人提出了一種解決方法來限制只有一種原子類型的矩陣（這是一個被大的特性所繼承的特性。矩陣）就是使用scan（）。我希望有人能夠從bigmemory包中分享他們的經驗，特別是閱讀混合類型的列以及他們是否使用過scan（）。 – Lourdes

也許你可以在處理階段做到這一點，但我想證明是錯誤的（sensu @Iterator）。 –

爲此嘗試使用ff包。

library(ff) 
help(read.table.ffdf)

函數「read.table.ffdf」讀取分離平面文件到「ffdf」目的，非常像（和使用）「函數read.table」。它也可以用與任何便利包裝（如read.csv）一起使用，併爲R的常用包裝提供其自己的便利包裝（例如，'read.csv.ffdf'）。

對於200Mb，它應該是這樣簡單的任務。（對於大得多的文件，可能需要調查一些配置選項，具體取決於您的機器和操作系統）。

來源

2011-08-07 12:15:00 mdsumner

謝謝你mdsummer。我嘗試了ff軟件包，能夠讀取存儲在一個對象中的近300 MB數據集，然後我使用as.data.frame強制轉換爲數據框。然而，這讓人記憶猶新，幾乎沒有什麼可供分析的。這雖然是一個好的開始，也是一個有用的建議。 – Lourdes

整個過程不是全部加載它，而是使用ff軟件包的內存映射功能。有工具可以從ff數據結構中提取部分 – mdsumner

啊，這輩子有些事情是不可能的，有一些是被誤解的，會導致不愉快的情況。 @羅曼是正確的：一個矩陣必須是一個原子類型。這不是一個數據框。

由於矩陣必須是一種類型，因此嘗試斯諾克bigmemory來處理多種類型本身就是一件壞事。它可以完成嗎？我不會去那裏。爲什麼？因爲一切都會假設它正在獲得一個矩陣，而不是一個數據幀。這會導致更多的問題和更多的悲傷。

現在，您可以做的是確定每個列的類型，並生成一組不同的bigmemory文件，每個文件都包含特定類型的項目。例如。 charBM =字符大矩陣，intBM =整數大矩陣，依此類推。然後，您可能會開發出一個包裝器，它可以生成所有這些數據框架。儘管如此，我仍然不建議：將不同的項目視爲自己的項目，或者儘可能強制同質化，而不是嘗試製作大型數據框格里芬。

@mdsumner正確提示ff。另一種存儲選項是HDF5，您可以通過R.中的ncdf4訪問它。不幸的是，這些其他軟件包不如bigmemory那麼愉快。

來源

2011-08-07 12:21:03 Iterator

感謝迭代器。你是對的，其他軟件包不如大內存那麼愉快。 – Lourdes

最好的解決方案是逐行讀取文件並解析它，這樣讀取過程將佔用大量線性的內存。

來源

2013-03-23 14:13:32

歡迎來到StackOverflow！但是，這並沒有回答這個問題，它特別針對大內存軟件包 –

如何使用bigmemory軟件包加載混合類型的大型csv文件

回答

相關問題