處理R中大數據的有效方法

我有一個巨大的csv文件，1.37 GB，並且在R中運行glm時，它崩潰，因爲我沒有分配足夠的內存。你知道，經常出現的錯誤..處理R中大數據的有效方法

是否有沒有其他的軟件包ff和bigmemory的替代品，因爲他們似乎不適合我，因爲我的列是一個整數和字符的混合，而且似乎與兩個包我必須指定我的列是什麼類型，無論是字符或整數。

我們即將在2018年即將把人們放在火星上;有沒有簡單的「read.csv.xxl」函數我們可以使用？

2017-10-08 HeyJane

您的計算機沒有2GB內存？也許有時間升級。 – lmo

我有8 GB，但glm計算崩潰。 – HeyJane

做了http://www.bnosac.be/index.php/blog/10-bigglm-on-your-big-data-set-in-open-source-r-it-just-works中的任何指針類似於在sas工作？ – hrbrmstr

我會承認，僅僅因爲你的樣本數據需要1.37 GB並不都意味着1.37 GB將是令人滿意的做用glm包所有的計算首先解決你的問題。最有可能的是，你的一個計算結果可能會至少達到1.37 GB的倍數。

對於第二部分，這裏的一個實際解決方法是僅對您的1.37 GB數據集進行合理的子樣本。你真的需要使用全部原始數據集中的數據點來構建模型嗎？或者，可以說10％的子樣本也會給你一個統計顯着的模型？如果你降低了數據集的大小，那麼你用R解決了內存問題。

請記住，R在內存中完全運行，這意味着一旦你超出了可用內存，你可能會走運。

2017-10-08 15:09:08

第一部分：確切地說。第二部分：我想使用我所有的數據，因爲我想製作一個複雜的模型。我需要知道我在我的估計中有多自信，所以我需要使用我所有的數據。因此我的問題。 – HeyJane

@HeyJane我不確定你需要使用你的所有數據。爲了測試這個，你可以說一個10％的數據子樣本，並將該子集的描述性統計數據與原始數據集進行比較。 –

是的，我需要使用我所有的數據來評估我對自己估計的確信程度。而且，我想要一個非常複雜的模型。在所有應有的尊重下，你都不會解決我的問題。您只是說「減少數據」 – HeyJane

回答