2017-10-08 94 views
1

我有一個巨大的csv文件,1.37 GB,並且在R中運行glm時,它崩潰,因爲我沒有分配足夠的內存。你知道,經常出現的錯誤..處理R中大數據的有效方法

是否有沒有其他的軟件包ff和bigmemory的替代品,因爲他們似乎不適合我,因爲我的列是一個整數和字符的混合,而且似乎與兩個包我必須指定我的列是什麼類型,無論是字符或整數。

我們即將在2018年即將把人們放在火星上;有沒有簡單的「read.csv.xxl」函數我們可以使用?

+3

您的計算機沒有2GB內存?也許有時間升級。 – lmo

+0

我有8 GB,但glm計算崩潰。 – HeyJane

+0

做了http://www.bnosac.be/index.php/blog/10-bigglm-on-your-big-data-set-in-open-source-r-it-just-works中的任何指針類似於在sas工作? – hrbrmstr

回答

1

我會承認,僅僅因爲你的樣本數據需要1.37 GB並都意味着1.37 GB將是令人滿意的做用glm包所有的計算首先解決你的問題。最有可能的是,你的一個計算結果可能會至少達到1.37 GB的倍數。

對於第二部分,這裏的一個實際解決方法是僅對您的1.37 GB數據集進行合理的子樣本。你真的需要使用全部原始數據集中的數據點來構建模型嗎?或者,可以說10%的子樣本也會給你一個統計顯着的模型?如果你降低了數據集的大小,那麼你用R解決了內存問題。

請記住,R在內存中完全運行,這意味着一旦你超出了可用內存,你可能會走運。

+0

第一部分:確切地說。第二部分:我想使用我所有的數據,因爲我想製作一個複雜的模型。我需要知道我在我的估計中有多自信,所以我需要使用我所有的數據。因此我的問題。 – HeyJane

+0

@HeyJane我不確定你需要使用你的所有數據。爲了測試這個,你可以說一個10%的數據子樣本,並將該子集的描述性統計數據與原始數據集進行比較。 –

+1

是的,我需要使用我所有的數據來評估我對自己估計的確信程度。而且,我想要一個非常複雜的模型。在所有應有的尊重下,你都不會解決我的問題。您只是說「減少數據」 – HeyJane

相關問題