我有一個巨大的csv文件,1.37 GB,並且在R中運行glm時,它崩潰,因爲我沒有分配足夠的內存。你知道,經常出現的錯誤..處理R中大數據的有效方法
是否有沒有其他的軟件包ff和bigmemory的替代品,因爲他們似乎不適合我,因爲我的列是一個整數和字符的混合,而且似乎與兩個包我必須指定我的列是什麼類型,無論是字符或整數。
我們即將在2018年即將把人們放在火星上;有沒有簡單的「read.csv.xxl」函數我們可以使用?
我有一個巨大的csv文件,1.37 GB,並且在R中運行glm時,它崩潰,因爲我沒有分配足夠的內存。你知道,經常出現的錯誤..處理R中大數據的有效方法
是否有沒有其他的軟件包ff和bigmemory的替代品,因爲他們似乎不適合我,因爲我的列是一個整數和字符的混合,而且似乎與兩個包我必須指定我的列是什麼類型,無論是字符或整數。
我們即將在2018年即將把人們放在火星上;有沒有簡單的「read.csv.xxl」函數我們可以使用?
我會承認,僅僅因爲你的樣本數據需要1.37 GB並不都意味着1.37 GB將是令人滿意的做用glm
包所有的計算首先解決你的問題。最有可能的是,你的一個計算結果可能會至少達到1.37 GB的倍數。
對於第二部分,這裏的一個實際解決方法是僅對您的1.37 GB數據集進行合理的子樣本。你真的需要使用全部原始數據集中的數據點來構建模型嗎?或者,可以說10%的子樣本也會給你一個統計顯着的模型?如果你降低了數據集的大小,那麼你用R解決了內存問題。
請記住,R在內存中完全運行,這意味着一旦你超出了可用內存,你可能會走運。
您的計算機沒有2GB內存?也許有時間升級。 – lmo
我有8 GB,但glm計算崩潰。 – HeyJane
做了http://www.bnosac.be/index.php/blog/10-bigglm-on-your-big-data-set-in-open-source-r-it-just-works中的任何指針類似於在sas工作? – hrbrmstr