2015-02-11 72 views
2

我正在使用stat transfer將數據集從SAS文件格式轉換爲R格式。 SAS中的文件大約爲489mb,轉換爲Rdata時爲520mb。鑑於該文件是一個4090222 x 11「單元格」的數據框,我想這種差異可以在一定程度上解釋。R中的數據集文件大小,可能的開銷?

但是,當我打開轉換後的數據集,並要求R保存它,530mb下降到120mb,我真的不知道如何以及爲什麼發生這種情況。我懷疑數據丟失(因爲調整大小如此顯着),但據我所知,這沒有發生。

我試過all.equal返回TRUE。事實上,我嘗試的所有事情都告訴我數據集確實是平等的......但它不會加起來?

我是否犯了一些巨大的錯誤?

編輯:看到格雷戈爾點下面,「問題」解決了!

+2

保存到磁盤時,使用壓縮。我不認爲有一個很大的謎。 – Andrie 2015-02-11 18:43:34

+0

請參閱'?save'。如果你想要一個更大的文件,你可以設置'compress = F'或者設置'compression_level'爲一個小於缺省值9的整數。 – Gregor 2015-02-11 18:49:11

+0

另請參見[本博客條目](http://www.econometricsbysimulation.com/2014/ 03/it-is-time-for-rdata-files-to-become.html)比較各種統計語言數據格式的壓縮。 – Gregor 2015-02-11 18:50:59

回答

3

只是把我的意見變成一個答案:當將其保存爲.RData,實際上相對於其他統計編程語言,如this blog entry證明確實它令人印象深刻的工作

[R壓縮數據。

所以答案是沒有,你不應該擔心。