2015-11-12 23 views
1

University of Cape Town使數據可以通過它的DataFirst PortalR使用避難所導入,使用Stata 12或sab7bdat源文件?

他們所有的數據以以下格式提供:

  1. SAS(sab7bdat)
  2. SPSS
  3. 塔塔(12)

我想導入的數據集成R使用Haven package,它支持所有上述格式(它利用ReadStat Library)。

這將是達到這一目標的首選格式?

更具體地說:

  1. 是否有在數據方面的差異在原來的格式提供?
  2. 都是一些格式更接近於R的格式比其他人,這不影響輸出?
  3. 速度方面有差異嗎? (不太重要)

回答

0

不同系統之間傳輸數據的最佳方式是.csv,因爲它可以通過沒有太多的麻煩,所有的系統讀取。

正如你只能訪問到其他格式,不應該有太大的差異(因爲haven作品與他們的)。

至於你的問題:

我不知道在數據可用性或格式compatabilities任何差異。但是,如果你想加快速度,你應該看看data.table和它的fread(替代read.table,所以對於所提到的文件不支持)。

您可以閱讀這樣的數據:

library(haven) 
dat <- read_sas("link_to_sas_file") 
dat <- read_spss("link_to_spss_file") 
dat <- read_stata("link_to_stata_file") 
+0

謝謝,將CSV可能是一個解決方案,但我認爲,有時可能是有問題的因素,另外,我通常不會有一個副本Stata或SAS在我的計算機上,我可以使用[PSPP](https://www.gnu.org/software/pspp/)將SPSS文件轉換爲CSV文件,但直接更容易。 關於,速度,我不是在此特別感興趣自己,它不是一個重複操作,我會因此而與基礎數據結構(因此子問題有關的更靠近於R的格式)棒,我加這樣可能的答案可以作爲對其他人的參考。 –