一旦通過read.csv
加載CSV,使用multicore
, segue
等來播放CSV中的數據是相當簡單的。然而,閱讀它的時間已經過去了。R:是否可以將2000萬行CSV中的讀數並行/加速到R?
實現它更好地使用MySQL等等等等
假設使用AWS 8XL的集羣中運行R2.13
計算實例規格如下:
Cluster Compute Eight Extra Large specifications:
88 EC2 Compute Units (Eight-core 2 x Intel Xeon)
60.5 GB of memory
3370 GB of instance storage
64-bit platform
I/O Performance: Very High (10 Gigabit Ethernet)
任何想法/想法非常感激。
這個問題可能也是有趣的你:http://stackoverflow.com/questions/9061736/faster-than-scan-with-rcpp – 2012-01-30 10:38:21
或這一個以及http://stackoverflow.com/questions/1727772 /快速閱讀,非常大的表,作爲數據框在-r – 2012-01-30 14:13:43