回答
如果您不想向Revolution R支付數千美元,以便您可以一次加載/分析您的數據,遲早需要找出一種方法來採樣數據。
這一步是比較容易出現R.
外(1)提供的Linux Shell:
假設你的數據落入一致的格式。每一行都是一條記錄。你可以這樣做:
sort -R data | head -n 1000 >data.sample
這會隨機排序的所有行,並獲得第1000行到一個單獨的文件 - data.sample
(2)如果數據是沒有小到足以放入內存。
還有一個使用數據庫來存儲數據的解決方案。例如,我有許多表以美麗的表格格式存儲在MySQL數據庫中。我可以通過做做一個樣本:
select * from tablename order by rand() limit 1000
您可以MySQL和R的使用RMySQL容易溝通,你可以索引你的專欄,以保證查詢速度。如果要考慮數據庫的強大功能,您還可以驗證整個數據集與您的樣本的平均值或標準偏差。
根據我處理'大'數據的經驗,這是兩種最常用的方法。
對於整體想法+1,但我不知道你使用'sort'的哪個版本具有'-R'選項。 – flodel
@ flodel http://stackoverflow.com/questions/886237/how-can-i-randomize-the-lines-in-a-file-using-a-standard-tools-on-redhat-linux –
@ flodel it是bash代碼,而不是R代碼。 –
- 1. R無法寫入csv或RData文件
- 2. 將大型csv文件讀入R
- 3. 無法打開,無法寫入:文件太大
- 4. 無法寫入CSV文件
- 5. 用R加載csv文件
- 6. 在R下載csv文件
- 7. 無法通過phpmyadmin文件大小導入數據庫太大
- 8. rmd文件太大而無法打開
- 9. R - 無法導入CSV文件 - 列標題
- 10. 抓取時無法加載太大的html文件
- 11. 無法加載CSV文件在PostgreSQL
- 12. 無法加載Weka中的csv文件
- 13. 無法在weka中加載CSV文件
- 14. 無法以CSV格式下載文件
- 15. AS3無法加載一個CSV文件
- 16. 無法加載CSV文件中SAS
- 17. Perl腳本無法加載CSV文件
- 18. firefox無法下載csv文件
- 19. bash - 將一個文件太大而無法放入內存中
- 20. 導入CSV文件導入R,在大寫
- 21. 無法從樣品
- 22. 無法合併r中的大文件
- 23. 導入大型CSV文件
- 24. Python:大csv文件導入
- 25. 導入CSV文件較大
- 26. 無法在spark中寫入csv文件
- 27. 無法將csv文件導入表
- 28. 無法將csv寫入.txt文件? PHP
- 29. Python 3.5無法導入CSV文件
- 30. 無法導入CSV文件,JAVA
請參閱sqldf主頁上的示例6e:http://sqldf.googlecode.com以獲得單線解決方案。 –
@ G.Grothendieck:從我的任務管理器判斷整個文件被加載到內存中 – Raffael
是的,我一直在想如何在R中工作。我想要告訴R有選擇性地read.csv某些行csv文件。 – Anton