我有一個包含約200萬行的數據集,所以如果不讀取整個數據集,我想讀取數據集的一個子集。我的數據集包含一個日期列,所以我只想讀取日期範圍之間的數據集而不讀取整個數據集,因爲這樣會浪費時間和浪費內存。所以如何完成它任何人都可以指導我呢?如何讀取R中大數據集的子集?
回答
使用skip=
在read.table
read.table("file.txt",skip= ,nrows=)
參數無論是skip=
和nrows=
取行指示數字使剛剛=後添加。
nrows=
定義您在導入文件時的範圍有多深。
如果您還沒有這樣做,我建議您閱讀https://stat.ethz.ch/R-manual/R-devel/library/utils/html/read.table.html。
另外,請參閱我的問題之一:
R - Reading lines from a .txt-file after a specific line
它,有點,接觸到同一主題。
其他可能的辦法可能是使用grep()
在skip=
read.table(...,skip=grep("2005-12-31", readLines("File.txt")),nrows=365)
什麼這行代碼就跳過,直到找到在grep()
描繪的線和讀取後的行。 nrow=
將讀取365行後停止閱讀(這種方式你已閱讀一年的日期提供一行等於一個日期)。
這似乎有點複雜,但它是我知道如何解決這個問題的唯一方法。
但它如何在日期中工作? – 2014-09-19 11:25:17
如果我不知道在文件中的開始日期我怎麼能計算要跳過的行數? – 2014-09-19 11:26:43
你能指定一點嗎?你在閱讀什麼樣的文件?閱讀開始日期的選擇標準是什麼?我的意思是,你必須知道你想要導入的日期。或者我在這裏錯過了一些東西。 – 2014-09-19 11:31:44
- 1. 如何有效地讀取R中的大型數據集?
- 2. 閱讀大數據子集
- 3. 用R表示大數據集中數據幀的子集
- 4. 如何在R讀取大型數據集
- 5. R中的數據子集
- 6. 如何高效地搜索子數據集的大數據集?
- 7. 讀取數據集
- 8. R knn大型數據集
- 9. 閱讀R中的複雜數據集
- 10. 子集根據中的R
- 11. 從數據集中讀取
- 12. R排序數據子集
- 13. 處理R中的大數據集
- 14. hclust()中的R對大數據集
- 15. 集羣r腳本不正確讀取RData數據集
- 16. R中的一個數據幀子集
- 17. Python中用於人類讀取的數據(大數據集)
- 18. R - 如何按月對數據集進行子集劃分?
- 19. 如何讀取SAS數據集?
- 20. Android SQLiteDataBase:如何讀取數據集?
- 21. 如何根據R中的日期子集數據?
- 22. R:如何子集的data.frame
- 23. 子集R中
- 24. 子集R中
- 25. CSVGREP子集大型數據集
- 26. 如何判斷R中的數據集何時會過大?
- 27. 讀取的數據集與R中不等長的列
- 28. R - 子集數據,如果條件
- 29. 從R中的數據集中抽取大量指定行
- 30. 如何閱讀R中的單行.txt數據集?
從package data.table中用'fread'讀取整個數據集或使用package sqldf。另請參閱:http://stackoverflow.com/q/1727772/1412059 – Roland 2014-09-19 11:21:08