我遇到了將數據導入R的大問題。原來的數據集超過5GB,這在我的筆記本電腦中總共不到4GB RAM。數據集中存在未知數量的行(至少有成千上萬行)。我想知道是否可以選擇說第2000行加載到R,這樣我仍然可以將數據放入我的工作記憶中?是否有可能從R中極其龐大的數據集中讀取所選行R
0
A
回答
4
正如Scott提到的,您可以限制從nrows
到read.table
(及其變體,如read.csv
)的文本文件中讀取的行數。
您可以使用此參數與skip
參數一起讀取數據集中後面的塊。
my_file <- "my file.csv"
chunk <- 2000
first <- read.csv(my_file, nrows = chunk)
second <- read.csv(my_file, nrows = chunk, skip = chunk)
third <- read.csv(my_file, nrows = chunk, skip = 2 * chunk)
您可能還需要閱讀「大內存和外的存儲器中的數據」的high-performance computing task view的部分。
+0
請注意:'2e4'是20,000。 OP要求2,000 –
+0
@RichardScriven固定。 –
相關問題
- 1. 如何有效地讀取R中的大型數據集?
- 2. 從R中的數據集中抽取大量指定行
- 3. 如何讀取R中大數據集的子集?
- 4. 讀取R中的大數據by read.big.matrix
- 5. 從包中讀取R中的數據
- 6. 從R中的向量中選擇所有可能的元組R
- 7. 動態讀取R中所有可能的日期格式
- 8. R:是否可以將2000萬行CSV中的讀數並行/加速到R?
- 9. R中的數據集文件大小,可能的開銷?
- 10. 從R中輸出的所有信息中提取係數R
- 11. 如何計算R中龐大數據集中兩個變量的相關性?
- 12. 從數據集R中
- 13. 是否有可能使用R讀取音樂文件元數據?
- 14. 閱讀R中的複雜數據集
- 15. 是否有可能在R中的replace()中使用函數?
- 16. 處理R中的大數據集
- 17. hclust()中的R對大數據集
- 18. R中合併保持數據的所有行集
- 19. 計算數據集中所有行的範圍R
- 20. 是否有可能在R中有多行註釋?
- 21. 是否可以使用R讀取EXIF數據?
- 22. R:從所有可能的組合
- 23. R對所有其他數據運行函數,但功能中使用的值
- 24. 是否有R中
- 25. 執行R中的read.csv時未讀取所有行
- 26. R中的選擇性數據集成
- 27. R中讀取數據的問題
- 28. 讀取R中的XML數據
- 29. 的R - 選擇其中大多數在一行中出現
- 30. R knn大型數據集
請參閱'read.table'的'nrows'參數。 –
是使用'read.table',如果你需要跳過一些行數,可以使用'skip'。 – CCurtis
另一種選擇是將數據存儲在數據庫中並使用r中的sql – Max