我必須經常子集一個data.frame
的序列(每次運行數百萬次)。 data.frame
s近似爲200行×30列。根據狀態,data.frame
中的值會從一次迭代更改爲下一次迭代。因此,在開始時做一個子集是行不通的。有沒有辦法加快子集的較小的數據。框架
與此相反的問題,when a data.table starts to be faster than a data.frame,我找子集的速度,彌補了data.frame
/data.table
以下最低可重複的例子顯示了一個給定的大小,即data.frame
似乎是最快的:
library(data.table)
nmax <- 1e2 # for 1e7 the results look as expected: data.table is really fast!
set.seed(1)
x<-runif(nmax,min=0,max=10)
y<-runif(nmax,min=0,max=10)
DF<-data.frame(x,y)
DT<-data.table(x,y)
summary(microbenchmark::microbenchmark(
setkey(DT,x,y),
times = 10L, unit = "us"))
# expr min lq mean median uq max neval
# 1 setkey(DT, x, y) 70.326 72.606 105.032 80.3985 126.586 212.877 10
summary(microbenchmark::microbenchmark(
DF[DF$x>5, ],
`[.data.frame`(DT,DT$x < 5,),
DT[x>5],
times = 100L, unit = "us"))
# expr min lq mean median uq max neval
# 1 DF[DF$x > 5, ] 41.815 45.426 52.40197 49.9885 57.4010 82.110 100
# 2 `[.data.frame`(DT, DT$x < 5,) 43.716 47.707 58.06979 53.5995 61.2020 147.873 100
# 3 DT[x > 5] 205.273 214.777 233.09221 222.0000 231.6935 900.164 100
有什麼我可以做的,以提高性能?輸入後
編輯:
- 我運行離散事件仿真和每個事件我有一個列表來搜索(我不介意它是否是一個
data.frame
或data.table
)。最有可能的是,我可以實施一種不同的方法,但是我必須重新編寫超過3年開發的代碼。目前,這不是一個選項。但如果沒有辦法讓速度更快,這將成爲未來的選擇。 - 從技術上講,它不是一個
data.frames
的序列,而是一個data.frame
,它隨着每次迭代而變化。但是,這對「如何更快地獲得子集」沒有影響,我希望現在的問題更全面。
除非您正在對數據進行幾乎隨機選擇,否則您可能想要創建一個您可以參考的現有子集列表,而不是以反覆的方式重複使用相同的數據框? –
data.table子集中涉及開銷。另請參閱http://stackoverflow.com/a/20179189/1412059 – Roland
您應該詢問有關您的實際問題的正確問題。如果你將數據框架子集數百萬次,那麼你的方法是錯誤的。 – Roland