我在問這是一個關於R
的通用/初學者問題,並非特定於我正在使用的軟件包。加快R計算的操作
我有一個dataframe
與300萬行和15列。我不認爲這是一個巨大的數據框,但也許我錯了。
我正在運行下面的腳本,它已運行了2個半小時以上 - 我想我必須做些事情來加快速度。
代碼:
ddply(orders, .(ClientID), NumOrders=len(OrderID))
這不是一個過於密集的腳本,或再次,我不認爲它是。
在數據庫中,您可以向表中添加索引以提高聯接速度。在R
中有沒有類似的操作我應該在導入時使功能/軟件包運行得更快?
請參閱[data.table](http://cran.r-project.org/web/packages/data.table/)包。 –
@JoshuaUlrich data.table而不是數據框?他們真的可以互換嗎?謝謝 – mikebmassey
也來建議'data.table'。這個操作將會顯着加快,並且一旦將'data.frame'轉換爲'data.table',就可以運行相同的代碼。 '訂單< - data.table(訂單)'。那很簡單。 – Maiasaura