1
我有一個大的data.frame(> 4M行),其中一列包含字符串。我想在每個文本字段上執行多個字符串操作/匹配正則表達式(例如gsub
)。R:在大數據集上的字符串操作(如何加速?)
我想知道如何加快操作?基本上,我進行了一堆
gsub(patternvector," [token] ",tweetDF$textcolumn)
gsub(patternvector," [token] ",tweetDF$textcolumn)
....
我一個8GB內存的Mac上運行R和試圖將其遷移到雲(與64GB〜RAM的Amazon EC2實例大),但它不會很快速。
我聽說過幾個軟件包(bigmemory
,ff
),並發現R here的高性能/並行計算概述。
有沒有人有最適合加速字符串操作的軟件包的建議?或者知道解釋如何將標準R字符串函數(gsub
,..)應用於由這些「高性能計算包」創建的「對象」?
感謝您的幫助!