2013-11-04 24 views
1

我有一個大的data.frame(> 4M行),其中一列包含字符串。我想在每個文本字段上執行多個字符串操作/匹配正則表達式(例如gsub)。R:在大數據集上的字符串操作(如何加速?)

我想知道如何加快操作?基本上,我進行了一堆

gsub(patternvector," [token] ",tweetDF$textcolumn) 
gsub(patternvector," [token] ",tweetDF$textcolumn) 
.... 

我一個8GB內存的Mac上運行R和試圖將其遷移到雲(與64GB〜RAM的Amazon EC2實例大),但它不會很快速。

我聽說過幾個軟件包(bigmemoryff),並發現R here的高性能/並行計算概述。

有沒有人有最適合加速字符串操作的軟件包的建議?或者知道解釋如何將標準R字符串函數(gsub,..)應用於由這些「高性能計算包」創建的「對象」?

感謝您的幫助!

回答

1

mclapply或任何其他允許並行處理的功能應該顯着加快任務。如果不使用並行處理,則只能使用1個CPU,而不管您的計算機有多少個CPU。