R：在大數據集上的字符串操作（如何加速？）

我有一個大的data.frame（> 4M行），其中一列包含字符串。我想在每個文本字段上執行多個字符串操作/匹配正則表達式（例如gsub）。R：在大數據集上的字符串操作（如何加速？）

我想知道如何加快操作？基本上，我進行了一堆

gsub(patternvector," [token] ",tweetDF$textcolumn) 
gsub(patternvector," [token] ",tweetDF$textcolumn) 
....

我一個8GB內存的Mac上運行R和試圖將其遷移到雲（與64GB〜RAM的Amazon EC2實例大），但它不會很快速。

我聽說過幾個軟件包（bigmemory，ff），並發現R here的高性能/並行計算概述。

有沒有人有最適合加速字符串操作的軟件包的建議？或者知道解釋如何將標準R字符串函數（gsub，..）應用於由這些「高性能計算包」創建的「對象」？

感謝您的幫助！

2013-11-04 SPi

mclapply或任何其他允許並行處理的功能應該顯着加快任務。如果不使用並行處理，則只能使用1個CPU，而不管您的計算機有多少個CPU。

2013-11-05 01:19:19 Michael

回答