我有一個概念性問題。減少運行時間
假設我有一個過程(任何語言),它將一個數據集作爲輸入,處理它並將輸出寫入數組。該陣列在流中使用以進一步處理。問題是代碼運行時間很長。這麼大以至於需要優化!
我建議的是將輸入數據集劃分爲更小的塊,併爲每個數據集並行調用過程。聽起來很簡單!
因此我想在獨立的文件中編寫程序,創建一個單獨的可執行文件。提交此可執行文件以用於批量處理的較小數據集。
但是這種方法的問題是,因爲每個批處理作業都是一個單獨的進程,所以這些作業如何創建我之前創建的數組!我可以考慮將每個作業輸出寫入文件,然後處理它們以創建陣列。
有沒有更好的方法可以並行處理?說
感謝您的建議:)
您正在描述[MapReduce](http://en.wikipedia.org/wiki/Map_Reduce)。 – 2012-03-17 01:10:57
感謝您通知。我對此一無所知。任何理想的,如果它可以免費獲得,如果它會使用它很多工作? – Richeek 2012-03-17 01:24:23