2011-12-19 11 views
0

我們對大量數據做統計等。現在它全部在一臺機器上完成。我們正在研究將數據分解成子集,運行一些操作,然後合併結果的映射 - 縮減範例的可行性。對於大量數據的給定操作,有沒有辦法確定數據是否可以分解爲mapreduce操作?

是否有任何一種數學測試可以應用於一組操作,以確定它們操作的數據是否可以分解?

或者也許列表某處說什麼可以和不可以分解?

舉例來說,我不認爲有一種方式來分解標準偏差,但...

編輯:添加標籤

回答

1

方差,以及平均可在線計算(單程),請參見wikipedia。還有一個並行算法。

1

並行計算最適合於「尷尬並行」的問題,即任何兩個任務之間不存在依賴關係。 請檢查出http://en.wikipedia.org/wiki/Embarrassingly_parallel

此外,在操作是交換或關聯的情況下,MapReduce程序可以很容易地進行優化以獲得更好的性能。

相關問題