我目前正在MR-MPI(MapReduce on MPI)上實現機器學習算法。我還試圖瞭解其他MapReduce框架,尤其是Hadoop,因此以下是我的基本問題(我是MapReduce框架的新手,如果我的問題沒有意義,我會提供aplogize)。數據移動HDFS Vs並行文件系統與MPI
問題:由於MapReduce可以在諸如並行文件系統(GPFS),HDFS,MPI,e.t.c等很多東西之上實現。在map步驟之後,有一個collate操作,然後是一個reduce操作。對於整理操作,我們需要在節點間發生一些數據移動。在這方面,我想知道HDFS Vs GPFS Vs MPI中數據移動機制(節點之間)有什麼不同。
我很感激你是否給我提供了一些很好的解釋,並且可以給我一些很好的參考資料,所以我可以進一步瞭解細節。
謝謝。
您能否重新回答我的問題。我做了一個小小的編輯。 – 2012-07-06 07:19:12