2012-07-06 43 views
1

我目前正在MR-MPI(MapReduce on MPI)上實現機器學習算法。我還試圖瞭解其他MapReduce框架,尤其是Hadoop,因此以下是我的基本問題(我是MapReduce框架的新手,如果我的問題沒有意義,我會提供aplogize)。數據移動HDFS Vs並行文件系統與MPI

問題:由於MapReduce可以在諸如並行文件系統(GPFS),HDFS,MPI,e.t.c等很多東西之上實現。在map步驟之後,有一個collat​​e操作,然後是一個reduce操作。對於整理操作,我們需要在節點間發生一些數據移動。在這方面,我想知道HDFS Vs GPFS Vs MPI中數據移動機制(節點之間)有什麼不同。

我很感激你是否給我提供了一些很好的解釋,並且可以給我一些很好的參考資料,所以我可以進一步瞭解細節。

謝謝。

回答

0

MapReduce作爲一個範例可以在許多存儲系統上實現。事實上,Hadoop具有所謂的DFS(分佈式文件系統)抽象功能,可以集成不同的存儲系統並在其上運行MapReduce。例如,有Amazon S3,本地文件系統,打開Stack Swift和其他集成。
與此同時,HDFS集成有一個特殊屬性 - 它向MR引擎(JobTracker,更具體)報告數據所在的位置,並且它使映射的智能調度能夠以每個映射器要處理的數據的方式進行搭配Mapper。 因此,在映射階段,當MR在HDFS上運行時,數據不會通過網絡傳輸。要更一般地說明Hadoop MR的想法是將代碼移動到數據而不是相反,並且在評估任何可擴展的MR實現時它應該是重要的標準 - 該系統是否關心映射器處理本地數據?

+0

您能否重新回答我的問題。我做了一個小小的編輯。 – 2012-07-06 07:19:12

0

該操作系統混合了一些東西 - 消息傳遞和文件系統,所以有多個連接。

Hadoop/MAPI是一個WIP,你可以找到更多的細節here

Hadoop/GPFS仍然是open

Hadoop/HDFS從Apache Hadoop開箱即用。對於使用HTTP映射器和reducer之間的數據傳輸,不知道爲什麼。