2010-03-23 27 views

回答

9

Hadoop由許多組件組成,這些組件是Apache Hadoop項目的每個子項目。其中兩個主要的是Hadoop Distributed File System (HDFS)MapReduce framework

這個想法是,您可以將許多現成的計算機聯網在一起以創建羣集。 HDFS在集羣上運行。在將數據添加到羣集時,會將其分割爲大塊/塊(通常爲64MB)並分佈在羣集周圍。 HDFS允許複製數據以允許從硬件故障中恢復。它幾乎預計硬件故障,因爲它意味着與標準硬件一起工作。 HDFS基於Google關於其分佈式文件系統GFS的文章。

Hadoop MapReduce框架運行存儲在HDFS上的數據。 MapReduce'工作'旨在以高度並行的方式提供基於關鍵/價值的處理能力。由於數據分佈在集羣中,因此可以拆分MapReduce作業,以便對存儲在集羣上的數據運行許多並行進程。 MapReduce的Map部分只能運行在他們可以看到的數據上,即運行在特定機器上的數據塊。 Reduce彙集了來自地圖的輸出。

結果是提供了高度並行的批處理能力的系統。系統可以很好地擴展,因爲您只需添加更多硬件來增加存儲功能或縮短MapReduce作業運行的時間。

一些鏈接:

相關問題