2014-01-21 140 views
2

我打算從Hadoop版本1更新到Hadoop版本2.任何人都可以告訴我(如果您嘗試過hadoop版本2),是否有MR/Hive/Pig版本2中的作業與版本1相比?Hadoop版本1和版本2性能

回答

1

以下是來自apache的註釋。這些是改進的亮點。

下面簡要介紹HDFS和MapReduce的改進。

HDFS Federation 爲了水平縮放名稱服務,聯邦使用多個獨立的Namenodes/Namespaces。 Namenodes是聯合的,也就是說,Namenode是獨立的,不需要彼此協調。數據節點被所有Namenode用作塊的公共存儲。每個數據節點註冊集羣中的所有Namenode。 Datanodes定期發送檢測信號並阻止報告,並處理來自Namenodes的命令。

更多詳細信息可在HDFS聯合文檔中找到。

MapReduce NextGen aka YARN aka MRv2 hadoop-0.23引入的新體系結構將JobTracker的兩個主要功能:資源管理和作業生命週期管理劃分爲不同的組件。

新的ResourceManager管理計算資源到應用程序的全局分配,並且每個應用程序的ApplicationMaster管理應用程序的調度和協調。

一個應用程序可以是一個單一的作業,也可以是傳統MapReduce作業或DAG這樣的作業。

管理該機器上用戶進程的ResourceManager和每臺機器NodeManager守護進程構成計算結構。

每個應用程序的ApplicationMaster實際上是一個特定於框架的庫,其任務是從ResourceManager協商資源並與NodeManager一起使用以執行和監視任務。

+0

感謝您的回覆。我已閱讀Hadoop v2發行說明,並發現了YARN,MR2和其他體系結構更改等新功能。我需要知道的是,如果有人比較v2上的任何MR/Hive/PIG作業與v1,並發現任何性能改進。 – rusho1234