2012-05-11 108 views
1

我試圖在一個羣集中設置Apache Hadoop堆棧中的所有項目。設置Apache Hadoop生態系統框架的順序是什麼? 例如:Hadoop,HBase,... 如果您使用一些特定的步驟進行測試,您是否可以說明部署過程中可能遇到的問題。主要的部署框架(Hadoop,HBase,Pig,Hive,HCatalog,Mahout,Giraph,ZooKeeper,Oozie,avro,sqoop,mrunit,緊縮,請加我錯過的東西)Hadoop生態系統部署步驟

+0

有阿帕奇哈馬爲好;) –

+0

哈馬工作在Hadoop之上或只是HDFS足夠 – ikhtiyor

+1

它的工作原理只是在HDFS,就像HBASE例如 –

回答

1

有不同的訂單,產品是依賴的。
簡而言之:
1. Hadoop的(HDFS,MapReduce的)
2.豬,配置單元,sqoop,Oozie的
2.動物園管理員(需要HBase的)
3. HBase的

我不100%肯定Maouout,MRUnit依賴關係,但我認爲只有在需要Hadoop的情況下。
Avro不直接依賴hadoop - 它是序列化庫。

0

我會說,部署是基於主要要求完成的,並且根據需求您將選擇需要其他組件。我認爲,如下的Hadoop設置: 1. Hadoop的核心(常見的Hadoop HDFS + MapReduce的+ - >一個單大的分量) 2的Hadoop組件(取決於選擇)

比如你設置只是1),你還可以在將數據應用到HDFS時運行MapReduce作業。我希望你明白我的觀點。

現在,例如,您會希望使用Hive和Pig進行數據分析工作,並且您可以將Hive和Pig設置爲頂端。

與此同時,您決定將此Hadoop集羣與SQL Server/SQL Azure連接,以便您可以將數據從SQL Server/SQL Azure導入到HDFS。爲此,您可以設置HiveODBC和Sqoop,它將爲您提供將數據導入/導出HDFS到SQL Server/Azure的功能。 HiveODBC和Sqoop爲您提供了直接連接Excel和Power Pivot到HDFS的功能,並從那裏獲取配置單元表。

如果你想設置一個非SQL數據庫坐在HDFS的頂端,你當然可以選擇HBASE,它將位於HDFS的頂部,你可以在其上運行MapReduce作業。

等等取決於您的要求,您可以創建一個列表,在您的羣集/羣集中設置需要和設置的內容。沒有硬性和快速的規則,只要你有基本的Hadoop核心(見上文),就可以完成任何核心設置。

0

兩個有趣的開源項目,你可能會覺得有趣,它可以幫助你爲你提供指導和思路是:

看看他們做什麼/用什麼來部署你提到的項目,然後問你自己:「你真的需要自己做/不同嗎?「;-)

+0

Whirr適用於雲,Bigtop主要用於Hadoop版本與其相關項目之間的兼容性測試目的。只是爲了澄清這一點。 –