apache hadoop，hbase和nutch組件分佈爲4個服務器集羣

-1

我有4個系統。我想抓取一些數據。首先我需要配置羣集。我對組件的放置感到困惑。apache hadoop，hbase和nutch組件分佈爲4個服務器集羣

什麼應該是最好的方法。逐步引導（對於hbase和hadoop）

2014-10-30 Shafiq

假設您有4個節點n1，n2，n3和n4。您可以在分佈式模式下安裝hadoop和hbase。如果您正在使用Hadoop 1.x的 -

n1 - hadoop master[Namenode and Jobtracker] 
n2, n3 and n3 - hadoop slaves [datanodes and tasktrackers]

對於HBase的，你可以選擇N1或任何其他節點作爲主節點，由於主節點通常不是CPU /內存密集型，都是高手可以部署在單節點，但是在生產環境中，每個主節點都可以在單獨的節點上部署。

Lets say n2 - HBase Master, remaining 3 nodes can act as regionservers.

Hive和Nutch可以駐留在任何節點上。希望這有助於;對於測試設置，這應該是好的。

更新 -

Hadoop的2.x的，因爲你的簇大小小，Namenode會HA部署可以跳過。 Namenode HA將需要兩個節點分別用於活動和備用節點。

動物園管理員法定人數再次需要奇數個節點，因此至少需要三個節點。

日記仲裁還需要最少3個節點。

但是對於一個集羣來說，這個小的HA可能不是一個主要的問題。所以，你可以保持

N1 - NameNode的

N2 - ResouceManager或紗線

和其餘的節點可以充當數據節點，儘量不要部署紗節點上的任何東西。

HBase，Hive和Nutch的其餘部署將保持不變。

2014-11-05 13:18:23 mbaxi

我的Hadoop版本的詳細指導2.x的 – Shafiq 2014-11-05 13:42:15

這是你的測試設置？ – mbaxi 2014-11-05 15:14:07

不，它不僅僅用於測試，而且還用於實際使用 – Shafiq 2014-11-06 04:07:20

在我看來，您應該以完全分佈式模式安裝Hadoop，這樣作業可以以並行的方式運行並且更快，因爲MapReduce任務將分佈在4臺機器上。當然，Hadoop的主節點應該在一臺機器上運行。

如果您需要處理大數據量，它是在一個單獨的機器上安裝HBase的一個不錯的選擇與Hadoop的在3

你可以讓所有的上述非常容易使用的工具/平臺具有非常友好的GUI，如Cloudera Manager和Hortonworks。它們將幫助您更好地控制和維護集羣，但它們還會爲您的集羣中發生的每個錯誤提供運行狀況監視，集羣分析以及電子郵件通知。

在這兩個環節上，你可以找到關於你如何能costruct集羣

2014-11-05 20:13:26 IrishDog

不像問題中提到的那樣全面 – HMS 2014-11-06 08:05:56

回答