2014-10-30 33 views
-1

我有4個系統。我想抓取一些數據。首先我需要配置羣集。我對組件的放置感​​到困惑。apache hadoop,hbase和nutch組件分佈爲4個服務器集羣

  1. 我應該將所有組件(hadoop,hive,hbase,nutch)放在一臺機器上,並添加其他機器作爲hadoop中的節點嗎?
  2. 我應該把hbase放在一臺機器上,nutch放在另一臺機器上,第三臺放在hadoop上,然後把機器放在hadoop的slave上?
  3. HBase應該是僞分佈式還是全分佈式。
  4. 如果我將它作爲完全分佈式模式運行,我將sholud添加到hbase中的數量有多少。

什麼應該是最好的方法。逐步引導(對於hbase和hadoop)

回答

2

假設您有4個節點n1,n2,n3和n4。 您可以在分佈式模式下安裝hadoop和hbase。 如果您正在使用Hadoop 1.x的 -

n1 - hadoop master[Namenode and Jobtracker] 
n2, n3 and n3 - hadoop slaves [datanodes and tasktrackers] 

對於HBase的,你可以選擇N1或任何其他節點作爲主節點,由於主節點通常不是CPU /內存密集型,都是高手可以部署在單節點,但是在生產環境中,每個主節點都可以在單獨的節點上部署。

Lets say n2 - HBase Master, remaining 3 nodes can act as regionservers. 

Hive和Nutch可以駐留在任何節點上。 希望這有助於;對於測試設置,這應該是好的。


更新 -

Hadoop的2.x的,因爲你的簇大小小,Namenode會HA部署可以跳過。 Namenode HA將需要兩個節點分別用於活動和備用節點。

動物園管理員法定人數再次需要奇數個節點,因此至少需要三個節點。

日記仲裁還需要最少3個節點。

但是對於一個集羣來說,這個小的HA可能不是一個主要的問題。所以,你可以保持

N1 - NameNode的

N2 - ResouceManager或紗線

和其餘的節點可以充當數據節點,儘量不要部署紗節點上的任何東西。

HBase,Hive和Nutch的其餘部署將保持不變。

+0

我的Hadoop版本的詳細指導2.x的 – Shafiq 2014-11-05 13:42:15

+0

這是你的測試設置? – mbaxi 2014-11-05 15:14:07

+0

不,它不僅僅用於測試,而且還用於實際使用 – Shafiq 2014-11-06 04:07:20

0

在我看來,您應該以完全分佈式模式安裝Hadoop,這樣作業可以以並行的方式運行並且更快,因爲MapReduce任務將分佈在4臺機器上。當然,Hadoop的主節點應該在一臺機器上運行。

如果您需要處理大數據量,它是在一個單獨的機器上安裝HBase的一個不錯的選擇與Hadoop的在3

你可以讓所有的上述非常容易使用的工具/平臺具有非常友好的GUI,如Cloudera Manager和Hortonworks。它們將幫助您更好地控制和維護集羣,但它們還會爲您的集羣中發生的每個錯誤提供運行狀況監視,集羣分析以及電子郵件通知。

Cloudera的經理 http://www.cloudera.com/content/cloudera/en/products-and-services/cloudera-enterprise/cloudera-manager.html

Hortonworks http://hortonworks.com/

在這兩個環節上,你可以找到關於你如何能costruct集羣

+0

不像問題中提到的那樣全面 – HMS 2014-11-06 08:05:56