2013-07-24 220 views
1

我是新來的Cloudera,我在我的系統中安裝了Cloudera的成功,我有兩個疑問,Cloudera安裝懷疑?

  • 考慮機器的一些節點已經在使用Hadoop的一些數據,我們可以安裝Cloudera的使用現有的Hadoop無對存儲hadooop的數據進行了任何更改或修改。

  • 我在我的機器上安裝了Cloudera,我還有另外三臺機器將這些機器添加爲羣集,我想知道,我是否希望在將這些機器添加爲羣集之前在這三臺機器中安裝cloudera,或者我們可以添加節點作爲羣集,而不在該特定節點上安裝cloudera ?.

在此先感謝任何人,請提供一些關於上述問題的信息。

+0

需要澄清的第一question- - 您擁有的Hadoop中的一些節點的不同分佈,你想改變這種分配Cloudera的? –

+0

謝謝@JtheRocker, 是如果我在某些節點中有不同的hadoop分佈,我可以將這些分佈更改爲clodera而不會丟失數據嗎? – Prabhu

回答

1

Cloudera Manual

可以從CDH3 (或任何Apache的Hadoop)簇連接到CDH4簇通過 使用工具遷移數據拷貝出的數據並行地,如DistCp使用工具 以CDH4提供。

Other sources

關於你提到的第二個問題,

manual page

重要

還是那句話: 在開始之前,你需要決定:

作爲一般規則: NamerNode和JobTracker運行於除非 羣集很大(超過幾十個節點),並且主機(或主機)不應該 運行輔助NameNode(如果使用),DataNode或TaskTracker 服務。在大型集羣中,特別重要的是, Secondary NameNode(如果使用)在NamerNode的獨立機器上運行。羣集中除主控主機之外的每個節點都應該運行DataNode和TaskTracker服務。

此外,如果您使用Cloudera Manager,它將自動執行所有必要的設置,即在羣集中的節點上安裝必要的選定組件。

題外話:我有一個壞習慣,沒有正確引用手冊。有它看清楚,它回答了我們所有的問題

+0

Thanks @SuvP,我可以通過cloudera將我的機器作爲羣集添加新機器嗎? 其實新鮮的機器沒有cdh。 – Prabhu

2

答案的問題 -

。如果你想從現有的Apache分佈遷移到鼎暉,你可以follow this link

摘錄:

概述

遷移過程確實需要的Linux 系統管理的適度理解。你應該在開始之前制定計劃。您 將重新啓動一些關鍵服務,例如名稱節點和 作業跟蹤器,因此有些停機時間是必需的。考慮到羣集上的 數據的價值,您還需要小心地採取任何關鍵任務數據集以及名稱節點 元數據的備份。

如果您從基於Apache Software Foundation版本 (早於0.20)的 版本的Hadoop升級,則備份數據最爲重要。

.CDH二進制需要安裝和使用在所有的節點配置成具有基於CDH簇啓動和運行。

+1

謝謝@JtheRocker,我會檢查... – Prabhu

0

回答第二個問題, 可以直接添加,只需安裝一些前提條件,如openssh-clients和firewalls以及java。

這些機器(現有節點,新的三個節點)應該接受相同的用戶名和密碼(或),你應該使用密碼的ssh設置爲這些主機..

你應該連接到互聯網,同時加入的節點。

我希望它會幫助你:)