2016-05-11 58 views
0

我希望有不同的項目,不同的數據節點兩個集羣(不想之間共享數據節點的兩個項目)如何管理使用一個Cloudera的經理,共享NN&YARN服務器

我可以看到選項Cloudera Manger使用共享cloudera管理器來創建兩個不同的羣集。因此,我可以將單獨的數據節點集羣與早期集羣共享HDFS和Yarn管理器。 Yarn/HDFS主服務必須有兩個獨立的fsimage /編輯日誌和資源管理器(我想我的主節點上的服務器配置將與新集羣數據節點和安裝的客戶端進程共享)。

可能嗎?有沒有人做過之前。表現如何? 我指的是這個文件 - [使用一個CM http://www.cloudera.com/documentation/archive/manager/4-x/4-5-1/Cloudera-Manager-Enterprise-Edition-User-Guide/cmeeug_topic_6.html][ Cloudera的文檔,多集羣]

而且> 可我們設置一些規則HDFS存儲/使用特定的一組數據節點的特定數據集/目錄的只有這麼這種分離可以實現?

在此先感謝。

回答

0

您參考的文檔是如何使用一個cloudera管理器安裝來管理多個獨立羣集。你想要做什麼我不相信是可能的。這不是hadoop設計的工作方式。 Hadoop上的多租戶在CM和CDH的下一個5.7和5.8版本中變得更加容易。如果你確實管理好了,而且我不確定你能做到,那麼表現會很糟糕。

典型的思維過程是儘可能靠近數據運行守護進程(mr,hive,impala)。如果你擔心的是爲不同的客戶端提供不同的datanode,那麼你可以很容易地解決這個問題,而不用試圖以kerberos和哨兵的形式配置具有配額和良好安全性的集羣。你最感興趣的是哪些服務?紗線本身只是一個資源管理器,所以我猜你正在尋找MapReduce和HDFS。你打算做什麼分析?你會想要使用蜂巢或黑斑羚。

+0

僅計劃使用MapReduce和Spark。我只是想將現有的Yarn/HDFS NN服務用於新添加的數據節點,這樣我們就不必投資新的2-3個服務器節點(NN,SNN,YARN RM,Edge節點等)支持活動將會順利進行。現有項目正在全部利用所有資源RAM/CPU。因此只是想檢查是否有可能避免與已經過載的集羣共享負載數據節點(現有數據節點上的CPU和RAM利用率爲90%,因此具有單獨的處理流程如果可能,使用單獨的DN)。 – Yogesh

+0

我們是否也可以爲HDFS設置一些規則來存儲/使用特定數據/目錄集的特定數據節點,以便實現分離? – Yogesh