安裝和部署CDH

我有一個4節點集羣，並且正在探索Cloudera，以便完成像Spark，Hive，Impala等TPCH基準測試。我的集羣節點是合理的，具有4個核心的CPU，8GB RAM和250GB磁盤。安裝和部署CDH

我想正確安裝CDH 5，通過Web UI，一切都運行良好，我能夠安裝幾個工具，我總是維護安裝程序建議的默認角色/工具分配，問題是，當instalation結束時，我總是會遇到一些健康問題和警告！

我認爲它與RAM和大部分警告有關的主要部分是消除內存節點組件如堆大小和其他，女巫導致出現警告「內存閾值overcommited」的出現，我不dont知道如果它更好地忽略這些提示或跟隨。即使所有不良健康警告，我應用了所有更改，並將我的數據加載到配置單元以開始執行某些查詢，但在某些情況下，我只是在啓動地圖縮減作業時纔會被刪除！

任何人都可以提供一些可能的解決方案/建議嗎？在此先感謝和抱歉的長期職位！

來源

2017-03-12 Mário Rodrigues

8 * 4 = 32GB的內存在事物的宏偉方案中真的很小......特別是對於Spark –

您應該爲非核心服務添加一個LARGE節點 - Cloudera Manager，其監控服務Hue ，Oozie *（由於某些愚蠢的原因而需要Hue）*等等等等 - 以及Spark網關，Spark歷史服務，YARN JobHistory等等 - 以及Impala Catalog等等。 etc. –

請注意，在負載較重的情況下，Hive Metastore服務可能需要8 GB RAM。 HiveServer2也一樣。如果您真的想要進行壓力測試（這仍然適用於「小數據」），那麼每個Impala守護進程都是相同的。 –

通常可以忽略內存過量使用錯誤，因爲大多數Java應用程序使用其實際堆大小的一小部分。然而，正如cricket_007和Samson Scharfrichter注意到您的設置非常小。

http://blog.cloudera.com/blog/2013/08/how-to-select-the-right-hardware-for-your-new-hadoop-cluster/建議：

下面是數據管理部/的TaskTracker在平衡Hadoop集羣的推薦規格：

12-24 1-4TB硬盤的JBOD（簡單磁盤捆綁）配置 2個四核/十六核/八核CPU，運行至少2-2.5GHz 64-512GB的RAM 綁定的千兆以太網或萬兆以太網（密度越大，存儲密度越高，需要的網絡吞吐量就越高）

你的工作陷入困境的最可能原因是缺乏核心。查看YARN Web UI並查看您有多少個可用的核心。如果您的人數較少（5歲以下），您的工作將缺少運行任何工作量所需的插槽。對於您的羣集，您可以允許每個節點有3個核心給您至少12個核心。 V核不是CPU，您應該將v核視爲映射器/縮減器任務或應用程序主控的插槽。每個vcore至少需要512MB內存（您必須考慮JVM）。

請參閱https://blog.cloudera.com/blog/2015/10/untangling-apache-hadoop-yarn-part-2/以更全面地瞭解v核心和基本設置。

其他顯而易見的事情是關掉你不需要的服務，並縮小你需要的堆大小以釋放實際工作負載的內存。

來源

2017-05-11 21:52:08 tk421

安裝和部署CDH

回答

相關問題