2017-03-12 186 views
0

我有一個4節點集羣,並且正在探索Cloudera,以便完成像Spark,Hive,Impala等TPCH基準測試。我的集羣節點是合理的,具有4個核心的CPU,8GB RAM和250GB磁盤。安裝和部署CDH

我想正確安裝CDH 5,通過Web UI,一切都運行良好,我能夠安裝幾個工具,我總是維護安裝程序建議的默認角色/工具分配,問題是,當instalation結束時,我總是會遇到一些健康問題和警告!

我認爲它與RAM和大部分警告有關的主要部分是消除內存節點組件如堆大小和其他,女巫導致出現警告「內存閾值overcommited」的出現,我不dont知道如果它更好地忽略這些提示或跟隨。即使所有不良健康警告,我應用了所有更改,並將我的數據加載到配置單元以開始執行某些查詢,但在某些情況下,我只是在啓動地圖縮減作業時纔會被刪除!

任何人都可以提供一些可能的解決方案/建議嗎? 在此先感謝和抱歉的長期職位!

+0

8 * 4 = 32GB的內存在事物的宏偉方案中真的很小......特別是對於Spark –

+0

您應該爲非核心服務添加一個LARGE節點 - Cloudera Manager,其監控服務Hue ,Oozie *(由於某些愚蠢的原因而需要Hue)*等等等等 - 以及Spark網關,Spark歷史服務,YARN JobHistory等等 - 以及Impala Catalog等等。 etc. –

+0

請注意,在負載較重的情況下,Hive Metastore服務可能需要8 GB RAM。 HiveServer2也一樣。如果您真的想要進行壓力測試(這仍然適用於「小數據」),那麼每個Impala守護進程都是相同的。 –

回答

0

通常可以忽略內存過量使用錯誤,因爲大多數Java應用程序使用其實際堆大小的一小部分。然而,正如cricket_007和Samson Scharfrichter注意到您的設置非常小。

http://blog.cloudera.com/blog/2013/08/how-to-select-the-right-hardware-for-your-new-hadoop-cluster/建議:

下面是數據管理部/的TaskTracker在 平衡Hadoop集羣的推薦規格:

12-24 1-4TB硬盤的JBOD(簡單磁盤捆綁)配置 2個四核/十六核/八核CPU,運行至少2-2.5GHz 64-512GB的RAM 綁定的千兆以太網或萬兆以太網(密度越大,存儲密度越高,需要的網絡吞吐量就越高)

你的工作陷入困境的最可能原因是缺乏核心。查看YARN Web UI並查看您有多少個可用的核心。如果您的人數較少(5歲以下),您的工作將缺少運行任何工作量所需的插槽。對於您的羣集,您可以允許每個節點有3個核心給您至少12個核心。 V核不是CPU,您應該將v核視爲映射器/縮減器任務或應用程序主控的插槽。每個vcore至少需要512MB內存(您必須考慮JVM)。

請參閱https://blog.cloudera.com/blog/2015/10/untangling-apache-hadoop-yarn-part-2/以更全面地瞭解v核心和基本設置。

其他顯而易見的事情是關掉你不需要的服務,並縮小你需要的堆大小以釋放實際工作負載的內存。