我有一個4節點集羣,並且正在探索Cloudera,以便完成像Spark,Hive,Impala等TPCH基準測試。我的集羣節點是合理的,具有4個核心的CPU,8GB RAM和250GB磁盤。安裝和部署CDH
我想正確安裝CDH 5,通過Web UI,一切都運行良好,我能夠安裝幾個工具,我總是維護安裝程序建議的默認角色/工具分配,問題是,當instalation結束時,我總是會遇到一些健康問題和警告!
我認爲它與RAM和大部分警告有關的主要部分是消除內存節點組件如堆大小和其他,女巫導致出現警告「內存閾值overcommited」的出現,我不dont知道如果它更好地忽略這些提示或跟隨。即使所有不良健康警告,我應用了所有更改,並將我的數據加載到配置單元以開始執行某些查詢,但在某些情況下,我只是在啓動地圖縮減作業時纔會被刪除!
任何人都可以提供一些可能的解決方案/建議嗎? 在此先感謝和抱歉的長期職位!
8 * 4 = 32GB的內存在事物的宏偉方案中真的很小......特別是對於Spark –
您應該爲非核心服務添加一個LARGE節點 - Cloudera Manager,其監控服務Hue ,Oozie *(由於某些愚蠢的原因而需要Hue)*等等等等 - 以及Spark網關,Spark歷史服務,YARN JobHistory等等 - 以及Impala Catalog等等。 etc. –
請注意,在負載較重的情況下,Hive Metastore服務可能需要8 GB RAM。 HiveServer2也一樣。如果您真的想要進行壓力測試(這仍然適用於「小數據」),那麼每個Impala守護進程都是相同的。 –