我對AWS上的CDH部署有些疑問。我閱讀了參考架構文檔和我在Cloudera Engineering Blog上找到的其他資料,但我需要更多關於它的建議。構建AWS上的Cloudera CDH羣集:實例和存儲
1)CDH部署是否僅適用於某種實例,或者我可以將它部署在所有AWS實例類型上?
2)假設我想創建一個24x7活動的集羣。對於長期運行的集羣,我知道最好有一個基於本地存儲實例的集羣。如果我們考慮一組2PB,我認爲d2.8xlarge應該是datanode的最佳選擇。關於主節點: - 如果我只想部署3個主節點,是否最好將它們作爲本地存儲實例,或者由於EBS連接實例能夠快速響應可能的主節點故障? - 有關於主節點實例類型(EBS或本地存儲)的最佳做法嗎?關於數據節點: - 如果數據節點出現故障,CDH有一些自動化機制可自動啓動新實例並將其連接到羣集,以便在沒有停機的情況下恢復羣集?我們是否需要從頭開始創建一個腳本來完成這件事?關於邊緣節點: - 是否存在有關實例類型(EBS或本地存儲)的最佳做法? 3)如果我想在S3上做一個羣集備份: - 當我從CDH到S3做一個distcp時,我可以直接在Glacier上移動數據而不是在正常的S3上嗎?如果我對數據應用了一些壓縮(例如snappy,gzip等),並且我對S3執行distcp: - S3上的空間是否相同,或者distcp命令是否爲複製解壓縮數據?
如果我有一個基於EBS連接實例的集羣: - 是否可以對磁盤進行快照並重新附加具有從快照重建的EBS磁盤的數據節點?
4)如果我將數據節點部署爲r4.8xlarge並且需要更多的功率,是否可以將集羣從r4.8xlarge放大到r4.16xlarge?在幾分鐘內連接和分離磁盤?
非常感謝您的澄清,我希望我的疑惑也能幫助其他用戶。