我想知道如何通過AWS來設置hadoop集羣(比如5個節點)。我知道如何在EC2上創建羣集,但我不知道如何面對以下挑戰。在EBS上設置Amazon Web服務上的Hadoop集羣
- 如果我失去現場實例會發生什麼。我如何保持集羣的行進。
- 我正在處理一些大小爲1TB的數據集。是否有可能相應地設置EBS。在這種情況下如何訪問HDFS。
任何幫助將是偉大的!
我想知道如何通過AWS來設置hadoop集羣(比如5個節點)。我知道如何在EC2上創建羣集,但我不知道如何面對以下挑戰。在EBS上設置Amazon Web服務上的Hadoop集羣
任何幫助將是偉大的!
根據您的要求,這些建議會改變。但是,假設有2個主設備和3個工作站設置,則可以將r3實例用於主節點,因爲它們對內存密集型應用程序進行了優化,併爲工作節點使用d2實例。 d2實例有多個本地磁盤,因此可以承受一些磁盤故障,同時仍然保持數據安全。
爲了回答您的具體問題,
您可以使用AWS的EMR服務 - 它專門設計用於EC2實例之上的Hadoop集羣。 它完全管理,它預先包裝了您在Hadoop中需要的所有服務。
關於你的問題:
有Hadoop中三種主要類型的節點:
主 - 單個節點,不需要發現它。
核心 - 即處理任務的節點,但不具有的HDFS
如果任務節點的任何一部分 - 處理任務,並有HDFS
任務的部分節點丟失(如果它們是現場實例),羣集將繼續工作,沒有問題。
關於存儲,在EMR默認複製因子如下:
1簇<四個節點
2簇<十個節點
3對於所有其他集羣
但你可以改變它 - http://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-hdfs-config.html