在EBS上設置Amazon Web服務上的Hadoop集羣

我想知道如何通過AWS來設置hadoop集羣（比如5個節點）。我知道如何在EC2上創建羣集，但我不知道如何面對以下挑戰。在EBS上設置Amazon Web服務上的Hadoop集羣

任何幫助將是偉大的！

根據您的要求，這些建議會改變。但是，假設有2個主設備和3個工作站設置，則可以將r3實例用於主節點，因爲它們對內存密集型應用程序進行了優化，併爲工作節點使用d2實例。 d2實例有多個本地磁盤，因此可以承受一些磁盤故障，同時仍然保持數據安全。
爲了回答您的具體問題，

治療的Hadoop機器任何Linux應用程序。如果你的一般centOS點實例丟失會發生什麼？ Hwnce通常建議使用保留實例。
Hadoop通常通過維護3個副本並以128或256 MB塊的形式在工作節點上分發它們來存儲數據。因此，您將有3TB數據存儲在三個工作節點上。顯然，在計算空間需求時，您必須考慮一些開銷。

2017-07-28 22:20:00 proutray

您可以使用AWS的EMR服務 - 它專門設計用於EC2實例之上的Hadoop集羣。它完全管理，它預先包裝了您在Hadoop中需要的所有服務。

關於你的問題：

有Hadoop中三種主要類型的節點：

主 - 單個節點，不需要發現它。

核心 - 即處理任務的節點，但不具有的HDFS

如果任務節點的任何一部分 - 處理任務，並有HDFS

任務的部分節點丟失（如果它們是現場實例），羣集將繼續工作，沒有問題。

關於存儲，在EMR默認複製因子如下：

1簇<四個節點

2簇<十個節點

3對於所有其他集羣

2017-07-29 04:46:17 ronhash

回答