2017-07-28 128 views
0

我想知道如何通過AWS來設置hadoop集羣(比如5個節點)。我知道如何在EC2上創建羣集,但我不知道如何面對以下挑戰。在EBS上設置Amazon Web服務上的Hadoop集羣

  1. 如果我失去現場實例會發生什麼。我如何保持集羣的行進。
  2. 我正在處理一些大小爲1TB的數據集。是否有可能相應地設置EBS。在這種情況下如何訪問HDFS。

任何幫助將是偉大的!

回答

0

根據您的要求,這些建議會改變。但是,假設有2個主設備和3個工作站設置,則可以將r3實例用於主節點,因爲它們對內存密集型應用程序進行了優化,併爲工作節點使用d2實例。 d2實例有多個本地磁盤,因此可以承受一些磁盤故障,同時仍然保持數據安全。
爲了回答您的具體問題,

  1. 治療的Hadoop機器任何Linux應用程序。如果你的一般centOS點實例丟失會發生什麼? Hwnce通常建議使用保留實例。
  2. Hadoop通常通過維護3個副本並以128或256 MB塊的形式在工作節點上分發它們來存儲數據。因此,您將有3TB數據存儲在三個工作節點上。顯然,在計算空間需求時,您必須考慮一些開銷。
0

您可以使用AWS的EMR服務 - 它專門設計用於EC2實例之上的Hadoop集羣。 它完全管理,它預先包裝了您在Hadoop中需要的所有服務。

關於你的問題:

有Hadoop中三種主要類型的節點:

- 單個節點,不需要發現它。

核心 - 即處理任務的節點,但不具有的HDFS

如果任務節點的任何一部分 - 處理任務,並有HDFS

任務的部分節點丟失(如果它們是現場實例),羣集將繼續工作,沒有問題。

關於存儲,在EMR默認複製因子如下:

1簇<四個節點

2簇<十個節點

3對於所有其他集羣

但你可以改變它 - http://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-hdfs-config.html