2013-05-15 125 views
0

我開始在Hadoop中嘗試實現Hadoop集羣。我是分佈式系統的新手,所以與術語有點混淆。Hadoop術語映射到硬件

  • namenodes和datanodes是否對應物理硬盤?
  • 如果說我需要一個單一的CPU單元上運行地圖的任務,做我們分配映射任務到各個內核或處理器(多核心),同時設置mapred.tasktracker.map.tasks.maximum標誌
  • 什麼「節點」意味着什麼?處理器或物理磁盤還是內核?

回答

1

首先(在術語前面),我假設你的意思是實例化一個Hadoop集羣而不是實現一個集羣。

  • namenode管理一個或多個datanode。用於阻止ID的文件名索引由名稱節點在內存中維護並定期刷新到磁盤。塊的實際位置由datanodes報告給名稱節點,從該點管理塊的分配,遷移,複製和刪除。
  • datanode管理物理硬盤上塊的存儲。數據節點可以將數據塊分佈在一個或多個物理磁盤上(實際上,我們鼓勵您使用多個物理磁盤而不是單個邏輯磁盤卷)
  • 作業跟蹤器(JT)管理任務分配過程映射或減少)到一個或多個任務跟蹤器(TT)。通常,您將配置羣集中的每個節點(物理機器),以便可以運行的最大數量任務(映射/減少)與核心數量匹配(不是一條堅硬而快速的規則,取決於您希望如何使用羣集)
  • 節點通常意味着物理機器,它通常運行任務跟蹤器(運行map/reduce任務)和數據節點(存儲/提供文件塊)。
+0

感謝您的好消息。 – Nitin

+0

想我可能已經結束了使用這個單詞典型/ ly ... –