Hadoop DFS的CopyFromLocal命令如何工作？

我對Hadoop分佈式文件系統的設置以及我的特定設置如何影響它有點困惑。我使用本指南在Virtual Box上使用兩臺虛擬機來設置它http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-multi-node-cluster/，並運行該示例（只是使用txt文件輸入的簡單字數）。到目前爲止，我知道datanode管理和檢索節點上的文件，而tasktracker分析數據。Hadoop DFS的CopyFromLocal命令如何工作？

1）當你使用命令-copyFromLocal，你是複製文件/輸入到HDFS？ Hadoop是否知道如何劃分從站/主站之間的信息，它是如何實現的？

2）在上面鏈接指南中概述的配置中，技術上有兩個從站（主站作爲主站和從站）？這是常見的還是主機通常只給jobtracker/namenode任務？

1）

有在的Javadoc org.apache.hadoop.hdfs.DFSClient.DFSOutputStream

2）有些生產系統將被配置成使所述主它自己的專用節點（允許的最大可能的內存分配，並避免CPU爭一些更多的信息），但是如果您擁有較小的羣集，則可以接受包含名稱節點和數據節點的節點

2012-07-03 23:16:00

這裏有很多問題要問。

問題2）

有兩臺機器
這些機器配置爲HDFS和Map-減少。
HDFS配置需要的Namenode（主）和的Datanode（從）
地圖，減少需要的JobTracker（主）和的TaskTracker（從）
只有一個NameNode和JobTracker的配置，但你可以有一個Datanode和的TaskTracker服務這兩臺機器。它不是作爲主人和奴隸的機器。這只是服務。您也可以在包含主服務的計算機上安裝從服務。這對簡單的開發設置很有用。在大規模部署中，您將主服務專用於分離機器。

問題1第2部分）

問題1第1部分）

2012-07-03 22:59:52 pyfunc

回答