2013-02-21 36 views
-1

我想問幾個物理機上幾臺虛擬機上的hadoop數據分配問題。我找到了設計分配策略的文件,將文件塊的副本分配給不同的物理機器,並保持每個物理機器的塊號的平衡。所以要確保在一臺物理機器(包含多臺虛擬機)上沒有文件塊副本全部堆疊。hadoop上的分佈式數據分配

我想嘗試執行該文件的工作。我一直堅持如何配置在由多個虛擬機組成的分佈式物理機上均勻分配的文件塊副本。它是用mapreduce算法編碼還是在hdfs安裝中配置?在論文中,他們表示將虛擬節點的位置信息添加到網絡拓撲中。虛擬節點的網絡位置可能會從/ default-rack更改爲/ Phy0。在物理節點的網絡位置下添加一層。

我不知道,如何在hadoop中配置它們?

回答

1

hadoop中的這種配置被稱爲機架感知。

使用core-site.xml中的屬性「topology.script.file.name」配置機架感知。

如果未配置「topology.script.file.name」,則會爲任何ip地址傳遞/ default-rack,即所有節點都放在同一個機架上。在Hadoop中

配置機架意識包括兩個步驟,

  1. 配置核心site.xml中的 「topology.script.file.name」,

    <property>

    <name>topology.script.file.name</name>

    <value>core/rack-awareness.sh</value>

    </property>

  2. 根據需要, 樣品架意識腳本可以在這裏找到落實rack-awareness.sh腳本,

    http://wiki.apache.org/hadoop/topology_rack_awareness_scripts

+0

我怎麼可以跟蹤這些數據,這些文件塊複製均勻地分佈在物理機器上,確保在一臺物理機器上沒有文件塊複本全部堆疊? – nivl 2013-02-22 17:28:55

+0

它確定如果我配置以下機架感知,文件塊副本均勻分佈在物理機上?我想實現的論文是從IEEE獲得的:虛擬雲中的位置感知MapReduce – nivl 2013-02-22 17:33:33