運行在Hadoop（單節點集羣）

我已經在Ubuntu 10.04安裝Hadoop single-node cluster 0.20.2和運行使用教程的我在這個網站中找到的材料的示例排序例如：運行在Hadoop（單節點集羣）

現在我試圖在Hadoop上運行Sort example。它需要Sequential文件作爲輸入。任何人都可以請help me running the Sort example？（或者給我一些關於如何生成順序文件作爲輸入的信息）。

預先感謝您.. ;-)

2011-03-31 pr_prog_84

看看在RandomWriter例子。這是一項使用隨機數據輸出序列文件的工作。關鍵是指定輸出格式的job.setOutputFormat(SequenceFileOutputFormat.class)行。

2011-04-04 13:13:45

非常感謝！我會試試這個，讓你知道;） – 2011-04-05 13:06:58

使用的排序例爲基準，生成10GB使用RandomWriter隨機數據/節點。然後使用排序示例對數據進行排序。這提供了一種根據羣集大小進行縮放的排序基準。默認情況下，排序示例使用1.0 *容量來減少數量，根據您的羣集，您可能會在1.75 *容量下看到更好的結果。

的命令有：

$> bin/hadoop jar hadoop-*-examples.jar randomwriter /path/randFiles 
$> bin/hadoop jar hadoop-*-examples.jar sort /path/randFiles /path/resultFile

第一命令將生成在蘭特目錄中的未排序的數據。第二個命令將讀取數據，對其進行排序，然後寫入rand-sort目錄。

2011-04-29 00:32:11

回答