2011-03-31 132 views
0

我已經在Ubuntu 10.04安裝Hadoop single-node cluster 0.20.2和運行使用教程的我在這個網站中找到的材料的示例排序例如:運行在Hadoop(單節點集羣)

http://www.dscripts.net/wiki/setup-hadoop-ubuntu-single-node

現在我試圖在Hadoop上運行Sort example。它需要Sequential文件作爲輸入。任何人都可以請help me running the Sort example? (或者給我一些關於如何生成順序文件作爲輸入的信息)。

預先感謝您.. ;-)

回答

0

看看在RandomWriter例子。這是一項使用隨機數據輸出序列文件的工作。關鍵是指定輸出格式的job.setOutputFormat(SequenceFileOutputFormat.class)行。

+0

非常感謝!我會試試這個,讓你知道;) – 2011-04-05 13:06:58

1

Running Sort Benchmark

使用的排序例爲基準,生成10GB使用RandomWriter隨機數據/節點。然後使用排序示例對數據進行排序。這提供了一種根據羣集大小進行縮放的排序基準。默認情況下,排序示例使用1.0 *容量來減少數量,根據您的羣集,您可能會在1.75 *容量下看到更好的結果。

的命令有:

$> bin/hadoop jar hadoop-*-examples.jar randomwriter /path/randFiles 
$> bin/hadoop jar hadoop-*-examples.jar sort /path/randFiles /path/resultFile 

第一命令將生成在蘭特目錄中的未排序的數據。第二個命令將讀取數據,對其進行排序,然後寫入rand-sort目錄。