我使用Hadoop流,我啓動腳本如下:Hadoop的流單映射
../hadoop/bin/hadoop jar ../hadoop/contrib/streaming/hadoop-streaming-1.0.4.jar \
-mapper ../tests/mapper.php \
-reducer ../tests/reducer.php \
-input data \
-output out
「數據」 是2.5 GB的txt文件。
但是在ps axf我只能看到一個映射器。我試着用-Dmapred.map.tasks = 10,但結果是一樣的 - 單個映射器。
我該如何讓hadoop分割我的輸入文件並啓動幾個映射器進程?
你的2.5 GB的txt文件,它是gzip壓縮?你是否在hadoop的僞實例上運行(並且只有一個map和reduce插槽)? –
文件沒有gzipped,但是,我沒有運行任何hadoop惡魔,也沒有使用HDFS ... – Nick
試圖在具有一個節點和相同結果的「真正」羣集 - 單映射程序 – Nick