通常情況下,Hadoop示例定義瞭如何爲一個文件或多個文件進行字數統計,字數統計的結果將來自整個集合!hadoop,字段數在段落
我想做wordcount爲每個段落和存儲在像paragh(i)_wordcnt.txt分開的文件。
該怎麼辦? (這個問題是整個集映射器運行和減速機終於收集輸出
我可以做這樣的事情,如果我達到一個特定的標記寫入結果 !) 說,如果filecontent:
para1
...
para2
...
para3
...
能我喜歡看到Para1的wordcount的寫結果?或者其他的方式寫每對在單獨的文件怎麼辦這樣的序列
loop:
file(i)(parai)->Mapper->Reducer->multipleOutput(output-file(i))->writetofile(i);
i++;
goto loop;