我使用MultipleOutputs寫入三個文件,即名稱,attrib,其他和使用6 redcuers。 我在輸出目錄獲得這些文件:使用MultipleOutputs時Hadoop中的文件名是如何的?
attrib-r-00003 name-r-00004 part-r-00000 part-r-00002 part-r-00004 _SUCCESS
_logs other-r-00001 part-r-00001 part-r-00003 part-r-00005
我的問題是,如何將這些文件命名(如爲什麼是-R-0003追加到ATTRIB文件,難道是任務0003編譯這個文件?)。我目前正在僞模式下運行Hadoop,在一個真正的集羣上是否需要合併文件(即,attrib是否具有diff異或文件)?另外,有沒有一種方法可以從我的輸出文件名中刪除-r-xxxxx?
P.S我對Hadoop的瞭解相當有限。