有沒有辦法控制Hadoop Streaming作業的輸出文件名? 具體而言,我希望我的作業的輸出文件內容和名稱由減速器輸出組織 - 每個文件只包含一個鍵的值,其名稱將是關鍵。如何控制Hadoop流式作業的輸出文件名稱和內容?
更新: 剛剛找到答案 - 使用從MultipleOutputFormat派生的Java類作爲作業輸出格式可以控制輸出文件名。 http://hadoop.apache.org/core/docs/current/api/org/apache/hadoop/mapred/lib/MultipleOutputFormat.html
我還沒有看到這出有什麼樣... 任何人都可以點出了Hadoop的流樣本,使得使用自定義輸出格式的Java類的?
鏈接到新文檔的鏈接已斷開 – 2013-09-16 20:20:56