僅使用映射器(Python腳本)並且不使用縮減器,我怎樣才能輸出一個單獨的文件,其中鍵爲文件名,對於每行輸出而不是長輸出文件?在Hadoop流中生成單獨的輸出文件
7
A
回答
1
您可以使用python文件函數寫入本地文件系統的文本文件,或者如果您想使用HDFS,請使用Thrift API。
1
使用流時,可以替換outputFormatClass嗎? 在原生Java實現中,您將擴展MultipleTextOutputFormat類並修改命名輸出文件的方法。然後使用JobConf的setOutputFormat方法將您的實現定義爲新的輸出格式
您應該驗證是否可以在流中使用。我不知道: -/
7
可以使用-inputformat和-outputformat命令行參數來替換input和outputformat類。
如何做到這一點的一個例子可以在dumbo project中找到,它是一個用於編寫流式作業的Python框架。它具有寫入多個文件的功能,並在內部使用其姐妹項目feathers - fm.last.feathers.output.MultipleTextFiles中的類替換輸出格式。
然後reducer需要發出一個元組作爲鍵,元組的第一個組件是指向具有鍵/值對的文件應寫入的目錄的路徑。可能仍然有多個文件,這取決於reducer和應用程序的數量。
我推薦查看dumbo,它具有許多功能,可以更容易在Python中的Hadoop上編寫Map/Reduce程序。
相關問題
- 1. hadoop mapreduce中單獨的輸出文件
- 2. 使用make文件在c中的單獨目錄中生成輸出文件
- 3. 輸出流不生成文件
- 4. 從Hadoop中的映射器生成多個輸出文件MapReduce
- 5. 生成Entitities在單獨的文件夾
- 6. hadoop mapreduce流式傳輸中的多文件輸出
- 7. 生成EXCEL文件輸出在Java中
- 8. 使用Hadoop生成多個輸出文件0.20+
- 9. Hadoop:如何生成自定義減少輸出文件名?
- 10. 在wxpython文本控件中輸出由logging.info生成的輸出
- 11. 使用Hadoop Pig生成多個輸出
- 12. 輸出不是在hadoop中產生的
- 13. SCSS輸出單獨的文件
- 14. Mahout:輸出文件在Hadoop中發生錯誤
- 15. 分割文件清單成單獨的文件輸入元件
- 16. 如何用時間戳生成單獨的測試輸出文件夾?
- 17. hadoop - 存放在hadoop中的輸入/輸出文件以及如何在hadoop中執行java文件?
- 18. 在Python中捲曲並輸出到單獨的文本文件
- 19. hadoop作業輸出文件
- 20. Qt獨立應用程序不生成輸出文件
- 21. Hadoop輸入文件訂單
- 22. 在流式傳輸hadoop程序中獲取輸入文件名
- 23. 如何控制的hadoop的流輸出文件
- 24. Hadoop的流:寫輸出到不同的文件
- 25. 在C#中爲部分類生成單獨的文件
- 26. 在一個視圖中生成兩個單獨的.rb文件
- 27. Hadoop映射器可以在輸出中生成多個鍵嗎?
- 28. 多個輸出文件Hadoop的數據流與Python映射
- 29. Hadoop流媒體與zip輸入文件
- 30. 使用Java的兩個單獨列表生成JSON輸出
在寫入本地文件系統或hdfs時,同時寫入同一文件的多個映射器如何處理? – 2011-10-11 00:58:46
這樣做很糟糕。它與重試任務相沖突,並保證你需要照顧你的工作。 – nkadwa 2013-04-22 14:27:50