我正在處理大量的小文件,並使用combineFileInputFormat來避免執行大量的地圖任務。它工作正常,但問題是,我需要有每個文件的ID,這樣所有的文件的ID是1.我怎麼能保持文件的ID?我必須添加一些代碼到我的combineFileInputFormat?如何在hadoop中爲java使用combineFileInputFormat?
0
A
回答
0
的CombineFileRecordReader
配置當前文件是處理的配置屬性,所以你應該能夠從map.input.file
屬性獲取當前文件名:
@Override
protected void map(Longwritable key, Text value, Context context) {
String filePath = context.getConfiguration().get("map.input.file");
}
如果您在使用舊的API( mapred),屬性名稱是相同的。
+0
謝謝,但我想我的文件名在我的地圖功能。我可以訪問你提到的方法從地圖?或者我可以在Map中做到這一點? – user1878364
+0
上面的代碼片段是一個地圖方法 - 只需添加你的代碼! –
相關問題
- 1. 在Hadoop中使用CombineFileInputFormat
- 2. 如何在Hadoop中使用CombineFileInputFormat?
- 3. CombineFileInputFormat的實現Hadoop 0.20.205
- 4. 在Java中使用Hadoop
- 5. 在combineFileInputFormat中可伸縮不起作用
- 6. 如何在java中使用Storm Bolt中的Hadoop FS API
- 7. CombineFileInputFormat始終只啓動一個映射Hadoop 1.2.1
- 8. 如何使用Hadoop中
- 9. 對圖像(或BLOB)使用CombineFileInputFormat?
- 10. 如何在Hadoop Mapreduce中使用MultithreadedMapper類?
- 11. 如何在hadoop中使用位串?
- 12. 如何在Hadoop 0.20中使用MultipleoutputFormai?
- 13. 如何使用Hadoop InputFormats在Apache Spark中?
- 14. 如何在hadoop中使用JobControl
- 15. 如何爲Hadoop打開Java程序
- 16. 如何爲java hadoop設置-file選項?
- 17. 如何使用Hadoop Streaming在本地Hadoop集羣中運行MRJob?
- 18. 如何在Java中爲Hadoop作業定義ParquetOutputFormat的parquet模式?
- 19. 如何在Hadoop中爲FairScheduler使用自定義池分配?
- 20. 如何在Hadoop中
- 21. 如何在Hadoop中
- 22. 你如何使用MapReduce/Hadoop?
- 23. 如何在使用Hadoop時解決NoClassDefFoundError?
- 24. 如何在Oozie上使用hadoop streaming cmdenv?
- 25. hadoop - 存放在hadoop中的輸入/輸出文件以及如何在hadoop中執行java文件?
- 26. 在Hadoop中使用DBOutputFormat
- 27. 在Pyspark中使用Hadoop InputFormat
- 28. 在Hadoop中使用加密
- 29. 在Hadoop中使用RecordReader
- 30. 在Hadoop中使用MapFileOutputFormat
你想要找出每個Map輸入來自哪裏的文件名嗎? –
@ChrisWhite例如我有100個文件,我需要他們的名字。但是當我使用CombineInputFormat時,我無法獲取文件名。 – user1878364