如何在處理自定義文件格式時對InputFormat進行編碼？

雖然這是一個更爲通用的問題，但我無法在這裏找到有關特定情況的詳細幫助。我有大量的大尺寸文件（平均每個2GB）。這些文件包含以自定義格式編碼的條目，必須由另一個庫讀取才能解析爲單個條目。現在我希望使用MapReduce解析這些文件，但是默認的InputFormat和InputSplit逐行處理文件，這不是我想要的。似乎我必須指定如何拆分文件（每個拆分應包含一些條目數）以及如何生成記錄（每個條目應映射到鍵/值>對）。如何在處理自定義文件格式時對InputFormat進行編碼？

爲了達到這個目的，我應該重寫哪些方法？

來源

2013-07-23 yongtw123

你可以舉一個自定義格式的例子嗎？ – rath

http://wiki.apache.org/hadoop/SequenceFile – banjara

問題在於我不知道文件格式如何;我只能依靠外部庫來解析它們。 – yongtw123

這可以通過此輸入文件 1.您應該設置什麼將是一個分裂 1.1可以設置什麼是線與線月底開始的開始和結束編寫自定義的InputFormat來完成2.用於此分割的記錄閱讀器讀取分割內的記錄。

以下是讀取XML的示例。這應該讓你開始。 XML File Processing

來源

2015-02-11 02:48:21 shiva

如何在處理自定義文件格式時對InputFormat進行編碼？

回答

相關問題