2013-07-23 47 views
1

雖然這是一個更爲通用的問題,但我無法在這裏找到有關特定情況的詳細幫助。我有大量的大尺寸文件(平均每個2GB)。這些文件包含以自定義格式編碼的條目,必須由另一個庫讀取才能解析爲單個條目。現在我希望使用MapReduce解析這些文件,但是默認的InputFormat和InputSplit逐行處理文件,這不是我想要的。似乎我必須指定如何拆分文件(每個拆分應包含一些條目數)以及如何生成記錄(每個條目應映射到鍵/值>對)。如何在處理自定義文件格式時對InputFormat進行編碼?

爲了達到這個目的,我應該重寫哪些方法?

+2

你可以舉一個自定義格式的例子嗎? – rath

+0

http://wiki.apache.org/hadoop/SequenceFile – banjara

+0

問題在於我不知道文件格式如何;我只能依靠外部庫來解析它們。 – yongtw123

回答

0

這可以通過此輸入文件 1.您應該設置什麼將是一個分裂 1.1可以設置什麼是線與線 月底開始的開始和結束編寫自定義的InputFormat來完成2.用於此分割的記錄閱讀器讀取分割內的記錄。

以下是讀取XML的示例。這應該讓你開始。 XML File Processing

相關問題