如何創建跨越兩個文件的hadoop輸入拆分？

我的數據輸入文件全部具有相同的長度，但其中的記錄可能跨越兩個文件（從第一個文件的末尾開始，在第二個開始時結束）。如何創建跨越兩個文件的hadoop輸入拆分？

是否可以創建一個允許我跨越這兩個文件的輸入分割？

創建一組全新的文件以便記錄不會跨越多個文件更好嗎？

我肯定會確保您的記錄不會跨越多個文件：理論上，您可以編寫自己的輸入格式來處理此問題，但開銷可能相當大，因爲您必須確保那你知道哪些文件屬於一起 - 承擔jobtracker和名稱節點爲你履行的部分責任。

你應該可以自由地說出的JobTracker /名稱節點出輸入的，而對於處理是完全並行的，你不想再要採取回一些控制：恕我直言它首先會部分地挫敗使用haoop的對象。

2012-10-29 15:27:26 davek

謝謝davek，這個解釋對我很有意義。我將嘗試生成新文件，我不需要擔心跨越文件的記錄。 – user1750587

回答