2
我的數據輸入文件全部具有相同的長度,但其中的記錄可能跨越兩個文件(從第一個文件的末尾開始,在第二個開始時結束)。如何創建跨越兩個文件的hadoop輸入拆分?
是否可以創建一個允許我跨越這兩個文件的輸入分割?
創建一組全新的文件以便記錄不會跨越多個文件更好嗎?
我的數據輸入文件全部具有相同的長度,但其中的記錄可能跨越兩個文件(從第一個文件的末尾開始,在第二個開始時結束)。如何創建跨越兩個文件的hadoop輸入拆分?
是否可以創建一個允許我跨越這兩個文件的輸入分割?
創建一組全新的文件以便記錄不會跨越多個文件更好嗎?
我肯定會確保您的記錄不會跨越多個文件:理論上,您可以編寫自己的輸入格式來處理此問題,但開銷可能相當大,因爲您必須確保那你知道哪些文件屬於一起 - 承擔jobtracker和名稱節點爲你履行的部分責任。
你應該可以自由地說出的JobTracker /名稱節點出輸入的,而對於處理是完全並行的,你不想再要採取回一些控制:恕我直言它首先會部分地挫敗使用haoop的對象。
謝謝davek,這個解釋對我很有意義。我將嘗試生成新文件,我不需要擔心跨越文件的記錄。 – user1750587