我知道在Hadoop中,大輸入文件分割成小文件,並通過映射函數在不同節點中處理。我也知道我們可以定製InputSplit
。我想知道的是,如果InputSplit
可以進行以下類型的自定義:Hadoop中的輸入分割定製
我有一個大的輸入文件進入Hadoop,我想要一個文件的子集,即文件中的一組行跟隨每個輸入分割。我的意思是大文件的所有數據塊都應該包含這些行,不管文件分裂的方式如何。
爲了使我的問題更加清晰,東西一樣,如果我們需要比較與該文件內容的其餘部分輸入文件的一部分(比如A
),在這種情況下,所有InputSplit
S中的要去map
功能需求有這A
部分與它進行比較。 請在此引導我。
這與OP有關輸入分割和文件開始處常見數據的問題有何關係? – harpun 2013-05-02 15:27:33
我不確定OP的MR系統知識。想象一下,根據OP – 2013-05-03 00:56:37
的任何反饋,我們將開始真正的基礎並從那裏開始構建。感謝以示例形式給出的解釋MR。但是,我一直在尋找有關harpun提供了概述的InputSplit問題。 – 2013-05-03 03:00:17