2013-03-27 108 views
0

在我們的系統,我們有針對特定HDFS目錄中運行多個豬腳本。豬腳本可以在不同的時間運行,並定期運行。不要處理已處理的文件?

有沒有辦法在對多個執行相同的目錄指向一個豬腳本,但要確保它只是處理它以前沒有見過的新文件?

我正在考慮爲我的加載程序使用自定義PathFilter,但我想我會問是否有辦法做到這一點,而不是我重新發明輪子(!)。

回答

0

您是否嘗試過移動文件的處理後的目錄當處理完畢。

+0

@shazin嗨 - 沒有,因爲我不想要移動的文件中的所有腳本豬有過的變化來處理它。我所希望的是,每個豬腳本只會處理以前沒有見過的文件,使它們獨立。 – 2013-03-27 11:30:23

+0

更改您的豬腳本以根據其處理從不同目錄中選取文件。像從豬1目錄豬腳本1個意願拾取和處理移動到從其豬腳本2將處理並移動到豬3目錄等等豬2目錄之後。這樣你可以獨立地分離和處理文件。 – shazin 2013-03-27 11:34:59