我正在尋找能的工具文件:DIR新文件尋找一種方式來連續處理寫入HDFS
- 監控HDFS和處理它們,因爲它們出現。
- 它還應該處理作業/應用程序開始工作前目錄中的文件。
- 它應該有檢查點在重新啓動的情況下從其離開的地方繼續。
我看着apache spark:它可以讀取新添加的文件,並且可以處理重新啓動以便從其剩下的位置繼續。我無法找到一種方法來處理同一作業範圍內的舊文件(所以只有1和3)。
我看着apache flink:它處理舊文件和新文件。但是,一旦作業重新啓動,它將再次開始處理它們(1和2)。
這是一個應該很常見的用例。我在spark/flink中錯過了什麼使它成爲可能嗎?有沒有其他工具可以在這裏使用?
Didi你認爲Apache NiFi?啊,也許你更喜歡從頭開始手工編碼所有東西...... –