0
我在遠程位置有一個文件夾,而其他一些進程一直在將文件放入其中。如何使用kafka輪詢遠程目錄中的新文件
我正在編寫一個應用程序來下載每個新文件並對其進行處理。
現在我正在下載rsync
的文件,該文件已在上個小時創建並處理。
但我需要一個解決方案,我想將新文件的名稱放到隊列中,然後我的使用者將從隊列中取出名稱,下載文件和進程。
在此解決方案中,我可以運行多個只會在卡夫卡隊列上輪詢的生產者。
我在遠程位置有一個文件夾,而其他一些進程一直在將文件放入其中。如何使用kafka輪詢遠程目錄中的新文件
我正在編寫一個應用程序來下載每個新文件並對其進行處理。
現在我正在下載rsync
的文件,該文件已在上個小時創建並處理。
但我需要一個解決方案,我想將新文件的名稱放到隊列中,然後我的使用者將從隊列中取出名稱,下載文件和進程。
在此解決方案中,我可以運行多個只會在卡夫卡隊列上輪詢的生產者。
您是否考慮過使用Kafka Connect?有一些連接器可以完全滿足你的需求:觀察新文件的目錄,並將其內容記錄直接記錄到卡夫卡。例如:https://github.com/jcustenborder/kafka-connect-spooldir。
或者是一個更簡單的連接器,它只顯示新的/修改過的文件元數據:https://github.com/DataReply/kafka-connect-directory-source