我們每天從應用程序獲取新文件,以csv的形式存儲在windows服務器中,例如c:/ program files(x86)/ webapps/apachetomcat /。 csv每個文件有不同的數據,所以有沒有hadoop組件將文件從windows服務器傳輸到hadoop hdfs,我遇到了水槽,卡夫卡,但沒有得到正確的例子,任何人都可以在這裏遮光。將csv日誌文件從windows服務器轉儲到Ubuntu VirtualBox/hadoop/hdfs
因此,每個文件都有單獨的名稱,大小可達10-20mb,每日文件數超過200個文件,一旦文件添加到Windows服務器,flume/kafka應該能夠將這些文件放入hadoop中,從HDFS導入並通過spark處理並移動到HDFS中的另一個文件夾中的處理文件中
請更多詳細信息,文件大小?你希望用這些數據做什麼? –