我使用的火花流是火花流可工作在「CP」和「MV」
我的程序連續讀取從一個Hadoop文件夾流。問題是如果我複製到我的Hadoop文件夾(Hadoop的FS -copyFromLocal )火花工作開始,但如果我確實移動(hadoop fs -mv/hadoopsourcePath/*/destinationPath /),它不起作用。
這是火花流的限制嗎?
我有火花流相關的另一個問題是: Can spark streaming pick specific files
我使用的火花流是火花流可工作在「CP」和「MV」
我的程序連續讀取從一個Hadoop文件夾流。問題是如果我複製到我的Hadoop文件夾(Hadoop的FS -copyFromLocal )火花工作開始,但如果我確實移動(hadoop fs -mv/hadoopsourcePath/*/destinationPath /),它不起作用。
這是火花流的限制嗎?
我有火花流相關的另一個問題是: Can spark streaming pick specific files
明白了火花1.5 ..它的作品,但它僅挑選其時間戳等於當前時間戳的文件。
對於實例
臨時文件夾:文件f.txt(時間戳T1:當文件被創建)
星火輸入文件夾:/輸入
當你做一個MV(Hadoop的FS - mv /temp/f.txt/input):Spark不會選擇
但是在移動之後如果你改變移動文件的時間戳,spark會選擇。
不得不檢查火花的源代碼。