4
我需要通過使用spark流從HDFS direcory流式傳輸數據。遞歸監視一個HDFS目錄spark streaming
JavaDStream<String> lines = ssc.textFileStream("hdfs://ip:8020/directory");
上面並在監控新文件的HDFS目錄一個不錯的工作,但也僅限於相同一級目錄,它一點兒也不顯示器嵌套的目錄。
我來翻過以下職位有提到關於添加的深度參數這個API
https://mail-archives.apache.org/mod_mbox/spark-reviews/201502.mbox/%[email protected]%3E
https://github.com/apache/spark/pull/2765
的問題是,在火花版本1.6.1(測試)這個參數不目前,因此我不能使用它,我不想改變原來的源8her
JavaDStream<String> lines = ssc.textFileStream("hdfs://ip:8020/*/*/*/");
一些帖子在堆棧溢出中提到要使用上面的語法,那不起作用。
我錯過了什麼?
不是它這樣http://stackoverflow.com/questions/29401809/reading-files-from-apache-spark-textfilestream? –
nope,我的要求是遞歸處理目錄,因爲子目錄的編號和名稱會不斷變化 – duck
凹凸。我也有這個問題和通配符選項,使用*在HDFS目錄中讀取,不起作用。 – kfkhalili