2016-06-11 19 views
4

我需要通過使用spark流從HDFS direcory流式傳輸數據。遞歸監視一個HDFS目錄spark streaming

JavaDStream<String> lines = ssc.textFileStream("hdfs://ip:8020/directory"); 

上面並在監控新文件的HDFS目錄一個不錯的工作,但也僅限於相同一級目錄,它一點兒也不顯示器嵌套的目錄。

我來翻過以下職位有提到關於添加的深度參數這個API

https://mail-archives.apache.org/mod_mbox/spark-reviews/201502.mbox/%[email protected]%3E

https://github.com/apache/spark/pull/2765

的問題是,在火花版本1.6.1(測試)這個參數不目前,因此我不能使用它,我不想改變原來的源8her

JavaDStream<String> lines = ssc.textFileStream("hdfs://ip:8020/*/*/*/"); 

一些帖子在堆棧溢出中提到要使用上面的語法,那不起作用。

我錯過了什麼?

+0

不是它這樣http://stackoverflow.com/questions/29401809/reading-files-from-apache-spark-textfilestream? –

+0

nope,我的要求是遞歸處理目錄,因爲子目錄的編號和名稱會不斷變化 – duck

+0

凹凸。我也有這個問題和通配符選項,使用*在HDFS目錄中讀取,不起作用。 – kfkhalili

回答