遞歸監視一個HDFS目錄spark streaming

我需要通過使用spark流從HDFS direcory流式傳輸數據。遞歸監視一個HDFS目錄spark streaming

JavaDStream<String> lines = ssc.textFileStream("hdfs://ip:8020/directory");

上面並在監控新文件的HDFS目錄一個不錯的工作，但也僅限於相同一級目錄，它一點兒也不顯示器嵌套的目錄。

我來翻過以下職位有提到關於添加的深度參數這個API

的問題是，在火花版本1.6.1（測試）這個參數不目前，因此我不能使用它，我不想改變原來的源8her

JavaDStream<String> lines = ssc.textFileStream("hdfs://ip:8020/*/*/*/");

一些帖子在堆棧溢出中提到要使用上面的語法，那不起作用。

我錯過了什麼？

2016-06-11 duck

不是它這樣http://stackoverflow.com/questions/29401809/reading-files-from-apache-spark-textfilestream？ –

nope，我的要求是遞歸處理目錄，因爲子目錄的編號和名稱會不斷變化 – duck

凹凸。我也有這個問題和通配符選項，使用*在HDFS目錄中讀取，不起作用。 – kfkhalili

看起來像一個補丁已創建，但從未批准，因爲S3和目錄深度的困難。

2016-10-10 23:41:52

回答