無法從Spark流中的單個文件讀取流數據

我想從文本文件中讀取流數據，該文件使用Spark流API「textFileStream」連續追加。但無法使用Spark流式傳輸讀取連續數據。如何在Spark中實現它？無法從Spark流中的單個文件讀取流數據

2017-06-02 Dhinesh

這是一個預期的行爲。對於file based sources（如fileStream）：

的文件必須在DataDirectory目錄通過原子移動或重新命名他們到數據目錄中創建。

一旦移動，文件不得更改。所以如果文件被連續追加，新的數據將不會被讀取。

如果你想讀的不斷追加，你必須創建自己的來源，或使用獨立的進程，這將監測的變化，並推動記錄，例如卡夫卡（雖然它是罕見的星火結合與支持附加的文件系統）。

2017-06-02 21:36:12 user6910411

回答