1
我想從文本文件中讀取流數據,該文件使用Spark流API「textFileStream」連續追加。但無法使用Spark流式傳輸讀取連續數據。如何在Spark中實現它?無法從Spark流中的單個文件讀取流數據
我想從文本文件中讀取流數據,該文件使用Spark流API「textFileStream」連續追加。但無法使用Spark流式傳輸讀取連續數據。如何在Spark中實現它?無法從Spark流中的單個文件讀取流數據
這是一個預期的行爲。對於file based sources(如fileStream
):
- 的文件必須在DataDirectory目錄通過原子移動或重新命名他們到數據目錄中創建。
- 一旦移動,文件不得更改。所以如果文件被連續追加,新的數據將不會被讀取。
如果你想讀的不斷追加,你必須創建自己的來源,或使用獨立的進程,這將監測的變化,並推動記錄,例如卡夫卡(雖然它是罕見的星火結合與支持附加的文件系統)。