我正在使用textFileStream將數據導入到Spark Streaming中。但數據只能處理一批。我的第一個問題是,它不是從文件中傳輸每一條記錄。textFileStream中的混淆
根據https://docs.databricks.com/spark/latest/rdd-streaming/debugging-streaming-applications.htmlFor TextFileStream, since files are input, the # of input events is always 0. In such cases, you can look at the 「Completed Batches」 section in the notebook to figure out how to find more information.
其次,我想知道有多少記錄被火花Engine.For例如處理,如果我流的1GB contanining 100K數據記錄的文件,我想知道如何很多Spark Streaming執行它。
任何人都可以請分享他們的想法或一些有用的鏈接。任何幫助,將不勝感激。
謝謝。
星火版本:2.0.1 資料擷取來自Amazon S3通過textFileStream