我已經通過this stackoverflow的問題,根據答案它創建一個DStream
與批間隔只有一個RDD
。DStream的RDD是否一次性爲整批間隔創建整個數據?
例如:
我的批次間隔是1分鐘和Spark流作業從卡夫卡主題消耗數據。
我的問題是,DStream中可用的RDD是否在最後一分鐘內提取/包含整個數據?我們需要設置什麼標準或選項來提取最後一分鐘創建的所有數據?
如果我有一個帶有3個分區的卡夫卡主題,並且所有3個分區都包含最後一分鐘的數據,那麼DStream是否將包含所有卡夫卡主題分區中最後一分鐘創建的所有數據?
更新:
在這種情況下DSTREAM包含不止一個RDD?