火花流中是否還有數據保存排序後的dstream中的多個微批次的數據,其中流是使用時間戳排序的? (假設是單調到達的數據) 任何人都可以提出如何在迭代中保存數據的建議,其中每個迭代都是在JavaDStream中處理的RDD?在Spark Streaming中使用Java對有序Spark流進行迭代編程?
迭代是什麼意思?
我首先使用時間戳對流進行排序,假設數據已經到達單調增加的時間戳(沒有亂序)。
我需要一個全局HashMap X,我希望使用時間戳爲「t1」的值更新,然後是「t1 + 1」。由於X本身的狀態會影響計算,因此需要進行線性運算。因此,「t1 + 1」處的操作取決於HashMap X,它依賴於「t1」之前和之前的數據。
應用
這尤其是當一個人試圖更新模型或比較RDD的兩套,或保留某些事件等,這將在未來的迭代影響操作的全球歷史的情況下?
我想保留一些積累的歷史來計算..不是整個數據集,但堅持可以在未來的DStream RDD中使用的某些事件?
你問的是如何堅持HDFS嗎? – jaco0646
@ jaco0646我想保持它處於內存狀態,我可以在將來的迭代中使用它做出一些決定。例如,它可能使用foreachRDD做到這一點,但我不知道如何 – tsar2512