在此鏈接 - LINK中,提到可以使用離線構建的機器學習模型來針對流數據進行測試。從Apache星火流MLlib鏈接Spark Streaming - 可以針對數據流使用離線模型
摘錄:
「您也可以方便地使用所有的MLlib首先提供的機器學習算法,有流機器學習算法(如流線性迴歸,流KMEANS,等等),它可以同時從流數據中學習,並在流數據上應用模型。除此之外,對於更大類的機器學習算法,您可以離線學習學習模型(即使用歷史數據)和然後在流式數據上在線應用模型查看MLlib指南瞭解更多詳情 「
這是否意味着您可以使用像Spark中構建的Random Forest模型這樣的複雜學習模型來測試Spark Streaming程序中的流數據?在Spark Streaming程序中,引用已經構建的「Model」並調用「predictOnValues()」就可以簡單得多嗎?
在這種情況下,現有的火花流式機器學習算法(AND)之間的主要區別在於這種方法是流式算法將隨着時間演化並且離線(反)在線流式方法仍將使用從之前學到什麼而沒有任何在線學習可能性的見解?
我是否明白這一點?請讓我知道,如果我對上述兩點的理解是正確的。
下面是你如何堅持訓練有素的模型。 'model.save(sc,「myModelPath」)'。然後加載'sameModel = RandomForestClassificationModel.load(sc,「myModelPath」)'。流式學習可以使用相同的模型。這取決於你的算法更新模型並保存以反映在線學習的結果。 –
謝謝Kenji! – AC24