使用Spark Streaming和機器學習實時預測在線數據

如何設計實時交易數據的體系結構以將其分類爲欺詐？使用Spark Streaming和機器學習實時預測在線數據

隨機森林分類器ML模型是使用歷史數據使用Scala和Spark MLLib開發，訓練和測試的，並且持續存在。

實時交易數據正在使用來自一個主題的Apache Kafka，Spark Streaming處理並寫入另一個主題以便通過分類器ML模型進行預測。

我的擔心：我如何提供並獲得預測當前交易數據從Kafka主題收到使用上述ML模式？

預測在線當前單筆交易數據使用已經過訓練和測試的ML模型的最佳做法是什麼？

歡迎任何設計建議。

來源

2017-07-30 Gopinathan K M

IMO，你應該封裝得到ML模型中的對象（單），並使用該對象映射即將到來的數據。 – pcejrowski

謝謝@pcejrowski。我爲模型創建了一個scala對象，並使用1000條記錄進行了訓練和測試（70:30）。有用！。現在我錯過了向該模型提供實時數據的鏈接。我應該提供這個作爲測試數據agin來模擬例如。 val predictions = model.transform（realTimeData）？ –

是的，我認爲是這樣:) – pcejrowski

使用Spark Streaming和機器學習實時預測在線數據

回答

相關問題