3

如何設計實時交易數據的體系結構以將其分類爲欺詐?使用Spark Streaming和機器學習實時預測在線數據

隨機森林分類器ML模型是使用歷史數據使用Scala和Spark MLLib開發,訓練和測試的,並且持續存在。

實時交易數據正在使用來自一個主題的Apache Kafka,Spark Streaming處理並寫入另一個主題以便通過分類器ML模型進行預測。

我的擔心: 我如何提供並獲得預測當前交易數據從Kafka主題收到使用上述ML模式?

預測在線當前單筆交易數據使用已經過訓練和測試的ML模型的最佳做法是什麼?

歡迎任何設計建議。

+0

IMO,你應該封裝得到ML模型中的對象(單),並使用該對象映射即將到來的數據。 – pcejrowski

+0

謝謝@pcejrowski。我爲模型創建了一個scala對象,並使用1000條記錄進行了訓練和測試(70:30)。有用!。現在我錯過了向該模型提供實時數據的鏈接。我應該提供這個作爲測試數據agin來模擬例如。 val predictions = model.transform(realTimeData)? –

+0

是的,我認爲是這樣:) – pcejrowski

回答