2017-09-13 115 views
-1

我通過讀取KPI(關鍵績效指標)的數據集來生成警報。我的算法正在研究歷史數據,並基於這些數據我能夠捕捉到數據突然激增的情況。但是我產生了誤報。例如,KPI1的歷史記錄爲.5,但達到了12,這是一種尖峯。 同樣的方式KPI2也從0.5到12.但我知道KPI從0.5到12不是什麼大不了的,我不需要去捕捉它。同樣的方式KPI2從.5到12是很重要的,我需要捕捉它。 我想訓練我的程序,以瞭解每個KPI的高價值,低價值或正常價值。 請問專家告訴我哪個是最好的ML算法是這個和任何包在python我需要探索?培訓計劃,以瞭解機器學習中的高值和低值

+0

您是否正在看時間系列?換句話說,在您的KPI發展的時候?你的數據結構如何?這會幫助我們更有效地幫助你。你可以多描述一下你的數據和你的輸出(你如何定義高和低)? – Umberto

+0

是的,我正在查看時間系列。在y軸上繪製KPI值並在x軸上繪製時間戳。使用歷史數據(30天),我獲得了動態閾值(基準值),並基於該數據找到了峯值(7天)。將KPI1的值從.5(基準值)跳到12(峯值)並不是什麼大不了的事情,但對於KPI2(假設KPI1和KPI2數據集有相似之處)同樣重要。 –

+0

好吧,那麼我會爭辯說,這不是一個標準的分類問題......你應該看看時間序列預測。 – Umberto

回答

0

這是分類問題。您可以使用經典邏輯迴歸算法將任何給定樣本分爲高值,低值或正常值。

從維基百科引用,

在統計學中,多項式迴歸是分類 方法一般化邏輯迴歸到多類問題,即 具有多於兩個可能的離散結果。也就是說, 是一個模型,用於預測不同的 分類分佈因變量的可能結果的概率, 給定一組自變量(可能是實數值, 二元值,類別 - 價值等)

要在python中執行多類分類,sklearn庫可能很有用。

http://scikit-learn.org/stable/modules/multiclass.html