2017-10-10 90 views
-1

我是一名初學者,我需要一些關於如何對以下場景建模的建議

我從外部系統平均消耗約5000行數據每天。傳入行的數量在4950到5050之間。我想建立一個警報機制,告訴我傳入的行數是否不正常。即我想要一個解決方案讓我知道,如果我得到的話,在給定日期的2500行,即少於50%,或說15000行超過平均值。

樣本數據如下:
| Day |傳入數據的大小(以MB爲單位)|行數|標籤|
|平日| 3.44 | 5000 | Y |
|平日| 3.3 | 4999 | Y |
|平日| 3.1 | 4955 | Y |
|平日| 3.44 | 5000 | Y |
|週末| 4.1 | 5050 | N |

我最初的想法是使用一些異常檢測算法。我嘗試使用主成分分析算法來檢測異常。我收集了每天收到的總行數,並用它來訓練模型。但是,在對我所掌握的數據進行訓練後,這些數據非常有限(少於500次觀察),我發現精度非常差。一類SVM也沒有給我帶來好的結果。 我已經使用「行數」作爲分類特徵,標籤爲..標籤,並忽略其餘參數,因爲在這種情況下我不感興趣。無論傳入數據的日期和大小如何,我的邏輯都只圍繞行數。 另外,到目前爲止,我沒有任何負面情況,也就是說,我從來沒有收到太多或太多的記錄。所以我標記了所有的日子,當我收到5050行異常。其餘的我標記爲正常。

我知道我在這裏做了一些根本性的錯誤。問題是,我的方案是否有資格用於機器學習? (我認爲是這樣,但希望您的意見) 如果是,如何應對這種有限的訓練數據集,你幾乎沒有任何樣品異常。這真的是一個異常問題,或者我可以使用一些分類算法來獲得更好的結果嗎?

感謝Azure Machin Learing - 如何使用非常有限的數據集進行訓練

回答

相關問題