我是一名初學者,我需要一些關於如何對以下場景建模的建議
我從外部系統平均消耗約5000行數據每天。傳入行的數量在4950到5050之間。我想建立一個警報機制,告訴我傳入的行數是否不正常。即我想要一個解決方案讓我知道,如果我得到的話,在給定日期的2500行,即少於50%,或說15000行超過平均值。
樣本數據如下:
| Day |傳入數據的大小(以MB爲單位)|行數|標籤|
|平日| 3.44 | 5000 | Y |
|平日| 3.3 | 4999 | Y |
|平日| 3.1 | 4955 | Y |
|平日| 3.44 | 5000 | Y |
|週末| 4.1 | 5050 | N |
我最初的想法是使用一些異常檢測算法。我嘗試使用主成分分析算法來檢測異常。我收集了每天收到的總行數,並用它來訓練模型。但是,在對我所掌握的數據進行訓練後,這些數據非常有限(少於500次觀察),我發現精度非常差。一類SVM也沒有給我帶來好的結果。 我已經使用「行數」作爲分類特徵,標籤爲..標籤,並忽略其餘參數,因爲在這種情況下我不感興趣。無論傳入數據的日期和大小如何,我的邏輯都只圍繞行數。 另外,到目前爲止,我沒有任何負面情況,也就是說,我從來沒有收到太多或太多的記錄。所以我標記了所有的日子,當我收到5050行異常。其餘的我標記爲正常。
我知道我在這裏做了一些根本性的錯誤。問題是,我的方案是否有資格用於機器學習? (我認爲是這樣,但希望您的意見) 如果是,如何應對這種有限的訓練數據集,你幾乎沒有任何樣品異常。這真的是一個異常問題,或者我可以使用一些分類算法來獲得更好的結果嗎?
感謝Azure Machin Learing - 如何使用非常有限的數據集進行訓練
-1
A
回答
0
請參閱時間序列的異常檢測模塊。它應該做你需要的東西:
相關問題
- 1. 如何在非常大的數據集上訓練Word2vec?
- 2. 訓練數據集
- 3. 如何在MATLAB中訓練大數據集以進行分類
- 4. 使用OpenNLP訓練大型數據集
- 5. FANN訓練數據集
- 6. TensorFlow:收集我自己的訓練數據集&使用該訓練數據集來查找對象的位置
- 7. 如何使用pycrfsuite在兩個數據集上訓練CRF?
- 8. 如何使用CRF ++在兩個數據集上訓練CRF?
- 9. 如何使用視頻數據集訓練分類器
- 10. 使用StanfordNLP進行名稱實體識別的訓練數據集
- 11. 初始訓練是否適用於非平衡數據集? (Tensorflow)
- 12. R中的auto.arima的訓練數據集
- 13. 使用TensorFlow進行增量訓練
- 14. 可以訓練帶有標籤的訓練集的神經網絡,並使用沒有標籤的數據集對其進行測試?
- 15. 訓練數據集羣的BOW預測
- 16. SegNet - 訓練我自己的數據集
- 17. 基於訓練集的數據分類
- 18. 如何在Azure中訓練數據(如谷歌預測API)
- 19. 如何在Apache Spark中訓練Matrix分解模型MLlib的ALS使用訓練,測試和驗證數據集
- 20. R glm()不包括訓練數據集
- 21. 數據集訓練MITIE模型
- 22. 地面真相與訓練數據集
- 23. PyBrain:MemoryError:加載訓練數據集
- 24. 在大塊數據集上訓練SGDRegressor
- 25. 1)從整個訓練集中訓練CNN和2)訓練集中的訓練集,然後是整個訓練集之間的區別是什麼?
- 26. Tesseract訓練數據
- 27. 正規化無限大訓練集?
- 28. 使用Theano的簡單CNN訓練的準確性非常低
- 29. 如何在apache模型訓練後對新的訓練樣例進行分類?
- 30. 將預測數據放入訓練數據集是否有效?
非常感謝海寧,這符合我的目的。我會更新你的方式。 –