我們是一個可操作的數據倉庫。我們有一個包含以下信息的批次控制表DataWarehouse的警報機制
- 已處理到倉庫的文件名。
- 批處理的日期和時間開始。
- 已處理的行數和花費的時間。
我們(通過分析過去的數據)想建立一個預警機制,提高基本在下列任何異常情況的警報:
- 的文件並沒有到達。
- 一個文件比平均處理時間多。
- 一個文件具有非常低或非常高的行數。
什麼是解決此問題的最佳方法。這是機器學習的候選人嗎?
我們是一個可操作的數據倉庫。我們有一個包含以下信息的批次控制表DataWarehouse的警報機制
我們(通過分析過去的數據)想建立一個預警機制,提高基本在下列任何異常情況的警報:
什麼是解決此問題的最佳方法。這是機器學習的候選人嗎?
這是機器學習的候選人嗎?
不是。您必須將處理文件的某些信息存儲到數據倉庫中。
文件未到達。
當下一個文件將要到達時,您必須有文件列表的時間表。如果文件晚了5天以上,調度程序會發出警報,發送電子郵件或其他內容。
文件花費的時間超過平均處理時間。
將平均處理時間保留在文件計劃中。當前處理時間與平均處理時間相差超過2個標準偏差時,發出警報。
的文件具有極低或極高的行的行數
保持平均行數在文件中的進度。當前行數與平均行數超過2個標準偏差時,發出警報。
我選擇了平均值的2個標準偏差作爲例外情況。隨意調整這個或多或少對偏差敏感。
1)以開始第一次。
繪製處理文件的時間序列(行號作爲處理時間的函數)。
劇情的行號碼的分配(或直方圖)
劇情的時間間隔的處理
劇情之間的分佈(或直方圖)的處理時間依賴於行計數的功能。
你看到一些時間序列模式嗎?是否有一天的時間resp。平日週期?你看到一種趨勢嗎?
處理時間的函數是連續函數還是簡單的散點圖?
顯然你看到了一些模式和閾值,很容易你就可以實現檢查。
2)收集歷史故障
與處理的狀態擴展元數據 - OK或失敗的原因。 這將使您能夠以兩種顏色(正面/負面情況)繪製圖形,並幫助您決定是否可以在它們之間繪製閾值線(曲線)。
感謝您的回覆。我有一個問題。 如果特定批次的行數非常多,是否將它們包含在我的平均計算中?有沒有一個規則呢? –
@Gilbert如果行數或處理時間不遵循正態分佈,則SD可能會導致錯誤導致... –
@Anand Kannan:我會說,不,但是您比我更瞭解您的數據。 –