2015-10-02 41 views
1

我們是一個可操作的數據倉庫。我們有一個包含以下信息的批次控制表DataWarehouse的警報機制

  1. 已處理到倉庫的文件名。
  2. 批處理的日期和時間開始。
  3. 已處理的行數和花費的時間。

我們(通過分析過去的數據)想建立一個預警機制,提高基本在下列任何異常情況的警報:

  1. 的文件並沒有到達。
  2. 一個文件比平均處理時間多。
  3. 一個文件具有非常低或非常高的行數。

什麼是解決此問題的最佳方法。這是機器學習的候選人嗎?

回答

1

這是機器學習的候選人嗎?

不是。您必須將處理文件的某些信息存儲到數據倉庫中。

文件未到達。

當下一個文件將要到達時,您必須有文件列表的時間表。如果文件晚了5天以上,調度程序會發出警報,發送電子郵件或其他內容。

文件花費的時間超過平均處理時間。

將平均處理時間保留在文件計劃中。當前處理時間與平均處理時間相差超過2個標準偏差時,發出警報。

的文件具有極低或極高的行的行數

保持平均行數在文件中的進度。當前行數與平均行數超過2個標準偏差時,發出警報。

我選擇了平均值的2個標準偏差作爲例外情況。隨意調整這個或多或少對偏差敏感。

+0

感謝您的回覆。我有一個問題。 如果特定批次的行數非常多,是否將它們包含在我的平均計算中?有沒有一個規則呢? –

+0

@Gilbert如果行數或處理時間不遵循正態分佈,則SD可能會導致錯誤導致... –

+0

@Anand Kannan:我會說,不,但是您比我更瞭解您的數據。 –

0

1)以開始第一次。

繪製處理文件的時間序列(行號作爲處理時間的函數)。

劇情的行號碼的分配(或直方圖)

劇情的時間間隔的處理

劇情之間的分佈(或直方圖)的處理時間依賴於行計數的功能。

你看到一些時間序列模式嗎?是否有一天的時間resp。平日週期?你看到一種趨勢嗎?

處理時間的函數是連續函數還是簡單的散點圖?

顯然你看到了一些模式和閾值,很容易你就可以實現檢查。

2)收集歷史故障

與處理的狀態擴展元數據 - OK或失敗的原因。 這將使您能夠以兩種顏色(正面/負面情況)繪製圖形,並幫助您決定是否可以在它們之間繪製閾值線(曲線)。

您也可以申請supervised learning algorithms