2015-08-21 45 views
1

服務器正在通過外部源(網絡服務等)接收某些過程的監控數據的某個速率(每分鐘12個)。現在流程可能會運行一分鐘(或小於)或一小時或一天。在這個過程結束時,我可能會有5或720或17280個數據點。這些數據正在收集超過40個參數,並存儲到數據庫中,以供將來通過網頁顯示。想象一下,有超過1000個進程正在運行,並且產生了大量的數據。我必須堅持RDBMS(特別是MySQL)。因此,我希望在將數據存儲到數據庫之前,通過選擇僅統計上有意義的點來處理數據並減少數據量。最終目標是將這些數據點繪製在Y軸將是時間的圖上,X軸將由某個參數(數據點的一部分)表示。如何從一組點中選擇統計顯着點?

我不想錯過任何顯着的波動或性質,但同時我無法設法繪製所有數據點(萬一數字大於100)。

請注意,我知道基本的統計術語如平均值,標準偏差等

+1

嘗試[搜索「異常值檢測方法」](https://www.google.co.uk/#newwindow=1&q=outlier+detection+methods)以獲取一些想法。 –

+0

@RogerRowland ..我在上面..謝謝 – abhijeet

回答

0

如果這是一個持續不斷的過程,你可以畫出均值(應爲扁線),並超出任何點一定的門檻。三個標準偏差可能是一個很好的門檻,然後看它是否給你提供你需要的信息。

如果它不是一個固定的過程,你需要弄清楚它應該如何隨着時間而變化,並且做一件類似的事情:繪製在那個時間點與你的期望相差很大的點。

這應該給你一個相當乾淨的圖形,同時仍然傳達重要信息。

+0

這是一個完全不可預知的過程。然而,它會有一些最小值和最大值,都是局部的(超過一段區間)和全局的。它可能是單調遞增或遞減或波形曲線。順便說一下,「三偏差」是什麼意思。請解釋。 – abhijeet

+0

三個標準偏差:標準偏差是關於平均值的可變性的量度。您可以期望在平均值的+/- 1西格瑪(標準差)內找到約65%的數據點。 +/- 2西格瑪約爲95%,+/- 3西格瑪約爲98%。 (也許在六西格瑪中有三百萬) –

+0

但是這種通用方法只有在你知道你期望數據的位置時才能工作。如果這是完全不可預測的,我們必須弄清楚別的。 –

0

如果你期望你的過程很嘈雜,那麼做一些smoothing through a spline可以幫助你減少噪音和壓縮你的數據(因爲繪製一個樣條只需要幾個點,其中「少數」是你自己挑選的,取決於你想擺脫多少細節)。

但是,如果你的過程是不吵,則異常是非常重要的,因爲它們可能代表錯誤或異常情況。在這種情況下,你最好擺脫接近平均值的點(比如小於1的標準偏差),並保留那些距離較遠的點。

小記:術語「統計顯着性」描述了足夠高的確定性以丟棄虛假設。我認爲這不適用於你的問題。