如何從一組點中選擇統計顯着點？

服務器正在通過外部源（網絡服務等）接收某些過程的監控數據的某個速率（每分鐘12個）。現在流程可能會運行一分鐘（或小於）或一小時或一天。在這個過程結束時，我可能會有5或720或17280個數據點。這些數據正在收集超過40個參數，並存儲到數據庫中，以供將來通過網頁顯示。想象一下，有超過1000個進程正在運行，並且產生了大量的數據。我必須堅持RDBMS（特別是MySQL）。因此，我希望在將數據存儲到數據庫之前，通過選擇僅統計上有意義的點來處理數據並減少數據量。最終目標是將這些數據點繪製在Y軸將是時間的圖上，X軸將由某個參數（數據點的一部分）表示。如何從一組點中選擇統計顯着點？

我不想錯過任何顯着的波動或性質，但同時我無法設法繪製所有數據點（萬一數字大於100）。

請注意，我知道基本的統計術語如平均值，標準偏差等

來源

2015-08-21 abhijeet

嘗試[搜索「異常值檢測方法」]（https://www.google.co.uk/#newwindow=1&q=outlier+detection+methods）以獲取一些想法。 –

@RogerRowland ..我在上面..謝謝 – abhijeet

如果這是一個持續不斷的過程，你可以畫出均值（應爲扁線），並超出任何點一定的門檻。三個標準偏差可能是一個很好的門檻，然後看它是否給你提供你需要的信息。

如果它不是一個固定的過程，你需要弄清楚它應該如何隨着時間而變化，並且做一件類似的事情：繪製在那個時間點與你的期望相差很大的點。

這應該給你一個相當乾淨的圖形，同時仍然傳達重要信息。

來源

2015-08-21 13:50:15

這是一個完全不可預知的過程。然而，它會有一些最小值和最大值，都是局部的（超過一段區間）和全局的。它可能是單調遞增或遞減或波形曲線。順便說一下，「三偏差」是什麼意思。請解釋。 – abhijeet

三個標準偏差：標準偏差是關於平均值的可變性的量度。您可以期望在平均值的+/- 1西格瑪（標準差）內找到約65％的數據點。 +/- 2西格瑪約爲95％，+/- 3西格瑪約爲98％。（也許在六西格瑪中有三百萬） –

但是這種通用方法只有在你知道你期望數據的位置時才能工作。如果這是完全不可預測的，我們必須弄清楚別的。 –

如果你期望你的過程很嘈雜，那麼做一些smoothing through a spline可以幫助你減少噪音和壓縮你的數據（因爲繪製一個樣條只需要幾個點，其中「少數」是你自己挑選的，取決於你想擺脫多少細節）。

但是，如果你的過程是不吵，則異常是非常重要的，因爲它們可能代表錯誤或異常情況。在這種情況下，你最好擺脫接近平均值的點（比如小於1的標準偏差），並保留那些距離較遠的點。

小記：術語「統計顯着性」描述了足夠高的確定性以丟棄虛假設。我認爲這不適用於你的問題。

來源

2015-08-21 18:42:33 Diego

如何從一組點中選擇統計顯着點？

回答

相關問題