基本上我有一些每小時和每天的數據等尋找異常值的最佳聚類算法是哪一種?
天1
小時,測量 (1,21) (2,22) (3,27) (4,24)
第2天 小時,測量 (1,23) (2.26) (3,29) (4,20)
現在我想找到outli通過考慮每小時變化以及使用雙變量分析的每日變化...其包括每小時和測量...
那麼哪個是最好的聚類算法更適合尋找異常值考慮這種情況? 。
基本上我有一些每小時和每天的數據等尋找異常值的最佳聚類算法是哪一種?
天1
小時,測量 (1,21) (2,22) (3,27) (4,24)
第2天 小時,測量 (1,23) (2.26) (3,29) (4,20)
現在我想找到outli通過考慮每小時變化以及使用雙變量分析的每日變化...其包括每小時和測量...
那麼哪個是最好的聚類算法更適合尋找異常值考慮這種情況? 。
一個'好'的建議(:P)我可以給你的是(根據我的經驗),處理與空間特徵相似的時間不是一個好主意。所以要小心這樣做的解決方案。您可能可以從搜索時間序列數據的異常值檢測文獻開始。
你真的應該爲你的數據使用不同的表達方式。
如果要檢測異常值,爲什麼不使用實際的異常值檢測方法?
除此之外,只是通讀一些文獻。已知例如k-手段存在異常值問題。另一方面,DBSCAN被設計爲用於具有「噪聲」(DBSCAN中的N)的數據,其基本上是異常值。
儘管如此,你代表你的數據的方式將使這些工作都不會很好。
由於數據的性質(它有自己的季節性,趨勢,自相關等),您應該使用基於時間序列的異常值檢測方法。基於時間序列的異常值具有不同的類型(AO,IO等),它有點複雜,但有些應用程序使其易於實現。
從http://cran.r-project.org/下載R的最新版本。安裝軟件包「預測」&「TSA」。
使用預測軟件包的auto.arima函數來導出適合您數據的最佳模型,並將這些變量與您的數據一起傳遞,以檢測TSA功能的detectIO &。這些函數將彈出數據中出現的任何異常值及其時間索引。
R是也很容易與其他應用程序集成或者只是運行一個批處理作業....希望幫助...
真的有沒有「最好」的方式。 「這麼好的建議是:小心這方面的好建議。」 --Berton Gunter(回答這個問題是什麼是檢測異常值的最佳方法)R-help,2004年9月 –