尋找異常值的最佳聚類算法是哪一種？

天1

小時，測量（1,21）（2,22）（3,27）（4,24）

第2天小時，測量（1,23）（2.26）（3,29）（4,20）

現在我想找到outli通過考慮每小時變化以及使用雙變量分析的每日變化...其包括每小時和測量...

那麼哪個是最好的聚類算法更適合尋找異常值考慮這種情況？。

2011-06-27 user796666

真的有沒有「最好」的方式。「這麼好的建議是：小心這方面的好建議。」 --Berton Gunter（回答這個問題是什麼是檢測異常值的最佳方法）R-help，2004年9月 –

一個'好'的建議（：P）我可以給你的是（根據我的經驗），處理與空間特徵相似的時間不是一個好主意。所以要小心這樣做的解決方案。您可能可以從搜索時間序列數據的異常值檢測文獻開始。

2011-09-13 04:08:17

你真的應該爲你的數據使用不同的表達方式。

如果要檢測異常值，爲什麼不使用實際的異常值檢測方法？

除此之外，只是通讀一些文獻。已知例如k-手段存在異常值問題。另一方面，DBSCAN被設計爲用於具有「噪聲」（DBSCAN中的N）的數據，其基本上是異常值。

儘管如此，你代表你的數據的方式將使這些工作都不會很好。

2012-03-14 07:26:35

由於數據的性質（它有自己的季節性，趨勢，自相關等），您應該使用基於時間序列的異常值檢測方法。基於時間序列的異常值具有不同的類型（AO，IO等），它有點複雜，但有些應用程序使其易於實現。

從http://cran.r-project.org/下載R的最新版本。安裝軟件包「預測」&「TSA」。

使用預測軟件包的auto.arima函數來導出適合您數據的最佳模型，並將這些變量與您的數據一起傳遞，以檢測TSA功能的detectIO &。這些函數將彈出數據中出現的任何異常值及其時間索引。

R是也很容易與其他應用程序集成或者只是運行一個批處理作業....希望幫助...

2012-03-15 17:40:01

回答