2012-09-04 82 views
1

我正在研究機器學習問題,並在我的數據中包含一些異常值,並希望對它們進行平滑處理。我讀了一些關於使用m估計來解決這個問題的內容。我在Web和計算器上都進行了詳盡的搜索,但找不到一個好例子。有人可以建議一些資源,我可以閱讀更多關於這個話題?機器學習和m估計

謝謝!

+4

http://en.wikipedia.org/wiki/M-estimator這裏有很多參考文獻 – mathematician1975

+0

看到了。我正在尋找機器學習環境下的例子。米估計被提及在高層[這裏](http://stackoverflow.com/questions/919923/m-estimate-for-continuous-values),它是有道理的。但是,如果沒有看到一個例子,我就無法完全理解這個概念。 –

回答

1

如果我沒記錯的話,M-estimator起源於Huber的工作。他研究了使估計量強健的方法。然而,爲了測量健壯性,我們考慮了一個非常特殊的健壯性類型。它被稱爲「故障點」,與方法可以應對的總點數相比,異常點的百分比很簡單。另外一個異常點,它崩潰了。

請注意,這種類型的魯棒性與計算機視覺中的魯棒性有很大不同。在計算機視覺方面,離羣值可能不是很多,但他們可能會合並(以結構點的形式)來打破最穩健的估計。在計算機視覺出於這個原因,你會遇到Hough transformRANSAC來執行健壯的線估計。

此外,一種對異常值非常有彈性的M估計器是一種M估計器,它將分配給極端異常值的值限制在一個範圍內。這些都是所謂的redescending M-estimators。它們非常強大,因爲極端異常值gross outliers被賦予了零權重,換句話說,在迴歸中根本沒有被考慮到。

如果你想知道單個離羣值的影響,我會挑戰你寫一個簡單的線性最小二乘八度程序。或者,如果你認爲它更容易,總的最小二乘方案(你可以做一個奇異值分解,內置svd)。