我正在閱讀一本關於Python的Data Science的書,並且作者應用'sigma-clipping操作'來刪除由於拼寫錯誤而導致的異常。然而這個過程根本沒有解釋。什麼是西格瑪剪裁?你怎麼知道什麼時候應用它?
什麼是西格瑪剪輯?它僅適用於某些數據(例如,在美國用於出生率的書中)?
按文本:
quartiles = np.percentile(births['births'], [25, 50, 75]) #so we find the 25th, 50th, and 75th percentiles
mu = quartiles[1] #we set mu = 50th percentile
sig = 0.74 * (quartiles[2] - quartiles[0]) #???
This final line is a robust estimate of the sample mean, where the 0.74 comes
from the interquartile range of a Gaussian distribution.
爲什麼0.74?有這樣的證據嗎?
https://docs.scipy.org/doc/scipy-0.14.0/reference/generated/scipy.stats.sigmaclip.html – DyZ
你的迴應沒有幫助。你讀過上面的問題嗎? – NRH
你混合了很多不同的問題。 *什麼是西格瑪剪輯?*完美地回答了上面的鏈接。 *爲什麼0.74?*和引用的書本文字與西格瑪剪輯無關,並在下面回答。 – kazemakase