如何消除定價數據中的異常值？

我目前正在從事交易卡遊戲（TCG）定價應用程序。其工作是收集來自不同供應商的數據，並使用該數據確定任何給定卡的市場價格。舉例來說，讓我們考慮一張理論卡X.如何消除定價數據中的異常值？

根據銷售它的供應商，X具有各種值。下面是其值的數組：

[1.00, 1.10, 1.05, 0.95, 2.00, 0.10]

這些值是指其美元（$）值。

從我作爲這個市場的客戶的經驗來看，我假設定價數據是正態分佈。定價數據往往傾向於一個價格，許多不同的供應商將他們的卡定價爲接近所述價格（有競爭力），偶爾出現異常。

在這些假設下，我將如何消除上述數據集中的異常值？乍一看，2.00美元和0.10美元似乎是異常值。但是定價在市場中波動。一張卡的價值飆升而相反的情況並不罕見。我已經研究了一些方法，例如使用平均值的標準偏差閾值（例如，如果價格與平均值相差> 2個標準差，則認爲它是異常值），或者使用中值絕對偏差，但是我已經研究了一些方法，我不確定什麼算法在我正在工作的環境中更有意義。

來源

2017-04-03 Robert Calove

如果您打算使用偏差法，絕對使用中位數/中位數絕對偏差而不是平均值/標準偏差，因爲該方法對於異常值的準確性要小得多。您應該在特定應用程序的上下文中試驗乘數（例如，異常值是MAD的三倍）。

來源

2017-04-03 19:23:52

根據您對「價格波動」的評論，您選擇的算法應該包括一些密度估算。因此，中位數和分位數的任何度量都不應該是異常值條目的最後一個詞。他們應該與鄰居比較。

這裏是Kernel Density估計

https://www.r-bloggers.com/a-kernel-density-approach-to-outlier-detection/

來源

2017-04-03 19:47:24 javadba

一些信息，你不希望基於樣本均值和標準差來尋找離羣值，因爲這兩個都是非常敏感異常值。最好使用基於百分位數的方法。第p百分位數是使數據的p％和（100-p）％分別爲≤和≥的值。第一和第三四分位數也分別被稱爲Q1和Q3，它們分別被稱爲第一和第三四分位數。它們的差異Q3-Q1被稱爲四分位間距（IQR）。

異常值的普遍接受的統計定義是它們是超出範圍[Q1 - 1.5 * IQR，Q3 + 1.5 * IQR]的觀測值。請參閱statisticshowto.com或Wikipedia quartile article瞭解更多信息。

一個複雜因素是關於如何確定Q1和Q3有不同的意見。有些人認爲它應該是實際觀察結果之一，而另一些則是內插的。如果您使用Statistics How To's IQR calculator，則您的兩個極端數據都是異常值。在使用插值的JMP中，兩個極值都不是異常值。這主要是稀疏數據的問題。隨着更多的數據，兩種方法之間的差異消失。

基於百分位數的解決方案的真正好處是它不依賴於分佈假設。無論您的正常假設是否正確，這種方法都能穩健運行。

來源

2017-04-03 20:15:52 pjs

如何消除定價數據中的異常值？

回答

相關問題