2017-04-03 35 views
0

我目前正在從事交易卡遊戲(TCG)定價應用程序。其工作是收集來自不同供應商的數據,並使用該數據確定任何給定卡的市場價格。舉例來說,讓我們考慮一張理論卡X.如何消除定價數據中的異常值?

根據銷售它的供應商,X具有各種值。下面是其值的數組:

[1.00, 1.10, 1.05, 0.95, 2.00, 0.10]

這些值是指其美元($)值。

從我作爲這個市場的客戶的經驗來看,我假設定價數據是正態分佈。定價數據往往傾向於一個價格,許多不同的供應商將他們的卡定價爲接近所述價格(有競爭力),偶爾出現異常。

在這些假設下,我將如何消除上述數據集中的異常值?乍一看,2.00美元和0.10美元似乎是異常值。但是定價在市場中波動。一張卡的價值飆升而相反的情況並不罕見。我已經研究了一些方法,例如使用平均值的標準偏差閾值(例如,如果價格與平均值相差> 2個標準差,則認爲它是異常值),或者使用中值絕對偏差,但是我已經研究了一些方法,我不確定什麼算法在我正在工作的環境中更有意義。

回答

0

如果您打算使用偏差法,絕對使用中位數/中位數絕對偏差而不是平均值/標準偏差,因爲該方法對於異常值的準確性要小得多。您應該在特定應用程序的上下文中試驗乘數(例如,異常值是MAD的三倍)。

2

一些信息,你不希望基於樣本均值和標準差來尋找離羣值,因爲這兩個都是非常敏感異常值。最好使用基於百分位數的方法。第p百分位數是使數據的p%和(100-p)%分別爲≤和≥的值。第一和第三四分位數也分別被稱爲Q1和Q3,它們分別被稱爲第一和第三四分位數。它們的差異Q3-Q1被稱爲四分位間距(IQR)。

異常值的普遍接受的統計定義是它們是超出範圍[Q1 - 1.5 * IQR,Q3 + 1.5 * IQR]的觀測值。請參閱statisticshowto.comWikipedia quartile article瞭解更多信息。

一個複雜因素是關於如何確定Q1和Q3有不同的意見。有些人認爲它應該是實際觀察結果之一,而另一些則是內插的。如果您使用Statistics How To's IQR calculator,則您的兩個極端數據都是異常值。在使用插值的JMP中,兩個極值都不是異常值。這主要是稀疏數據的問題。隨着更多的數據,兩種方法之間的差異消失。

基於百分位數的解決方案的真正好處是它不依賴於分佈假設。無論您的正常假設是否正確,這種方法都能穩健運行。

相關問題