我目前正在從事交易卡遊戲(TCG)定價應用程序。其工作是收集來自不同供應商的數據,並使用該數據確定任何給定卡的市場價格。舉例來說,讓我們考慮一張理論卡X.如何消除定價數據中的異常值?
根據銷售它的供應商,X具有各種值。下面是其值的數組:
[1.00, 1.10, 1.05, 0.95, 2.00, 0.10]
這些值是指其美元($)值。
從我作爲這個市場的客戶的經驗來看,我假設定價數據是正態分佈。定價數據往往傾向於一個價格,許多不同的供應商將他們的卡定價爲接近所述價格(有競爭力),偶爾出現異常。
在這些假設下,我將如何消除上述數據集中的異常值?乍一看,2.00美元和0.10美元似乎是異常值。但是定價在市場中波動。一張卡的價值飆升而相反的情況並不罕見。我已經研究了一些方法,例如使用平均值的標準偏差閾值(例如,如果價格與平均值相差> 2個標準差,則認爲它是異常值),或者使用中值絕對偏差,但是我已經研究了一些方法,我不確定什麼算法在我正在工作的環境中更有意義。