2016-01-24 92 views
0

鑑於像數組:如何檢測二維數組中的異常值檢測?

[ 
    { final_amount: 20.0, shipping_amount: 5 }, 
    { final_amount: 30.0, shipping_amount: 5.5 }, 
    { final_amount: 25.0, shipping_amount: 105.5 }, 
    { final_amount: 325.0, shipping_amount: 125.5 } 
] 

我怎麼能檢測到

{ final_amount: 25.0, shipping_amount: 105.5 } 

是一個局外人?

較大的final_amount意味着較大的shipping_amount,但是我們在數據集中存在一些錯誤的條目。

如果我僅考慮shipping_amount(中位數和標準差),它將刪除一些有效的條目,因爲它沒有考慮final_amount。

+0

感謝羅伯特,不知道stats.sx.com。如果你將它添加爲答案,我會接受它。 –

回答

1

解決這類問題的正確方法是建立「正常」數據模型和一個或多個「異常」數據模型。這些中的每一個都是某個類別的p(數據|類別)。應用貝葉斯規則來計算p(類別|數據)並在這些類別中進行一些選擇。選擇最大的p(類別|數據)類別。這是一個相當開闊的領域,祝你好運,玩得開心。你也可能在stats.stackexchange.com上獲得更多的興趣。