如何檢測二維數組中的異常值檢測？

鑑於像數組：如何檢測二維數組中的異常值檢測？

[ 
    { final_amount: 20.0, shipping_amount: 5 }, 
    { final_amount: 30.0, shipping_amount: 5.5 }, 
    { final_amount: 25.0, shipping_amount: 105.5 }, 
    { final_amount: 325.0, shipping_amount: 125.5 } 
]

我怎麼能檢測到

{ final_amount: 25.0, shipping_amount: 105.5 }

是一個局外人？

較大的final_amount意味着較大的shipping_amount，但是我們在數據集中存在一些錯誤的條目。

如果我僅考慮shipping_amount（中位數和標準差），它將刪除一些有效的條目，因爲它沒有考慮final_amount。

來源

2016-01-24 MB.

感謝羅伯特，不知道stats.sx.com。如果你將它添加爲答案，我會接受它。 –

解決這類問題的正確方法是建立「正常」數據模型和一個或多個「異常」數據模型。這些中的每一個都是某個類別的p（數據|類別）。應用貝葉斯規則來計算p（類別|數據）並在這些類別中進行一些選擇。選擇最大的p（類別|數據）類別。這是一個相當開闊的領域，祝你好運，玩得開心。你也可能在stats.stackexchange.com上獲得更多的興趣。

來源

2016-01-24 01:59:58

如何檢測二維數組中的異常值檢測？

回答

相關問題