WEKA：如何區分「缺失」和「不適用」的數字數據？

在我的數據集中，我有一個屬性，其中的類型是數字。在數據集中，有特定的值表示爲「缺失值」和「不適用」。

例如

0-遺漏值 99999 - 代表不適用

對於「遺漏值」，我可以用它表示，但如何爲「不適用」「？」？

我的問題是： - 1）我們如何告訴WEKA在計算mean或std dev時不要包含'Not Applicable'值？ 2）'不適用'值如何影響分類結果？

謝謝。

這實際上可能是一個更適合stats.stackexchange.com的問題，但我承認這是一個WEKA特定的問題。現在，WEKA中可能有模型可以很好地處理缺失值的問題。我不知道WEKA，但我可能會有決策樹實現爲你處理這些問題。

但是，您可能需要首先考慮幾個基本考慮因素，因爲缺少的特徵值是一個難題。這些考慮因素必須由WEKA中的任何自動功能完成，所以最好事先使用您的域知識來完成。

'不適用'是功能缺失的一種方法。因此，根據您的數據集，可能會或可能不會區分「缺失」和「不適用」。在稱價值「失蹤」時，你只是說你沒有價值。爲什麼缺少？

功能缺失有很多潛在的原因，有些比其他更有害。在這種情況下，主要有三個選項：

顯然最保守和最安全的選擇是簡單地刪除該功能。在這樣做的時候，創建一個額外的指示器功能將非常有用，它可以簡單地指示原始功能是否丟失。這個信息可能對擬合一個好的模型有用。

在選擇這三種方法中的哪一種方法時，需要考慮幾件事情。

您是否確實知道99999是由明確的NA判定生成的，而不是由與0相同的機制生成的？由零產生的機制是什麼，因爲你只是將它們形容爲「誤判」？
這些特徵值表示缺失值的常見程度如何？缺少的特徵值越多，風險較大的案例刪除或特徵插補就會變成。
如果您認爲插補有價值，您的領域知識可以幫助您選擇合適的值嗎？例如，如果一個值只有在偏離某個值（比如說高血壓）時才輸入，並且當它處於預期水平時保持空白，那麼在缺失的情況下輸入該值是合理的。

2013-10-28 01:05:47

回答