0

我是WEKA的新手。WEKA:如何區分「缺失」和「不適用」的數字數據?

在我的數據集中,我有一個屬性,其中的類型是數字。在數據集中,有特定的值表示爲「缺失值」和「不適用」。

例如

0-遺漏值 99999 - 代表不適用

對於「遺漏值」,我可以用它表示,但如何爲「不適用」「?」?

我的問題是: - 1)我們如何告訴WEKA在計算mean或std dev時不要包含'Not Applicable'值? 2)'不適用'值如何影響分類結果?

謝謝。

回答

0

這實際上可能是一個更適合stats.stackexchange.com的問題,但我承認這是一個WEKA特定的問題。現在,WEKA中可能有模型可以很好地處理缺失值的問題。我不知道WEKA,但我可能會有決策樹實現爲你處理這些問題。

但是,您可能需要首先考慮幾個基本考慮因素,因爲缺少的特徵值是一個難題。這些考慮因素必須由WEKA中的任何自動功能完成,所以最好事先使用您的域知識來完成。

'不適用'是功能缺失的一種方法。因此,根據您的數據集,可能會或可能不會區分「缺失」和「不適用」。在稱價值「失蹤」時,你只是說你沒有價值。爲什麼缺少?

功能缺失有很多潛在的原因,有些比其他更有害。在這種情況下,主要有三個選項:

  1. 刪除其中有一個缺失值
  2. 所有記錄刪除具有缺失值
  3. 一些「猜測」價值來決定更換缺失值的任何功能應該。這被稱爲插補。

顯然最保守和最安全的選擇是簡單地刪除該功能。在這樣做的時候,創建一個額外的指示器功能將非常有用,它可以簡單地指示原始功能是否丟失。這個信息可能對擬合一個好的模型有用。

在選擇這三種方法中的哪一種方法時,需要考慮幾件事情。

  • 您是否確實知道99999是由明確的NA判定生成的,而不是由與0相同的機制生成的?由零產生的機制是什麼,因爲你只是將它們形容爲「誤判」?
  • 這些特徵值表示缺失值的常見程度如何?缺少的特徵值越多,風險較大的案例刪除或特徵插補就會變成。
  • 如果您認爲插補有價值,您的領域知識可以幫助您選擇合適的值嗎?例如,如果一個值只有在偏離某個值(比如說高血壓)時才輸入,並且當它處於預期水平時保持空白,那麼在缺失的情況下輸入該值是合理的。