我是WEKA的新手。WEKA:如何區分「缺失」和「不適用」的數字數據?
在我的數據集中,我有一個屬性,其中的類型是數字。在數據集中,有特定的值表示爲「缺失值」和「不適用」。
例如
0-遺漏值 99999 - 代表不適用
對於「遺漏值」,我可以用它表示,但如何爲「不適用」「?」?
我的問題是: - 1)我們如何告訴WEKA在計算mean或std dev時不要包含'Not Applicable'值? 2)'不適用'值如何影響分類結果?
謝謝。
我是WEKA的新手。WEKA:如何區分「缺失」和「不適用」的數字數據?
在我的數據集中,我有一個屬性,其中的類型是數字。在數據集中,有特定的值表示爲「缺失值」和「不適用」。
例如
0-遺漏值 99999 - 代表不適用
對於「遺漏值」,我可以用它表示,但如何爲「不適用」「?」?
我的問題是: - 1)我們如何告訴WEKA在計算mean或std dev時不要包含'Not Applicable'值? 2)'不適用'值如何影響分類結果?
謝謝。
這實際上可能是一個更適合stats.stackexchange.com的問題,但我承認這是一個WEKA特定的問題。現在,WEKA中可能有模型可以很好地處理缺失值的問題。我不知道WEKA,但我可能會有決策樹實現爲你處理這些問題。
但是,您可能需要首先考慮幾個基本考慮因素,因爲缺少的特徵值是一個難題。這些考慮因素必須由WEKA中的任何自動功能完成,所以最好事先使用您的域知識來完成。
'不適用'是功能缺失的一種方法。因此,根據您的數據集,可能會或可能不會區分「缺失」和「不適用」。在稱價值「失蹤」時,你只是說你沒有價值。爲什麼缺少?
功能缺失有很多潛在的原因,有些比其他更有害。在這種情況下,主要有三個選項:
顯然最保守和最安全的選擇是簡單地刪除該功能。在這樣做的時候,創建一個額外的指示器功能將非常有用,它可以簡單地指示原始功能是否丟失。這個信息可能對擬合一個好的模型有用。
在選擇這三種方法中的哪一種方法時,需要考慮幾件事情。