2014-10-04 93 views
0

我是數據挖掘的初學者。我正在使用weka。該數據集有109個變量,其中許多是具有許多級別(1至8)的名義變量。我的問題是:weka中的多級分類變量

1.我應該將分類變量(高達8級)轉換爲二進制文件還是照原樣使用?

注意:我將使用邏輯迴歸,隨機森林,樸素貝葉斯算法。

回答

0

它們應該按原樣工作,但如果將分類數據預處理爲二進制文件,則可能會得到不同的結果。

Logistic迴歸,隨機森林和樸素貝葉斯在Weka中似乎使用相當好的名義值。如果將屬性轉換爲二進制文件,其中一些模型在引擎蓋下可能會有所不同。我不認爲Logistic迴歸會有很大的不同,但我不太確定隨機森林或樸素貝葉斯。