2012-08-06 112 views
1

如果數據集中的某一列只有3個可能值.i.e。 0,1和2,如果我將它們聲明爲名義v/s數值,WEKA對它們有多不同?另外,如果對於列的屬性有大量的名義值,是否有一種簡單的方法來聲明這個具有很高序數值的名義屬性?WEKA如何處理名義屬性v/s數字屬性?

回答

7

粗略地說(它依賴於實際的算法):

當作爲數字處理,1至2和1至3的不同點是大致兩倍大。 (鑑於沒有其他屬性)。

當被視爲字符串時,它們可能同樣不同,如'1'!='2'和'1'!='3'。 (然而,例如,結果可能取決於數字的頻率;對於分類數據的常見不相似度量涉及相對頻率)

+0

感謝您的直觀解釋。你能否詳細說明你的最後一行頻率和分類數據?謝謝 – 2012-08-08 04:37:40

+0

我不使用分類數據。你必須自己在文獻和Weka中查找適當的相似性度量。 – 2012-08-08 06:19:48

1

數值和分類值如何處理取決於您使用的Weka中的實際機器學習算法。有些不能處理這兩類屬性,如果你選擇了一個錯誤屬性類型的算法,Weka會告訴你。

一般而言,您應該將屬性聲明爲它們的實際屬性,即如果值爲數字,則將其聲明爲數字,即使只有幾個不同的實際值。同樣,如果屬性是分類的,即使存在許多不同的值,也可以聲明它。

關於你的最後一個問題,我不認爲韋卡區分具有很少和許多不同實際值的分類值。它應該和其他一切一樣。