首先讓我說,我是WEKA新手。Weka - 賦予極化/偏向結果的二元分類
我使用WEKA對於其中某些指標被用來獲取一個是/否答案的情況下的二元分類問題。
爲了舉例說明問題,這裏的混淆矩陣我得到了一組與288分的情況下,與190「是」,並使用98「不」值BayesNet:
a b <-- classified as
190 0 | a = yes
98 0 | b = no
這絕對分離是與案件還有一些其他分類器,但不是全部。也就是說,即使分類器沒有極化到這種程度的值,他們確實對主要類有明確的偏見。例如,這裏的結果與隨機森林:
a b <-- classified as
164 34 | a = yes
62 28 | b = no
我敢肯定,我失去了一些東西很明顯。
那麼你的問題是什麼?占主導地位的類別幾乎是另一類的兩倍,所以是的,所有的分類器都會(也應該)對它有偏見。 – 2013-03-18 14:57:56
結果是否顯示主要類別正常的總偏差?例如,對於BayesNet,我總是得到Kappa統計值爲0的完全單邊結果。無論使用哪種數據集或指標。這是如何工作的? RandomForest的結果是可以接受的,我承認,但是BayesNet會讓我陷入困境。 – 2013-03-18 15:04:27
很難說沒有完整的數據會發生什麼。這些特徵可能無法實現良好的分離(至少就貝葉斯網而言)。我想簡單的答案是不要使用BayesNet來完成這個特定任務:) – 2013-03-18 15:11:41