2014-05-02 94 views
3

我有一個積極的數據集239和負數據集數量爲32,因爲它與癌症相關的數據我們只有很少的負數集。現在,在應用分類時,由於其數量巨大,確保不平衡數據集對積極偏向過多。所以我嘗試在Weka中應用SMOTE。我也嘗試過不同的百分比和最近的鄰居。令我驚訝的是,而不是負面的課程增加了一些實例,積極的進一步增加使得不平衡的數據集過於偏見。可以做些什麼來克服這一點。並建議我一些其他的方法?如果有weka中的不平衡數據集?不起作用

對於最初的研究中,我們使用LIBSVM與RBF作爲分類

回答

2

在這種不平衡的數據集的問題,我建議儘量使用分層,其中涉及過採樣少數類或向下採樣多數類。您可以在WEKA中使用成本敏感分類來模擬分層。

您可以使用兩個分類器,MetaCostCostSensitiveClassifier。唯一的問題是成本矩陣中的最優值只能通過實驗獲得。作爲一個經驗法則,您可以嘗試通過使用與類分佈相反的權重來平衡類分佈。就你而言,這意味着在成本矩陣中將239的成本分配給誤報,將32的權重分配給誤報。

+0

正如你所說我能夠分配239 FP,但是當我將FN更改爲32,並保存成本文件顯示FN只有1.0。我試過多次改變它,但我無法改變爲32.0。我的問題是我無法編輯成本矩陣。怎麼做 。無論價值如何,我將FN視爲1.0 – ramko

+0

哇!有用!!!我試圖保存成本文件和「按需求成本文件加載」。它的工作原理就像「Easy Juicy Lemon Squeezy」。我曾經在Libsvm的終端上用過重量但不習慣GUI版本的同類產品。現在它的作品很好,根據您的意見..感謝U – ramko

+0

高興的是。祝你的測試順利! –