weka中的不平衡數據集？不起作用

我有一個積極的數據集239和負數據集數量爲32，因爲它與癌症相關的數據我們只有很少的負數集。現在，在應用分類時，由於其數量巨大，確保不平衡數據集對積極偏向過多。所以我嘗試在Weka中應用SMOTE。我也嘗試過不同的百分比和最近的鄰居。令我驚訝的是，而不是負面的課程增加了一些實例，積極的進一步增加使得不平衡的數據集過於偏見。可以做些什麼來克服這一點。並建議我一些其他的方法？如果有weka中的不平衡數據集？不起作用

對於最初的研究中，我們使用LIBSVM與RBF作爲分類

來源

2014-05-02 ramko

在這種不平衡的數據集的問題，我建議儘量使用分層，其中涉及過採樣少數類或向下採樣多數類。您可以在WEKA中使用成本敏感分類來模擬分層。

您可以使用兩個分類器，MetaCost和CostSensitiveClassifier。唯一的問題是成本矩陣中的最優值只能通過實驗獲得。作爲一個經驗法則，您可以嘗試通過使用與類分佈相反的權重來平衡類分佈。就你而言，這意味着在成本矩陣中將239的成本分配給誤報，將32的權重分配給誤報。

來源

2014-05-12 07:49:00

正如你所說我能夠分配239 FP，但是當我將FN更改爲32，並保存成本文件顯示FN只有1.0。我試過多次改變它，但我無法改變爲32.0。我的問題是我無法編輯成本矩陣。怎麼做。無論價值如何，我將FN視爲1.0 – ramko

哇！有用！！！我試圖保存成本文件和「按需求成本文件加載」。它的工作原理就像「Easy Juicy Lemon Squeezy」。我曾經在Libsvm的終端上用過重量但不習慣GUI版本的同類產品。現在它的作品很好，根據您的意見..感謝U – ramko

高興的是。祝你的測試順利！ –

weka中的不平衡數據集？不起作用

回答

相關問題