2017-05-15 63 views
0

我一直在處理分類問題。使用不同的分類器[見下圖],我獲得的AUC分數介於0.79-0.80之間,這不是很糟糕。但是,我試圖改善分類器的性能。爲了得到一些關於如何做到這一點的線索,我使用this tutorial生成了以下可視化文件。額外的樹木似乎是最好的。但是,在這一點之後,我不知道如何前進。例如,我可以使用這個數字通知VotingClassifier嗎?如果是這樣,怎麼樣?我很欣賞任何建議。如何使用校準圖和概率分佈來改進分類模型?

enter image description here

+0

我還唸叨sklearn文檔'概率calibration'最近!我不認爲它是否可以幫助你改善模型的性能。相反,它只是給你一個更可靠的概率估計(調整先驗概率的種類)。正如文件所述,例如,如果您的分類器的概率估計值大約爲0.8,那麼您可以更確信大約80%實際上屬於正分類。正如文件顯示randomforest高估了這個概率。希望我的評論有幫助,如果您有任何突破,請與我們分享! – MhFarahani

+0

@MhFarahani謝謝!您的評論是基於第二張圖嗎? – renakre

回答

2

ROC_AUC比分僅僅是概率的順序敏感,而不是它們的絕對值。從字面上看,如果您將所有概率除以2,則ROC_AUC得分將變爲而不是

這意味着,概率校準對於改善AUC是無用的。你必須訴諸不同的方法。我不知道你已經嘗試過,名單可能包括

  • 功能工程
  • 特徵選擇
  • GridSearch最佳超參數
+0

感謝您的回答!是的,我已經應用了您列出的所有方法。我認爲我堅持在0.8 AUC水平。問題在於,我試圖預測的變量受到一個我沒有信息的外部因素的影響。我想,那是我能做的。 – renakre