爲什麼我們希望在分類問題中最大化AUC？

我想知道爲什麼我們的目標是最大化AUC時最大化準確性產量相同？爲什麼我們希望在分類問題中最大化AUC？

我認爲這與主要目標最大化的準確性以來，AUC會自動變大。

我想我們用AUC，因爲它說明了我們的方法是如何能夠將數據獨立分離的閾值。對於某些應用程序，我們不希望有誤報或負數。而當我們使用準確性時，我們已經在最佳閾值上做出先驗分離數據，而不管特異性和敏感性如何。。

2017-10-14 06:18:25

在二元分類，精度爲一定閾值和AUC（ROC曲線下面積）的單個模型的性能度量爲一系列閾值的系列型號的性能度量。

多虧了這個問題，我學到的AUC和準確性比較頗有幾分。我認爲這兩者之間沒有相關性，我認爲這仍然是一個懸而未決的問題。在回答結束時，我添加了一些鏈接，如these，我認爲這些鏈接很有用。

一個場景精度失敗：

例題

讓，你上的數據集評估模型的性能的考慮二元分類問題100樣品（類別0和類別1）。

拿出你的複雜的機器學習模型和一個啞巴系統始終輸出0不管它接收輸入替換整個事情。現在的準確度是多少？

Accuracy = Correct predictions/Total predictions = 98/100 = 0.98

我們得到了「始終0」系統上的一個驚人的98％的準確率。

現在您將您的系統轉換爲癌症診斷系統，並開始預測（0 - 沒有癌症，1 - 癌症）在一組患者上。假設將有幾個對應於1類的案例，您仍然會達到較高的準確性。

儘管具有高精確度，什麼是系統的點，如果它不能在類1（確定癌症患者）做的很好？

這一觀察表明，精度不爲每類型的機器學習問題的一個很好的評價指標。上述問題被稱爲不平衡類問題，並且存在足夠的這種性質的實際問題。

至於準確性和AUC的比較，這裏有一些鏈接，我認爲將是有益的，

2017-10-14 15:46:56 akilat90

我是正確，如果我說 - 「AUC的最大化是在同樣的問題比較不同的分類模型時會考慮，這是不符合邏輯在一個特定的分類模式，最大限度AUC」？ –

單個模型具有較高的AUC是有道理的。回想一下，我們可以得到的最佳ROC曲線是在False Positive Rate = 0時的階梯函數。這是甚麼 - 甚至是次優曲線（AUC> 0.5） - 意味着什麼？即使對於會導致較高假錯誤率的閾值，您也會獲得較高的正確率。 – akilat90

回答