關於精確度和垃圾郵件檢測的混淆

我正在根據tutorial做一個檢測垃圾郵件帳戶的項目。兩個標籤 - 「垃圾郵件」和「非垃圾郵件」用於培訓和測試。分類已經完成，我正在進行評估。關於精確度和垃圾郵件檢測的混淆

的結果是：

*Spam* precision: 0.962917933131 
*Spam* recall: 0.6336 

*Not spam* precision: 0.72697466468 
*Not spam* recall: 0.9756

我讀過的精確度和召回，仍然感到困惑的wiki，而且不知道如何使用它進行測量。

我的目的是減少的，標示爲「垃圾郵件」普通開戶數。一些「垃圾郵件」帳戶可以逃脫並不重要。所以我想知道上面哪個結果應該專注於改進？謝謝。

2013-04-17 zfz

精度是歸類爲正數的結果的一部分，確實是正數。

回憶是檢測到的所有陽性結果的分數。

我的目的是減少標記爲「垃圾郵件」的標準帳戶數量。

這意味着你想最大化垃圾郵件的不是垃圾郵件精度和召回。您鏈接到的wiki頁面解釋了您需要知道的所有內容 - 事實上，您的目的是最大程度地減少「誤報」（包含在這兩個特性中）的數量。

建議的關鍵字：Confusion Matrix。

2013-04-17 04:57:45 sashkello

回答