2013-04-17 66 views
2

我正在根據tutorial做一個檢測垃圾郵件帳戶的項目。兩個標籤 - 「垃圾郵件」和「非垃圾郵件」用於培訓和測試。分類已經完成,我正在進行評估。關於精確度和垃圾郵件檢測的混淆

的結果是:

*Spam* precision: 0.962917933131 
*Spam* recall: 0.6336 

*Not spam* precision: 0.72697466468 
*Not spam* recall: 0.9756 

我讀過的精確度和召回,仍然感到困惑的wiki,而且不知道如何使用它進行測量。

我的目的是減少的,標示爲「垃圾郵件」普通開戶數。一些「垃圾郵件」帳戶可以逃脫並不重要。所以我想知道上面哪個結果應該專注於改進?謝謝。

回答

6

精度是歸類爲正數的結果的一部分,確實是正數。

回憶是檢測到的所有陽性結果的分數。

我的目的是減少標記爲「垃圾郵件」的標準帳戶數量 。

這意味着你想最大化垃圾郵件不是垃圾郵件精度和召回。您鏈接到的wiki頁面解釋了您需要知道的所有內容 - 事實上,您的目的是最大程度地減少「誤報」(包含在這兩個特性中)的數量。

建議的關鍵字:Confusion Matrix