2013-09-25 72 views
0

我有一些標記的數據將數據集分類爲正數或負數。現在我有一個自動執行相同的算法,我想比較結果。什麼評估分類器?精確度和召回率?

據說我使用精確度和回憶,但我不確定這些是否合適,因爲真正的底片甚至不出現在公式中。我寧願傾向於使用普遍的「預測率」,既有積極的一面,也有消極的一面。

這將是一種評估算法的好方法嗎?謝謝!!

+0

你可以請你發佈你的代碼嗎? – Beppe

+0

結果是這樣的:

 data + user + algorithm ----------|------|---------- some text | pos | pos other txt | neg | pos whatever | neg | neg littlepny | pos | neg stackover | neg | pos

+0

sry的格式...我新來這裏...結果是這樣的:{[some text,pos,pos]; [other txt,neg,pos]; [whatever,neg,neg]; [littlepny,pos,neg]} ...所以它像一些數據,然後是手動註釋,然後是程序的輸出。 ...我只是不確定我是否應該使用精度/召回來顯示它的工作原理或其他「數字」有多好...... ;-) –

回答

0

有評價的不一般的「最好」的方法,一切都取決於你是什麼目的,因爲每個方法捕獲不同的現象:

  • 精度是簡單的措施,非常適合於多標籤分類而良好的平衡數據
  • F1-得分捕獲精度/召回折衷
  • MCC是一個很好的措施,其非常適合於在類別大dissproportion數據集尺寸
相關問題