2013-05-10 61 views
5

我想讀的IRStatisticsImpl數據,但有一些問題:如何解釋象夫IRStatisticsImpl數據

我的結果是:

IRStatisticsImpl[precision:0.04285714285714287,recall:0.04275534441805227,fallOut:0.0018668022652391654,nDCG:0.04447353132522083,reach:0.997624703087886] 

沒有意思,我只拿到4%的好建議(精確)和大約相同水平的不良推薦(召回)?

最好的數字應該是什麼樣子 - 精度爲1.0,回憶爲0.0?

回答

2

嘛,顧名思義:

精密表示有多少結果是在結果集中正確的。 召回表示測試集中的正確元素必須被選擇爲正確並在結果集中選取的概率。

要成爲完美精度和召回率應該都是100%。必須根據您的域名評估有關這些值的良好結果和標準。

例如,如果您有一個有好的和不好的蘑菇桶,無論您的召回率有多低,您都應該瞄準100%的精度。因爲精確度對你的健康至關重要,所以你甚至可以留下很多好的蘑菇。重要的是不是吃的醜陋的。 你可以挑一個好的蘑菇,所以你的精確度是100%,但是如果你的桶裏有四個好的蘑菇,你的召回率是25%。 理想情況下,如果精度和召回率都是100%,意味着您的結果集中所有的蘑菇都很好,並且所有好的蘑菇都在您的結果集中,而且沒有一個在您的測試集中。

所以值可能有不同的含義。

可悲的是你的結果看起來非常難看,因爲你有很多誤報和太多的假陰性。

看一看here

+0

你能告訴我,'fallOut'和'nDCG'的數字應該如何?它們應該是1.0還是0.0? – ulkas 2013-05-20 07:35:42

+0

顧名思義,fallOut是「從所有可用的非相關文檔中檢索到的非相關文檔的比例:」http://en.wikipedia.org/wiki/Information_retrieval#Fall-out據我所知,它應該儘可能低,但它也很容易得到0%,所以你可能會評估你的域名。 – gpicchiarelli 2013-05-20 08:32:34

+0

關於nDCG,它是DCG的標準化版本,意思是「折扣累積收益」。確切地說,在這裏看看http://en.wikipedia.org/wiki/Discounted_cumulative_gain – gpicchiarelli 2013-05-20 08:42:15