2012-10-04 63 views
3

任何人都可以幫助我統計計算F-measure嗎?我知道如何計算召回和精度,但不知道給定的算法如何計算一個F-measure值。計算聚類的F-measure

作爲爲例,假設我的算法創建集羣,但我知道有ñ集羣爲相同的數據(如由另一基準算法創建)。

我找到了一個pdf,但沒有用,因爲我得到的集合值大於1. pdf的參考是F Measure explained。具體來說,我已經閱讀了一些研究論文,其中筆者根據F-measure對兩種算法進行了比較,他們將0到1之間的值集中在一起。 如果仔細閱讀上面提到的pdf,公式爲F(C,K )=Σ| ci |/N * max {F(ci,kj)}
其中ci是參考簇& kj是由其他算法創建的簇,在這裏我從1運行到n & j從1運行到m.Let say | c1 | = 218這裏按照pdf N = m * n假設m = 12和n = 10,並且對於j = 2我們得到了最大F(c1,kj)。當然,F(c1,k2)介於0和1之間,但通過上述公式計算的結果值我們將得到高於1的值。

+0

你可以發佈你的召回和精度? IINM如果他們介於0和1之間,他們的平均值(請參閱您的參考)應該<1(請檢查您的公式)。如果他們不是,你的算法很可能是錯誤的。 –

+0

是的,請詳細說明您如何獲得精確度和召回率。他們必須在0到1纔有意義。否則,F1也會走出界限。你可能有*重疊*集羣?然後它不會工作;而且我不知道確實允許評估重疊羣集的擴展。 –

+0

我認爲這是指:http://nlp.stanford.edu/IR-book/html/htmledition/evaluation-of-clustering-1.html –

回答

1

因此,例如給定,

 
      D = {1, 2, 3, 4, 5, 6} 

和分區,

 
      P = {1, 2, 3}, {4, 5}, {6}, and 
      Q = {1, 2, 4}, {3, 5, 6} 

其中設置由我們的算法創建P和設置由我們熟知的標準算法創建Q

 
      PairsP = {(1, 2), (1, 3), (2, 3), (4, 5)}, 
      PairsQ = {(1, 2), (1, 4), (2, 4), (3, 5), (3, 6), (5, 6)}, and 
      PairsD = {(1, 2), (1, 3), (1, 4), (1, 5), (1, 6), (2, 3), (2, 4), 
         (2, 5), (2, 6), (3, 4), (3, 5), (3, 6), (4, 5), (4, 6), (5, 6)} 

so,

 
      a = | PairsP intersection PairsQ | = |(1, 2)| = 1 
      b = | PairsP- PairsQ | = |(1, 3)(2, 3)(4, 5)| = 3 
      c = | PairsQ- PairsP | = |(1, 4)(2, 4)(3, 5)(3, 6)(5, 6)| = 5 
    
 
    F-measure= 2a/(2a+b+c) 
4

術語f-度量本身是未指定的。這是調和平均值,通常精度和召回。其實你甚至應該說F1分數如果你的意思是未加權的版本,因爲你可以對兩個輸入值賦予不同的權重。但沒有說哪兩個值是平均值(不是算術平均值意義上的!),這並沒有說太多。

https://en.wikipedia.org/wiki/F1_score

注意,值必須在0-1數值範圍。否則,您之前有錯誤。

在聚類分析中,常用的方法是將F1-Measure應用於的精度和召回率,通常稱爲「pair counting f-measure」。但是你也可以在其他值上計算相同的均值。

配對計數具有很好的性質,它不直接比較聚類,因此當一個結果具有m個聚類時,另一個具有n個聚類時,結果得到良好定義。但是,對計數需要嚴格的分區。當元素未被羣集或分配給多個羣集時,配對計數度量可能很容易超出範圍0-1。

論述某些這些度量(包括蘭德索引並且這樣的)的和給出了「一對計數F值」的一個簡單的解釋。

+0

無論這篇文章的興趣,我認爲這個問題的答案應該在最少表示**特殊意義**明確 –

+0

我懶得通過維基百科驗證它是調和的意思,而不是幾何。我傾向於混淆東西。 –

+0

@ Anony-Mousse非常感謝上述職位的作者。這對我來說非常有用。非常感謝 –

2

您的公式中的N,F(C,K)=Σ| ci |/N * max {F(ci,kj)}是| ci |的和總之,即它是元素的總數。你可能錯誤地認爲它是聚類的數量,因此得到的答案大於1。如果您進行更改,您的答案將介於1和0之間。

2

mahesh cs提供的示例是正確的,它應該可以幫助您(和其他人)瞭解配對計數f-measure如何工作。

所提供的例子來自紙「表徵和相似性措施評價對聚類的」大流士普菲茨納,理查德Leibbrandt &大衛·鮑爾斯,並含有大量的關於這方面的有用信息。