R集羣'純度'度量

2012-02-12 81 views 9 likes

我在R中使用fpc包來執行集羣驗證。R集羣'純度'度量

我可以使用函數cluster.stats（）將我的聚類與外部分區進行比較，並計算幾個指標，如Rand Index，entropy e.t.c.

不過，我要尋找一個叫「純度」或「集羣準確性」的指標，用於在http://nlp.stanford.edu/IR-book/html/htmledition/evaluation-of-clustering-1.html

定義，我想知道是否有這項措施的R.

感謝的實現，切特

2012-02-12 chet

回答

我不知道一個現成的，現成的功能，但在這裏是一種方式，你可以利用公式在您的鏈接做自己：

ClusterPurity <- function(clusters, classes) { 
    sum(apply(table(classes, clusters), 2, max))/length(clusters) 
}

在這裏我們可以對一些隨機的任務，在那裏我相信我們預計純度爲1 /數的類測試：

> n = 1e6 
> classes = sample(3, n, replace=T) 
> clusters = sample(5, n, replace=T) 
> ClusterPurity(clusters, classes) 
[1] 0.334349

2012-02-13 00:41:09

這是短期和容易！我很少使用R，並且正在開始編寫一個長功能來做到這一點。非常感謝您節省我的時間，並在R中教會我多一件事。 – chet 2012-02-16 15:49:14

@chet很棒我很高興它有幫助。祝你好運！ – 2012-02-16 16:08:45

相關問題