2013-07-17 35 views
0

我必須使用rapidminer中不同的性能操作符來檢查各種聚類算法的性能。對此,我想知道下面的事情:rapidminer:集羣性能操作符。不同的值意味着什麼?

  1. 什麼呢簇號索引值顯示這是集羣計數演奏操作的輸出?
  2. 平均距離和平均值內avg的小數值和大數值有什麼區別。在質心距離平均的好壞分組方面?
  3. 我也想檢查其他索引值,如Dunn索引,Jaccard索引,Fowlkes-Mallows等各種聚類算法。但rapidminer沒有任何運營商爲此,該怎麼做。我沒有經驗與R.
+0

你困惑[Rstats](https://www.google.co.uk/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&cad=rja&ved=0CC8QFjAA&url=http%3A%2F%2Fcran。 r-project.org%2F&ei = MXbmUbOWHIGvO7S2gdAM&usg = AFQjCNGkN9-tsdwufHU9DRuaIqxynoKtLg&sig2 = Xd4IDo7hJR7lVjnen8q8Vg&bvm = bv.49405654,d.ZWU)與Rapidminer中的內容? 'R'標籤用於Rstats .. – geotheory

+0

考慮使用ELKI。如果您已經標記了數據,它將爲您呈現廣泛的羣集質量指標。 –

回答

0

我抄answer我介紹了快速-I論壇

一部分的簇號索引是集羣的數量 - 毫無意義的,你可能會說,但是當與DBSCAN一起使用,可能會非常有趣http://rapidminernotes.blogspot.co.uk/2010/12/counting-clusters.html

羣集和質心距離內的平均值很難解釋 - 在這種情況下,要搜索的一件事就是「肘準則」。隨着集羣數量的變化,請注意有效性度量如何變化,並尋找一個「肘」,標誌着度量的自然進程支配結構的點。

R有很多有效性的措施,值得投入一些時間,因爲你總是可以從RapidMiner調用R進程,這使得更容易計算出發生了什麼。