我有一組二維點,我想用K均值算法來劃分出正確數量的聚類。查找K均值聚類中的最小方差
我讀到,對於固定數量的聚類,我應該運行幾次並找到給出最小方差的結果。
例如,說我知道,集羣的「正確」的個數爲4。因此,在這個例子中的僞代碼:
List<kmeansResult> result;
for(int i = 0 ; i < numIteration; ++i)
{
result.Add(kmeans.Compute(4));
}
而且我會獲得4類10種不同的方式result
,每個都有其各自的羣集差異。
我在這種情況下的問題是如何量化「最小」方差。由於方差在2維中,即var(X)
和var(Y)
,可能存在其中var(X)
被簡化但不是var(Y)
的情況。將2合併在一起會是一個很好的措施?
總結一下。這將是到集羣質心的距離的方差。 –
@NicoSchertler您假設'covar(X,Y)= 0',這對整個樣本集可能是正確的,但很可能不是每個集羣都是真實的。 – amit
@amit:我不知道爲什麼應該計算協方差來計算整體聚類方差。除非你正在尋找橢圓形表示。你的回答基本上是我所建議的,不是嗎? –