2015-03-13 29 views
2

我正在探索r編程環境,對我的測試數據執行聚類分析。爲了進行測試,我使用了具有以下散點圖的柱狀圖數據集和針對價值指數繪製的柱狀圖。k表示聚類結果存儲供以後使用

enter image description here

enter image description here 從數據我感覺值可以被劃分成7簇。而當我使用kmeans函數時,沒有簇參數爲7,我得到以下結果。

Within cluster sum of squares by cluster: [1] 492.480 2979.013 1903.396 18682.262 1430.533 754221.504 (between_SS/total_SS = 98.3 %)

現在我的疑問是如何存儲這些結果(不一定是R),這樣,當我得到一個新的數據集我應該能夠比較I/P數據和設置已存儲的聚類結果。我應該能夠將I/P數據集的值分成已知的簇。

+0

你爲什麼試圖對已經有7個離散值的數據進行「聚類」? – 2015-03-13 15:01:53

+0

@SeñorO八實際;-)但我同意提供的例子不是非常有用。 – agenis 2015-03-13 15:06:30

+0

Senor這是一個測試數據集。真實的數據會更密集。 – Soumajit 2015-03-13 15:06:39

回答

1

檢查部分help(kmeans)。這些中心會告訴你中心的位置在哪裏。對於傳入的數據,計算它最接近的中心。例如:

data(mtcars) 
mt.k <- kmeans(mtcars, centers = 4) 
mt.k$centers 
+0

感謝vpipkt的指針。 – Soumajit 2015-03-13 15:49:19

1

如何處理kmeans對象並不明顯。最容易做的事情是將其連接到數據幀:

k = kmeans(data, centers = 7) 
data = k$cluster 

現在你有簇號作爲data.frame列。保存,但是你會保存一個data.frame。