2014-04-07 117 views
0

我在UCI存儲庫中提供的虹膜數據集上正在R工具中執行Kmeans集羣。在R中集羣時發生錯誤

下面是示例數據集:

SepalLength,SepalWidth,PetalLength,PetalWidth,Species 
5.1,3.5,1.4,0.2,Iris-setosa 
4.9,3.0,1.4,0.2,Iris-setosa 
4.7,3.2,1.3,0.2,Iris-setosa 
4.6,3.1,1.5,0.2,Iris-setosa 
5.0,3.6,1.4,0.2,Iris-setosa 
5.4,3.9,1.7,0.4,Iris-setosa 

我執行以下三個命令:

iris<-read.csv("C:/Users/admin/Desktop/Experiment/t2.csv") 
View(iris) 
km<- kmeans(iris, 3) 

我得到如下所示的錯誤:

Error in kmeans(iris, 3) : 
    more cluster centers than distinct data points. 
In addition: Warning message: 
In kmeans(iris, 3) : NAs introduced by coercion 

我認爲這可能是因爲它是非數字的第五列Species。所以,我從數據集中刪除了該列,然後再次重複上述命令。但是,我仍然遇到同樣的錯誤。

+0

有沒有可能是你的第一個四列編碼爲因素或一些這樣?順便說一句,虹膜數據集是內置到R.開始一個新的R會話,並運行'kmeans(虹膜[, - 5],3)',這完全適合我。 –

+0

謝謝。這個命令工作。我把這個鏈接稱爲http://www.rdatamining.com/examples/kmeans-clustering。我只是拿這個數據集進行實驗。當我運行在內置於R命令的數據集上時,它運行良好。但是,不適用於我手動創建的iris.csv的命令 – r4sn4

+0

請確保您正在聚類的數據不是「因素」。檢查'str(yourdata)'看看這個。 (除非你原來的問題是由其他原因引起的。) –

回答

0

嘗試使用這個

iris<-read.csv("C:/Users/admin/Desktop/Experiment/t2.csv", header=FALSE)

相關問題