2016-08-01 112 views
0

我是從以下https://rstudio-pubs-static.s3.amazonaws.com/31867_8236987cf0a8444e962ccd2aec46d9c3.htmlR型聚類分析

library(cluster) 
d <- dist(t(dtmss), method="euclidian") 
fit <- hclust(d=d, method="ward") 
fit 

plot.new() 
plot(fit, hang=-1) 
groups <- cutree(fit, k=5) 
rect.hclust(fit, k=5, border="red") 

如何打印每個集羣中的單詞下面列出的代碼?樹狀圖變得非常擁擠並且完全不可讀。

謝謝!

EDITS:

對於輸入,考慮一個名爲 「註釋」 列任何CSV文件。每個觀察(50行)都有文字註釋。

library(tm) 

input = read.csv("FILEPATH/InputFile.csv") 
summary(input) 

comments <- Corpus(VectorSource(input$Comment)) 

data <- tm_map(comments, removePunctuation) 
data <- tm_map(data, removeNumbers) 
data <- tm_map(data, tolower) 
data <- tm_map(data, removeWords, stopwords("english")) 
data <- tm_map(data, PlainTextDocument) 

dtm <- DocumentTermMatrix(data) 
freq <- colSums(as.matrix(dtm)) 
ord <- order(freq) 
findFreqTerms(dtm, lowfreq = 10) 
freq <- sort(colSums(as.matrix(dtm)), decreasing = TRUE) 
head(freq, 30) 

dtms <- removeSparseTerms(dtm, 0.1) 
inspect(dtms) 

library(cluster) 
d <- dist(t(dtms), method="euclidian") 
fit <- hclust(d=d, method="ward") 
fit 
plot(fit, hang=-1) 

plot.new() 
plot(fit, hang=-1) 
groups <- cutree(fit, k=5) 
rect.hclust(fit, k=5, border="red") 

我希望這是足夠的信息:

然後我從上面的鏈接中使用的代碼。

再次感謝。

+2

的例子,當你」已經在這裏介紹過,不可重現。我認爲在你的教程中需要包含更多的代碼和數據才能滿足MCVE要求。 http://stackoverflow.com/help/mcve –

+0

我試圖重現它與虹膜數據集... –

+0

@ stata00編輯幫助了很多。它只是缺少實際的輸入文件,我想。是否有指向該教程的.csv的鏈接,您可以包含該鏈接? –

回答

0

您可以根據他們獲得的集羣觀察是從組,然後子集數據:

t(dtms)[groups==1] 

應打印出集羣的成員1.

+0

我試過了。我收到錯誤「x $ nrow錯誤:$運算符對原子向量無效」。 – stata00

+0

dtmss的結構是什麼? dtmss $ nrow將嘗試訪問數據集中名爲nrow的變量(列)。也許你想要像dtmss [1:nrow,]? –

+0

對我的帖子進行了編輯。我已經包含了完整示例的代碼。謝謝! – stata00