我是從以下https://rstudio-pubs-static.s3.amazonaws.com/31867_8236987cf0a8444e962ccd2aec46d9c3.htmlR型聚類分析
library(cluster)
d <- dist(t(dtmss), method="euclidian")
fit <- hclust(d=d, method="ward")
fit
plot.new()
plot(fit, hang=-1)
groups <- cutree(fit, k=5)
rect.hclust(fit, k=5, border="red")
如何打印每個集羣中的單詞下面列出的代碼?樹狀圖變得非常擁擠並且完全不可讀。
謝謝!
EDITS:
對於輸入,考慮一個名爲 「註釋」 列任何CSV文件。每個觀察(50行)都有文字註釋。
library(tm)
input = read.csv("FILEPATH/InputFile.csv")
summary(input)
comments <- Corpus(VectorSource(input$Comment))
data <- tm_map(comments, removePunctuation)
data <- tm_map(data, removeNumbers)
data <- tm_map(data, tolower)
data <- tm_map(data, removeWords, stopwords("english"))
data <- tm_map(data, PlainTextDocument)
dtm <- DocumentTermMatrix(data)
freq <- colSums(as.matrix(dtm))
ord <- order(freq)
findFreqTerms(dtm, lowfreq = 10)
freq <- sort(colSums(as.matrix(dtm)), decreasing = TRUE)
head(freq, 30)
dtms <- removeSparseTerms(dtm, 0.1)
inspect(dtms)
library(cluster)
d <- dist(t(dtms), method="euclidian")
fit <- hclust(d=d, method="ward")
fit
plot(fit, hang=-1)
plot.new()
plot(fit, hang=-1)
groups <- cutree(fit, k=5)
rect.hclust(fit, k=5, border="red")
我希望這是足夠的信息:
然後我從上面的鏈接中使用的代碼。
再次感謝。
的例子,當你」已經在這裏介紹過,不可重現。我認爲在你的教程中需要包含更多的代碼和數據才能滿足MCVE要求。 http://stackoverflow.com/help/mcve –
我試圖重現它與虹膜數據集... –
@ stata00編輯幫助了很多。它只是缺少實際的輸入文件,我想。是否有指向該教程的.csv的鏈接,您可以包含該鏈接? –