1
編輯:這是與工作區中的對象衝突並導致意外行爲的問題。在tm中包含短標記DocumentTermMatrix
我想從文檔中使用下面的代碼創建DocumentTermMatrix。該文件包含許多1和2個字符的標記。但是,即使最小字長設置爲1個字符,生成的矩陣也包含699個文檔和0個項。
library(tm)
data <- read.csv("http://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data",header=FALSE)
data <- data[-1]
training_data <- as.vector(apply(as.matrix(data, mode="character"),1,paste,collapse=" "))
corpus <- Corpus(VectorSource(training_data))
matrix <- DocumentTermMatrix(corpus,control=list(wordLengths=c(1,Inf)))
任何人都可以提供一些線索,爲什麼沒有令牌,儘管數據有許多被1和2個字符的令牌產生的?這裏是一個樣本數據的錄入:
" 4 8 8 5 4 5 10 4 1 4"
我想有時你只是需要在另一臺計算機上測試才能找到問題。感謝您的幫助! – 2012-02-09 07:24:32