2012-02-09 139 views
1

編輯:這是與工作區中的對象衝突並導致意外行爲的問題。在tm中包含短標記DocumentTermMatrix

我想從文檔中使用下面的代碼創建DocumentTermMatrix。該文件包含許多1和2個字符的標記。但是,即使最小字長設置爲1個字符,生成的矩陣也包含699個文檔和0個項。

library(tm) 
data <- read.csv("http://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data",header=FALSE) 
data <- data[-1] 

training_data <- as.vector(apply(as.matrix(data, mode="character"),1,paste,collapse=" ")) 
corpus <- Corpus(VectorSource(training_data)) 

matrix <- DocumentTermMatrix(corpus,control=list(wordLengths=c(1,Inf))) 

任何人都可以提供一些線索,爲什麼沒有令牌,儘管數據有許多被1和2個字符的令牌產生的?這裏是一個樣本數據的錄入:

" 4 8 8 5 4 5 10 4 1 4" 

回答

4

我跑什麼你給我在R和TM的最新版本Windows 7的機器上,併產生你要找的人(見下文)的結果。我會嘗試清理您的工作區,退出R和/或重新啓動。

> library(tm) 
> data <- read.csv("http://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data",header=FALSE) 
> data <- data[-1] 
> 
> training_data <- as.vector(apply(as.matrix(data, mode="character"),1,paste,collapse=" ")) 
> corpus <- Corpus(VectorSource(training_data)) 
> 
> matrix <- DocumentTermMatrix(corpus,control=list(wordLengths=c(1,Inf))) 
> matrix 
A document-term matrix (699 documents, 11 terms) 

Non-/sparse entries: 2899/4790 
Sparsity   : 62% 
Maximal term length: 2 
Weighting   : term frequency (tf) 
+0

我想有時你只是需要在另一臺計算機上測試才能找到問題。感謝您的幫助! – 2012-02-09 07:24:32