tm - 優文庫

tm

7熱度

2回答

我想使用R中的tm軟件包來干擾純文本文檔的語料庫中的文檔。當我將SnowballStemmer函數應用於語料庫的所有文檔時，只有每個文檔的最後一個詞是朵朵。 library(tm) library(Snowball) library(RWeka) library(rJava) path <- c("C:/path/to/diretory") corp <- Corpus(DirSourc

5熱度

5回答

tm包錯誤「無法將DocumentTermMatrix轉換爲正常矩陣，因爲矢量太大」

我創建了一個包含1859個文檔（行）和25722（列）的DocumentTermMatrix。爲了在這個矩陣上執行進一步的計算，我需要把它轉換成一個規則矩陣。我想使用as.matrix()命令。但是，它返回以下錯誤：無法分配大小爲364.8 MB的向量。 > corp A corpus with 1859 text documents > mat<-DocumentTermMatrix(cor

1熱度

1回答

在tm中包含短標記DocumentTermMatrix

編輯：這是與工作區中的對象衝突並導致意外行爲的問題。我想從文檔中使用下面的代碼創建DocumentTermMatrix。該文件包含許多1和2個字符的標記。但是，即使最小字長設置爲1個字符，生成的矩陣也包含699個文檔和0個項。 library(tm) data <- read.csv("http://archive.ics.uci.edu/ml/machine-learning-databas