tm

    7熱度

    2回答

    我想使用R中的tm軟件包來干擾純文本文檔的語料庫中的文檔。當我將SnowballStemmer函數應用於語料庫的所有文檔時,只有每個文檔的最後一個詞是朵朵。 library(tm) library(Snowball) library(RWeka) library(rJava) path <- c("C:/path/to/diretory") corp <- Corpus(DirSourc

    5熱度

    5回答

    我創建了一個包含1859個文檔(行)和25722(列)的DocumentTermMatrix。爲了在這個矩陣上執行進一步的計算,我需要把它轉換成一個規則矩陣。我想使用as.matrix()命令。但是,它返回以下錯誤:無法分配大小爲364.8 MB的向量。 > corp A corpus with 1859 text documents > mat<-DocumentTermMatrix(cor

    1熱度

    1回答

    編輯:這是與工作區中的對象衝突並導致意外行爲的問題。 我想從文檔中使用下面的代碼創建DocumentTermMatrix。該文件包含許多1和2個字符的標記。但是,即使最小字長設置爲1個字符,生成的矩陣也包含699個文檔和0個項。 library(tm) data <- read.csv("http://archive.ics.uci.edu/ml/machine-learning-databas