0
removeSparseTerms中的這個稀疏參數有什麼作用?刪除矩陣中的稀疏
This Works。
TrigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 3, max = 3))
BigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 2, max = 2))
tdm <- DocumentTermMatrix(corpus, control = list(tokenize = TrigramTokenizer))
x <- as.matrix(removeSparseTerms(tdm, 0.99991))
然而,當我改變
x <- as.matrix(removeSparseTerms(tdm, 0.10))
這是行不通的。矩陣返回一個稀疏矩陣。我的理解不正確嗎? 0.10參數確定術語必須出現在文集中至少10%的文檔中?
這是由於我矩陣的稀疏嗎?
運行語料庫返回這個結果
corpus
<<DocumentTermMatrix (documents: 42695, terms: 326740)>>
Non-/sparse entries: 393990/13949770310
Sparsity : 100%
Maximal term length: 97
Weighting : term frequency (tf)