如何降低語料庫中文本詞矩陣的稀疏性（R）

我有一個語料庫，其中有15,000多個文本文檔。該removeSparseTerms功能不起作用：如何降低語料庫中文本詞矩陣的稀疏性（R）

dtm 

<<DocumentTermMatrix (documents: 15095, terms: 12811)>> 
Non-/sparse entries: 140286/193241759 
Sparsity   : 100% 
Maximal term length: 37 
Weighting   : term frequency (tf) 

dtms <- removeSparseTerms(dtm, 0.1) 
dtms 

<<DocumentTermMatrix (documents: 15095, terms: 0)>> 
Non-/sparse entries: 0/0 
Sparsity   : 100% 
Maximal term length: 0 
Weighting   : term frequency (tf)

我也試過這樣，它沒有工作：

colTotals<- col_sums(dtm) 
dtm2 <- dtm[,which(colTotals>20)] 
dtm2 

<<DocumentTermMatrix (documents: 15095, terms: 1387)>> 
Non-/sparse entries: 100867/20835898 
Sparsity   : 100% 
Maximal term length: 26 
Weighting   : term frequency (tf)

還有什麼我能做的減少稀疏？我希望能夠在excel中打開頻率表，現在它需要太多的內存，所以我無法打開（這就是爲什麼我想減少稀疏性）。

來源

2016-07-29 Deb Martin

我有一個類似的問題，在我的情況下，增加稀疏度幫助（因爲我的文檔中術語的頻率很低）。取而代之的dtms <- removeSparseTerms(dtm, 0.1)試試這個：dtms <- removeSparseTerms(dtm, 0.99)

請參閱https://stats.stackexchange.com/questions/160539/is-this-interpretation-of-sparsity-accurate爲稀疏的明確定義（「稀疏性是指相對於文檔頻率的任期，高於該術語將被刪除的門檻。」）

來源

2017-06-27 18:13:47 user26750

如何降低語料庫中文本詞矩陣的稀疏性（R）

回答

相關問題