有人可以告訴我,意思是下面的代碼和輸出?我在這裏做創建語料庫文本挖掘稀疏/非稀疏含義
frequencies = DocumentTermMatrix(corpus)
frequencies
輸出
<<DocumentTermMatrix (documents: 299, terms: 1297)>>
Non-/sparse entries: 6242/381561
Sparsity : 98%
Maximal term length: 19
Weighting : term frequency (tf)
而對於稀疏代碼是在這裏。
sparse = removeSparseTerms(frequencies, 0.97)
sparse
輸出
> sparse
<<DocumentTermMatrix (documents: 299, terms: 166)>>
Non-/sparse entries: 3773/45861
Sparsity : 92%
Maximal term length: 10
Weighting : term frequency (tf)
正在發生的事情在這裏,是什麼非/稀疏項和稀疏的意思嗎?有人可以幫助我理解這些。
謝謝。
謝謝拉維,這有助於 – subro
如果有幫助,那麼upvote會很好 – Ravi