使用TM封裝在RI創建文檔,期限矩陣:過濾行/ R中的文件,術語矩陣文件
dtm <- DocumentTermMatrix(cor, control = list(dictionary=c("someTerm")))
偉馳的結果是這樣的:
A document-term matrix (291 documents, 1 terms)
Non-/sparse entries: 48/243
Sparsity : 84%
Maximal term length: 8
Weighting : term frequency (tf)
Terms
Docs someTerm
doc1 0
doc2 0
doc3 7
doc4 22
doc5 0
現在我想根據文檔中someTerm的出現次數過濾這個Document-Term-Matrix。例如。只濾出someTerm至少出現一次的文檔。即doc3和doc4在這裏。
我該如何做到這一點?
這完美地解決了很多 - 非常感謝!對大滿貫賽也是一個很好的暗示。 – user3316599