我使用tm
和wordcloud
在R中執行一些基本的文本挖掘。正在處理的文本包含很多無意義的單詞,如asfdg,aawptkr,我需要過濾這些單詞。 我找到的最接近的解決方案是使用library(qdapDictionaries)
並構建自定義函數來檢查單詞的有效性。從R中的語料庫中刪除無意義的單詞
library(qdapDictionaries)
is.word <- function(x) x %in% GradyAugmented
# example
> is.word("aapg")
[1] FALSE
文本挖掘中使用的其餘部分是:
curDir <- "E:/folder1/" # folder1 contains a.txt, b.txt
myCorpus <- VCorpus(DirSource(curDir))
myCorpus <- tm_map(myCorpus, removePunctuation)
myCorpus <- tm_map(myCorpus, removeNumbers)
myCorpus <- tm_map(myCorpus,foo) # foo clears meaningless words from corpus
的問題是is.word()
工作正常辦理dataframes但如何使用它語料庫處理?
感謝
hello check'content_transformer'這就是你需要的 –
@ s.brunel,'content_transformer'與修改語料庫的函數一起工作,'is.word'剛剛返回True/False – parth