我正在使用R和tm包來進行一些文本分析。 我正在嘗試根據在單個文本文件的內容中是否找到某個表達式來構建語料庫的一個子集。基於文本文件的內容對文集進行子集
我創建20個TEXTFILES語料庫(謝謝你lukeA在這個例子中):
reut21578 <- system.file("texts", "crude", package = "tm")
corp <- VCorpus(DirSource(reut21578), list(reader = readReut21578XMLasPlain))
我現在想只選擇那些包含字符串「降價」 TEXTFILES創建一個子集,文集。
檢查該文件的第一文本文件,我知道有包含字符串中的至少一個文本文件:
writeLines(as.character(corp[1]))
我怎麼會去最好這樣做呢?
非常感謝您的加入。我同意,這非常有用! – tarti