我正在嘗試使用着名的Reuters-21578數據集做一些工作,並且在將sgm文件加載到我的語料庫時遇到了一些麻煩。將R用於文本挖掘Reuters-21578
現在我用命令
require(tm)
reut21578 <- system.file("reuters21578", package = "tm")
reuters <-Corpus(DirSource(reut21578),
readerControl = list(reader = readReut21578XML))
在試圖包括所有文件到我的文集,但是這給了我以下錯誤:
Error in DirSource(reut21578) : empty directory
任何想法,我可能是出錯了?
看一看這個問題 - 它看起來像沒有被包括在該數據'tm'包,你可能需要手動下載才能繼續。 http://stackoverflow.com/questions/10377273/tm-package-error-error-definining-document-term-matrix – Stedy
@Stedy:您提供的鏈接肯定會對我的其他分析有所幫助,但我已經下載數據和我正在做的事情似乎沒有找到合適的目錄。 – user1422508
ahh gotcha,好吧,我認爲正在發生的事情是R在'tm'的源代碼目錄中查找。爲什麼不通過將文件放在'Documents'或Desktop中並簡單地將其稱爲'file(「Documents/reuters-21578」)' – Stedy