將R用於文本挖掘Reuters-21578

我正在嘗試使用着名的Reuters-21578數據集做一些工作，並且在將sgm文件加載到我的語料庫時遇到了一些麻煩。將R用於文本挖掘Reuters-21578

現在我用命令

require(tm) 
reut21578 <- system.file("reuters21578", package = "tm") 
reuters <-Corpus(DirSource(reut21578), 
    readerControl = list(reader = readReut21578XML))

在試圖包括所有文件到我的文集，但是這給了我以下錯誤：

Error in DirSource(reut21578) : empty directory

任何想法，我可能是出錯了？

來源

2013-11-25 user1422508

看一看這個問題 - 它看起來像沒有被包括在該數據'tm'包，你可能需要手動下載才能繼續。 http://stackoverflow.com/questions/10377273/tm-package-error-error-definining-document-term-matrix – Stedy

@Stedy：您提供的鏈接肯定會對我的其他分析有所幫助，但我已經下載數據和我正在做的事情似乎沒有找到合適的目錄。 – user1422508

ahh gotcha，好吧，我認爲正在發生的事情是R在'tm'的源代碼目錄中查找。爲什麼不通過將文件放在'Documents'或Desktop中並簡單地將其稱爲'file（「Documents/reuters-21578」）' – Stedy

「tm」包僅包含Reuters21578數據的樣本。如果你想避免下載，裝載，準備所有的22個Reuters21578文件，你可以使用包「tm.corpus.Reuters21578」：

install.packages("tm.corpus.Reuters21578", repos = "http://datacube.wu.ac.at") 
library(tm.corpus.Reuters21578) 
data(Reuters21578)

來源

2015-12-15 17:17:43

有一條評論聲稱URL不再工作。鏈接，他們傾向於打破，因此，「只有鏈接」的答案是不鼓勵的... – GhostCat

它給了我一些警告，但隨後包下載就好了。我也不認爲這是「僅鏈接」答案的真實例子。 –

將R用於文本挖掘Reuters-21578

回答

相關問題