2013-11-25 94 views
0

我正在嘗試使用着名的Reuters-21578數據集做一些工作,並且在將sgm文件加載到我的語料庫時遇到了一些麻煩。將R用於文本挖掘Reuters-21578

現在我用命令

require(tm) 
reut21578 <- system.file("reuters21578", package = "tm") 
reuters <-Corpus(DirSource(reut21578), 
    readerControl = list(reader = readReut21578XML)) 

在試圖包括所有文件到我的文集,但是這給了我以下錯誤:

Error in DirSource(reut21578) : empty directory 

任何想法,我可能是出錯了?

+0

看一看這個問題 - 它看起來像沒有被包括在該數據'tm'包,你可能需要手動下載才能繼續。 http://stackoverflow.com/questions/10377273/tm-package-error-error-definining-document-term-matrix – Stedy

+0

@Stedy:您提供的鏈接肯定會對我的其他分析有所幫助,但我已經下載數據和我正在做的事情似乎沒有找到合適的目錄。 – user1422508

+1

ahh gotcha,好吧,我認爲正在發生的事情是R在'tm'的源代碼目錄中查找。爲什麼不通過將文件放在'Documents'或Desktop中並簡單地將其稱爲'file(「Documents/reuters-21578」)' – Stedy

回答

5

「tm」包僅包含Reuters21578數據的樣本。如果你想避免下載,裝載,準備所有的22個Reuters21578文件,你可以使用包「tm.corpus.Reuters21578」:

install.packages("tm.corpus.Reuters21578", repos = "http://datacube.wu.ac.at") 
library(tm.corpus.Reuters21578) 
data(Reuters21578) 
+0

有一條評論聲稱URL不再工作。鏈接,他們傾向於打破,因此,「只有鏈接」的答案是不鼓勵的... – GhostCat

+0

它給了我一些警告,但隨後包下載就好了。我也不認爲這是「僅鏈接」答案的真實例子。 –