直到最近(1個月前),下面顯示的代碼允許我將存儲在本地文件夾中的一系列.txt文檔導入R,創建一個語料庫,對其進行預處理並最終將其轉換爲文檔術語表。我遇到的問題是沒有導入文檔名稱,而是將每個文檔都列爲「字符(0)」。R - 文本挖掘 - 導入語料庫並保存文檔名稱矩陣中的文件名
我的目標之一是在語料庫上進行主題建模,因此將文檔名稱與模型生成的主題聯繫起來非常重要。
有沒有人有什麼建議,以什麼改變?或者我可以如何解決這個問題?
library("tm")
library("SnowballC")
setwd("C:/Users/Documents/Dataset/")
corpus <-Corpus(DirSource("blog"))
#pre_processing
myStopwords <- c(stopwords("english"))
your_corpus <- tm_map(corpus, tolower)
your_corpus <- tm_map(your_corpus, removeNumbers)
your_corpus <- tm_map(your_corpus, removeWords, myStopwords)
your_corpus <- tm_map(your_corpus, stripWhitespace)
your_corpus <- tm_map(your_corpus, removePunctuation)
your_corpus <- tm_map(your_corpus, stemDocument)
your_corpus <- tm_map(your_corpus, PlainTextDocument)
#creating a doucment term matrix
myDtm <- DocumentTermMatrix(your_corpus, control=list(wordLengths=c(3,Inf)))
dim(myDtm)
inspect(myDtm)
我以前有這個問題,但不記得了問題/ 解析度。如果您在每次操作後檢查your_corpus,則可以看到該ID何時被丟棄。然後,您可以搜索該操作。此外,檢查這個答案http://stackoverflow.com/questions/24501514/keep-document-id-with-r-corpus – user3969377 2014-10-08 14:25:47