2015-07-20 29 views
0

我在R中創建了測試文檔中的單詞頻率(000_1.txt,000_2.txt,000_11.txt)的腳本。 我想用數值結束的順序(1,2,11)。R中的tm包的精細化排序文件

SO是Windows 7.目錄「E:\ testR」包含這些文件。

這是代碼

library("tm") 

pathElaboration <- "E:/testR" 
setwd(pathElaboration) 
dirSource <- DirSource(pathElaboration, encoding = "ISO-8859-2",pattern="*.txt") 
vCorpusFiles <- VCorpus(dirSource, readerControl = list(language = "en")) 
for (i in seq(from= 1, to=length(vCorpusFiles), by=1)) 
{ 
    dtm <- DocumentTermMatrix(vCorpusFiles[i]) 
    vectorFrequencyWord <- as.matrix(dtm) 
    print(vectorFrequencyWord) 
} 

但結果是

  Terms 
Docs  file1 
    000_1.txt  1 
      Terms 
Docs   wordinfile11 
    000_11.txt   1 
      Terms 
Docs  wordinfile2 
    000_2.txt   1 

我將有序列000_1.txt,000_2.txt,000_11.txt在闡述

哪有我解決這個問題?

回答

0

這是一個文本排序順序,所以這應該工作:

dtm <- dtm[order(Docs(dtm)), ]