2016-07-12 39 views
3

我使用R TM封裝,我想通過自己的指數,它們的元數據來選擇某些文件:如何根據元數據過濾R中tm語料庫中的文檔?

orbit_corpus<-Corpus(tm_corpus, readerControl = list(reader=myReader)) 

meta(my_corpus[[1]]) 

author : a8 
origin : Department 
heading : WhiB 
id  : 1 
year : 2013 

我想獲得發現的所有文件百強之首的文件我的語料庫有內發表於2013年 這工作,以確定元數據「年」爲文件1是否是2013年

meta(my_corpus[[1]],"year") == 2013 
[1] TRUE 

我需要的東西,給我的第一個100個的所有指標,符合標準中找到選項。 我會想象一些類似的東西(但它不起作用,不幸的是可能不會生成文檔列表)。

meta(orbit_corpus[[1:100]],"year") == 2013 
Error in x$content[[i]] : recursive indexing failed at level 4 

非常感謝您的幫助!

回答

4

你可以在你的陰莖(orbit_corpus[1:100]

tm_filter(orbit_corpus[1:100], FUN = function(x) meta(x)[["year"]] == "2013") 

的第100個文檔使用tm_filter從文檔

tm_filter返回包含其中FUN比賽

文檔語料庫
+0

謝謝!這工作正常! – Sawol

相關問題