如何根據元數據過濾R中tm語料庫中的文檔？

我使用R TM封裝，我想通過自己的指數，它們的元數據來選擇某些文件：如何根據元數據過濾R中tm語料庫中的文檔？

orbit_corpus<-Corpus(tm_corpus, readerControl = list(reader=myReader)) 

meta(my_corpus[[1]]) 

author : a8 
origin : Department 
heading : WhiB 
id  : 1 
year : 2013

我想獲得發現的所有文件百強之首的文件我的語料庫有內發表於2013年這工作，以確定元數據「年」爲文件1是否是2013年

meta(my_corpus[[1]],"year") == 2013 
[1] TRUE

我需要的東西，給我的第一個100個的所有指標，符合標準中找到選項。我會想象一些類似的東西（但它不起作用，不幸的是可能不會生成文檔列表）。

meta(orbit_corpus[[1:100]],"year") == 2013 
Error in x$content[[i]] : recursive indexing failed at level 4

非常感謝您的幫助！

來源

2016-07-12 Sawol

你可以在你的陰莖（orbit_corpus[1:100]）

tm_filter(orbit_corpus[1:100], FUN = function(x) meta(x)[["year"]] == "2013")

的第100個文檔使用tm_filter從文檔

tm_filter返回包含其中FUN比賽
文檔語料庫

來源

2016-07-12 13:37:00

謝謝！這工作正常！ – Sawol

如何根據元數據過濾R中tm語料庫中的文檔？

回答

相關問題