2016-11-29 49 views
0

我正在使用R的quanteda軟件包以及R和包的最新版本。我有一個數百萬的文件集。Quanteda - 將函數應用於文檔變量的DFM

假設我有一個由quanteda生成的DFM,每個文檔都有一個docvar的日期。在特定的日子裏有成千上萬的文件,但是我希望獲得適用於這些文件的DFM(白天)(這樣我每天就可以得到全部的文字)。我知道quanteda是使用data.table構建的,因此應該可以這樣做,但是我在「Quanteda入門」或StackOverflow中幾乎沒有發現,它提供了一種乾淨的方式來執行此操作。

有什麼建議嗎?

回答

1

你想要的 '羣體' 的說法來dfm

> # Add some random dates to an existing corpus 
> docvars(data_corpus_inaugural)$date <- rep(as.Date(runif(19, 1, 18000), origin='1970-01-01'), 3) 

> dfm_inaugural <- dfm(data_corpus_inaugural, groups='date') 
> head(dfm_inaugural) 
Document-feature matrix of: 19 documents, 9,215 features (80.8% sparse). 
(showing first 6 documents and first 6 features) 
      features 
docs   fellow citizens i appear before you 
    1970-12-27  4  7 39  2  10 17 
    1972-04-25  8  13 29  1  8 8 
    1973-08-22  1  3 48  1  6 1 
    1973-10-11  2  4 25  0  3 5 
    1974-01-05  3  9 57  0  7 2 
    1975-04-12  7  21 63  4  6 16 
相關問題