Quanteda - 將函數應用於文檔變量的DFM

我正在使用R的quanteda軟件包以及R和包的最新版本。我有一個數百萬的文件集。Quanteda - 將函數應用於文檔變量的DFM

假設我有一個由quanteda生成的DFM，每個文檔都有一個docvar的日期。在特定的日子裏有成千上萬的文件，但是我希望獲得適用於這些文件的DFM（白天）（這樣我每天就可以得到全部的文字）。我知道quanteda是使用data.table構建的，因此應該可以這樣做，但是我在「Quanteda入門」或StackOverflow中幾乎沒有發現，它提供了一種乾淨的方式來執行此操作。

有什麼建議嗎？

來源

2016-11-29 mlachans

你想要的 '羣體' 的說法來dfm：

> # Add some random dates to an existing corpus 
> docvars(data_corpus_inaugural)$date <- rep(as.Date(runif(19, 1, 18000), origin='1970-01-01'), 3) 

> dfm_inaugural <- dfm(data_corpus_inaugural, groups='date') 
> head(dfm_inaugural) 
Document-feature matrix of: 19 documents, 9,215 features (80.8% sparse). 
(showing first 6 documents and first 6 features) 
      features 
docs   fellow citizens i appear before you 
    1970-12-27  4  7 39  2  10 17 
    1972-04-25  8  13 29  1  8 8 
    1973-08-22  1  3 48  1  6 1 
    1973-10-11  2  4 25  0  3 5 
    1974-01-05  3  9 57  0  7 2 
    1975-04-12  7  21 63  4  6 16

來源

2016-11-29 12:43:09

Quanteda - 將函數應用於文檔變量的DFM

回答

相關問題