0
我正在大型數據集上進行文本挖掘。我能夠創建TDM和DTM,並能夠使用TDF & IDF執行我的分析。但是,我們可以在R中創建一個術語文檔矩陣或文檔術語矩陣,用於Bi Grams?我知道類似的設施在Mahout中可用,但我正在尋找一種在R中執行此操作的方法?創建畢克文件矩陣?
我正在大型數據集上進行文本挖掘。我能夠創建TDM和DTM,並能夠使用TDF & IDF執行我的分析。但是,我們可以在R中創建一個術語文檔矩陣或文檔術語矩陣,用於Bi Grams?我知道類似的設施在Mahout中可用,但我正在尋找一種在R中執行此操作的方法?創建畢克文件矩陣?
下面的代碼爲我工作:
BigramTokenizer <- function(x) {RWeka::NGramTokenizer(x, RWeka::Weka_control(min = 2, max = 2))}
myTdm <- TermDocumentMatrix(myCorpus, control = list(tokenize = BigramTokenizer))