0
我使用創建的雙字母組的列表:[R文本挖掘轉換期限文檔矩陣
BigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 2, max = 2))
tdm_a.bigram = TermDocumentMatrix(docs_a,
control = list(tokenize = BigramTokenizer))
我試圖讓每個兩字是出現在文檔的數量。如果我理解正確項文檔矩陣會給。每個二元組在文檔中出現多少次。但我只需要 '1'-present在一份文件中並且 '0' - 不存在。
如何將術語文檔矩陣轉換爲數據框或矩陣以獲得此類計數?