我正在試圖爲一個語料庫,一個使用unigrams,一個使用bigrams製作兩個文檔項矩陣。然而,二元矩陣當前與單元矩陣相同,我不知道爲什麼。從的ngram包作爲標記生成器,但是這並不工作R-bigram tokenizer中的文檔項矩陣不起作用
docs<-Corpus(DirSource("data", recursive=TRUE))
# Get the document term matrices
BigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 2, max = 2))
dtm_unigram <- DocumentTermMatrix(docs, control = list(tokenize="words",
removePunctuation = TRUE,
stopwords = stopwords("english"),
stemming = TRUE))
dtm_bigram <- DocumentTermMatrix(docs, control = list(tokenize = BigramTokenizer,
removePunctuation = TRUE,
stopwords = stopwords("english"),
stemming = TRUE))
inspect(dtm_unigram)
inspect(dtm_bigram)
我還試圖使用的ngram(X,N = 2):
的代碼。我如何解決bigram標記化?
我也有這個問題,所以如果你找到答案,請讓我知道。 –
答覆遲了一點,對不起 - 但我通過使用VCorpus而不是語料庫得到了這個工作。 – filaments