2017-08-15 43 views
1

請參閱下面的MWE,自定義標記器不工作,爲什麼? TM軟件包版本爲0.71tm包中的自定義標記器R不能正常工作

library(tm) 

ts <- c("This is a testimonial") 
corpDs <- Corpus(VectorSource(ts)) 

#This is not working 
ownTokenizer <- function(x) unlist(strsplit(as.character(x), "i+")) 
tdm <- DocumentTermMatrix(corpDs,control=list(tokenize=ownTokenizer)) 
as.matrix(tdm) 

#This is working 
ownTokenizer(ts) 

輸出:

條款

文件證明此

[1] 「TH」 的 「s」 的「sa test「」mon「」al「

謝謝

托比亞斯

回答

1

我現在知道這是有點陳舊,但也許它還是幫助別人:你必須更換 corpDS < -Corpus(...) 通過 corpDS < -VCorpus (...) 由於tm文檔在TermDocumentMatrix描述中指出,「SimpleCorpus」語料庫總是使用固定標記語標記化 - 沒有成本 - 對於「語料庫」似乎是相同的...

相關問題