1
請參閱下面的MWE,自定義標記器不工作,爲什麼? TM軟件包版本爲0.71tm包中的自定義標記器R不能正常工作
library(tm)
ts <- c("This is a testimonial")
corpDs <- Corpus(VectorSource(ts))
#This is not working
ownTokenizer <- function(x) unlist(strsplit(as.character(x), "i+"))
tdm <- DocumentTermMatrix(corpDs,control=list(tokenize=ownTokenizer))
as.matrix(tdm)
#This is working
ownTokenizer(ts)
輸出:
條款
文件證明此
[1] 「TH」 的 「s」 的「sa test「」mon「」al「
謝謝
托比亞斯