我正在嘗試從字符串創建dfm的單詞。當dfm無法選擇時,我面臨的問題是可以爲諸如「/」「 - 」「之類的標點創建功能。」要麼 '。用字母創建dfm的單詞
require(quanteda)
dict = c('a','b','c','d','e','f','/',".",'-',"'")
dict <- quanteda::dictionary(sapply(dict, list))
x<-c("cab","baa", "a/de-d/f","ad")
x<-sapply(x, function(x) strsplit(x,"")[[1]])
x<-sapply(x, function(x) paste(x, collapse = " "))
mat <- dfm(x, dictionary = dict, valuetype = "regex")
mat <- as.matrix(mat)
mat
- 對於 「A /解d/F」,我想捕捉的字母 「/」, 「 - 」 太
- 爲什麼 「」功能作爲一個rowsum。我怎樣才能保持它作爲個人功能?
Like'tokens < - tokenize(x,what =「character」); mat < - dfm(tokens,dictionary = dict,valuetype =「fixed」)'?在正則表達式(「正則表達式」)中,「。」代表任何字符。 – lukeA
謝謝。這正是我所期待的。 – SuperSatya