使用DocumentTermMatrix時，R tm防止小寫轉換

當我在我的語料庫上使用DocumentTermMatrix時，它會降低字數。我想保留駱駝案件。我該怎麼做？使用DocumentTermMatrix時，R tm防止小寫轉換

as.matrix(DocumentTermMatrix(Corpus(VectorSource(c("Hello", "World")))))

我想列名是Hello和World，而不是hello和world。

來源

2016-09-25 max_max_mir

這是否意味着您想將單詞「你好」和「你好」分開處理？因爲這是保存案例所暗示的。 –

是的，這是正確的。我想把你好和你好分開。 –

你可以試試下面的技巧：

words <- c("Hello", "World") 
tdm <- as.data.frame(as.matrix(DocumentTermMatrix(Corpus(VectorSource(words))))) 
names(tdm) <- sort(words) # need to sort alphabetically 
tdm 
# Hello World 
#1  1  0 
#2  0  1

更清潔的方式做同樣的：

words <- c("Hello", "World") 
tdm <- as.data.frame(as.matrix(DocumentTermMatrix(Corpus(VectorSource(factor(words))), 
                 control=list(tolower=FALSE)))) 
tdm 
# Hello World 
#1  1  0 
#2  0  1

來源

2016-09-25 08:19:22

不幸的是，我不能那樣做。上面的例子只是提供一個簡單的例子。我需要能夠通過將某種參數傳遞給DocumentTermMatirx來完成此操作。 –

根據您的要求更新了代碼，我認爲這是您想要的。 –

謝謝！這工作。 –

capitalize功能library(Hmisc)做這項工作，我作爲一個初學者。

library(Hmisc) 

terms <- as.matrix(DocumentTermMatrix(Corpus(VectorSource(c("Hello", "World"))))) 

colnames(terms) <- capitalize(colnames(terms)) 

terms 

    Terms 
Docs Hello World 
    1  1  0 
    2  0  1

來源

2016-09-27 06:29:50

使用DocumentTermMatrix時，R tm防止小寫轉換

回答

相關問題