0
我正在用R中的tm-package創建文檔項矩陣,但是我的語料庫中的某些單詞在某個過程中會丟失。tm包中的DocumentTermMatrix不會返回所有單詞
我會用一個例子來解釋。然而
dm <- DocumentTermMatrix(crps)
dm_matrix <- as.matrix(dm)
dm_matrix
# Terms
# Docs and bout class home hours more next night
# 1 1 1 1 1 1 1 1 2
,我想(和預期)是:比方說,我有這個小陰莖
library(tm)
crps <- " more hours to my next class bout to go home and go night night"
crps <- VCorpus(VectorSource(crps))
當我使用DocumentTermMatrix()
從TM-包,它會返回這些結果
# Docs and bout class home hours more next night my go to
# 1 1 1 1 1 1 1 1 2 1 2 1
爲什麼DocumentTermMatrix()
跳過「my」,「go」和「to」兩個字?有沒有辦法控制和修復這個功能?
我假設你使用'tm'包?什麼樣的對象是'crps'?你是怎麼得到'crps'的?你用'crps < - 語料庫(VectorSource(some_text_string))'這樣的東西嗎? –
是的,我用'crps <-VCorpus(VectorSource(My_text))' –