2016-05-23 56 views
2

我將通過實際案例:[R詞幹砍的話太多

library(data.table) 
dt <- data.table(words = c("finance", "financial", "business"), 
        freq = c(123, 5, 4589)) 
dt <- dt[, words := SnowballC::wordStem(words, language = "english")] 
View(dt) 

words freq 
financ 123 
financi 5 
busi  4589 

我想詞幹會給我財政,金融和商業。 我至少希望財務和財務有相同的基本詞。 即時通訊組試圖分組類似的單詞,它適用於有一些詞有和已成爲 有,但對於一些像上述它似乎工作,除非我誤解?

回答

1

看來你的結果就是Porter stemmer算法應該做的。

Documentation(步驟4)示出了具有在實施例中使用的後綴詞幹的例子:

(M> 1)AL - >復興 - > reviv

(M> 1)ANCE - >津貼 - >允許

如果你想你的話,那麼你可能要運行wordStem或使用所產生的字符串匹配後的功能(例如agrep)之前修剪它們分組。