Q

[R詞幹砍的話太多

2016-05-23 56 views 2 likes

2

我將通過實際案例：[R詞幹砍的話太多

library(data.table) 
dt <- data.table(words = c("finance", "financial", "business"), 
        freq = c(123, 5, 4589)) 
dt <- dt[, words := SnowballC::wordStem(words, language = "english")] 
View(dt) 

words freq 
financ 123 
financi 5 
busi  4589

我想詞幹會給我財政，金融和商業。我至少希望財務和財務有相同的基本詞。即時通訊組試圖分組類似的單詞，它適用於有一些詞有和已成爲有，但對於一些像上述它似乎工作，除非我誤解？

2016-05-23 Oli Paul

A

回答

1

看來你的結果就是Porter stemmer算法應該做的。

Documentation（步驟4）示出了具有在實施例中使用的後綴詞幹的例子：

（M> 1）AL - >復興 - > reviv

（M> 1）ANCE - >津貼 - >允許

如果你想你的話，那麼你可能要運行wordStem或使用所產生的字符串匹配後的功能（例如agrep）之前修剪它們分組。

2016-05-23 08:53:35 epo3

相關問題

11. ElasticSearch詞幹
12. SOLR和詞幹
13. 每代名詞圈太多的同義詞 - Oracle Text的
14. ElasticSearch使用多種詞幹語言
15. lucene stemmer策略（它是否同時保留了詞幹和非詞幹詞或者只是詞幹詞）
16. asp.net會話大小太多了多少？
17. 多少會話數據太多？
18. R文本分析的拼寫感知詞幹
19. r中的詞幹不按預期工作
20. d3詞雲 - 發生太多重疊
21. 合砍Hadoop的流
22. jQuery的對話框按鈕太多
23. BeginInvoke：撥打的電話太多
24. 詞幹對詞頻的影響？
25. Lucene同義詞擴展，詞幹，拼寫檢查和更多
26. findAssocs爲多個詞中的R
27. Lucene.NET詞幹問題
28. 詞幹與NLTK（python）
29. Wordnet API中的詞幹
30. Python中的詞幹問題