如何使用文本挖掘軟件包將單詞（如森林，森林）識別爲R中的一個單詞「Forest」或「Forests」？

我正在嘗試將R用於使用「tm」包的文本挖掘目的。請查看它將森林與森林標識爲兩個不同單詞的頻率圖。我該如何糾正它，也就是說，我寧願只將森林的總頻率計算爲森林和森林的總和。謝謝 Frequency plot on R 如何使用文本挖掘軟件包將單詞（如森林，森林）識別爲R中的一個單詞「Forest」或「Forests」？

的可能的複製[R文本挖掘 - 處理複數]（http://stackoverflow.com/questions/34938023/r-text-mining-dealing-with-plurals） – DJack

您可以使用某種類型的詞幹函數。 SnowballC提供了此功能（wordStem函數）。

它會減少所有的詞語。

例

stem(forests) = forest 
stem(forest) = forest

2017-03-22 14:35:58 PinkFluffyUnicorn

我已經使用過雪球C庫（SnowballC） > docs < - tm_map（docs，stemDocument） –

如果這樣不能按預期工作，也許有看看這個線程：http://stackoverflow.com/questions/24311561 /如何使用的，stemdocument式-R – PinkFluffyUnicorn

回答