2017-03-22 71 views
1

我正在嘗試將R用於使用「tm」包的文本挖掘目的。請查看它將森林與森林標識爲兩個不同單詞的頻率圖。我該如何糾正它,也就是說,我寧願只將森林的總頻率計算爲森林和森林的總和。謝謝 Frequency plot on R如何使用文本挖掘軟件包將單詞(如森林,森林)識別爲R中的一個單詞「Forest」或「Forests」?

+2

的可能的複製[R文本挖掘 - 處理複數](http://stackoverflow.com/questions/34938023/r-text-mining-dealing-with-plurals) – DJack

回答

3

您可以使用某種類型的詞幹函數。 SnowballC提供了此功能(wordStem函數)。

它會減少所有的詞語。

stem(forests) = forest 
stem(forest) = forest 
+0

我已經使用過雪球C庫(SnowballC) > docs < - tm_map(docs,stemDocument) –

+0

如果這樣不能按預期工作,也許有看看這個線程:http://stackoverflow.com/questions/24311561 /如何使用的,stemdocument式-R – PinkFluffyUnicorn