我正在嘗試將R用於使用「tm」包的文本挖掘目的。請查看它將森林與森林標識爲兩個不同單詞的頻率圖。我該如何糾正它,也就是說,我寧願只將森林的總頻率計算爲森林和森林的總和。謝謝 Frequency plot on R如何使用文本挖掘軟件包將單詞(如森林,森林)識別爲R中的一個單詞「Forest」或「Forests」?
1
A
回答
3
您可以使用某種類型的詞幹函數。 SnowballC
提供了此功能(wordStem
函數)。
它會減少所有的詞語。
例
stem(forests) = forest
stem(forest) = forest
+0
我已經使用過雪球C庫(SnowballC) > docs < - tm_map(docs,stemDocument) –
+0
如果這樣不能按預期工作,也許有看看這個線程:http://stackoverflow.com/questions/24311561 /如何使用的,stemdocument式-R – PinkFluffyUnicorn
相關問題
- 1. R文本挖掘和隨機森林
- 2. 隨機森林,使用R
- 3. R:在森林圖
- 4. 隨機森林中的R
- 5. R文本挖掘 - 如何識別關鍵字前面的單詞
- 6. R中的隨機森林包
- 7. Move-ADobject - 將用戶從一個森林移到另一個森林?
- 8. R:結合森林時隨機森林的錯誤使用插入符號
- 9. 隔離森林
- 10. Oracle XML森林
- 11. 森林圖
- 12. 使用R來計算單詞頻率的文本挖掘
- 13. R中的隨機森林 - 很多類
- 14. R中的隨機森林算法
- 15. 修改森林圖中的R
- 16. 科林森與圈
- 17. ROC隨機森林
- 18. 如何從h2o隨機森林對象中獲取隨機森林閾值
- 19. P值爲隨機森林
- 20. 如何使用UserPrincipal.FindByIdentity從另一個森林中查找用戶?
- 21. 「決策森林」和「隨機森林」的簡潔區分
- 22. python中的隨機森林
- 23. 通過雙向森林信任在多個森林中搜索用戶。
- 24. 多類決策森林vs隨機森林
- 25. 使用R製作一個定製的兩組森林圖
- 26. 隨機森林使用pyspark.ml爲Dataframes
- 27. R - 組合列表中包含的多個隨機森林
- 28. 並行隨機森林中的R利用CARET包
- 29. R-隨機森林 - 重要性/ varImPlot
- 30. R隨機森林:data(x)有0行
的可能的複製[R文本挖掘 - 處理複數](http://stackoverflow.com/questions/34938023/r-text-mining-dealing-with-plurals) – DJack