2017-03-26 48 views
1

我想簡化英文單詞,使它們都轉換爲相同時態。例如:如何使用R將他們全部採用相同時態來解釋英語單詞(例如:'run'和'ran')?

c("ran","run","running") 

應該變成c("run","run","run")

我已經探索過R包,如tm,wordnet,RTextTools和Snowball C;但所有這些都會導致輸出c("ran","run","run")。正如你所看到的,他們不會將「跑」轉換爲「跑」。

+0

這個答案可能很有用http://stackoverflow.com/a/36234096/2026277 –

+0

謝謝Jaime !.你認爲Python提供的軟件包可以做到這一點,而不需要抓取網頁(正如在這個答案中使用的:http://stackoverflow.com/a/36234096/2026277)。再次感謝:) – Preyas

+0

本頁底部有一些可下載的引理列表,可能值得研究... http://www.laurenceanthony.net/software/antconc/ –

回答

5

看一看在textstem package我堅持:

if (!require("pacman")) install.packages("pacman") 
pacman::p_load(textstem) 

lemmatize_words(c("ran","run","running")) 
###[1] "run" "run" "run" 

請注意,如果你確實有一個字符串,而不是詞矢量您可能希望lemmatize_strings函數。

+1

非常感謝,泰勒! – Preyas

相關問題