在R中使用NLP詞法分析中,有什麼方法可以獲得基詞而不是詞根?在R中使用基本詞詞根而不是根詞幹
代碼:
> #Loading libraries
> library(tm)
> library(slam)
>
> #Vector
> Vec=c("happyness happies happys","sky skies")
>
> #Creating Corpus
> Txt=Corpus(VectorSource(Vec))
>
> #Stemming
> Txt=tm_map(Txt, stemDocument)
>
> #Checking result
> inspect(Txt)
A corpus with 2 text documents
The metadata consists of 2 tag-value pairs and a data frame
Available tags are:
create_date creator
Available variables in the data frame are:
MetaID
[[1]]
happi happi happi
[[2]]
sky sky
>
我能基數詞來代替 「本刊」 「快樂」(基地字)(字根)的 「當幸福來敲門人們高興happys」 使用R.
不確定關於R具體,但一般來說你需要一個形態學分析器,例如你可以得到這個操作系統之一:http://seman.svn.sourceforge.net/viewvc/seman/trunk/Docs/Morph_UNIX.txt ?revision = 124&view = markup –
很可能你對莖不感興趣,你想要的是一個lemmatizer。嗯,如果你需要,我可以與你分享我自己的英文開放式詞典。但它是用python編寫的... – alvas