2017-05-18 42 views
-1

如何在R中詞幹完成後完成單詞?r文本分析詞幹完成

x <- c("completed","complete","completion","teach","taught") 
tm <- Corpus(VectorSource(x)) 
tm <- tm_map(tm, stemDocument) 
inspect(tm) 

舉例說明目的,因爲實際的文本語料庫要大得多。

我以前搜索過examples,它指向創建一組同義詞,但對於大型語料庫,如何才能獲得同義詞詞典?對於動詞,我怎樣才能完成詞幹現在時?由於

回答

2

TM具有功能stemCompletion()

x <- c("completed","complete","completion","teach","taught") 
tm <- Corpus(VectorSource(x)) 
tm <- tm_map(tm, stemDocument) 
inspect(tm) 
dictCorpus <- tm 
tm <- tm_map(tm, stemDocument) 
tm <- tm_map(tm, stripWhitespace, mc.cores=cores) 

tm<-tm_map(tm, stemCompletion,dictionary=dictCorpus) 

至於完成動詞目前的緊張,我不知道這是可能的TM。也許RWeka,word2vec或qdap將有方法,但我不確定。

一個快速和骯髒的解決方案可能是設置type = shorteststemDocument通常我認爲現在時單詞將比過去式和動名詞短。