2015-06-09 156 views
0

當使用stemDocument函數從TM(文本挖掘)R包「已經」被轉換的字爲「alreadi」意外結果

例如:

我正在分析一個語料庫文檔中的一些推文。

其中鳴叫的顯示執行該命令之前執行以下操作:

myCorpus <- tm_map(myCorpus, stemDocument, language = "english")> 
inspect(myCorpus[98]) 

我得到以下結果::

[[1]] 
PlainTextDocument (metadata: 7) 
select member jeffroki attend sqlsat true alreadi eventdt httptcoquyndcg sqlpass 

inspect(myCorpus[98]) 
<<VCorpus (documents: 1, metadata (corpus/indexed): 0/0)>> 

[[1]] 
<<PlainTextDocument (metadata: 7)>> 
select member jeffroky attending sqlsat true already eventdt httptcoquyndcgs sqlpass 

執行下面的代碼行後

請注意單詞「已經」更改爲「alreadi」 可以someo恩對這種行爲有所瞭解?

謝謝! Luis

回答