2016-11-07 38 views
3

作爲詞幹完成步驟的一個例子,假設我想在c('universidad','university)中找到與'univers'匹配的最常見(普遍) ','大學')字典。根據stemCompletion()函數的幫助頁面:當使用語料庫作爲詞典時,通過stemCompletion()函數輸出錯誤

type ='prevalent'(默認)採用最頻繁的匹配作爲完成。

library(tm) # 0.6.2 

如果我插入字典作爲載體:

stemCompletion('univers', dictionary=c('universidad', 'university', 'university')) 
    univers 
"university" 

我得到正確的答案。 但如果我喂詞典作爲語料:

my.dictionary <- Corpus(VectorSource(c('universidad', 'university', 'university'))) 
stemCompletion('univers', dictionary=my.dictionary) 
     univers 
"universidad" 

我得到錯誤的答案!

任何幫助表示讚賞!

回答

0

在包源tm/src/complete.R,似乎如果Corpus被作爲dictionary參數stemComplete然後傳遞該字典被杆完成分析之前重複數據刪除。

相關的線你的版本是8-9:

if (inherits(dictionary, "Corpus")) 
    dictionary <- unique(unlist(lapply(dictionary, words))) 

爲什麼同樣的邏輯並不適用於向量的字典是用於包裝維護者的問題,但它似乎是觀察到的行爲是故意的。

相關問題