當使用語料庫作爲詞典時，通過stemCompletion（）函數輸出錯誤

作爲詞幹完成步驟的一個例子，假設我想在c（'universidad'，'university）中找到與'univers'匹配的最常見（普遍） '，'大學'）字典。根據stemCompletion（）函數的幫助頁面：當使用語料庫作爲詞典時，通過stemCompletion（）函數輸出錯誤

type ='prevalent'（默認）採用最頻繁的匹配作爲完成。

library(tm) # 0.6.2

如果我插入字典作爲載體：

stemCompletion('univers', dictionary=c('universidad', 'university', 'university')) 
    univers 
"university"

我得到正確的答案。但如果我喂詞典作爲語料：

my.dictionary <- Corpus(VectorSource(c('universidad', 'university', 'university'))) 
stemCompletion('univers', dictionary=my.dictionary) 
     univers 
"universidad"

我得到錯誤的答案！

任何幫助表示讚賞！

來源

2016-11-07 Amir Aghamousa

在包源tm/src/complete.R，似乎如果Corpus被作爲dictionary參數stemComplete然後傳遞該字典被杆完成分析之前重複數據刪除。

相關的線你的版本是8-9：

if (inherits(dictionary, "Corpus")) 
    dictionary <- unique(unlist(lapply(dictionary, words)))

爲什麼同樣的邏輯並不適用於向量的字典是用於包裝維護者的問題，但它似乎是觀察到的行爲是故意的。

來源

2016-11-13 00:30:27

當使用語料庫作爲詞典時，通過stemCompletion（）函數輸出錯誤

回答

相關問題