幹( '蘋果')= '蘋果'
幹( '蘋果')= '申請'
幹( '申請')= '申請'
爲什麼Porter Stemmer會產生一個可以再次阻止的字符串?
不是本中的一個缺陷詞幹算法?
(這是使用Porter Stemming Algorithm)
幹( '蘋果')= '蘋果'
幹( '蘋果')= '申請'
幹( '申請')= '申請'
爲什麼Porter Stemmer會產生一個可以再次阻止的字符串?
不是本中的一個缺陷詞幹算法?
(這是使用Porter Stemming Algorithm)
這看起來更像是在實現您所使用的算法的錯誤。
當我按照the original algorithm中的步驟(從您鏈接的頁面),在步驟1a中刪除「蘋果」中的最後「s」,並在步驟5a中刪除「e」,所以「蘋果」 「也是」應用「。
我發現了一個porter干擾算法的實現,這裏的字典支持http://preciselyconcise.com/apis_and_installations/smart_stemmer.php。
這個API使用起來非常簡單,並且糾正了拼寫錯誤。我建議你使用這個詞幹程序,因爲這個API有一個自動糾正選項的詞幹。