我目前在我的Java項目中使用Snowball Stemmer(Porter2)來幹掉單詞等。但是,它的詞幹或者不一定需要被阻止或者干擾過多?例如,online -> onlin
,why -> whi
,raise-> rais
,appreciate -> appreci
。Snowball Stemmer [Java]
有什麼辦法,我可以嘗試避免這種不必要的制止,因爲我想它給我的話是有意義的,也需要加以遏制制止的話,如treating -> treat
,records -> record
,development -> develop
等通過實施一些哪種字典可以避免這些詞被阻止?或者如果有其他類似於雪球的干擾者,他們的干擾能力不那麼精確?
感謝您的幫助。
這是我的功能。
什麼是你所產生的目標是什麼?搜索? –
@ bigOTHER - 我的目標是從互聯網上獲取推文,剔除推文中的單詞,並刪除停用詞,因此我只剩下推文中的基本單詞進行分析。然而,一些詞語太過分了,並不真正需要這個,這就是爲什麼我一直在尋找它不那麼精確 –
這些詞幹是好的,因爲Portar是爲了搜索目標而存在的,也就是說,詞幹是否一個真正的起源,重要的是它對於整個詞族來說是一樣的。 –