2010-11-06 90 views
1

我正在實施一個搜索應用程序。 語料庫是大文本文件。 在文件處理過程中,我將所有單詞標記化並調用Porter Stemmer算法 Step1(http://tartarus.org/~martin/PorterStemmer/csharp2.txt)。Porter Stemmer算法問題

第一步擺脫複數形式和-ed或-ing的...

我注意到,類似「本」字將梗成「THI」。

算法的正常運行? 因爲我想標記「this」這個詞。

回答

1

從你的描述來看,我的預感是this被認爲是Porter Stemmer算法中的複數形式並簡化爲thi

我在Porter的論文中沒有找到以s結尾的非複數單詞的明確引用。

http://tartarus.org/~martin/PorterStemmer/def.txt

+0

是的,我需要通過算法,看看爲什麼。 – djTeller 2010-11-06 17:21:32