1
我正在實施一個搜索應用程序。 語料庫是大文本文件。 在文件處理過程中,我將所有單詞標記化並調用Porter Stemmer算法 Step1(http://tartarus.org/~martin/PorterStemmer/csharp2.txt)。Porter Stemmer算法問題
第一步擺脫複數形式和-ed或-ing的...
我注意到,類似「本」字將梗成「THI」。
算法的正常運行? 因爲我想標記「this」這個詞。
是的,我需要通過算法,看看爲什麼。 – djTeller 2010-11-06 17:21:32