後,我可以說,斯芬克斯是明顯的贏家。
考慮使用http://sphinxsearch.com/代替lucene。它被craigslist等使用。
他們有一個功能叫做形態預處理器:
# a list of morphology preprocessors to apply
# optional, default is empty
#
# builtin preprocessors are 'none', 'stem_en', 'stem_ru', 'stem_enru',
# 'soundex', and 'metaphone'; additional preprocessors available from
# libstemmer are 'libstemmer_XXX', where XXX is algorithm code
# (see libstemmer_c/libstemmer/modules.txt)
#
# morphology = stem_en, stem_ru, soundex
# morphology = libstemmer_german
# morphology = libstemmer_sv
morphology = none
有很多可用的詞幹,正如你所看到的,德國是其中之一。
UPDATE:
擬訂爲什麼我覺得那個獅身人面像一直是我明顯的贏家。
- 速度:獅身人面像是快速愚蠢。索引編制和服務搜索查詢。
- 相關性:雖然很難量化,但我覺得我能夠得到更多的相關結果與獅身人面像相比,我的lucene實現。
- 對文件系統的依賴:對於lucene,我無法打破對文件系統的依賴。雖然他們是變通方法,比如創建一個RAM磁盤,但我覺得選擇sphinx的「僅在內存中運行」選項會更容易。這對具有多個網絡服務器的網站有影響,向索引添加動態數據,重新索引等。
是的,這些僅僅是意見的觀點。然而,他們是來自嘗試這兩種系統的人的意見。
希望幫助...
我認爲這是一個關於lucene的問題,而不是替代品 –
是的,因爲它是所有其他的反應混亂。 – Homer6
'我可以說獅身人面像是一個明顯的贏家.'請在公共場合詳細分享您的意見/經驗,說明它爲什麼是贏家,這樣人們可以輕鬆地決定選擇文本搜索引擎 –