Lucene對俄語語言的支持很差。Lucene和Lucene中的俄語語言分析器.Net
RussianAnalyzer(lucene-contrib的一部分)質量很差。
雪球的RussianStemmer模塊更糟。它不能識別Unicode字符串中的俄文文本,顯然假設必須使用一些奇怪的Unicode和KOI8-R組合。
你知道更好的解決方案嗎?
Lucene對俄語語言的支持很差。Lucene和Lucene中的俄語語言分析器.Net
RussianAnalyzer(lucene-contrib的一部分)質量很差。
雪球的RussianStemmer模塊更糟。它不能識別Unicode字符串中的俄文文本,顯然假設必須使用一些奇怪的Unicode和KOI8-R組合。
你知道更好的解決方案嗎?
如果一切都失敗了,使用Sphinx
這就是開源的美。你有源代碼,所以如果當前的實現不適合你,你總是可以創建自己的或更好的,擴展現有的。 一個好的開始將是「Lucene in Action」一書。
我的答案可能太晚了,但是對於記錄來說,我發現analyzers from AOT project比那些隨Lucene提供的更好。