需要解釋Solr的語言Stemmer

我正在使用nutch與Solr開發阿拉伯文本的搜索引擎。我需要實現我的阿拉伯語文本一個詞幹，雖然serching上Solr的施特默爾我發現，它提供這兩個過濾器需要解釋Solr的語言Stemmer

<filter class="solr.ArabicNormalizationFilterFactory"/>

<filter class="solr.ArabicStemFilterFactory"/>

我想他們，但不明白他們在做什麼。所以請任何人都可以幫助我舉一些例子？

，做這兩個做到這一點：

العملات朵朵到عملة

البساتين，بساتينكم梗到بستان

謝謝。

來源

2012-05-21 sakurami

你可以在這裏找到一些細節：http://lucene.apache.org/core/3_6_0/api/contrib-analyzers/org/apache/lucene/analysis/ar/ArabicStemmer.html

，上面寫着：

詞幹提取被定義爲：

去除附着定冠詞，連詞，介詞及的。
通常後綴的詞幹。

來源

2012-05-22 00:00:43

謝謝沃爾特，它似乎做了一些我需要的東西。如果我想更新stemmer或添加我自己的，你在哪裏建議添加我的代碼？如果我將stemmer添加到內容中，然後搜索一個關鍵字，比如說「عملة」，結果中默認包含帶有「عملة」和「عملات」的文檔，或者我需要做額外的配置嗎？ ..... 再次感謝你。 – sakurami

如果這兩個都被阿拉伯樹幹轉換爲相同的詞幹，那麼它們將匹配。 Solr將爲索引和查詢執行相同的轉換。 –

需要解釋Solr的語言Stemmer

回答

相關問題