2012-05-21 65 views
0

我正在使用nutch與Solr開發阿拉伯文本的搜索引擎。我需要實現我的阿拉伯語文本一個詞幹,雖然serching上Solr的施特默爾我發現,它提供這兩個過濾器需要解釋Solr的語言Stemmer

<filter class="solr.ArabicNormalizationFilterFactory"/>

<filter class="solr.ArabicStemFilterFactory"/>

我想他們,但不明白他們在做什麼。所以請任何人都可以幫助我舉一些例子?

,做這兩個做到這一點:

العملات朵朵到عملة

البساتين,بساتينكم梗到بستان

謝謝。

回答

1

你可以在這裏找到一些細節:http://lucene.apache.org/core/3_6_0/api/contrib-analyzers/org/apache/lucene/analysis/ar/ArabicStemmer.html

,上面寫着:

詞幹提取被定義爲:

  • 去除附着定冠詞,連詞,介詞及的。
  • 通常後綴的詞幹。
+0

謝謝沃爾特,它似乎做了一些我需要的東西。如果我想更新stemmer或添加我自己的,你在哪裏建議添加我的代碼?如果我將stemmer添加到內容中,然後搜索一個關鍵字,比如說「عملة」,結果中默認包含帶有「عملة」和「عملات」的文檔,或者我需要做額外的配置嗎? ..... 再次感謝你。 – sakurami

+0

如果這兩個都被阿拉伯樹幹轉換爲相同的詞幹,那麼它們將匹配。 Solr將爲索引和查詢執行相同的轉換。 –