2012-12-24 55 views
3

我與Lucene的工作了索引文件,並提供它們之間的搜索,然而,我的工作是在英語,但現在,我有一個項目,該項目是庫爾德語,庫爾德人的語言使用一些阿拉伯Unicode字符和其他幾個字符,這裏是Table of Unicode Characters used in Kurdish-Arabic scriptLucene的分析

我的問題是如何建立分析這種語言,或者我可以用阿拉伯語分析儀用於這一目的?

回答

1

Lucene的有list of other analyzers,包括阿拉伯語。恐怕沒有人專門針對庫爾德人,但也許你可以擴展阿拉伯分析儀以適應你的需求?

只要記住,所有這些分析儀從主Lucene的分佈來separately

+0

我已經定製PersianAnalyzer是通過提供新的停用詞列表和不斷變化的歸一化類,但是,制止庫爾德語言比ArabicAnalyzer更相關的是另外一個問題。任何建議請問? – solid

+0

http://stackoverflow.com/questions/6654962/i-want-a-java-arabic-stemmer? – mindas

1

要獲得關於HOWTO問題,創建一個新的語言定製的分析......「的Lucene在行動」一書涵蓋了定製分析儀的創作,這是非常詳細。您可以「利用」其他分析儀中的很多代碼,並改變您所需的代碼。 Lucene是開源的,並且可擴展性強,因此對這些更改進行分析非常簡單。

+0

我已經爲此定製了一個PersianAnalyzer,它提供了新的停用詞表和改變標準化類,但是,詞幹是另一個問題。任何建議請問? – solid