0
我是一名計算機科學專業的學生,致力於基於Nutch搜索引擎的項目。我想開發Java算法以更好地索引和搜索阿拉伯網站。我如何爲此目的優化任何想法?如何開發Nutch以獲得更好的阿拉伯語搜索技術?
我是一名計算機科學專業的學生,致力於基於Nutch搜索引擎的項目。我想開發Java算法以更好地索引和搜索阿拉伯網站。我如何爲此目的優化任何想法?如何開發Nutch以獲得更好的阿拉伯語搜索技術?
阿拉伯語有29個字母,一些這些字母是具有子字母表像阿利夫(أ),其可以有不同的形式。
,如果你管理要分字母寬容即允許對這些字符
例如拼寫錯誤أحمد和احمد以及إحمد和آحمد,雖然它們具有不同的UTF8值,但您可以將它們作爲接近的結果。
而且,如果你能得到從根詞,讓搜索英文單,複數,動詞,名詞等
所以如果有人輸入قال(說)您可以在搜索敏感詞彙قول(話說)和(يقول)(說)和مقال(一種說法)等 它需要一個複雜的引擎做這種事
最後,如果你考慮tashkeel(裝飾元音),在輸入內容是可選你可以採取一個更具體的搜索,但會允許忽略它
如رجل可以匹配رجل(指男人)或رجل(意義上的腳走路)或رجل(腿)
我希望這將有助於
也許索引部 – 2010-05-02 04:46:44