2011-07-14 74 views
0

我正面臨通過C#.Net中的大量阿拉伯語內容文檔(PDF和Doc文件)進行文本搜索的問題。Xapian vs Lucene.Net - 阿拉伯文檔文本搜索

了很多,很多的搜索後,我想出瞭解決方案2,

首先,Lucene.Net我遇到了以下問題

1阿拉伯語分析與Lucene的使用。網絡和發現this,不知道它是否會工作!

2-從文檔(約6000 PDF和Doc文件)中提取文本並找到Tika,我將在ikvm的幫助下使用.Net。 但是,鑑於此解決方案將起作用,我不知道性能會如何。

其次,Xapian的我移動到,爲了利用歐米茄庫的這一解決方案,但還是發現了一些問題

1將Xapian的工作用阿拉伯語上下文或將需要一個阿拉伯語的分析如果是這樣,我將如何解決這個問題

事實上,我不能決定哪個解決方案與阿拉伯語內容和幾乎大量的數據。

任何幫助或建議非常讚賞,

感謝,

薩默爾

回答

0

如果你想使用nLucene你必須創建阿拉伯語分析儀,但使用Solr和Im其做工精細用阿拉伯語語言。檢查this topic

+0

因此,Solr可以做3步驟,提取文本索引然後搜索? –

+0

是的,像那樣工作。 https://issues.apache.org/jira/browse/SOLR-205 – Peyman