0
我正面臨通過C#.Net中的大量阿拉伯語內容文檔(PDF和Doc文件)進行文本搜索的問題。Xapian vs Lucene.Net - 阿拉伯文檔文本搜索
了很多,很多的搜索後,我想出瞭解決方案2,
首先,Lucene.Net我遇到了以下問題
1阿拉伯語分析與Lucene的使用。網絡和發現this,不知道它是否會工作!
2-從文檔(約6000 PDF和Doc文件)中提取文本並找到Tika,我將在ikvm的幫助下使用.Net。 但是,鑑於此解決方案將起作用,我不知道性能會如何。
其次,Xapian的我移動到,爲了利用歐米茄庫的這一解決方案,但還是發現了一些問題
1將Xapian的工作用阿拉伯語上下文或將需要一個阿拉伯語的分析如果是這樣,我將如何解決這個問題
事實上,我不能決定哪個解決方案與阿拉伯語內容和幾乎大量的數據。
任何幫助或建議非常讚賞,
感謝,
薩默爾
因此,Solr可以做3步驟,提取文本索引然後搜索? –
是的,像那樣工作。 https://issues.apache.org/jira/browse/SOLR-205 – Peyman