2011-07-17 122 views
1

我比較的Lucene/Solr的,嗖的一聲,獅身人面像和Xapian的搜索在DOC,DOCX,HTML和PDF文檔。只有Solr被記錄爲具有直接索引文檔的文檔解析器(Tika)。所以這似乎是一個明顯的贏家。文檔搜索,Xapian的

但要公平的競爭環境,我想考慮的替代方案。其他人有直接文檔索引(我可能錯過了)?如果不是,他們能否輕鬆實施?或者Solr是壓倒性的選擇?

+0

重複? http://stackoverflow.com/questions/2271600/elasticsearch-sphinx-lucene-solr-xapian-which-fits-for-which-usage – kmote

+0

不完全是。我想在這個問題的時候專門索引豐富的文檔。我選擇了Solr。我開始使用數據庫元數據來索引數據庫和豐富的文檔。 – aitchnyu

回答

0

在獅身人面像你能夠使用PHP腳本通過xmlpipe_command選擇要轉換的文件。由於PHP有一個Tika包裝器,編寫腳本和設置本身並不難。