2011-05-17 33 views
1

我有一個自定義搜索引擎的jsp web應用程序。如何將數據庫搜索與pdf搜索集成到一個Web應用程序中?

搜索引擎基本上建立在SQL Server數據庫的「文檔」表上。

爲了舉例說明,每個文檔記錄有三個字段:

  • 文件編號
  • 'descripion'(文本字段)
  • '附件',在文件系統中的PDF文件的路徑。

搜索引擎實際上在description字段中搜索關鍵字,並返回HTML頁面中的結果列表。現在我想要在pdf文件內容中搜索關鍵字。

我正在調查有關Lucene,Tika,Solr,但我不明白我如何使用這些框架來實現我的目標。

一個可能的解決方案:使用Tika提取PDF內容並將其存儲在新的文檔表字段中,以便我可以在此字段上編寫SQL查詢。

有更好的選擇嗎? 我可以使用Solr/Lucene索引功能作爲基於SQL的搜索引擎的集成,而不是完全替代它嗎?

感謝

回答

3

我會考慮的Lucene是完全獨立的SQL數據庫,即不會使用SQL/JDBC /任何DB查詢Lucene的,但其自身的API和自己的數據存儲。

您當然可以使用Tika提取pdf的全文,存儲它,並使用您的SQL DB提供的任何東西。全文搜索能力。

如果您正在使用Hibernate,Hibernate Search是一款集成了SQL存儲和Lucene的絕佳產品。但是你將不得不採用Hibernate/JPA方式,這可能會對你的項目過度。

+0

不,不幸的是,Hibernate不是這個項目的一個選項。謝謝 – Andy76 2011-05-17 10:16:33