如何將數據庫搜索與pdf搜索集成到一個Web應用程序中？

搜索引擎基本上建立在SQL Server數據庫的「文檔」表上。

爲了舉例說明，每個文檔記錄有三個字段：

搜索引擎實際上在description字段中搜索關鍵字，並返回HTML頁面中的結果列表。現在我想要在pdf文件內容中搜索關鍵字。

我正在調查有關Lucene，Tika，Solr，但我不明白我如何使用這些框架來實現我的目標。

一個可能的解決方案：使用Tika提取PDF內容並將其存儲在新的文檔表字段中，以便我可以在此字段上編寫SQL查詢。

有更好的選擇嗎？我可以使用Solr/Lucene索引功能作爲基於SQL的搜索引擎的集成，而不是完全替代它嗎？

感謝

2011-05-17 Andy76

我會考慮的Lucene是完全獨立的SQL數據庫，即不會使用SQL/JDBC /任何DB查詢Lucene的，但其自身的API和自己的數據存儲。

您當然可以使用Tika提取pdf的全文，存儲它，並使用您的SQL DB提供的任何東西。全文搜索能力。

如果您正在使用Hibernate，Hibernate Search是一款集成了SQL存儲和Lucene的絕佳產品。但是你將不得不採用Hibernate/JPA方式，這可能會對你的項目過度。

2011-05-17 10:10:24 KoW

不，不幸的是，Hibernate不是這個項目的一個選項。謝謝 – Andy76 2011-05-17 10:16:33

回答